当前位置：首页 » 资讯 » 新科技 » 正文

赚钱，DeepSeek果然第一！全球六大顶级AI实盘厮杀，人手1万刀开局

IP属地中国·北京 新智元 时间：2025-10-20 14:11:02

新智元报道
编辑：好困
给全球六大LLM各发1万美金，丢进同一真实市场实盘厮杀，会发生什么？这场大战从18日开始，截止目前，DeepSeek V3.1盈利超3500美元，Grok 4实力次之。不堪一提的是，Gemini 2.5 Pro成为赔得最惨的模型。
如果给每个顶级大模型一万美元真金白银，让它们下场「炒股」，谁会成为AI界的巴菲特？
最近，由nof1.ai发起的全新实验——Alpha Arena，便是这样一场「诸神之战」。
这场竞赛将当今最强的大模型，全部拉到了同一个真实的交易市场中。
包括OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet，以及xAI的Grok 4、阿里的Qwen3 Max和DeepSeek V3.1 Chat。

每个模型都获得了10000美元的初始资金，并接收完全相同的市场数据和交易指令。
比赛的提示词并不复杂，更像是一次「开卷考试」。
首先，系统会告诉AI当前的时间、账户信息、持仓情况，然后附上一大堆实时的价格、指标（如MACD/RSI）等数据。
然后，要求模型做出决策：如果持有仓位，是继续持有还是平仓；如果空仓，是买入还是继续观望。

不得不说，金融市场的变化是真的快。
做交易这件事，DeepSeek也是真的强，不愧是搞量化出身的。

10月20日早上7:30的时候还是下图左边这样的——
DeepSeek V3.1凭借着2264美元的盈利排在第一，Grok 4以2071美元位列第二 Claude Sonnet 4.5小赚649美元，Qwen3 Max小赔416美元
Gemini 2.5 Pro赔了3542美元稳居倒数第一，GPT-5赔了2419美元排名倒数第二
然后，就在一个半小时后的10:00，就已经变成下图右边那样了——
DeepSeek V3.1和Grok-4一路狂跌，Sonnet 4.5也即将把自己赚的给赔回去
Qwen3 Max和GPT-5都有上涨的趋势
Gemini 2.5 Pro发挥倒是稳定，比起刚才又赔了近800美元

顺便一提，下面是13:30时候的样子：

DeepSeek V3.1登顶
谷歌OpenAI垫底
模型持仓
11:15的时候，我们看了一下各个模型的持仓情况。

此时，DeepSeek和Grok已经结束下跌，重新上涨。
Sonnet 4.5和Qwen3 Max也都实现了盈利。
Gemini 2.5 Pro有所回升，但不多。GPT-5倒是一直比较平稳，从20号开始就没赚也没赔。

11:45时，除了GPT-5都迎来了一波上涨。
是的，Gemini 2.5 Pro终于赚钱了！（比起几分钟前）

左右滑动查看
趋势回顾
DeepSeek V3.1 Chat和Grok-4的曲线类似，应该是有着差不多的持仓。他们在最初的几小时赔了一笔之后，很快就涨了回来并一路狂飙。

Claude Sonnet 4.5前两天都很稳定，有小赚但不多。19日晚上开始迎来一个小高峰，但在20日清晨又跌了回去。

Qwen3 Max一上来赔得最多，但后来就稳定住了，即便是在19日下午，也没有什么波动。

GPT-5和Gemini 2.5 Pro的曲线在初期也是十分相似。但和DeepSeek他们正好相反，这两位在最初的时候先是大涨一波，然后便跌到在赔钱和不赔不赚之间一直波动。
19日下午，转折出现了。这时正是DeepSeek和Grok-4开始大涨的时间，而GPT-5和Gemini 2.5 Pro则开始一路下跌。
20日凌晨，GPT-5及时做出调整并稳住了趋势，而Gemini 2.5 Pro则依然狂跌不止。

值得一提的是，快到20日中午时，除了GPT-5所有模型都迎来一波上涨。
其中，DeepSeek V3.1 Chat和Grok-4很快就开始创造历史新高，Qwen3 Max凭着这个势头首次拿到了持续的收益，Gemini 2.5 Pro也开始回升。
交易历史
截至10日12:20，各个模型的交易次数为：Gemini 45次，GPT 10次，Qwen 6次，DeepSeek 5次，Claude 3次，Grok 1次。
DeepSeek的交易次数不多不少，但不愧是量化交易出身，收益稳居第一。
Grok-4的交易次数最少，只有1次，但它一直紧追DeepSeek位列第二。
而凭借高达45次交易记录，当上「微操大师」的Gemini 2.5 Pro，也是赔钱最多的那个。

不玩游戏，不搞评测，直接开盘！
多年来，AI一直由静态基准来衡量。
ImageNet、MMLU以及无数的排行榜告诉我们，哪个模型能更好地「理解」图像、逻辑或语言。
但所有这些测试都有一个共同的缺陷——它们都发生在无菌、可预测的环境中。
市场则恰恰相反。
金融市场是终极的世界建模引擎，也是唯一一个会随着AI变得更聪明而难度同步提升的基准。
它们波动、反应、惩罚、奖励。

Alpha Arena主页写着一句话：市场才是智能的终极试金石
它们是一个由信息和情感构成的生命系统。
10年前，DeepMind为人工智能研究带来了革命性的突破。
他们的核心洞见在于：「游戏」将成为引领前沿AI飞速发展的环境。
正如前文所述，Nof1相信金融市场是下一个AI时代的最佳训练环境。
毕竟，如果AI要在现实世界中运行，它就必须在那些不会为了「反向传播」而暂停的环境中运作。
在这里，模型可以借助开放式学习和大规模强化学习等技术，获得近乎无限的数据来训练自己，从而应对市场的复杂性——这个领域的「最终BOSS」。

在Alpha Arena中，没有正确的标签，只有不断变化的概率。
一个模型的成功取决于它解读波动的速度、权衡风险的精度，以及承认错误的谦逊程度。
这将交易变成了一种新型的图灵测试：
考验的不再是「机器能否思考」，而是「它能否在不确定性中生存」。
附录：模型对话节选

DeepSeek Chat V3.1
11:15:31
我继续持有所有 ETH、SOL、XRP、BTC、DOGE 和 BNB 的仓位，因为没有任何一个的失效条件被触发，而且它们目前都在盈利，为我带来了约 17.38% 的可观整体回报，剩余现金 2840.11 美元。鉴于我已持有所有可交易的币种，目前没有必要建立新仓。
Qwen3 Max
11:14:42
总回报率略有盈利，为 0.12%，剩余现金 116.99 美元，我坚持持有目前的 5 倍杠杆 BTC 多头仓位。我的盈利目标是 110800，止损是 105500，如果 4 小时图收盘价低于 10000，我将平仓。
Grok 4
11:14:39
我的账户整体上涨了 15.98%，现金为 3180 美元。我继续持有目前的 ETH、SOL、XRP、BTC、DOGE 和 BNB 仓位，因为数据显示目前应该继续持有。
GPT-5
11:14:24
亏损 23.59%，现金 3061 美元，我正在确认我的退出计划，确保 DOGE 的风险敞口为 91.76 美元的浮动值，并仔细检查 BTC 在 106,493.55 美元的止损位和 114,129.91 美元的盈利目标。
Gemini 2.5 Pro
11:14:01
尽管整体亏损 43.15%，剩余现金 3072.48 美元，我根据我的策略继续持有我目前所有的 BTC、ETH、SOL、XRP 和 DOGE 仓位，即使 DOGE 的走势对我不利。我只会根据预定义的条件退出，相信计划而不是我的直觉。
Claude Sonnet 4.5
11:14:00
我的 XRP 和 BTC 仓位目前都在盈利，为我带来了 5.2% 的整体回报率，账户资金为 10,520.34 美元，现金为 4,957.78 美元，但市场显示出非常弱的动能，所以我选择按兵不动，等待一个更清晰的趋势再采取新行动。
参考资料：
https://nof1.ai/

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

小米胡馨心预告新品将至，称明天就会有好消息

雷军晒小米YU7梅森·马吉拉涂装版，采用专属极简白涂装设计

重塑全球竞争版图？苹果首款折叠屏手机试产，这些公司或受益

25岁广州天才少女如何在硅谷拿下超14亿融资？｜科技观察

逼AI当山顶洞人！Claude防话痨插件爆火，网友：受够了AI废话

OpenAI解密大模型失控：它不是变坏，而是「太听话」

全站最新

小米胡馨心预告新品将至，称明天就会有好消息

雷军晒小米YU7梅森·马吉拉涂装版，采用专属极简白涂装设计

重塑全球竞争版图？苹果首款折叠屏手机试产，这些公司或受益

25岁广州天才少女如何在硅谷拿下超14亿融资？｜科技观察

热门推荐

苹果首款折叠屏手机已在试产

北汽福田一季度销量183532辆，同比增长7.82%

小米胡馨心预告新品将至，称明天就会有好消息

雷军晒小米YU7梅森·马吉拉涂装版，采用专属极简白涂装设计

重塑全球竞争版图？苹果首款折叠屏手机试产，这些公司或受益

25岁广州天才少女如何在硅谷拿下超14亿融资？｜科技观察

逼AI当山顶洞人！Claude防话痨插件爆火，网友：受够了AI废话

OpenAI解密大模型失控：它不是变坏，而是「太听话」

曝三星Galaxy S27系列将增加Pro款，定位去掉S Pen的Ultra

彻底摧毁！伊朗威胁要炸掉300亿美元OpenAI星际之门AI数据中心卫星地图公布

富特科技：车载产品已配套零跑多个平台和车型

艾迪药业ACC085注射液临床试验获批

科氪 | 荣耀与京东签订战略合作协议推进AI、机器人、C2M共创合作

何小鹏：做便宜车没有价值！不碰10万以内车

FF第一次实现单品正毛利，贾跃亭称2026目标交付1000+机器人