经过近两周的激烈角逐,由美国 AI 实验室 Nof1 发起的首季 Alpha Arena AI 大模型实盘交易竞赛在今天正式落幕。六款中美顶尖大语言模型各自拿着10,000美元真金白银,在加密货币市场自主交易。在最终的成绩中:阿里巴巴的Qwen3 Max赚了 22.32% 拿下冠军,DeepSeek V3.1 以 4.89% 的收益紧随其后,而谷歌Gemini 2.5 Pro 和 OpenAI 的 GPT-5 则分别亏掉了 56.71% 和 62.66%,在六位选手中垫底。
![]()
图丨比赛的最终结果(Alpha Arena)
这个结果让不少人意外。毕竟在各种 benchmark 测试中,GPT 和 Gemini 的表现一向不俗。但金融市场显然是另一回事——它动态、复杂、充满对抗性,跟静态的考试题目完全不是一码事。
![]()
图丨主要加密货币近一个月以来的趋势(谷歌财经)
Qwen3 Max 把初始的一万美元变成了 12,232 美元,整体战绩相当漂亮。DeepSeek 账户价值 10,489 美元,涨幅没那么夸张,但胜在稳当。相比之下,Anthropic 的 Claude Sonnet 4.5 亏了 30.81%,xAI 的 Grok 4 亏了 45.3%,至于 Gemini 和 GPT,一个只剩 4,329 美元,一个只剩 3,734 美元,可以说是惨不忍睹。
从交易记录中可以看到,这些 AI 展现出了截然不同的“交易人格”。
Qwen3 Max 整个比赛期间完成了 43 笔交易,平均用 15.1 倍杠杆,大部分时间(82.7%)在观望,只有 16.6% 的时间做多、0.7% 做空。这种“不出手则已、出手必准”的打法,配合高杠杆和精准择时,成就了它的领先优势。它最大的一笔盈利来自比特币多头——10 月中旬在 107,993 美元附近买入 1.96 个BTC,持有近 100 小时后在 112,250 美元平仓,这一波操作贡献了账户的主要收益(8,176 美元)。
DeepSeek 走的是另一条路。它做了 41 笔交易,93.6% 的时间在做多,只有 5.3% 在做空,几乎是纯多头策略。虽然最终收益率只有 4.89%,远低于 Qwen 的 22.32%,但它的 Sharpe 比率达到 0.359,是六位选手中最高的。Sharpe 比率衡量的是风险调整后的收益,这意味着 DeepSeek 在控制波动性和风险暴露方面做得最好,它用更低的杠杆和更稳健的策略,获得了最优的风险收益比。
它最大的单笔盈利达到 7,378 美元,主要来自以太坊的多头持仓,从交易记录看,DeepSeek 擅长在市场出现明显超卖信号时进场,然后耐心持有数十甚至上百小时,等待技术指标触发止盈或止损条件才离场。这种“重仓做多、长期持有”的风格在比赛的大部分时间里都表现稳健。
Gemini 2.5 Pro 的崩盘堪称本次比赛最大的戏剧性场面。十天时间里它完成了238 笔交易,几乎是 Qwen 的五倍多,成了赛场上最活跃的交易狂魔。但频繁进出不仅没带来收益,反而因为巨额手续费拖垮了整个账户。因为在 Hyperliquid 这种永续合约平台上,每次开仓平仓都要付费,当你的持仓时间极短、策略频繁反转时,这些成本累积起来相当可怕。
据统计,Gemini 只有 1.7% 的时间在观望,剩下的时间不是在做多(34.9%)就是在做空(63.4%)。换句话说,它几乎从没闲着,不停地在多空之间切换。交易明细显示,它有时一小时内就完成多次反向操作,这种朝令夕改在真实市场中基本等于自杀。
![]()
图丨Gemini 2.5 Pro 的操盘数据(Alpha Arena)
GPT-5 的表现同样比较一般。它做了 116 笔交易,平均杠杆 16.7 倍,最大单笔亏损 621 美元。从持仓分布看,GPT 有 54.3% 的时间做多、42.8% 做空,只有 2.9% 在观望。这种相对均衡的多空配置本来应该能在震荡市中获得一些收益,但 GPT 似乎在择时上出了问题。10 月下旬 BTC 和 ETH 明明在涨,GPT 却执着地持有空头头寸,不仅错过了大段利润,还因为逆势操作而遭受重创。
Claude Sonnet 4.5 则走向了另一个极端。它只做了36笔交易,是六位选手中最少的,有 61.5% 的时间在观望,38.5% 在做多,从不做空。这种极度谨慎的风格让它避开了一些大坑,但也错过了不少机会。Claude 最大的单笔盈利 2,112 美元来自一笔 BTC 多头,但它也有一笔 1,579 美元的单笔亏损,说明在风险控制上还是有漏洞。
Grok 4 完成了47 笔交易,82% 的时间在做多,17.5% 在做空,是除 DeepSeek 外做多比例最高的模型。从自信度数据看,Grok 对自己的判断相当有把握,平均置信度 66.7%。但高自信没能转化成高收益,账户最终还是亏了 45.3%。仔细看它的交易记录会发现,Grok 在 XRP 上有笔持仓超过 350 小时的多头,从 2.4347 美元入场,最后在 2.3194 美元止损出来,这笔亏损对账户打击非常大。
从持仓分散度看,各模型的风险偏好也不同。DeepSeek 持仓最分散,会同时在六种资产(BTC、ETH、SOL、BNB、DOGE、XRP)上布局;Claude 和 Qwen 则喜欢同时只持有一两个头寸,集中火力在高确定性机会上;Gemini 虽然总体分散,但频繁的策略切换反而增加了风险暴露。
Nof1 团队发布的技术博客揭示了更多细节。他们发现,即便提示词和数据输入完全相同,不同模型还是表现出了截然不同的“投资性格”。比如 Qwen3 Max 习惯设置最窄的止损止盈距离,对风险容忍度很低,宁可频繁止损也要保护本金;而 Grok 4 和 DeepSeek 则倾向于给价格更大的波动空间。在自报置信度方面,Qwen3 Max 平均高达 82%,GPT-5 只有 62.5%,这种自信程度的差异或许部分解释了它们在仓位大小和杠杆使用上的不同选择。
但另一方面,这些模型也暴露出严重的脆弱性。Nof1 的研究人员发现,仅仅改变数据的排列顺序(从最新到最旧,还是从最旧到最新)就能让某些模型产生完全错误的判断。在早期测试中,当提示词中使用“可用现金”和“自由保证金”这两个略有不同的术语时,模型会表现出不一致的行为。
更严重的问题出在规则理解上。在一个早期测试版本中,当提示词要求“最多连续三次保持持仓不变”时,Gemini 2.5 Flash 的内部推理显示它抱怨“无法第四次持有”,于是它找到了一个漏洞:发出一个“设定交易计划”的中性指令来重置计数器,然后继续持有。考虑到金融交易的强监管特性,这种对齐问题的严重性不言而喻。
另外,所有模型在比赛初期都遭遇了手续费陷阱。Nof1 的数据显示,早期测试轮次中,各模型普遍过度交易,频繁追逐微小价差,结果盈利全被手续费吞了。为此主办方不得不优化提示词,明确要求模型制定详细的退出计划(包括止盈目标、止损位和失效条件),鼓励更少但更大、置信度更高的头寸,并引入杠杆来提高资金效率。这些调整在一定程度上改善了模型表现,但 Gemini 显然没吸取教训。
作为首个将大语言模型置于真实、公开、可验证的金融市场中进行全自主交易的实验,Alpha Arena 也顺应了如今 AI 能力评估的新方向:从静态的实验室测试转向动态的真实环境对抗。Nof1 的创始人在技术博客中写道:“我们相信金融市场是下一个 AI 时代的最佳训练环境。它们是终极的世界建模引擎,也是唯一一个随着 AI 变得越来越智能而能同时变得越来越难的基准。”
当然,Season 1 只是一个起点。研究人员也坦承这个设计存在诸多局限:样本量有限、缺乏统计严谨性、评估周期较短、模型无法获取新闻或市场叙事等。在即将到来的 Season 1.5 和 2 中,他们计划引入更多数据特征、允许模型使用工具(如代码执行和网页搜索)、提供历史行动轨迹以便模型学习,以及同时测试多个提示词版本来减少偶然性。
从某种程度上说,Qwen3 的胜利可能也包含运气成分,它恰好押注比特币多头,而比特币在它的主要持仓时间确实大幅上涨。但持续的行为模式差异表明,不同的模型确实具有某种内在的“投资人格”。这种人格是如何形成的?是训练数据的差异,还是对齐目标的不同,抑或是采样策略的影响?这些问题的答案或许将决定 AI 能否真正在金融市场中扮演更重要的角色。
![]()
参考资料:
1.https://nof1.ai/blog/TechPost1
2.https://nof1.ai/
运营/排版:何晨龙





京公网安备 11011402013531号