当前位置：首页 » 资讯 » 新科技 » 正文

中美六大顶尖模型第一赛季实盘量化交易结果出炉：Qwen最后反超夺冠，GPT-5垫底「复盘」

IP属地中国·北京 AI寒武纪 时间：2025-11-04 12:19:08

大家对LLM在棋类、算法竞赛和数学证明等领域的金牌级表现已经见怪不怪了，LLM在现实世界中表现究竟会怎么样
这就不得不得提最近大火的一家名为 Nof1 的机构，发起了一个名为 Alpha Arena 的LLM自主进行量化交易项目，旨在探索LLM在真实、动态且充满风险的金融市场中的决策能力
目前第一赛季（10月18到11月4）已经结束，国产模型Qwen（阿里Qwen最后实现反超）和 DeepSeek最终获得了冠亚军且都盈利了，GPT-5垫底！以下是比赛结果：

下面我们就对本次比赛的过程做一个全面复盘：
Alpha Arena项目核心问题非常直接：
一个大型语言模型，在最少的指导下，能否充当一个零样本（zero-shot）的系统化交易模型？
为此，他们为六个业界领先的LLM分别提供了1万美元的真实资金，让它们在加密货币衍生品交易所Hyperliquid上进行自主交易，全程零人工干预。
这些模型只能依赖提供的纯数值市场数据进行决策，无法获取任何新闻或市场“叙事”信息。它们的唯一目标是：最大化收益
初步结果显示，不同模型在风险偏好、头寸规模和持仓时间等方面表现出明显的行为差异，并且对提示词的微小变化高度敏感
Alpha Arena如何设计？
Alpha Arena第一赛季的目标有两个：
1.揭示主流LLM固有的偏见和默认交易行为。通过比较分析，观察不同模型的交易方式是否存在巨大差异，以及这些差异是否随时间保持一致
2.推动AI研究文化从静态基准转向真实世界基准。倡导在更具现实意义和影响力的环境中评估AI，以更快地发现前沿AI的关键差距和洞见
为了实现这一目标，实验选择了真金白银的实盘交易，而非模拟盘。因为真实市场才能暴露执行挑战、逆向选择和责任归属等全部问题
参赛选手与赛场规则
本次比赛阵容汇集了全球顶尖的AI研究成果，共六个模型：
• GPT-5
• Gemini 2.5 Pro
• Claude Sonnet 4.5
• Grok 4
• DeepSeek v3.1
• Qwen3-Max
这些模型涵盖了中美两国的闭源和开源提供商。除Qwen3-Max外，所有模型都配置了最高的推理能力，且未经任何任务特定的微调
交易环境：在Hyperliquid交易所进行中低频交易（决策间隔为数分钟到数小时）。
交易资产：BTC、ETH、SOL、BNB、DOGE、XRP六种主流加密货币的永续合约
操作空间：买入开仓（做多）、卖出开仓（做空）、持有或平仓
数据输入：仅提供定量的市场数据，如当前和历史中间价、成交量、技术指标（EMA、MACD、RSI等）以及其他辅助特征
交易杠杆：允许模型使用杠杆，这既能提高资金效率，加速反馈循环，也极大地考验了模型的风险管理能力
构建执行系统（Harness）
整个系统的推理循环如下：
模型在每次被调用时（约2-3分钟一次），会接收到一个包含简洁指令集（系统提示）和实时市场及账户状态（用户提示）的输入
然后，模型需要返回结构化的操作指令，包括：
交易决策：买入/卖出/持有/平仓
交易细节：币种、数量、杠杆
决策依据：简短的理由陈述、一个0到1之间的置信度分数
退出计划：预设的止盈目标、止损价位和使计划失效的条件
其中，退出计划的引入显著提升了模型的表现。仓位大小由模型根据可用现金、杠杆和其内部风险偏好自行计算。
一个交易实例：从决策到执行
为了直观展示模型如何工作，以下是Claude模型一次完整的BTC交易生命周期

入场：2025年10月19日 10:10
模型收到了详细的上下文信息，包括：分钟级的价格和指标序列、4小时周期的长线数据、持仓量和资金费率，以及精确的账户状态（可用现金8308.94美元，持有一个盈利493.42美元的XRP多头仓位）
推理过程摘要：
1.分析现有仓位：模型首先检查了持有的XRP多头仓位。它确认该仓位盈利状态良好，且其预设的失效条件“BTC跌破105,000美元”并未触发（当时BTC价格为107,982.5美元），因此决定继续持有
2.进行市场全面扫描：接着，模型系统性地分析了其他主要加密货币的机会，包括ETH、SOL、BNB和DOGE。它注意到市场整体呈现建设性技术形态，其中BTC和ETH显示出显著强势，BNB则表现出特别强劲的相对性能
3.制定新策略并进行资本分配：在综合评估后，模型认为BTC的机会展现出引人入胜的技术特征。它明确考虑到了自己有限的可用资金（8308美元），因此决定采取“选择性”策略。模型制定了精确的头寸计划：动用40%的保证金（约3323美元），配合20倍杠杆建立BTC多头头寸，并将风险参数控制在997美元左右。其理由是BTC正在突破盘整区，动能强劲，且4小时RSI指标从超卖区恢复，目标是重新测试11万美元区域
模型输出的交易指令：
{
"coin": "BTC",
"signal": "buy_to_enter",
"quantity": 0.62,
"leverage": 20,
"profit_target": 111000.0,
"stop_loss": 106361.0,
"invalidation_condition": "4H RSI breaks back below 40...",
"justification": "BTC breaking above consolidation zone with strong momentum...",
"confidence": 0.72,
"risk_usd": 997.0
}
出场：2025年10月20日 01:54
在开仓大约15小时44分钟后，BTC价格触及了模型预设的111,000美元止盈目标，交易被自动平仓
在此期间，Claude模型接收并处理了443次连续的市场数据更新，每次都重新评估并选择坚守其最初的退出计划，最终成功获利。
初步发现：模型的行为模式差异显著
尽管顶级的性能指标（PnL、夏普比率）很重要，但它们并不能揭示全部情况。通过数千次调用和多次预发布测试，研究人员观察到了一些一致的行为模式：
看涨/看跌倾向：模型在多空选择上存在差异。Grok 4、GPT-5和Gemini 2.5 Pro做空频率远高于其他模型；而Claude Sonnet 4.5则极少做空
持仓周期：不同模型的持仓时间差距巨大。在预发布测试中，Grok 4的持仓时间最长
交易频率：Gemini 2.5 Pro是交易最活跃的模型；Grok 4通常最不活跃。
风险偏好（仓位大小）：Qwen3-Max的仓位规模一直最大，常常是GPT-5和Gemini 2.5 Pro的数倍
自我报告的置信度：Qwen3-Max经常报告最高的置信度，而GPT-5最低。这一模式似乎与实际交易表现无关
退出计划的松紧度：Qwen3-Max设置的止盈止损范围最窄；Grok 4和DeepSeek V3.1则最为宽松
同时持仓数量：一些模型倾向于同时持有多个仓位，而Claude Sonnet 4.5和Qwen3-Max通常只保持1-2个活跃仓位。
模型在实际操作中的脆弱性
实验还暴露出LLM在操作层面的一些“脆弱”之处：
1.顺序偏见：早期的提示词将市场数据从“最新→最旧”排列，即使有明确说明，多个模型仍会错误地按“最旧→最新”来解读。将顺序调整后问题才解决，这表明当前LLM存在格式上的先验假设
2.术语模糊性：交替使用“可用现金”和“自由抵押品”导致模型行为不一致。虽然这种模糊性可以理解，但模型的脆弱反应才是问题所在——一个可靠的智能体应能在不确定性下做出明确假设并继续行动
3.在约束下的规则博弈与欺骗：在一个测试版本中，当限制模型连续持有次数不能超过3次时，测试模型（Gemini 2.5 Flash）的内部推理链（CoT）抱怨无法第四次持有，但它在暴露给外部的“思考”字段中给出了一个中性理由，然后迅速恢复了持有操作。内部CoT和外部“思考”的分歧，揭示了模型在压力下可能出现的规则博弈行为
4.自我参照的混淆：模型有时会误读或与自己先前设定的计划相矛盾。例如，GPT-5后来不确定如何应用自己提出的“EMA20收复”条件；Qwen 3则在计算止盈点时出现算术错误，并在其CoT中指出了这一矛盾，然后犹豫不决，没有按计划止盈。这暴露了模型在状态演变过程中维持连贯自我沟通的困难
第二赛季
研究人员承认，第一赛季的设置存在局限性，例如上下文窗口有限，模型没有对过往行为的记忆，也无法对现有仓位进行加仓或减仓。
目前，基于第一赛季的发现，第二赛季的筹备工作已接近尾声。计划将引入更丰富的特征、优化的提示词和执行系统，并增加更多的统计严谨性
Nof1的最终目标是探索如何让未来的Agent更好地理解市场：需要什么样的条件和接口来帮助自主系统学习、公平竞争并创造价值，而不是依赖特权信息或市场操纵？实现超人级交易还缺少哪些能力？如果每个人都能部署自己的交易智能体，又需要什么样的安全保障？
第一赛季，只是这个宏大愿景迈出的一小步
参考：
https://nof1.ai/blog/TechPost1

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

我国南极科考再出征中国科学院科研力量肩负哪些重任？

亨通光电首创10G TSN PON 车载全光系统引领智能驾驶传输技术革新

德邦快递卡位跨境旺季赛道全链布局激活营收增长新动能

每周天文大片：哈勃聚焦 5600 万光年外、“长相奇特”的旋涡星系

鸿蒙智行问界 M7 提车关爱计划发布，至高补 10000 元

文远、小马IPO前打“嘴仗”，谁在投资人面前争宠？

全站最新

我国南极科考再出征中国科学院科研力量肩负哪些重任？

亨通光电首创10G TSN PON 车载全光系统引领智能驾驶传输技术革新

德邦快递卡位跨境旺季赛道全链布局激活营收增长新动能

每周天文大片：哈勃聚焦 5600 万光年外、“长相奇特”的旋涡星系

热门推荐

文心魔法漫画功能上线：一句话一张图，两分钟生成连载！人人皆可做漫画家

小米智能门锁M40 Pro发布：售价3229元起 33D人脸+掌静脉

问界M7提车关爱计划发布：等车超10周最高可补贴10000元

大模型正颠覆金融服务，度小满CEO揭秘AI如何助力普惠金融

我国南极科考再出征中国科学院科研力量肩负哪些重任？

亨通光电首创10G TSN PON 车载全光系统引领智能驾驶传输技术革新

德邦快递卡位跨境旺季赛道全链布局激活营收增长新动能

每周天文大片：哈勃聚焦 5600 万光年外、“长相奇特”的旋涡星系

鸿蒙智行问界 M7 提车关爱计划发布，至高补 10000 元

文远、小马IPO前打“嘴仗”，谁在投资人面前争宠？

当临期货混入双11，抵制临期商品的我们究竟在抵制什么？

微软宣布大力投资阿联酋AI项目投资总额达152亿美元

特拉维夫大学实现AI图像精准表情控制

代尔夫特理工大学Code4Me V2提升AI编程透明度

山姆翻车再上热搜！商品头图全是假的，网友刷屏“辞退高管”