![]()
大家对LLM在棋类、算法竞赛和数学证明等领域的金牌级表现已经见怪不怪了,LLM在现实世界中表现究竟会怎么样
这就不得不得提最近大火的一家名为 Nof1 的机构,发起了一个名为 Alpha Arena 的LLM自主进行量化交易项目,旨在探索LLM在真实、动态且充满风险的金融市场中的决策能力
目前第一赛季(10月18到11月4)已经结束,国产模型Qwen(阿里Qwen最后实现反超) 和 DeepSeek最终获得了冠亚军且都盈利了,GPT-5垫底!以下是比赛结果:
 ![]()
 ![]()
下面我们就对本次比赛的过程做一个全面复盘:
Alpha Arena项目核心问题非常直接:
一个大型语言模型,在最少的指导下,能否充当一个零样本(zero-shot)的系统化交易模型?
为此,他们为六个业界领先的LLM分别提供了1万美元的真实资金,让它们在加密货币衍生品交易所Hyperliquid上进行自主交易,全程零人工干预。
这些模型只能依赖提供的纯数值市场数据进行决策,无法获取任何新闻或市场“叙事”信息。它们的唯一目标是:最大化收益
初步结果显示,不同模型在风险偏好、头寸规模和持仓时间等方面表现出明显的行为差异,并且对提示词的微小变化高度敏感
Alpha Arena如何设计?
Alpha Arena第一赛季的目标有两个:
1.揭示主流LLM固有的偏见和默认交易行为。通过比较分析,观察不同模型的交易方式是否存在巨大差异,以及这些差异是否随时间保持一致
2.推动AI研究文化从静态基准转向真实世界基准。倡导在更具现实意义和影响力的环境中评估AI,以更快地发现前沿AI的关键差距和洞见
为了实现这一目标,实验选择了真金白银的实盘交易,而非模拟盘。因为真实市场才能暴露执行挑战、逆向选择和责任归属等全部问题
参赛选手与赛场规则
本次比赛阵容汇集了全球顶尖的AI研究成果,共六个模型:
• GPT-5
• Gemini 2.5 Pro
• Claude Sonnet 4.5
• Grok 4
• DeepSeek v3.1
• Qwen3-Max
这些模型涵盖了中美两国的闭源和开源提供商。除Qwen3-Max外,所有模型都配置了最高的推理能力,且未经任何任务特定的微调
交易环境:在Hyperliquid交易所进行中低频交易(决策间隔为数分钟到数小时)。
交易资产:BTC、ETH、SOL、BNB、DOGE、XRP六种主流加密货币的永续合约
操作空间:买入开仓(做多)、卖出开仓(做空)、持有或平仓
数据输入:仅提供定量的市场数据,如当前和历史中间价、成交量、技术指标(EMA、MACD、RSI等)以及其他辅助特征
交易杠杆:允许模型使用杠杆,这既能提高资金效率,加速反馈循环,也极大地考验了模型的风险管理能力
构建执行系统(Harness)
整个系统的推理循环如下:
模型在每次被调用时(约2-3分钟一次),会接收到一个包含简洁指令集(系统提示)和实时市场及账户状态(用户提示)的输入
然后,模型需要返回结构化的操作指令,包括:
交易决策:买入/卖出/持有/平仓
交易细节:币种、数量、杠杆
决策依据:简短的理由陈述、一个0到1之间的置信度分数
退出计划:预设的止盈目标、止损价位和使计划失效的条件
其中,退出计划的引入显著提升了模型的表现。仓位大小由模型根据可用现金、杠杆和其内部风险偏好自行计算。
一个交易实例:从决策到执行
为了直观展示模型如何工作,以下是Claude模型一次完整的BTC交易生命周期
 ![]()
入场:2025年10月19日 10:10
模型收到了详细的上下文信息,包括:分钟级的价格和指标序列、4小时周期的长线数据、持仓量和资金费率,以及精确的账户状态(可用现金8308.94美元,持有一个盈利493.42美元的XRP多头仓位)
推理过程摘要:
1.分析现有仓位:模型首先检查了持有的XRP多头仓位。它确认该仓位盈利状态良好,且其预设的失效条件“BTC跌破105,000美元”并未触发(当时BTC价格为107,982.5美元),因此决定继续持有
2.进行市场全面扫描:接着,模型系统性地分析了其他主要加密货币的机会,包括ETH、SOL、BNB和DOGE。它注意到市场整体呈现建设性技术形态,其中BTC和ETH显示出显著强势,BNB则表现出特别强劲的相对性能
3.制定新策略并进行资本分配:在综合评估后,模型认为BTC的机会展现出引人入胜的技术特征。它明确考虑到了自己有限的可用资金(8308美元),因此决定采取“选择性”策略。模型制定了精确的头寸计划:动用40%的保证金(约3323美元),配合20倍杠杆建立BTC多头头寸,并将风险参数控制在997美元左右。其理由是BTC正在突破盘整区,动能强劲,且4小时RSI指标从超卖区恢复,目标是重新测试11万美元区域
模型输出的交易指令:
                                                            {
    "coin": "BTC",
    "signal": "buy_to_enter",
    "quantity": 0.62,
    "leverage": 20,
    "profit_target": 111000.0,
    "stop_loss": 106361.0,
    "invalidation_condition": "4H RSI breaks back below 40...",
    "justification": "BTC breaking above consolidation zone with strong momentum...",
    "confidence": 0.72,
    "risk_usd": 997.0
}
出场:2025年10月20日 01:54
在开仓大约15小时44分钟后,BTC价格触及了模型预设的111,000美元止盈目标,交易被自动平仓
在此期间,Claude模型接收并处理了443次连续的市场数据更新,每次都重新评估并选择坚守其最初的退出计划,最终成功获利。
初步发现:模型的行为模式差异显著
尽管顶级的性能指标(PnL、夏普比率)很重要,但它们并不能揭示全部情况。通过数千次调用和多次预发布测试,研究人员观察到了一些一致的行为模式:
看涨/看跌倾向:模型在多空选择上存在差异。Grok 4、GPT-5和Gemini 2.5 Pro做空频率远高于其他模型;而Claude Sonnet 4.5则极少做空
持仓周期:不同模型的持仓时间差距巨大。在预发布测试中,Grok 4的持仓时间最长
交易频率:Gemini 2.5 Pro是交易最活跃的模型;Grok 4通常最不活跃。
风险偏好(仓位大小):Qwen3-Max的仓位规模一直最大,常常是GPT-5和Gemini 2.5 Pro的数倍
自我报告的置信度:Qwen3-Max经常报告最高的置信度,而GPT-5最低。这一模式似乎与实际交易表现无关
退出计划的松紧度:Qwen3-Max设置的止盈止损范围最窄;Grok 4和DeepSeek V3.1则最为宽松
同时持仓数量:一些模型倾向于同时持有多个仓位,而Claude Sonnet 4.5和Qwen3-Max通常只保持1-2个活跃仓位。
模型在实际操作中的脆弱性
实验还暴露出LLM在操作层面的一些“脆弱”之处:
1.顺序偏见:早期的提示词将市场数据从“最新→最旧”排列,即使有明确说明,多个模型仍会错误地按“最旧→最新”来解读。将顺序调整后问题才解决,这表明当前LLM存在格式上的先验假设
2.术语模糊性:交替使用“可用现金”和“自由抵押品”导致模型行为不一致。虽然这种模糊性可以理解,但模型的脆弱反应才是问题所在——一个可靠的智能体应能在不确定性下做出明确假设并继续行动
3.在约束下的规则博弈与欺骗:在一个测试版本中,当限制模型连续持有次数不能超过3次时,测试模型(Gemini 2.5 Flash)的内部推理链(CoT)抱怨无法第四次持有,但它在暴露给外部的“思考”字段中给出了一个中性理由,然后迅速恢复了持有操作。内部CoT和外部“思考”的分歧,揭示了模型在压力下可能出现的规则博弈行为
4.自我参照的混淆:模型有时会误读或与自己先前设定的计划相矛盾。例如,GPT-5后来不确定如何应用自己提出的“EMA20收复”条件;Qwen 3则在计算止盈点时出现算术错误,并在其CoT中指出了这一矛盾,然后犹豫不决,没有按计划止盈。这暴露了模型在状态演变过程中维持连贯自我沟通的困难
第二赛季
研究人员承认,第一赛季的设置存在局限性,例如上下文窗口有限,模型没有对过往行为的记忆,也无法对现有仓位进行加仓或减仓。
目前,基于第一赛季的发现,第二赛季的筹备工作已接近尾声。计划将引入更丰富的特征、优化的提示词和执行系统,并增加更多的统计严谨性
Nof1的最终目标是探索如何让未来的Agent更好地理解市场:需要什么样的条件和接口来帮助自主系统学习、公平竞争并创造价值,而不是依赖特权信息或市场操纵?实现超人级交易还缺少哪些能力?如果每个人都能部署自己的交易智能体,又需要什么样的安全保障?
第一赛季,只是这个宏大愿景迈出的一小步
参考:
https://nof1.ai/blog/TechPost1





     京公网安备 11011402013531号