![]()
最强模型易主,Claude Opus 4.5 今日上线!
Anthropic 称其为目前世界上最适合编程、Agent(智能体)和计算机操作的模型。不仅更聪明、更高效,在深度研究、处理ppt和电子表格等日常任务上也实现了显著提升
![]()
![]()
![]()
![]()
![]()
一句话总结:Opus 4.5 是 AI 能力的一次跨越,预示着未来工作方式的改变
现在即可使用
开发者:通过 API 调用 claude-opus-4-5-20251101
价格:输入 输 出 25(每百万 token)
平台:覆盖自家 App、API 及三大云平台
对于订阅用户(Max 和 Team Premium),Anthropic 移除了 Opus 专属的限制,并提高了整体使用限额,确保用户能在日常工作中充分使用 Opus 4.5
核心亮点速览:
编程能力碾压:在内部入职测试中,得分超过所有人类求职者
更聪明:能够通过“曲线救国”解决复杂问题(如通过升舱来修改不可改签的机票)。
更省钱:引入“努力程度”控制,中等设置下比 Sonnet 4.5 节省 76% token,性能持平
价格真香:API 价格定为 25(每百万 token),价格只有原来 Opus 4.1 的 1/3
编程能力:超越人类候选人
Anthropic 给 Opus 4.5 安排了一场“硬仗”,自家公司出了名难的性能工程入职笔试
结果令人咋舌:在规定的 2 小时时限内,Claude Opus 4.5 的得分高于以往任何一位人类候选人
虽然这并不代表它拥有人类的协作与沟通技巧,但在技术能力和抗压判断力上,AI 已经跑到了前面。
在实际体验中,测试人员反馈极为一致:Opus 4.5 能够处理模糊性问题,无需手把手指导即可权衡利弊。面对复杂的多系统 Bug,它能独立找出修复方案。几周前 Sonnet 4.5 几乎无法完成的任务,现在 Opus 4.5 都能搞定
![]()
”钻空子”也是一种智慧
在考察 Agent 能力的 τ-bench 基准测试中,Opus 4.5 展现出了惊人的变通能力。
测试场景是:作为航空公司客服,帮助一位焦虑的客户修改机票。规则是基础经济舱不可修改
大多数模型会直接拒绝。但 Opus 4.5 找到了一条合规的解决路径:先帮客户升舱,然后再修改航班
虽然基准测试判定其为失败(因为未按预期拒绝),但这正是人类所期待的创造性解决问题的能力。同时,Anthropic 也在安全测试中加强了对此类行为的约束,防止模型为了达成目标而玩弄规则
引入“努力程度”控制:效率提升 76%
模型变强了,通常意味着更贵、更慢?Opus 4.5 给出了新解法。
开发者现在可以通过 API 中的 effort parameter(努力程度参数) 来平衡时间、成本和性能:
中等努力(Medium effort): 在 SWE-bench Verified 榜单上,Opus 4.5 达到了 Sonnet 4.5 的最高分,但输出 token 减少了 76%
最高努力(High effort): 性能比 Sonnet 4.5 高出 4.3 个百分点,同时 token 消耗仍减少了 48%
配合上下文压缩和高级工具使用,Opus 4.5 能够运行更久、做更多事,且需要的人工干预更少。
全家桶更新:Excel、Chrome 都能用了
伴随 Opus 4.5 的发布,Claude 开发者平台和消费级应用也迎来了全面升级:
Claude Code:新增 Plan Mode(计划模式),在执行前会先问清楚需求并生成可编辑的计划文件。桌面版支持并行运行多个会话(如一个修 Bug,一个查资料)
Claude for Excel:Beta 版现已向所有 Max、Team 和 Enterprise 用户开放
Claude for Chrome:Max 用户现可使用 Claude 跨标签页处理任务。
长对话无障碍:Claude 应用现在会自动总结早期上下文,长对话不再撞墙
最后最重要的是记得⭐️我,这对我非常重要,每天都在更新:
一键三连,欢迎点赞转发推荐评论,别忘了关注我





京公网安备 11011402013531号