当前位置: 首页 » 资讯 » 新科技 » 正文

最强模型易主!Claude Opus 4.5发布,编程测试超越Anthropic所有人类求职者

IP属地 中国·北京 AI寒武纪 时间:2025-11-25 10:12:22


最强模型易主,Claude Opus 4.5 今日上线!

Anthropic 称其为目前世界上最适合编程、Agent(智能体)和计算机操作的模型。不仅更聪明、更高效,在深度研究、处理ppt和电子表格等日常任务上也实现了显著提升






一句话总结:Opus 4.5 是 AI 能力的一次跨越,预示着未来工作方式的改变

现在即可使用

开发者:通过 API 调用 claude-opus-4-5-20251101

价格:输入 输 出 25(每百万 token)

平台:覆盖自家 App、API 及三大云平台

对于订阅用户(Max 和 Team Premium),Anthropic 移除了 Opus 专属的限制,并提高了整体使用限额,确保用户能在日常工作中充分使用 Opus 4.5

核心亮点速览:

编程能力碾压:在内部入职测试中,得分超过所有人类求职者

更聪明:能够通过“曲线救国”解决复杂问题(如通过升舱来修改不可改签的机票)。

更省钱:引入“努力程度”控制,中等设置下比 Sonnet 4.5 节省 76% token,性能持平

价格真香:API 价格定为 25(每百万 token),价格只有原来 Opus 4.1 的 1/3

编程能力:超越人类候选人

Anthropic 给 Opus 4.5 安排了一场“硬仗”,自家公司出了名难的性能工程入职笔试

结果令人咋舌:在规定的 2 小时时限内,Claude Opus 4.5 的得分高于以往任何一位人类候选人

虽然这并不代表它拥有人类的协作与沟通技巧,但在技术能力和抗压判断力上,AI 已经跑到了前面。

在实际体验中,测试人员反馈极为一致:Opus 4.5 能够处理模糊性问题,无需手把手指导即可权衡利弊。面对复杂的多系统 Bug,它能独立找出修复方案。几周前 Sonnet 4.5 几乎无法完成的任务,现在 Opus 4.5 都能搞定


”钻空子”也是一种智慧

在考察 Agent 能力的 τ-bench 基准测试中,Opus 4.5 展现出了惊人的变通能力。

测试场景是:作为航空公司客服,帮助一位焦虑的客户修改机票。规则是基础经济舱不可修改

大多数模型会直接拒绝。但 Opus 4.5 找到了一条合规的解决路径:先帮客户升舱,然后再修改航班

虽然基准测试判定其为失败(因为未按预期拒绝),但这正是人类所期待的创造性解决问题的能力。同时,Anthropic 也在安全测试中加强了对此类行为的约束,防止模型为了达成目标而玩弄规则

引入“努力程度”控制:效率提升 76%

模型变强了,通常意味着更贵、更慢?Opus 4.5 给出了新解法。

开发者现在可以通过 API 中的 effort parameter(努力程度参数) 来平衡时间、成本和性能:

中等努力(Medium effort): 在 SWE-bench Verified 榜单上,Opus 4.5 达到了 Sonnet 4.5 的最高分,但输出 token 减少了 76%

最高努力(High effort): 性能比 Sonnet 4.5 高出 4.3 个百分点,同时 token 消耗仍减少了 48%

配合上下文压缩和高级工具使用,Opus 4.5 能够运行更久、做更多事,且需要的人工干预更少。

全家桶更新:Excel、Chrome 都能用了

伴随 Opus 4.5 的发布,Claude 开发者平台和消费级应用也迎来了全面升级:

Claude Code:新增 Plan Mode(计划模式),在执行前会先问清楚需求并生成可编辑的计划文件。桌面版支持并行运行多个会话(如一个修 Bug,一个查资料)

Claude for Excel:Beta 版现已向所有 Max、Team 和 Enterprise 用户开放

Claude for Chrome:Max 用户现可使用 Claude 跨标签页处理任务。

长对话无障碍:Claude 应用现在会自动总结早期上下文,长对话不再撞墙

最后最重要的是记得⭐️我,这对我非常重要,每天都在更新:

一键三连,欢迎点赞转发推荐评论,别忘了关注我

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。