当前位置：首页 » 资讯 » 新科技 » 正文

最强模型易主！Claude Opus 4.5发布，编程测试超越Anthropic所有人类求职者

IP属地中国·北京 AI寒武纪 时间：2025-11-25 10:12:22

最强模型易主，Claude Opus 4.5 今日上线！
Anthropic 称其为目前世界上最适合编程、Agent（智能体）和计算机操作的模型。不仅更聪明、更高效，在深度研究、处理ppt和电子表格等日常任务上也实现了显著提升

一句话总结：Opus 4.5 是 AI 能力的一次跨越，预示着未来工作方式的改变
现在即可使用
开发者：通过 API 调用 claude-opus-4-5-20251101
价格：输入输出 25（每百万 token）
平台：覆盖自家 App、API 及三大云平台
对于订阅用户（Max 和 Team Premium），Anthropic 移除了 Opus 专属的限制，并提高了整体使用限额，确保用户能在日常工作中充分使用 Opus 4.5
核心亮点速览：
编程能力碾压：在内部入职测试中，得分超过所有人类求职者
更聪明：能够通过“曲线救国”解决复杂问题（如通过升舱来修改不可改签的机票）。
更省钱：引入“努力程度”控制，中等设置下比 Sonnet 4.5 节省 76% token，性能持平
价格真香：API 价格定为 25（每百万 token），价格只有原来 Opus 4.1 的 1/3
编程能力：超越人类候选人
Anthropic 给 Opus 4.5 安排了一场“硬仗”，自家公司出了名难的性能工程入职笔试
结果令人咋舌：在规定的 2 小时时限内，Claude Opus 4.5 的得分高于以往任何一位人类候选人
虽然这并不代表它拥有人类的协作与沟通技巧，但在技术能力和抗压判断力上，AI 已经跑到了前面。
在实际体验中，测试人员反馈极为一致：Opus 4.5 能够处理模糊性问题，无需手把手指导即可权衡利弊。面对复杂的多系统 Bug，它能独立找出修复方案。几周前 Sonnet 4.5 几乎无法完成的任务，现在 Opus 4.5 都能搞定

”钻空子”也是一种智慧
在考察 Agent 能力的 τ-bench 基准测试中，Opus 4.5 展现出了惊人的变通能力。
测试场景是：作为航空公司客服，帮助一位焦虑的客户修改机票。规则是基础经济舱不可修改
大多数模型会直接拒绝。但 Opus 4.5 找到了一条合规的解决路径：先帮客户升舱，然后再修改航班
虽然基准测试判定其为失败（因为未按预期拒绝），但这正是人类所期待的创造性解决问题的能力。同时，Anthropic 也在安全测试中加强了对此类行为的约束，防止模型为了达成目标而玩弄规则
引入“努力程度”控制：效率提升 76%
模型变强了，通常意味着更贵、更慢？Opus 4.5 给出了新解法。
开发者现在可以通过 API 中的 effort parameter（努力程度参数）来平衡时间、成本和性能：
中等努力（Medium effort）：在 SWE-bench Verified 榜单上，Opus 4.5 达到了 Sonnet 4.5 的最高分，但输出 token 减少了 76%
最高努力（High effort）：性能比 Sonnet 4.5 高出 4.3 个百分点，同时 token 消耗仍减少了 48%
配合上下文压缩和高级工具使用，Opus 4.5 能够运行更久、做更多事，且需要的人工干预更少。
全家桶更新：Excel、Chrome 都能用了
伴随 Opus 4.5 的发布，Claude 开发者平台和消费级应用也迎来了全面升级：
Claude Code：新增 Plan Mode（计划模式），在执行前会先问清楚需求并生成可编辑的计划文件。桌面版支持并行运行多个会话（如一个修 Bug，一个查资料）
Claude for Excel：Beta 版现已向所有 Max、Team 和 Enterprise 用户开放
Claude for Chrome：Max 用户现可使用 Claude 跨标签页处理任务。
长对话无障碍：Claude 应用现在会自动总结早期上下文，长对话不再撞墙
最后最重要的是记得⭐️我，这对我非常重要，每天都在更新：
一键三连，欢迎点赞转发推荐评论，别忘了关注我

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

全站最新

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

热门推荐

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

今夜过后，马斯克成为人类首位万亿富翁

萝卜快跑在瑞士启动道路测试 2027年将实现常态化运营

Anthropic：最先进模型，外国人禁用

网传阿里合伙人周靖人拟离职，仅出任阿里首席科学家6天

人物 | 陈宇森，那个让AI管人的技术极客，开启钉钉新时代

雷军用小米YU7装120箱车厘子共600斤，被指违规！刚刚直播回应：是卡车送过来的，是在封闭道路分装

湾区“造芯”更“追光”，粤芯闯关创业板

苹果为折叠屏iPhone Ultra铺路：iOS 27新增多款原生应用横屏模式

华为鸿蒙NEXT座舱发布计划公布，预计年底商用