当前位置：首页 » 资讯 » 新科技 » 正文

超6万GitHub项目实测：Agent写代码效率暴涨，通过率仍落后人类

IP属地中国·北京 DeepTech深科技 时间：2026-02-17 14:15:38

当 AI 用 3 天完成人类程序员原本3年的代码任务量，人类的角色会发生怎样的变化？
当前，AI 正在从工具变为人类的“队友”。随着大模型的加速发展，AI 在软件工程领域的作用已不再是辅助代码补全，而是正在成为可自主编码的智能体（Agent）。
现在，我们只需向 AI 描述代码想要实现的功能，它就能自动生成完整代码；借助 Agent，甚至能在十几分钟内完成千行级别的代码生成或修改。
近期，加拿大女王大学博士后李豪与所在团队在一项研究中首次构建了一个大规模数据集 AIDev，系统分析和统计了自主编码 Agent 在 7,000 多个较流行的软件中的实际表现和影响。
其覆盖范围包括在 GitHub 平台上已提交的超 45.6 万条 Agent 代码合并请求（PR，pull requests），涵盖 6.1 万个代码库和 4.7 万名开发者，包括主流的 AI 编码工具 OpenAI Codex、GitHub Copilot、Devin、Cursor 和 Claude Code。

图丨李豪（受访者）
研究人员在 AI 领域和软件工程做相关研究时，往往会选择用 SWE-bench 做测试，通过交给 AI 一些高质量、有测试样例的任务，来优化 AI 性能以及优化系统设计等。
但这也带来了很多挑战性的问题。例如，一家公司如果将测试题目用于训练模型，极有可能因“作弊”导致分数虚高。此外，由于 SWE-bench 是一个静态的基准集（benchmark），部分数据有可能存在一定滞后性。
李豪指出，该研究最大的不同点在于，AIDev 是真实世界、大规模、实时采集数据的数据集，更贴近于业界实践和生产。此外，研究人员还可以利用该数据集打造更新的 benchmark。

（arXiv）
研究团队在 AI 编码 Agent 的速度和质量方面找到了有趣的发现。一项个例分析结果显示，有开发者在使用 AI 编码 Agent 后，3 天内完成的任务量接近其过去 3 年的总量。
而 AI 在自然语言处理方面的优势，也同样值得关注。他们发现，AI 在编写代码或文本方面的任务中表现优异，例如从文档相关的合并请求接受率来看，OpenAI Codex 和 Claude Code 分别为 88.6% 和 85.7%，而人类在该方面表现为 76.5%。

（arXiv）
合并请求接受率是衡量 AI 产出质量和可信度的关键指标，它与人类开发者/项目维护者对 AI 贡献的认可度密切相关。该团队还发现，编码 Agent 的合并请求接受率比人类开发者低 15% 至 40%（不同任务类型下区间差异显著），尤其是在新功能开发、修复 Bug 等复杂的任务方面。例如，OpenAI Codex 的 PR 接受率为 64%，而人类开发者的 PR 接受率高达 76.8%。
这意味着，AI 写代码并非全面超越了人类。需要看到的是，尽管目前 AI 编码 Agent 生成速度很快，但性能方面还有一些缺陷，在结构上也相对较简单，需要研究人员继续对其进行增强，以确保代码的长期可维护性。
李豪对 DeepTech 表示：“短期看，AI Agent 的代码接受率相对人类较低，效率与质量的取舍仍需权衡（trade-off），但这种磨合期对应的是数据飞轮的启动阶段，形成飞轮效应后，我们有望获得生产力的显著提升。”

（arXiv）
该研究通过分析自主编码 Agent 的表现，为未来更好地优化人与 AI 协作提供了数据基础。这也带来了一种全新的生成模式，开发者面临的问题不是如何写更多的代码，而是接到一项任务后，如何拆分成更细的任务，再管理这些 AI 更好地执行。
“该方向在学界和产业界还存在较大的空白。编程人员的角色也会逐渐从写代码的人，转换成提供代码审查或提供管理模式的人。目前，我们也在做相关的研究，来探索新一代软件开发流程来支持开发者们利用 AI Agent。”李豪表示。
此外研究还揭示出，尽管 AI 的出现推动了人机协同审查流程，但同时也可能会带来偏见等问题。例如，假如 AI 写代码的 Agent 与审查代码的机器人自同一公司，很有可能在AI审查环节忽视某些特定类型的错误。
在未来的研究中，该团队计划建立更全面的 benchmark，对 AI 编程 Agent 进行真实的表现评测。他们还打算建立新知识库，推动领域内的研究人员共同改进相关方向，包括如何更好地预测和分析AI可能的失败场景，以及失败原因等。从更长远的发展来看，探索更自动化与标准化的审查机制，也是一个值得深入研究的方向。
相关论文以《软件工程 3.0 中 AI 队友的崛起：自主编码 Agent 如何重塑软件工程》（The Rise of AI Teammates in Software Engineering (SE) 3.0: How Autonomous Coding Agents Are Reshaping Software Engineering）为题发表在 arXiv[1]。目前，相关代码已在 GitHub 开源。
参考资料：
1.相关论文：https://arxiv.org/abs/2507.15003v1
2.AIDev 数据集获取：https://github.com/SAILResearch/AI_Teammates_in_SE3
排版：胡莉花

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

银河通用春晚机器人Galbot G1爆单，紧急扩产交付

突破5000单，机器人租赁迎来“史上最热”

机器人打拳卖烤肠、AI渲染虚拟影像、2万多架无人机上天……马年春晚科技含量满满

Unity拟推出AI创作工具，可通过自然语言直接生成游戏

天马即将登场：我国在研5米级可重复使用火箭预计上半年首飞

智平方创始人兼CEO郭彦东：具身智能行业洗牌已开始|2026商业新愿景

全站最新

银河通用春晚机器人Galbot G1爆单，紧急扩产交付

突破5000单，机器人租赁迎来“史上最热”

机器人打拳卖烤肠、AI渲染虚拟影像、2万多架无人机上天……马年春晚科技含量满满

Unity拟推出AI创作工具，可通过自然语言直接生成游戏

热门推荐

银河通用春晚机器人Galbot G1爆单，紧急扩产交付

密集“上新” 国产大模型商业化竞速升级

突破5000单，机器人租赁迎来“史上最热”

机器人打拳卖烤肠、AI渲染虚拟影像、2万多架无人机上天……马年春晚科技含量满满

Unity拟推出AI创作工具，可通过自然语言直接生成游戏

天马即将登场：我国在研5米级可重复使用火箭预计上半年首飞

智平方创始人兼CEO郭彦东：具身智能行业洗牌已开始|2026商业新愿景

春晚后机器人卖爆了：京东搜索量环比增长超300%

深度｜什么是物理AI？

超6万GitHub项目实测：Agent写代码效率暴涨，通过率仍落后人类

华为昇腾官宣0 Day适配Qwen3.5

高空擦窗不再靠“蜘蛛人”，智造广货解锁幕墙清洁“黑科技”

阿里发布Qwen3.5-Plus大模型，推理效率提升8.6倍

阿里发布新一代基模千问3.5 登顶全球最强开源大模型

微软AI掌门放狠话：12-18个月，多数白领工作将被AI彻底替代？