![]()
数据智能时代的到来让我们对人工智能的期望越来越高,尤其是在数据处理和分析方面。然而,中科院自动化所与字节跳动Seed团队、抖音等机构的研究人员最近发布的一项重要研究却给我们泼了一盆冷水。这项名为"DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle"的研究于2024年12月5日发表在arXiv平台上,论文编号为arXiv:2512.04324v1。研究团队包括来自中科院自动化所的雷方语、孟锦祥等,字节跳动Seed的邹鑫、杨瑞怡等,以及加州大学圣迭戈分校、新加坡国立大学等机构的研究人员。感兴趣的读者可以通过该论文编号在arXiv平台查阅完整论文内容。
研究团队发现,即便是目前最先进的AI模型,在处理企业级数据工程和分析任务时的表现也远不如我们预期的那样出色。这个发现对于那些正在考虑用AI来替代数据分析师和数据工程师工作的企业来说,可能需要重新思考自己的计划了。
一、为什么现有的AI测试都不够真实
当前大多数测试AI数据能力的基准测试就像是在考驾照时只测试倒车入库,却从来不测试在真实道路上的驾驶能力一样。现有的测试通常只关注单一的代码生成能力,比如让AI写一个SQL查询语句,或者完成一个简单的数据分析脚本。这就好比只测试厨师能不能切菜,却不测试能不能做出一道完整的菜。
研究团队指出,真实的企业数据工作其实包含两个截然不同但又紧密相关的部分。第一个部分叫做数据工程,就像是建造一座房子的地基和框架结构。数据工程师需要把散乱的原始数据(比如各种销售记录、用户行为日志等)整理成整齐有序的数据表,就像把杂乱无章的建筑材料按照图纸组装成可以居住的房屋一样。这个过程不仅仅是写几行代码那么简单,而是需要设计整个数据处理的流水线,确保各个环节能够协调配合,并且在需求变化时能够灵活调整。
第二个部分叫做数据分析,更像是房子建好后的室内设计和装修。数据分析师拿到整理好的数据后,需要深入挖掘其中的商业洞察,就像室内设计师要根据住户的需求和喜好来设计出既美观又实用的居住空间。这个过程充满了开放性和创造性,没有标准答案,需要分析师根据具体的商业问题提出假设,设计分析方案,解读结果,并最终给出可行的建议。
然而,目前绝大多数测试AI数据能力的基准都只关注其中某个小片段。有些测试只看AI能不能写出正确的SQL语句,有些只看能不能做简单的统计分析,却很少有测试能够全面评估AI在整个数据智能生命周期中的表现。这就像只测试一个人能不能拧螺丝,却不测试能不能组装一台复杂机器一样。
二、DAComp:一个更加真实的AI能力测试场
为了解决这个问题,研究团队开发了DAComp这个全新的测试基准。如果把现有的AI测试比作驾校的科目一理论考试,那么DAComp就更像是真实的道路驾驶考试,不仅要测试基础技能,更要测试在复杂真实环境中的综合应用能力。
DAComp包含了210个精心设计的任务,完整覆盖了企业级数据智能工作的全流程。这些任务不是简单的代码片段生成,而是需要AI完成真正的端到端数据项目。比如在数据工程部分,AI不是只需要写一两个SQL查询,而是要从零开始构建包含几十个相互关联文件、总共数千行代码的完整数据管道系统。这就像是要求建筑师不仅要会画设计图,还要能够协调各个工种,确保整栋楼房按照设计顺利建成。
在数据工程测试中,研究团队设计了三种不同类型的挑战。首先是架构设计任务,就像是给AI一个模糊的需求描述,比如"我们想要分析销售团队的表现",然后看AI能不能设计出完整的技术方案和数据模型规划。接着是实施任务,给AI一份详细的技术规格书,看它能不能从零开始构建出完整的数据处理系统。最后是演进任务,给AI一个已经存在的数据系统,然后提出新的需求变更,看它能不能在不破坏现有功能的前提下,安全地更新和扩展系统。
这些任务的复杂程度远超我们的想象。一个典型的实施任务平均需要处理包含400多个字段的数据表,生成超过2000行代码,涉及30多个不同的文件,并且这些文件之间还存在复杂的依赖关系。这就像是要求AI不仅要会做菜,还要能够管理一个大型餐厅的整个后厨运作,协调各个岗位,确保每道菜都能按时保质地送到客人面前。
在数据分析方面,DAComp的设计更加开放和灵活,更接近真实的商业分析场景。传统的测试通常会给AI一个问题,然后看它能不能得出标准答案。但DAComp中的数据分析任务更像是真实的商业咨询项目,没有标准答案,需要AI自己制定分析策略,选择合适的方法,解读复杂的结果,并最终形成有实际价值的商业建议。
比如一个典型的分析任务可能是:"分析我们公司在不同地区和不同市场细分中的业务表现差异,找出表现最好的组合,并提出扩张建议。"这个任务看似简单,但实际上需要AI进行战略性思考、制定多步骤分析计划、处理复杂的数据关系、解读中间结果的含义,并最终综合出可操作的建议。这就像是要求AI不仅要会计算,还要能够像资深商业顾问一样进行战略思考和决策建议。
三、如何公平准确地评估AI的表现
评估AI在这些复杂任务上的表现是一个巨大的挑战。对于数据工程任务,研究团队采用了程序执行的方式来评估,就像是检验建筑质量一样,不仅要看图纸画得对不对,更要看实际建出来的房子能不能正常使用。
研究团队设计了三个层次的评估标准。第一个层次叫做组件得分,就像是检查房子的每个房间是否都按照设计要求建造完成。第二个层次叫做级联失败得分,更加严格,就像是检查整个房子的水电系统是否能够正常运作,如果上游的水管有问题,下游的所有设施都会受到影响。第三个层次叫做成功率,是最严格的标准,要求整个项目必须100%完美才算通过,就像是要求房子的每个细节都必须完美无缺。
对于数据分析任务的评估则更加复杂,因为这些任务本身就没有标准答案。研究团队开发了一套创新的分层评分体系,就像是评判艺术作品或者创意作品一样。他们不是简单地看AI给出的答案对不对,而是从多个维度来评估AI分析的质量。
这套评分体系包含六个维度。完整性维度检查AI是否全面回答了问题的所有方面,就像检查一份报告是否涵盖了所有要求的内容。准确性维度验证AI的计算和事实陈述是否正确,就像检查报告中的数据和引用是否准确。洞察性维度评估AI是否能够从数据中发现有价值的商业洞察,而不是仅仅罗列数字。可读性维度评估AI的输出是否清晰易懂,是否能够让商业决策者轻松理解。分析深度维度考察AI是否使用了合适的分析方法,是否进行了深入的探索。可视化维度则评估AI是否能够创建有效的图表来支持其分析结论。
为了确保评估的公平性和一致性,研究团队还引入了AI评委的概念。他们使用先进的大语言模型作为评委,按照精心设计的评分标准对AI的输出进行评估。这就像是在艺术比赛中使用专业评委一样,虽然不能做到绝对客观,但可以确保评估的专业性和一致性。研究团队还通过大量的验证实验确认了这种AI评委方法的可靠性,发现它与人类专家的评判结果高度一致。
四、令人意外的测试结果
当研究团队使用DAComp对目前最先进的AI模型进行测试时,结果令人惊讶。即便是被认为最强大的AI模型,在面对这些真实的企业级任务时也表现得相当吃力,远没有我们想象中那么能干。
在数据工程任务上,即便是表现最好的GPT-5模型,其综合得分也仅有43%左右,严格成功率更是只有20%。这意味着在10个真实的数据工程项目中,AI只能完美完成2个,其余8个都会存在各种问题。这就像是一个刚毕业的工程师,虽然基础知识不错,但在处理复杂实际项目时还是会力不从心。
更有趣的是,研究团队发现AI在组件级别的表现往往还不错,比如单独写一个SQL查询语句时准确率可能达到60-70%,但一旦需要协调多个组件形成完整系统时,性能就会急剧下降。这种现象被研究团队称为"管道编排瓶颈",就像是一个乐队中每个乐手单独演奏都很不错,但一起合奏时就乱套了。
在数据分析任务上,AI的表现同样不尽如人意。即便是最强的模型,综合得分也很少超过50%,这意味着AI生成的分析报告中有一半以上的内容存在问题。研究团队发现,AI在执行计算方面表现相对较好,就像是一个很好的计算器,但在战略性思考、洞察发现和结果解读方面明显不足。
特别值得注意的是,研究团队发现了一种有趣的现象,他们称之为"计算器行为"。一些在推理能力方面表现出色的AI模型,比如专门为数学和逻辑推理优化的模型,虽然能够准确计算出各种数字和统计结果,但在将这些数字转化为有意义的商业洞察方面却表现糟糕。这就像是一个数学天才,虽然能够快速准确地完成各种复杂计算,但不知道如何将计算结果应用到实际的商业决策中。
五、AI到底卡在了哪些环节
通过深入分析AI的失败案例,研究团队发现了几个关键的瓶颈点。在数据工程方面,最大的问题是依赖关系管理。现代的数据系统就像是一个复杂的工厂流水线,每个环节都依赖于前面环节的输出,而AI经常搞错这些依赖关系。比如它可能会让步骤B依赖于步骤C的结果,而步骤C又需要步骤B的输出,形成循环依赖,导致整个系统无法运行。
另一个主要问题是SQL遗漏。随着数据处理层次的提高,从基础的数据清理到高级的业务逻辑实现,AI遗漏必要代码的概率显著增加。在基础层面,AI可能只会遗漏10%的必要代码,但在高级业务逻辑层面,这个比例可能上升到40%以上。这就像是建房子时,地基打得还不错,但到了装修阶段就开始丢三落四。
在数据分析方面,AI的主要问题集中在三个阶段。首先是规划阶段,AI经常不能全面理解业务需求,导致分析方向偏离实际需要。这就像是医生没有全面了解病人症状就开始治疗一样。其次是执行阶段,虽然AI的计算能力不错,但经常在复杂的多步骤分析中出错,特别是在需要综合考虑多个因素时。最后是解读阶段,这是AI表现最差的环节,它往往不能将分析结果转化为有意义的商业洞察和可操作的建议。
研究团队还发现了一个有趣的现象,叫做"中等规模编辑困境"。在修改现有代码时,AI处理小幅修改(比如修改几行代码)和大幅修改(比如重写整个模块)的效果都还不错,但对于中等规模的修改(比如修改几十行代码)表现最差。这是因为小修改通常比较直观,大修改往往涉及重复性的模板代码,而中等规模的修改往往涉及最复杂的业务逻辑变更,需要深入理解代码的语义和业务含义。
六、不同类型分析任务的难度差异
研究团队还深入分析了不同类型数据分析任务的难度差异,发现了一个清晰的难度梯度。他们将数据分析任务分为五个类型,按照难度从低到高排列。
描述性分析是最容易的,就像是回答"发生了什么"这样的问题。比如计算各个地区的销售额,或者统计不同产品类别的市场占有率。AI在这类任务上表现相对较好,因为主要涉及基础的数据汇总和计算。
诊断性分析难度明显增加,需要回答"为什么会发生"这样的问题。比如分析某个地区销售下滑的原因,或者探索客户流失的关键因素。这类任务需要AI进行更深入的数据挖掘和因果关系推理。
战略性分析是最困难的,需要回答"我们应该怎么做"这样的问题。比如制定市场扩张策略,或者优化产品组合。这类任务不仅需要准确的数据分析,更需要商业判断和战略思维。
模式识别任务介于中等难度,主要是发现数据中隐藏的规律和关联。比如识别客户行为模式,或者发现产品销售的季节性规律。
客户分群任务也属于中等难度,主要是根据不同特征对客户或产品进行分类。比如根据购买行为对客户进行细分,或者根据性能特征对产品进行分组。
研究结果显示,AI在描述性分析上的表现明显优于其他类型,而在诊断性和战略性分析上的表现相对较差。这个发现很有启发性,说明目前的AI更像是一个高效的数据计算器,而不是真正的数据分析师或商业顾问。
七、中英文能力对比
研究团队还专门测试了AI在处理中文数据分析任务时的表现,发现了一些有趣的现象。他们专门创建了DAComp的中文版本(DAComp-zh),包含了同样复杂度的中文数据分析任务。
总体而言,AI在中文任务上的表现与英文任务相当,没有显著差异。这说明语言本身不是主要瓶颈,AI面临的核心挑战是分析思维和业务理解能力,而不是语言理解能力。然而,研究团队也发现,在一些需要深入文化背景理解的任务中,AI的表现会有所下降。比如在分析中国特有的商业模式或消费习惯时,AI经常不能准确把握其中的微妙之处。
这个发现对于中国企业考虑使用AI进行数据分析具有重要意义。虽然语言不是障碍,但AI对于本土商业环境和文化背景的理解仍然有限,在制定本土化策略时需要人类专家的参与和指导。
八、技术评估方法的创新
DAComp的一个重要贡献是开发了一套全新的AI评估方法,特别是对于开放性任务的评估。传统的AI测试通常只有标准答案,就像选择题一样,答对了就是100分,答错了就是0分。但现实中的数据分析任务往往没有标准答案,更像是作文或者艺术创作,需要更加细致和专业的评估方法。
研究团队开发的分层评分体系就像是高考作文的评分标准,不仅看结果,更看过程和质量。他们为每个分析任务设计了详细的评分细则,明确规定了什么样的分析方法是可接受的,什么样的结论是有价值的,什么样的表达是清晰的。
更重要的是,他们解决了一个长期困扰AI评估的问题:如何公平评估那些没有预先设想到的解决方案。在传统测试中,如果AI使用了一种全新的分析方法,评估系统往往不知道如何打分。DAComp通过引入方法论评估的概念,即使AI使用了完全不同的分析路径,只要方法科学合理,执行正确,结论有价值,就能获得相应的分数。
为了验证这套评估方法的可靠性,研究团队进行了大规模的人机对比实验。他们让人类专家和AI评委同时对数千个分析报告进行评分,发现两者的一致性非常高,相关系数超过0.8。这说明AI评委确实能够像人类专家一样进行专业评估,而且更加一致和高效。
九、对企业数字化转型的启示
DAComp的研究结果对于正在进行数字化转型的企业具有重要启示。首先,它提醒我们不要过度高估AI的当前能力。虽然AI在某些特定任务上表现出色,但在复杂的端到端业务流程中仍然需要大量人工干预和监督。
其次,研究结果显示,AI更适合作为人类专家的助手,而不是替代者。在数据工程方面,AI可以帮助快速生成代码框架和处理标准化任务,但复杂的系统架构设计和业务逻辑实现仍然需要经验丰富的工程师。在数据分析方面,AI可以快速完成基础的数据计算和图表生成,但深入的业务洞察和战略建议仍然需要资深分析师的参与。
研究团队特别强调,企业在部署AI数据工具时需要建立完善的质量控制机制。由于AI容易在复杂任务中出现各种错误,特别是在依赖关系管理和结果解读方面,企业需要设置多层检查点,确保AI生成的代码能够正常运行,分析结论能够指导实际决策。
另外,研究结果也提示企业需要重新思考人才培养策略。未来的数据工程师和数据分析师需要更多地承担系统架构师和业务顾问的角色,专注于那些需要创造性思维和战略判断的高价值工作,而将标准化的代码实现和基础计算交给AI来处理。
十、未来研究方向和改进空间
虽然当前AI在企业级数据任务上的表现不够理想,但研究团队也指出了几个有希望的改进方向。首先是增强AI的系统性思维能力。目前的AI模型在处理单个任务时表现不错,但在协调多个任务形成完整系统时就会出现问题。未来的研究可能需要专门训练AI的项目管理和系统集成能力。
其次是提高AI的商业理解能力。目前的AI更像是一个技术专家,对代码和算法很熟悉,但对商业逻辑和业务流程的理解有限。未来可能需要专门的商业AI训练,让AI更好地理解不同行业的特点和需求。
研究团队还提出了一个有趣的想法,就是开发专门的数据智能AI,而不是使用通用的大语言模型。这些专门的AI可能会在数据处理和分析方面表现更好,就像专业工具通常比万能工具更高效一样。
另一个重要的研究方向是人机协作模式的优化。既然AI和人类各有优势,如何设计最佳的协作流程,让AI负责它擅长的部分,人类负责需要创造性和判断力的部分,将是一个重要的研究课题。
研究团队也计划继续扩展DAComp基准,增加更多类型的任务和更多的评估维度。他们特别希望能够加入实时数据处理、多模态数据分析、以及更加复杂的商业场景模拟,以便更全面地评估AI的数据智能能力。
说到底,DAComp的研究揭示了一个重要事实:AI的发展虽然迅速,但在复杂的企业级应用中仍然有很大的改进空间。这并不意味着AI无用,而是提醒我们需要更加理性地看待AI的能力边界,在充分发挥AI优势的同时,也要认识到人类专业知识的不可替代价值。对于企业来说,关键不是盲目追求AI自动化,而是找到人机协作的最佳平衡点,让技术真正服务于商业目标。这项研究为我们提供了宝贵的参考基准,帮助我们更准确地评估和部署AI数据工具,推动数字化转型的健康发展。
Q&A
Q1:DAComp测试发现AI在数据工程上表现如何?
A:即使是最强的GPT-5模型在数据工程任务上综合得分也只有43%,严格成功率仅20%。这意味着在10个真实项目中,AI只能完美完成2个,其余都存在问题。主要瓶颈在于无法有效协调多个组件形成完整系统。
Q2:为什么AI在数据分析上也表现不佳?
A:AI在数据分析上最高得分也很少超过50%。主要问题是AI更像"计算器",虽然计算准确但缺乏战略思维。它在执行计算方面还不错,但在规划分析策略、发现商业洞察和提出可操作建议方面明显不足。
Q3:DAComp与其他AI测试有什么不同?
A:DAComp是首个测试完整数据智能生命周期的基准。不同于只测试单个代码片段的传统测试,DAComp包含210个企业级任务,涉及数千行代码的完整系统构建,更接近真实工作场景。它同时评估数据工程的系统构建能力和数据分析的开放性推理能力。





京公网安备 11011402013531号