当前位置：首页 » 资讯 » 新科技 » 正文

斯坦福报告：AI透明度集体倒退！IBM夺冠，马斯克xAI垫底

IP属地中国·北京 DeepTech深科技 时间：2025-12-16 20:16:43

最近，美国斯坦福大学等团队发布了一份名为《2025 年基础模型透明度指数》（FMTI，The 2025 Foundation Model Transparency Index）的报告。其中，IBM 以透明度得分最高夺冠，xAI 和 Midjourney 则垫底。
该报告揭示了一种令人担忧的趋势：随着技术的发展，尽管基础模型在性能等各方面持续进步，但其在数据使用、模型训练和下游影响等方面的透明度却出现了集体倒退。
这是该报告自 2023 年以来发布的第三个年度版本，就像通过量化透明度为各大基础模型开发者做一次“体检”。
本次评估共包括 13 家基础模型公司，其中既有阿里巴巴、DeepSeek 和马斯克的 xAI 等首次纳入报告的企业，也有 IBM、OpenAI 等老牌科技巨头。为使评估更全面，今年的报告中还涵盖了数据获取、使用数据和监控等方面的新指标。

（The 2025 Foundation Model Transparency Index）
从报告的整体结果来看，尽管 2024 年报告显示模型透明度有短暂的改善，但 2025 年的报告指出，透明度指数正呈现倒退：各基础模型的平均得分从 2024 年的 58 分下降到 2025 年的 40 分，几乎与 2023 年报告首次发布时的水平相当（备注：100 分为满分）。
报告显示，公司在其旗舰模型的训练数据、训练计算以及模型部署后的使用和影响方面信息披露最为有限。尽管公司在模型能力评估和风险评估方面披露较多，但在方法透明度、第三方参与、可复现性和训练-测试数据重叠报告方面仍存在挑战。

（The 2025 Foundation Model Transparency Index）
从各公司的表现来看差异明显，其中 IBM 以 95 分获得透明度最高得分，xAI 和 Midjourney 得分最低，仅 14 分。中国的两家公司 DeepSeek 和阿里巴巴在透明度的得分则位于中下游。
可以看到的是，公司特征和透明度指数在某些程度上存在着一些有趣的关联，例如开放模型开发者、以企业为中心的 B2B 公司、自行准备透明度报告的公司以及签署欧盟 AI 法案通用目的 AI 行为准则的公司得分高于平均水平。

（The 2025 Foundation Model Transparency Index）
那么，透明度越高就意味着模型越好吗？
清华大学邱寒副教授告诉 DeepTech，“这里的透明度不等同于我们常识认为的开源，而是由一系列明确的打分表组成的量化指标——如果不按照这个指标披露相关的数据（而不是什么都没披露），那么这项指标得分就是 0。”

以阿里巴巴 Qwen 和 DeepSeek 得分均为 0 的使用数据、影响、部署后监控三项指标为例：它们都各自含有更详细的评测指标，得分为 0 并不等于什么都没有披露，而这些计算指标的方法与开源、安全、性能并不能直接划等号。
需要了解的是，透明或开源也并不意味着模型性能更好。从这份报告来看，透明度得分最高的模型（IBM 的 Granite 3.3），在实际应用场景种的性能表现并不是最顶尖的那批模型。
试想一下，如果有一个任务要做，你是会去选择微调 Qwen3 或 Claude 的 API，还是会因为透明度得分更高而选择 Granite 3.3？
邱寒认为，透明度是安全的前提，但必须明确不一定是报告中定义的透明：如果公司拒绝披露任何模型生产相关的信息，比如版权内容、隐私数据的滥用确实难以发掘和确认；模型的偏见和价值观更难评测，确实会给安全和治理带来一定的影响。更糟的是，一旦严重安全事故发生，还可能引发更粗暴的安全监管策略落地，反而进一步限制了大模型技术的进步。
该报告提到，随着全球政策制定者越来越多地要求某些类型的透明度，这项工作揭示了基础模型开发者的当前透明度状态，透明度可能如何变化，以及需要更积极的政策干预来解决哪些关键信息问题。
正如邱寒所指出的那样，黑盒模型的评测技术可以在一定程度上弥补不透明的问题，而当前的透明与否也只是暂时状态。随着模型落地的深化和监管机制的完善，最终目标是“公司不需完全公开，但模型行为可测、声明可证、安全可控”。
总之，表面上看公司信息披露程度影响透明度，但本质上这需要一种权责归属的清晰界定。通过这份报告对透明度倒退的警示，我们需要看到，未来需要构建一种综合的激励机制，来理解、评估并最终确保模型的安全与可信。
参考资料：
https://arxiv.org/abs/2512.10169
运营/排版：何晨龙

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

具身智能走到哪了：缺数据是共识，大模型“根基不稳”

一个模型控制机器人从头到脚所有运动，谷歌发布新一代机器人基础模型

见证创新力量！第二届“数龙杯”各项大奖依次揭晓

DeepSeek V4正式版来了！Agent能力大幅升级，Harness能力首次亮相

36氪独家｜曾爱玲入职B站担任AI视频生成业务负责人，向CEO陈睿汇报

第一到第六，全是中国大模型

全站最新

荣耀官宣韩寒出任“荣耀影像创想家”

全新红旗H7轿车亮相，家族式设计彰显霸气，混动系统助力绿色出行

智界V9四驱版实测：续航达成率近八成亏电油耗表现佳充电速度亮眼

15万级MG 07来袭！激光雷达配电磁悬架，舒适智能全拉满

热门推荐

DeepSeek今年已增资65%

中信金石、青岛啤酒等成立文化科技投资基金出资额10亿

演员寇占文已被限消

马斯克辟谣特斯拉考虑出售中国业务：假消息

雷军再发英文回应澎程装载能力：只有澎程能做到

广汽本田公布辅助驾驶系统专利

长鑫科技上市首周股价飙涨5倍

张小龙再退出三家粉笔关联公司

工信部：截至6月末5G基站总数达510.2万个，比上年末净增26.3万个

具身智能走到哪了：缺数据是共识，大模型“根基不稳”

一个模型控制机器人从头到脚所有运动，谷歌发布新一代机器人基础模型

见证创新力量！第二届“数龙杯”各项大奖依次揭晓

权益一口价9.48万元起，五菱扬光Pro正式上市：定义新能源大轻客高效时代

杰华特等在厦门成立新科技公司注册资本2亿

6.37亿诉讼揭开隐秘对赌，昔日“彩电大王”*ST康佳A迎来至暗时刻