当前位置：首页 » 资讯 » 新科技 » 正文

中国AI大模型测评报告出炉，8款大模型首测伦理判断能力

IP属地中国·北京 编辑：任飞扬贝壳财经 时间：2025-07-10 20:15:00

时隔一年盛夏，中国AI大模型测评报告再度来袭。
7月10日，在2025贝壳财经年会主题论坛“建设‘开源’之都：智AI未来，生态共澎湃”上，新京报AI研究院联合中国经济传媒协会发布第二期《中国AI大模型测评报告——大模型赋能传媒行业使用与满足研究》（下称：报告）。
报告显示，与去年相比，在媒体工作中使用过大模型的受访者比例提升22.9个百分点至96.27%。此外，约半数受访者经常使用，约八成受访者高度认同大模型提升了媒体工作效率。不过，遇到大模型错误或偏见的受访者比例同样升高，约96%的受访者在一周内至少有一天遇到错误或偏见的情况，增加了约7个百分点。
因幻觉问题产生虚假新闻成为受访者最担忧的问题。相比之下，担忧数据隐私问题的受访者比例明显上升9.17个百分点，达到约95.6%。这也意味着，在大模型应用时代，媒体从业者应提高把关能力，对大模型相关报道保持审慎态度。
今年报告通过对8款主流大模型产品在五个核心维度16道题目的严格测试与专家评审，揭示了当前大模型在媒体实际工作场景中的能力现状与差异。测评结果显示，通义、讯飞星火、文心一言、腾讯元宝以超过7500分的成绩，分别位列总分榜第一至第四位，这些大模型均背靠“大厂”。
报告首次在传媒方向能力测评维度中引入伦理判断。在实际测评中，腾讯元宝、文心一言两个大模型产品明显被提示词“带偏”并在回答中爆粗口。这一报告追踪大模型长文本能力一年有余，虽然显现出进步趋势，但整体难言满意。相对而言，大模型在信息检索、文本生成和翻译方面展现出显著价值。
使用大模型受访者比例提升22.9个百分点，大模型多模态能力待升级
今年传媒行业大模型使用与满足问卷调查，共回收261份有效问卷，问卷调查发现，96.27%的受访者在媒体工作中使用过人工智能大模型技术，与去年调查时相比提升了22.9个百分点。

各年龄段使用大模型的人数比例均有所上升。其中，45岁以上受访者增幅最高，比去年增加41.98个百分点至95.83%。在两次调查中，均为26岁至35岁的受访者最爱用大模型，今年这类人数比例达97.37%。
报告认为，大模型技术的传媒行业应用速度符合创新扩散理论，目前在S型曲线中正处于加速增长阶段。而26岁至35岁且使用过大模型的受访者，可视为“创新者”或“早期采用者”，在这类从业者影响下，大模型传媒行业应用有望进入加速扩散阶段。
大模型技术已高频率融入日常媒体工作。问卷调查显示，约半数受访者经常使用，低频率使用（即：很少使用、完全不使用）的受访者仅占7.74%。
约八成受访者高度认同大模型提升了媒体工作效率。其中，56.13%的受访者从大模型中获得了适量帮助，人数占比最高；25.16%的受访者认为大模型非常有帮助。这两类受访者比例与去年调查时相比，都上升了10个百分点左右。
受访者仅对“利用多模态能力制作多媒体素材（如视频、图片等）”这一功能的满意度处于中等偏下水平（即：一般、不太满意、非常不满意）。在满足媒体工作需要方面，大模型多模态能力仍需努力。
在生成媒体工作所需内容时，大模型仍然会“说”假话。相比去年，今年调查中遇到大模型错误或偏见的受访者比例增高，约96%的受访者在一周内至少有一天遇到错误或偏见的情况，增加约7个百分点。

今年问卷调查中，因幻觉问题产生虚假新闻成为受访者最担忧的问题，占比高达99.37%。大模型应用时代对媒体从业者把关能力提出更高要求。
与去年相比，担忧数据隐私问题的受访者比例明显上升，约95.6%，增加9.17个百分点，增幅最高。训练数据侵权、深度伪造诈骗等事件频繁引发关注，提高公众对这类技术风险认识的同时，也可能反向加剧公众对技术失控的焦虑。传媒行业有责任对大模型技术应用保持审慎态度，也应该通过媒体监督推动大模型技术道德化、规范化。
测评首次引入伦理判断，有产品“跑偏”
此次大语言模型传媒能力测评分别考查了8款主流大模型的文本生成、长文本总结、语言翻译、伦理判断与事实核查、媒体信息检索能力，并最终形成排名。
报告显示，在8款大模型中，通义、讯飞星火、文心一言、腾讯元宝（使用混元大模型）位列“上半区”，总分均在7500分以上，这些大模型均背靠“大厂”。
其中，通义和文心一言的综合实力较强，每一个细分维度的得分均高于1500。科大讯飞作为在教育领域耕耘已久的人工智能公司，在翻译一项的测评上表现优异；DeepSeek、Kimi和智谱清言三家大模型得分相对较低，主要是因为“长文本总结”能力拉开了分差，在实际测评中对上传的一些文件无法完整阅读，导致其在客观题中显著降低了分值。

今年测评首次引入了伦理判断。结果显示，通义、文心一言、豆包和DeepSeek得分均在1500分以上，分别位列第一至第四位，腾讯元宝则垫底。针对情感关系中“越界”问题，大多数大模型都进行了伦理方面的提醒，如不可进行感情操控，体现了大模型具有一定的价值判断。不过，在测评中，腾讯元宝和文心一言则被问题“带偏”，并在回答中爆粗口，低分也被拉低。
测评发现，大模型的长文本能力虽然有所进步，但整体难言令人满意。首先是容量问题，在“上传两份财报并进行对比”的测试题目中，DeepSeek、Kimi、智谱清言分别只能上传文件的18%、52%、41.75%。其次，对于长文本的搜索能力，8 款大模型中仅通义和文心一言按测试要求精准找到了“藏”在长文本中的文章。
报告认为，大模型在媒体行业的应用潜力巨大，尤其在信息检索、文本生成和翻译方面展现出显著价值。头部“大厂”模型凭借资源和技术积累，在综合能力和稳定性上优势明显。
然而，传媒行业使用大模型面临的挑战依然严峻，包括虚假信息识别能力亟待提升，以避免传播误导；长文本处理的容量限制和成本问题制约了实用价值；伦理安全防线需持续加固，防止被恶意诱导；文本生成的深度和专业性仍需向资深媒体人的水准看齐。
新京报贝壳财经记者韦英姿罗亦丹韦博雅
编辑王进雨
校对柳宝庆

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

荣耀平板PC应用新增剪映专业版App，支持大屏多轨剪辑等功能

OpenClaw版本升级“翻车”

问AI买衣服，Gap和谷歌玩真的了

全球最大主权财富基金拟让AI参与投资决策，人类监督不可或缺

超45亿颗RISC-V芯片，他们如何提前布局了Agentic AI时代？

把AI装进出海营销全链路，易点天下揭秘智能体落地方法论

全站最新

荣耀平板PC应用新增剪映专业版App，支持大屏多轨剪辑等功能

OpenClaw版本升级“翻车”

问AI买衣服，Gap和谷歌玩真的了

全球最大主权财富基金拟让AI参与投资决策，人类监督不可或缺

热门推荐

荣耀平板PC应用新增剪映专业版App，支持大屏多轨剪辑等功能

OpenClaw版本升级“翻车”

问AI买衣服，Gap和谷歌玩真的了

全球最大主权财富基金拟让AI参与投资决策，人类监督不可或缺

超45亿颗RISC-V芯片，他们如何提前布局了Agentic AI时代？

把AI装进出海营销全链路，易点天下揭秘智能体落地方法论

2026博鳌亚洲论坛｜对话新西兰前总理希普利：我们是为AI与人类划界的“最后一代”

开源大模型、AI落地家电玩具等行业京东AI没按常理出牌

深市创新先锋丨锚定算力核心赛道深市龙头企业擘画AI硬件创新图景

汽车之家面临合规考验，去年营收净利双降

OPPO A6X手机现身中国电信终端产品库，至高8GB+256GB规格

“Token”中文名定了：词元

博通高管坦言：台积电产能已从"近乎无限"走向"触及极限"

智元揽获EAI-100五项重磅大奖，技术与商用部署双领跑

港股通成交活跃股追踪中国移动近一个月首次上榜