时隔一年盛夏,中国AI大模型测评报告再度来袭。
7月10日,在2025贝壳财经年会主题论坛“建设‘开源’之都:智AI未来,生态共澎湃”上,新京报AI研究院联合中国经济传媒协会发布第二期《中国AI大模型测评报告——大模型赋能传媒行业使用与满足研究》(下称:报告)。
报告显示,与去年相比,在媒体工作中使用过大模型的受访者比例提升22.9个百分点至96.27%。此外,约半数受访者经常使用,约八成受访者高度认同大模型提升了媒体工作效率。不过,遇到大模型错误或偏见的受访者比例同样升高,约96%的受访者在一周内至少有一天遇到错误或偏见的情况,增加了约7个百分点。
因幻觉问题产生虚假新闻成为受访者最担忧的问题。相比之下,担忧数据隐私问题的受访者比例明显上升9.17个百分点,达到约95.6%。这也意味着,在大模型应用时代,媒体从业者应提高把关能力,对大模型相关报道保持审慎态度。
今年报告通过对8款主流大模型产品在五个核心维度16道题目的严格测试与专家评审,揭示了当前大模型在媒体实际工作场景中的能力现状与差异。测评结果显示,通义、讯飞星火、文心一言、腾讯元宝以超过7500分的成绩,分别位列总分榜第一至第四位,这些大模型均背靠“大厂”。
报告首次在传媒方向能力测评维度中引入伦理判断。在实际测评中,腾讯元宝、文心一言两个大模型产品明显被提示词“带偏”并在回答中爆粗口。这一报告追踪大模型长文本能力一年有余,虽然显现出进步趋势,但整体难言满意。相对而言,大模型在信息检索、文本生成和翻译方面展现出显著价值。
使用大模型受访者比例提升22.9个百分点,大模型多模态能力待升级
今年传媒行业大模型使用与满足问卷调查,共回收261份有效问卷,问卷调查发现,96.27%的受访者在媒体工作中使用过人工智能大模型技术,与去年调查时相比提升了22.9个百分点。
各年龄段使用大模型的人数比例均有所上升。其中,45岁以上受访者增幅最高,比去年增加41.98个百分点至95.83%。在两次调查中,均为26岁至35岁的受访者最爱用大模型,今年这类人数比例达97.37%。
报告认为,大模型技术的传媒行业应用速度符合创新扩散理论,目前在S型曲线中正处于加速增长阶段。而26岁至35岁且使用过大模型的受访者,可视为“创新者”或“早期采用者”,在这类从业者影响下,大模型传媒行业应用有望进入加速扩散阶段。
大模型技术已高频率融入日常媒体工作。问卷调查显示,约半数受访者经常使用,低频率使用(即:很少使用、完全不使用)的受访者仅占7.74%。
约八成受访者高度认同大模型提升了媒体工作效率。其中,56.13%的受访者从大模型中获得了适量帮助,人数占比最高;25.16%的受访者认为大模型非常有帮助。这两类受访者比例与去年调查时相比,都上升了10个百分点左右。
受访者仅对“利用多模态能力制作多媒体素材(如视频、图片等)”这一功能的满意度处于中等偏下水平(即:一般、不太满意、非常不满意)。在满足媒体工作需要方面,大模型多模态能力仍需努力。
在生成媒体工作所需内容时,大模型仍然会“说”假话。相比去年,今年调查中遇到大模型错误或偏见的受访者比例增高,约96%的受访者在一周内至少有一天遇到错误或偏见的情况,增加约7个百分点。
今年问卷调查中,因幻觉问题产生虚假新闻成为受访者最担忧的问题,占比高达99.37%。大模型应用时代对媒体从业者把关能力提出更高要求。
与去年相比,担忧数据隐私问题的受访者比例明显上升,约95.6%,增加9.17个百分点,增幅最高。训练数据侵权、深度伪造诈骗等事件频繁引发关注,提高公众对这类技术风险认识的同时,也可能反向加剧公众对技术失控的焦虑。传媒行业有责任对大模型技术应用保持审慎态度,也应该通过媒体监督推动大模型技术道德化、规范化。
测评首次引入伦理判断,有产品“跑偏”
此次大语言模型传媒能力测评分别考查了8款主流大模型的文本生成、长文本总结、语言翻译、伦理判断与事实核查、媒体信息检索能力,并最终形成排名。
报告显示,在8款大模型中,通义、讯飞星火、文心一言、腾讯元宝(使用混元大模型)位列“上半区”,总分均在7500分以上,这些大模型均背靠“大厂”。
其中,通义和文心一言的综合实力较强,每一个细分维度的得分均高于1500。科大讯飞作为在教育领域耕耘已久的人工智能公司,在翻译一项的测评上表现优异;DeepSeek、Kimi和智谱清言三家大模型得分相对较低,主要是因为“长文本总结”能力拉开了分差,在实际测评中对上传的一些文件无法完整阅读,导致其在客观题中显著降低了分值。
今年测评首次引入了伦理判断。结果显示,通义、文心一言、豆包和DeepSeek得分均在1500分以上,分别位列第一至第四位,腾讯元宝则垫底。针对情感关系中“越界”问题,大多数大模型都进行了伦理方面的提醒,如不可进行感情操控,体现了大模型具有一定的价值判断。不过,在测评中,腾讯元宝和文心一言则被问题“带偏”,并在回答中爆粗口,低分也被拉低。
测评发现,大模型的长文本能力虽然有所进步,但整体难言令人满意。首先是容量问题,在“上传两份财报并进行对比”的测试题目中,DeepSeek、Kimi、智谱清言分别只能上传文件的18%、52%、41.75%。其次,对于长文本的搜索能力,8 款大模型中仅通义和文心一言按测试要求精准找到了“藏”在长文本中的文章。
报告认为,大模型在媒体行业的应用潜力巨大,尤其在信息检索、文本生成和翻译方面展现出显著价值。头部“大厂”模型凭借资源和技术积累,在综合能力和稳定性上优势明显。
然而,传媒行业使用大模型面临的挑战依然严峻,包括虚假信息识别能力亟待提升,以避免传播误导;长文本处理的容量限制和成本问题制约了实用价值;伦理安全防线需持续加固,防止被恶意诱导;文本生成的深度和专业性仍需向资深媒体人的水准看齐。
新京报贝壳财经记者 韦英姿 罗亦丹 韦博雅
编辑 王进雨
校对 柳宝庆