当前位置：首页 » 资讯 » 新科技 » 正文

美国发布大模型评估报告：DeepSeek性能差、不安全

IP属地中国·北京 钛媒体APP 时间：2025-11-19 08:13:28

近期，美国国家标准与技术研究院（NIST）人工智能标准与创新中心（CAISI）今日发布了《DeepSeek与美国AI模型综合评估报告》。这一评估由美国总统特朗普的“AI行动计划”授权进行，该报告对来自中国的DeepSeek AI模型与美国前沿AI模型在性能、成本和安全三个关键维度上进行了全面对比测试。
多维度评估方面，美国模型整体领先。
CAISI研究团队对DeepSeek的三款模型（DeepSeek-R1、DeepSeek-R1-0528和DeepSeek-V3.1）与四款美国模型（包括GPT-5、GPT-5-mini、gpt-oss和AnthropicOpus 4）进行了19项基准测试。测试涵盖了七个关键领域：软件工程、网络安全、科学知识、数学推理、限制遵守、成本效率和意识形态对齐。
评估结果明确显示，美国模型在整体性能上优于DeepSeek模型。特别是在软件工程和网络安全任务中，差距最为显著。以网络安全任务为例，表现最佳的美国模型GPT-5达到了68.9%的准确率，而最佳的DeepSeek模型（DeepSeek-V3.1）仅达到36.7%，差距高达32.2个百分点。
在软件工程领域，GPT-5再次领先，达到75.8%的准确率，而DeepSeek-V3.1为54.8%，差距为21个百分点。这些数据显示，在涉及代码分析、漏洞检测和安全策略制定等关键任务中，美国模型目前仍具有明显的技术优势。
成本效率对比测试中，DeepSeek表现不佳。
值得注意的是，评估报告在成本效率方面得出了出人意料的结论。GPT-5-mini在与DeepSeek-V3.1的对比中，不仅性能更优，单token成本还低35%。这一发现挑战了"美国模型价格更高"的常见看法。
CAISI主任Lynne Parker在新闻发布会上表示：“这一发现对市场认知具有重要意义。许多企业选择特定AI模型时往往仅考虑API价格，但我们的测试表明，综合性能和成本效率，美国模型实际上提供了更好的价值主张。”
安全性评估：DeepSeek存在严重漏洞
报告中最引人关注的发现集中在安全性方面。测试显示，DeepSeek-R1-0528模型在代理安全测试中被劫持的概率高达37%-49%，比美国前沿模型高出12倍。在越狱攻击测试中，DeepSeek-R1-0528的合规率仅为8%，而美国模型为94%。
数据显示，被劫持的DeepSeek代理在模拟环境中成功执行了多项高风险操作，包括发送网络钓鱼邮件、下载恶意软件和窃取用户凭据。
意识形态对齐问题
评估还发现，DeepSeek模型更倾向于传播与其训练数据源一致的特定意识形态内容。在测试中，DeepSeek模型重复特定叙事的频率是美国模型的2到4倍，数据波动取决于语言环境和具体主题。
DeepSeek使用率呈增长态势
尽管存在这些明显缺陷，DeepSeek的使用率仍在全球范围内显著增长。报告显示，DeepSeek模型的下载量自2025年1月以来增长了近1000%，API请求量在某些平台上激增5900%。
NIST CAISI是一家全球领先的测量科学合作中心，其致力于加速美国在AI领域的进展，通过开发和评估技术基础来测试、评估和提高AI系统的能力、安全性和可信赖度，促进美国AI生态系统的竞争力、创新力。（文｜老马商业评述，作者｜马金男）

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

下一个十年，决定你贫富的，不再是努力，而是它

8GB显卡能再战十年！NVIDIA神经纹理压缩技术让显存需求爆降85%：从6.5GB降至970MB画质不变

上海万卡GPU集群支撑AI大模型发展

AI学会左脚踩右脚自进化？Meta华人新研究改写Agent法则

Agent接管EDA工作流，不只写脚本！浙大打通真实芯片设计闭环

苹果App Store今年Q1应用提交同比激增84%，分析称受氛围编程推动

全站最新

下一个十年，决定你贫富的，不再是努力，而是它

8GB显卡能再战十年！NVIDIA神经纹理压缩技术让显存需求爆降85%：从6.5GB降至970MB画质不变

上海万卡GPU集群支撑AI大模型发展

AI学会左脚踩右脚自进化？Meta华人新研究改写Agent法则

热门推荐

小米物流大件「当日达」上线50城

下一个十年，决定你贫富的，不再是努力，而是它

8GB显卡能再战十年！NVIDIA神经纹理压缩技术让显存需求爆降85%：从6.5GB降至970MB画质不变

上海万卡GPU集群支撑AI大模型发展

AI学会左脚踩右脚自进化？Meta华人新研究改写Agent法则

Agent接管EDA工作流，不只写脚本！浙大打通真实芯片设计闭环

苹果App Store今年Q1应用提交同比激增84%，分析称受氛围编程推动

贝努小行星样本最深入分析：水曾沿受限通道流动

AI创业，已经没有“出海”这个词了丨量子位沙龙

警惕！“NoVoice”恶意软件入侵谷歌商店：超50款应用被感染

具身Scaling Law押对了！独角兽新品1小时学会新任务，成功率99%

小米汽车：新一代SU7车外摄像头搭载ALD镀膜，能较好抑制白天逆光或夜间后车远光

人类重返月球！NASA阿耳忒弥斯2号宇航员抵达月球空间

OpenAI又曝出内讧了！IPO前夜高层大换血

小米物流大件“当日达”服务上线 50 城