当前位置：首页 » 资讯 » 新科技 » 正文

部分AI大模型在负面指令测试中出现危险输出

IP属地中国·北京 编辑：顾雨柔三言科技 时间：2025-07-22 10:22:26

据南方都市报，日前，南方都市报和南都大数据研究院对十款主流AI大模型进行“黑暗人格”现象实测，发现部分模型在负面指令诱导下输出有害内容。测试分为“注入反常场景”“反常语料测试”和“有害指令延展测试”三个环节。结果显示，部分大模型未能抵御指令“污染”，其中三款模型在其他领域回答中输出危险方案，如“抢银行”“用水泥灌内胎”等。专家指出，AI行为失控可能源于预训练阶段，但可通过“再对齐”技术纠正。复旦大学教授张谧建议，通过小模型监管大模型或大模型互相监督，并建立伦理审查机制，确保AI模型的安全性和合规性。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智能体网关风险！OpenClawc创始人回信确认360发现独家漏洞：攻击者可绕过权限获取

我国成功发射微厘空间02组卫星

年轻人需要一场“数字排毒”

ZimaCube 2 NAS整机海外推出，配置丰富售价799美元起

每天生成700万首歌，AI音乐“狂飙”，有人失业，有人无惧

小米米家儿童电动牙刷Pro上架，329元

全站最新

智能体网关风险！OpenClawc创始人回信确认360发现独家漏洞：攻击者可绕过权限获取

我国成功发射微厘空间02组卫星

年轻人需要一场“数字排毒”

ZimaCube 2 NAS整机海外推出，配置丰富售价799美元起

热门推荐

斑马智能再闯港股：前CFO的质疑，被19亿巨亏坐实

阿里二次创业：AI打底，万亿美元估值可期

国内最赚钱的航司，创下史上最大破产案

招商南油VS中远海特︱航运双雄的攻守之道

买猫500、治病5000，年轻人抛弃宠物医院

Reddit CEO 逆向抢人：不惧 AI 取代岗位，将大规模扩招“AI 原生代”应届生

知识界最后的反击？大英百科全书状告 OpenAI：AI 模型被指“搭便车”

价格仅为海外模型十分之一！MiniMax M2.5 连夺五周全球调用量冠军

Cursor发布Composer2模型，承认底层基于Moonshot AI开源底座Kimi

马斯克披露Terafab芯片工厂计划，拟为特斯拉与SpaceX提供自研算力

律师费也“打折”：Anthropic 15 亿美元版权和解案迎来新进展

大厂不再需要 AI Lab？腾讯重组研发体系：混元 3.0 预计4 月发布

千问上线打车skill，可告诉AI“我要空气清新的车”

OpenAI计划2026年底扩员至8000人，增设“技术大使”加速企业级应用落地

力压全球巨头！国产大模型 MiniMax 连续五周夺得全球调用量冠军