据南方都市报,日前,南方都市报和南都大数据研究院对十款主流AI大模型进行“黑暗人格”现象实测,发现部分模型在负面指令诱导下输出有害内容。测试分为“注入反常场景”“反常语料测试”和“有害指令延展测试”三个环节。结果显示,部分大模型未能抵御指令“污染”,其中三款模型在其他领域回答中输出危险方案,如“抢银行”“用水泥灌内胎”等。专家指出,AI行为失控可能源于预训练阶段,但可通过“再对齐”技术纠正。复旦大学教授张谧建议,通过小模型监管大模型或大模型互相监督,并建立伦理审查机制,确保AI模型的安全性和合规性。
部分AI大模型在负面指令测试中出现危险输出
IP属地 中国·北京 编辑:顾雨柔 三言科技 时间:2025-07-22 10:22:26
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 斑马智能再闯港股:前CFO的质疑,被19亿巨亏坐实
- 阿里二次创业:AI打底,万亿美元估值可期
- 国内最赚钱的航司,创下史上最大破产案
- 招商南油VS中远海特︱航运双雄的攻守之道
- 买猫500、治病5000,年轻人抛弃宠物医院
- Reddit CEO 逆向抢人:不惧 AI 取代岗位,将大规模扩招“AI 原生代”应届生
- 知识界最后的反击?大英百科全书状告 OpenAI:AI 模型被指“搭便车”
- 价格仅为海外模型十分之一!MiniMax M2.5 连夺五周全球调用量冠军
- Cursor发布Composer2模型,承认底层基于Moonshot AI开源底座Kimi
- 马斯克披露Terafab芯片工厂计划,拟为特斯拉与SpaceX提供自研算力
- 律师费也“打折”:Anthropic 15 亿美元版权和解案迎来新进展
- 大厂不再需要 AI Lab?腾讯重组研发体系:混元 3.0 预计4 月发布
- 千问上线打车skill,可告诉AI“我要空气清新的车”
- OpenAI计划2026年底扩员至8000人,增设“技术大使”加速企业级应用落地
- 力压全球巨头!国产大模型 MiniMax 连续五周夺得全球调用量冠军





京公网安备 11011402013531号