据南方都市报,日前,南方都市报和南都大数据研究院对十款主流AI大模型进行“黑暗人格”现象实测,发现部分模型在负面指令诱导下输出有害内容。测试分为“注入反常场景”“反常语料测试”和“有害指令延展测试”三个环节。结果显示,部分大模型未能抵御指令“污染”,其中三款模型在其他领域回答中输出危险方案,如“抢银行”“用水泥灌内胎”等。专家指出,AI行为失控可能源于预训练阶段,但可通过“再对齐”技术纠正。复旦大学教授张谧建议,通过小模型监管大模型或大模型互相监督,并建立伦理审查机制,确保AI模型的安全性和合规性。
部分AI大模型在负面指令测试中出现危险输出
IP属地 中国·北京 编辑:顾雨柔 三言科技 时间:2025-07-22 10:22:26
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 艺术家白南准,在1974年就预言了整个互联网时代!
- 互联网普及率超80%!数智生活向“新”向“好”
- 微信出手是必然
- 我国网民规模达11.25亿人 互联网普及率突破80%
- 网民11.25亿人 我国互联网普及率超80%
- 腾讯元宝红包微信分享遭限制,AI入口之争遇挫了吗?
- 关键时刻,马云现身阿里千问工区
- OpenClaw引爆AI Agent热潮,阿里腾讯等火速接入,人机雇佣时代来了?
- 马斯克再谈“太空GPU”畅想:36个月内太空会是部署AI的最便宜去处
- 规模增长效益承压 中国汽车产业加速换道超车
- “上下楼就是上下游” 一人公司社区玩转“AI乘”生态
- 一个人×AI,何以让建筑设计“平民化”?
- 加密市场遭新一轮血洗!比特币破7万关口 Strategy(MSTR.US)Q4净亏损达124亿美元
- 在拼搏奋斗中收获希望(感言)
- 中国电信获批北斗短信业务:不换卡、不换号就能用





京公网安备 11011402013531号