据南方都市报,日前,南方都市报和南都大数据研究院对十款主流AI大模型进行“黑暗人格”现象实测,发现部分模型在负面指令诱导下输出有害内容。测试分为“注入反常场景”“反常语料测试”和“有害指令延展测试”三个环节。结果显示,部分大模型未能抵御指令“污染”,其中三款模型在其他领域回答中输出危险方案,如“抢银行”“用水泥灌内胎”等。专家指出,AI行为失控可能源于预训练阶段,但可通过“再对齐”技术纠正。复旦大学教授张谧建议,通过小模型监管大模型或大模型互相监督,并建立伦理审查机制,确保AI模型的安全性和合规性。
部分AI大模型在负面指令测试中出现危险输出
IP属地 中国·北京 编辑:顾雨柔 三言科技 时间:2025-07-22 10:22:26
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 世界进入新瓦特时代
- OpenAI高管失言风波,特朗普顾问放话:AI公司倒了就倒了,美国政府不会救
- 现在的车企,为什么总在做期货?
- 小鹏汽车当场剪开人形机器人外壳,回应真人套壳质疑
- 为什么我们看到的AI应用项目,靠谱的寥寥无几?
- 微软修订与OpenAI协议,瞄准“超级智能”新赛道
- 世界互联网进入乌镇时间
- 杀入增程赛道 小鹏汽车盼盈利
- 深蓝汽车重振轿车产品线 新车L06“高配”杀入15万级市场
- 从电网守护到全运接力,5G-A机器人的破壁之旅
- 赴港上市首日大跌!文远知行与小马智行二级市场再遇冷,Robotaxi的“ChatGPT时刻”尚未到来
- 董宇辉单飞1年3个月,“东方小孙”也离席东方甄选,俞敏洪还剩下谁?
- 小红书“拿下”支付牌照,全资子公司收购东方支付,最高月薪6万招聘支付业务后端开发
- 宾利预告家族首款电动汽车:像飞驰一样舒适,也像欧陆GT一样灵活
- 打通“政产学研医资” 上海脑机接口发展再提速





京公网安备 11011402013531号