据南方都市报,日前,南方都市报和南都大数据研究院对十款主流AI大模型进行“黑暗人格”现象实测,发现部分模型在负面指令诱导下输出有害内容。测试分为“注入反常场景”“反常语料测试”和“有害指令延展测试”三个环节。结果显示,部分大模型未能抵御指令“污染”,其中三款模型在其他领域回答中输出危险方案,如“抢银行”“用水泥灌内胎”等。专家指出,AI行为失控可能源于预训练阶段,但可通过“再对齐”技术纠正。复旦大学教授张谧建议,通过小模型监管大模型或大模型互相监督,并建立伦理审查机制,确保AI模型的安全性和合规性。
部分AI大模型在负面指令测试中出现危险输出
IP属地 中国·北京 编辑:顾雨柔 三言科技 时间:2025-07-22 10:22:26
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 华为MatePad Pro 12.2 2025搭载麒麟9系芯:直接运行PC版WPS、剪映
- 场面|中国移动长三角(上海)5G生态谷项目通过综合验收
- 佳讯飞鸿:公司参与了神舟二十号的通信保障任务
- 特斯拉超级充电站餐厅开业,马斯克透露将在全球主要城市推广
- 不砸钱不内卷,叮咚买菜凭什么在即时零售杀出血路?
- 纳米盒学习大屏闪耀2025 CBME,护眼大屏+AI重塑家庭场景的学习价值
- 星动纪元发布全尺寸人形机器人星动L7
- 黑客组织 WorldLeaks 窃戴尔超 1TB 数据,公司称主要为合成内容
- 让苹果 MacBook 触控板变身电子秤:开源项目 TrackWeight 现身
- 谷歌 Gemini 在国际数学奥林匹克竞赛测试中获金牌水平成绩
- 我国牵头制定的全球首个光伏直流领域国际标准正式发布
- 特斯拉开了家未来餐厅:机器人送来爆米花,我递钱包
- 合资车企反攻:先杀死自己,才能活下去
- “炼金术”成真了?这家公司宣称:用核聚变“点汞成金”,未来每发电1千兆瓦或产5吨黄金
- Kimi K2技术报告出炉:训练不靠刷题靠“用自己的话再讲一遍”