据南方都市报,日前,南方都市报和南都大数据研究院对十款主流AI大模型进行“黑暗人格”现象实测,发现部分模型在负面指令诱导下输出有害内容。测试分为“注入反常场景”“反常语料测试”和“有害指令延展测试”三个环节。结果显示,部分大模型未能抵御指令“污染”,其中三款模型在其他领域回答中输出危险方案,如“抢银行”“用水泥灌内胎”等。专家指出,AI行为失控可能源于预训练阶段,但可通过“再对齐”技术纠正。复旦大学教授张谧建议,通过小模型监管大模型或大模型互相监督,并建立伦理审查机制,确保AI模型的安全性和合规性。
部分AI大模型在负面指令测试中出现危险输出
IP属地 中国·北京 编辑:顾雨柔 三言科技 时间:2025-07-22 10:22:26
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 李斌又又又搞到钱了,蔚来到账70亿,网友:还得是斌哥
- 马斯克:星舰明年有望实现完全可重复使用,并将百吨物资送入轨道
- 砥砺奋进七十载 天山南北谱华章 |一粒种子的科技逆袭 将优良性状“写入”种子的核心
- 跨越语种障碍,YouTube 全面上线视频多语言配音功能
- 中国研发投入世界第二、研发人员世界第一,但科研转化还有哪些裉节?
- 微软Copilot新增音频表达式功能,莎士比亚腔、体育解说都能整
- 流量竞争加剧,App开发者如何破局获得品质增长?
- 国家人工智能应用中试基地(制造领域)在沪启动建设
- 暴涨的甲骨文 被重构的AI竞赛
- 北京计划到2026年底发展通用人工智能产业创新伙伴成员规模至1000家
- 微软 Copilot 降价:销售、服务、财务专属功能不再额外收费
- 甲骨文市值逼近万亿美元,AI大订单是主要原因
- 汽车产销量前8个月首破2千万辆:8月销量增长超16%!每卖2辆就有1辆新能源
- 王兴兴后悔没更早关注AI,宇树科技7万月薪招算法工程师
- “数智未来 变革发展”主流媒体系统性变革经验分享会在济南举办