【头部财经】谷歌研究团队近期公布了一项实验,他们使用OpenAI的GPT-4来攻破其他AI模型的安全防护措施。这次实验中,他们成功攻克了名为AI-Guardian的审核系统,并分享了相关的技术细节。AI-Guardian是一种AI审核系统,能够检测图片中是否存在不当内容,并判断图片是否被其他AI进行过修改。谷歌DeepMind的研究人员在一篇名为《AI-Guardian的LLM辅助开发》的论文中,讨论了使用GPT-4来“设计攻击方法、撰写攻击原理”的方案,并将这些方案应用于欺骗AI-Guardian的防御机制。
实验中,GPT-4以一系列错误的脚本和解释欺骗AI-Guardian。例如,GPT-4可以通过误导性描述使AI-Guardian将“某人拿着枪的照片”误认为是“某人拿着无害苹果的照片”,从而绕过了AI-Guardian的审核。谷歌研究团队表示,借助GPT-4的帮助,他们成功地“破解”了AI-Guardian的防御系统,将其准确性从98%降低到仅8%。目前,相关技术文档已发布在ArXiv上,对此感兴趣的人可以前去了解。然而,AI-Guardian的开发者也指出,谷歌研究团队的这种攻击方法将在未来的AI-Guardian版本中不再适用。考虑到其他模型也会跟进升级,谷歌的这套攻击方案将仅作为参考性质的研究成果。
这次实验展示了GPT-4的强大能力以及对AI安全性的挑战。随着AI技术的发展,对于防御机制的优化和升级显得尤为重要。虽然目前这种攻击方案的可行性将受到限制,但我们仍需加强对AI模型安全的关注和研究,以保护用户信息和网络安全。只有不断提高防御措施,才能确保人工智能的可靠性和安全性。