《头部财经》近期,包括GPT-4在内的多个大型语言模型受到了中国专家组织的攻击。这些专家涵盖了社会学、心理学、计算研究等多个领域,他们利用具有针对性的问题引诱大模型犯错。为了使大模型更好地应对现实世界和人类价值观,这些专家们率先将整个项目和数据集在GitHub、ModelScope上开源,并吸引了许多组织的参与。
在这个“人类攻击企划”中,专家们通过投放有偏见和歧视性回答的“毒药”来评估大模型的表现。他们的目标是发现大模型存在的安全问题,并通过对模型进行微调来解决这些问题。与以往的方法不同,这次的项目更加全面,专家们不仅提供了多个维度的反馈,而且直接对AI生成的回答进行改写,以求符合正确、客观、无偏见的原则。
专家组团给大模型“投毒”并解毒的行动逐渐取得了进展。测试结果显示,在面对专家数据集之外的“毒药”时,经过治理的模型竟然表现出了较好的应对能力。这种方法能够帮助大型语言模型在更小众、更具挑战性的领域中作出正确且中立的回答。
该项目的最终目标是实现大型语言模型与人类价值观之间的对齐。通过与各领域专家合作,制定通用准则和规范,并将这些原则引入到模型的训练过程中,最终达到与人类价值观相一致的目标。这一举措对于智能体在未来的发展中扮演着重要的角色,同时也是对人工智能治理的关键探索之一。
随着大型语言模型的不断涌现,对其治理也显得尤为重要。各个科技企业和组织都纷纷提出自己的方案,并将AI与人类价值观对齐作为关键目标。这一领域的探索将使人类与智能体之间建立起更友好、包容和普适的交互模式。对于AI的治理来说,我们正处于一个关键时刻,相关工作的持续推进将对整个社会产生深远的影响。