![]()
新智元报道
编辑:艾伦
随着现在的主流大模型都能轻松通过图灵测试,这个持续了数十年的标准开始逐渐过时。奥特曼和量子计算之父David Deutsch讨论得出了一个新的图灵测试2.0标准,可以更好地衡量究竟怎样AI才算拥有真正的智能。
在过去的一年里,如果你还在用图灵测试来评判一款大模型是否聪明,那可能已经有点跟不上节奏了。
从GPT-4、Claude 2、Gemini、LLaMA 3开始的这些模型,已经可以轻轻松松在图灵测试中拿到通行证。
有研究者甚至表示:图灵测试已经过时了。
只要模型在网上混得久一点、见多识广一点,就能骗过绝大多数人类评审。
问题是:一台会说话的机器,真的代表它理解你说的话吗?
在最近的Axel Springer颁奖典礼上,奥特曼和量子物理学家David Deutsch正面交锋,提出了一个新标准。
![]()
他们的对话中,一个大胆的提议浮出水面——图灵测试2.0。
图灵测试
1950年,图灵在那篇著名论文《计算机器与智能》(Computing Machinery and Intelligence)中设想:如果一台机器能通过文字交流骗过人类评审,让人以为它是另一个人,那么它就具备了智能。
![]()
这个标准在七十年前或许非常超前,但在今天的模型面前,已经有些不堪一击。
2023年底,UCSD的一项研究找来500名受访者与大模型对话,结果发现GPT-4在伪装成人类时胜率超过50%,而人类本身在这个测试中的识别率也不过如此。
Claude 2、LLaMA 3也都在类似实验中表现出色,顺利蒙混过关。
也就是说,按照图灵的标准,它们已经可以被认为是「有智能」的了。但这真的够了吗?
图灵测试2.0:
解出量子引力,再讲给我们听
在Axel Springer的颁奖典礼上,主持人提到奥特曼最喜欢的一本书是《无穷的开始:世界进步的本源》,于是主办方搞了个「惊喜连线」——作者David Deutsch出现在大屏幕上。
于是,一场关于AI是否真的「懂得思考」的对谈开始了。
Deutsch的核心观点是:真正的智能,应该能够创造新知识、提出新假设、解决新问题,甚至推翻旧认知。
奥特曼接话抛出了一个假设:
如果某个模型哪天解出了量子引力的问题,并且能清楚地告诉我们它是怎么想的、为啥这么选,那这是不是就能算是真正的智能?
Deutsch回答:是的。
奥特曼点头:「那我也同意用这个标准。」
一拍即合。奥特曼和Deutsch版图灵测试2.0诞生了。
David Deutsch简介
David Deutsch是个很特别的人。
![]()
他是量子计算理论的早期提出者之一,1985年就发表了关于「量子图灵机」的论文(Quantum theory, the Church-Turing principle and the universal quantum computer),为之后的量子计算模型打下基础。
![]()
但他更出圈的身份,是一位科学哲学布道者。
在《无穷的开始:世界进步的本源》里,他提出一个观点:人类文明的进步,来自于不断创造好解释(good explanations)。
![]()
而「好解释」的产生,正是智能的核心。
所以他在那场对谈中,不断强调「解释力」——不仅要得到答案,还要能说清楚它为什么成立。否则只能算是黑箱,不算是真正的理解。
为什么我们需要图灵测试2.0
从一开始,图灵测试就是个伪装游戏。考验的不是AI是否聪明,而是它能不能骗过人类。
但今天的模型越来越会骗了,有时连自己是不是AI都不太确定。
这让图灵测试在某种程度上失去了它的参考价值。
而Deutsch和Altman所设想的版本,更像是一种「创造力测试」——模型是否具备科学研究的能力,是否能提出新理论,是否能自洽地解释自己的推理。
这个标准很高,甚至高到今天所有AI都达不到。
但它至少指向了一个方向:我们真正关心的,不仅仅是机器能不能说得像人,而更重要的是它有没有可能在理解世界这件事上,成为我们的伙伴。
参考资料:
https://www.youtube.com/watch?v=o80PeJ0P1YM
https://www.businessinsider.com/sam-altman-openai-david-deutsch-turing-test-for-agi-2025-9





京公网安备 11011402013531号