![]()
↑阅读之前记得关注+星标⭐️,,每天才能第一时间接收到更新
Andrej Karpathy对于如何理解和与LLM交互最新观点
他提出一个核心观点:不要把大语言模型看作是实体,而应视作模拟器
这一视角的转变,直接影响着用户与AI交互的方式和效果
Karpathy建议,当人们想要探索某个话题时,应该避免使用这样的提问方式:
“关于xyz,你怎么看?”
原因很简单:根本就没有“你”存在。
Karpathy认为,大模型并没有像人类那样,随着时间的推移对某个话题进行思考并形成自己的观点。
如果用户强行使用“你”来提问,LLM会根据其微调数据的统计规律,采用一个隐含的 “个性嵌入向量”(personality embedding vector),并基于此进行模拟回复。虽然这样做也没问题,但Karpathy指出,这其中的神秘感远没有人们通常认为的询问AI那么高
更有效的提问策略
基于模拟器的定位,Karpathy给出了一种更优的prompt策略:
“什么样的一群人适合探索xyz话题?他们会怎么说?”
通过这种方式,用户可以让LLM引导或模拟多种视角,而非局限于单一的、被统计数据塑造的“AI人格”
![]()
关于AI人格的工程化本质
针对卡帕西的观点,有网友提出了一个反直觉的问题:模型难道不会采取回报率最高的个性吗?这就意味着它会表现得像该领域最适合回答该问题的专家
对此,Karpathy承认,确实存在针对“你”这一模拟维度的工程化工作。
目前,通过SFT(监督微调)和RLHF(人类反馈强化学习),开发者正在努力构建一个能够获得高奖励、赢得用户或裁判模型点赞、或者模仿特定响应风格的“个性”。这确实产生了一种涌现出的复合人格
但Karpathy强调,这种“你”是被刻意设计、工程化并硬加上去的
它本质上仍然建立在一个Token模拟引擎之上,而不是一个随着时间推移、以普通人可理解的方式构建起来的、具有涌现性的“心智”
可验证与不可验证领域
Karpathy最后指出,在不同领域,这种区别的影响不同:
在可验证领域(如数学、编程):情况相对简单,专家视角的模拟通常是准确的。
在不可验证领域(如询问对某话题的观点/意见):情况则变得更加有趣且复杂。
在后一种情况下,用户很难搞清楚正在与之对话的这个“你”究竟是谁,它来自哪里,以及应该给予它多大的信任度
验证
直接上手验证一下,用Karpathy建议的prompt策略,来解析Karpathy以上观点
提问:
![]()
LLM(Gemini 3 pro)的回答:
为了深入探讨“LLM是模拟器而非实体”这一论题,最适合组成的虚拟圆桌会议应该包含以下几类人:深度学习理论家、认知科学家、RLHF(人类反馈强化学习)一线工程师以及高阶提示词专家
假如他们聚在一起,针对Karpathy的观点,他们会分别这样说:
1. 深度学习理论家(The Deep Learning Theorist)
视角核心:统计学与概率分布
Karpathy切中了要害。从数学本质上看,模型只是在多维空间中学习数据分布。所谓的‘回答’,本质上是从巨大的概率分布中进行的条件采样(Conditional Sampling)
当你问‘你怎么看’时,模型并不是在调动一个内在的自我意识中心,它只是在计算:在海量的互联网文本中,当出现‘你怎么看’这种句式时,后面接什么Token的概率最高。它模拟的是‘互联网上的平均回答者’或者‘微调数据中定义的理想助手’。确实不存在一个物理的或心理的‘实体’在思考
2. RLHF工程师(The Alignment Engineer)
视角核心:工程实现与奖励机制
关于‘硬加’和‘工程化’这一点,我们最清楚。底座模型就像是一个疯狂的梦境生成器,它能模拟莎士比亚,也能模拟代码,或者模拟网络喷子。
我们通过RLHF给它套上了一个面具。那个彬彬有礼、总是说作为一名人工智能语言模型……’的‘你’,确实是我们为了安全和有用性,通过奖励模型硬生生训练出来的特定行为模式。Karpathy说得对,这只是一层薄薄的界面,底下仍然是那个通用的Token模拟引擎
3. 认知科学家/心灵哲学家(The Cognitive Scientist)
视角核心:主体性(Agency)与时间连续性
关键在于Karpathy提到的时间和形成观点。人类的我建立在记忆的连续性和与世界持续交互的经验之上
LLM是无状态的。每一次对话对它来说都是全新的开端,没有过去,也没有未来。它没有随着时间推移去在这个世界上生活,因此它不可能拥有像人类那样基于生活经验累积而成的观点。它是在模拟一个拥有观点的人类会说出的话,这在本体论上与拥有观点是两回事
4. 高阶提示词专家(The prompt Engineer)
视角核心:实用主义与上下文激活
从实操角度看,把LLM当作‘模拟器’能让性能提升一个量级
如果我问‘你怎么看这行代码’,它可能会给出一个平庸的、通过RLHF对齐的通用解释。但如果我按照Karpathy的逻辑,把它设定为‘模拟一位资深的Linux内核维护者’,它就会调用训练数据中那部分特定的、高权重的专业知识分布
承认‘没有你’,反而让我们能更自由地定义‘你是谁’,从而榨出模型的最强性能。”
总结这群人的共识:
他们会一致认为,Karpathy不仅是在纠正称呼,更是在揭示大模型“变色龙”的本质。“你”是一个被训练出来的用户界面,而“模拟器”才是这台机器真正的操作系统
非常有意思,建议大家也尝试一下,小小的一个提示词策略改变,可能会让你获得对某个topic更好的理解
--end--
最后记得⭐️我,这对我非常重要,每天都在更新:
欢迎点赞转发推荐评论,别忘了关注我





京公网安备 11011402013531号