![]()
Andrej Karpathy又在周末整活了,为了跟进之前的推文(昨天的文章),他通过Vibe Coding手搓了一个名为 llm-council(大模型议会)的Web应用,目的是为了好玩和获取更好的答案。多个模型像顾问一样提供建议,你可以把它理解为个人的“智囊团”
这个应用界面看起来和ChatGPT一模一样,但背后的运行机制完全不同。你的每一次查询,都会通过OpenRouter分发给“委员会”中的多个大模型成员。
以目前的配置为例,成员包括:
• OpenAI/GPT-5.1
• Google/Gemini-3-pro-preview
• Anthropic/Claude-sonnet-4.5
• x-AI/Grok-4
具体的工作流是这样的:
第一步,查询被分发给上述所有模型。
第二步,所有模型都能看到彼此(匿名化处理后)的回复,然后它们会对这些回复进行审阅和排名。
第三步,一位 “大模型主席”(Chairman LLM)会获取所有上下文信息,并生成最终的回复。
“智囊团”的运行效果
Karpathy表示,在同一个查询下并排看到多个模型的结果非常有趣。更逗的是,看它们互相评估和排名的过程。
结果显示,模型们通常非常乐意承认其他LLM的回答优于自己。这也让这种方法成为一种颇具意思的模型评估策略
实测案例
在今天用“大模型委员会”阅读书籍章节的测试中:
![]()
模型们的共识:一致推选 GPT-5.1 为最佳、最有洞察力的模型;同时一致认为 Claude 的表现最差,其他模型介于两者之间
Karpathy的体感:并不完全认同模型的评判。定性来看,他觉得 GPT-5.1 有点过于啰嗦和铺陈;Gemini 3 则更加凝练和经过处理;而在该领域下,Claude 的回答确实太简短了
Karpathy认为,“大模型智囊团”的数据流设计空间非常广阔,目前关于LLM集成的构建似乎还处于探索不足的阶段。
目前,该项目代码已开源。
项目地址:
https://github.com/karpathy/llm-council





京公网安备 11011402013531号