当前位置: 首页 » 资讯 » 新科技 » 正文

新玩法!Karpathy周末手搓“大模型智囊团”应用:各大LLM同台互评,代码已开源

IP属地 中国·北京 AI寒武纪 时间:2025-11-23 16:08:03


Andrej Karpathy又在周末整活了,为了跟进之前的推文(昨天的文章),他通过Vibe Coding手搓了一个名为 llm-council(大模型议会)的Web应用,目的是为了好玩和获取更好的答案。多个模型像顾问一样提供建议,你可以把它理解为个人的“智囊团”

这个应用界面看起来和ChatGPT一模一样,但背后的运行机制完全不同。你的每一次查询,都会通过OpenRouter分发给“委员会”中的多个大模型成员。

以目前的配置为例,成员包括:

OpenAI/GPT-5.1

Google/Gemini-3-pro-preview

Anthropic/Claude-sonnet-4.5

x-AI/Grok-4

具体的工作流是这样的:

第一步,查询被分发给上述所有模型。

第二步,所有模型都能看到彼此(匿名化处理后)的回复,然后它们会对这些回复进行审阅和排名。

第三步,一位 “大模型主席”(Chairman LLM)会获取所有上下文信息,并生成最终的回复。

“智囊团”的运行效果

Karpathy表示,在同一个查询下并排看到多个模型的结果非常有趣。更逗的是,看它们互相评估和排名的过程。

结果显示,模型们通常非常乐意承认其他LLM的回答优于自己。这也让这种方法成为一种颇具意思的模型评估策略

实测案例

在今天用“大模型委员会”阅读书籍章节的测试中:


模型们的共识:一致推选 GPT-5.1 为最佳、最有洞察力的模型;同时一致认为 Claude 的表现最差,其他模型介于两者之间

Karpathy的体感:并不完全认同模型的评判。定性来看,他觉得 GPT-5.1 有点过于啰嗦和铺陈;Gemini 3 则更加凝练和经过处理;而在该领域下,Claude 的回答确实太简短了

Karpathy认为,“大模型智囊团”的数据流设计空间非常广阔,目前关于LLM集成的构建似乎还处于探索不足的阶段。

目前,该项目代码已开源。

项目地址:

https://github.com/karpathy/llm-council

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。