当前位置：首页 » 资讯 » 新科技 » 正文

新玩法！Karpathy周末手搓“大模型智囊团”应用：各大LLM同台互评，代码已开源

IP属地中国·北京 AI寒武纪 时间：2025-11-23 16:08:03

Andrej Karpathy又在周末整活了，为了跟进之前的推文（昨天的文章），他通过Vibe Coding手搓了一个名为 llm-council（大模型议会）的Web应用，目的是为了好玩和获取更好的答案。多个模型像顾问一样提供建议，你可以把它理解为个人的“智囊团”
这个应用界面看起来和ChatGPT一模一样，但背后的运行机制完全不同。你的每一次查询，都会通过OpenRouter分发给“委员会”中的多个大模型成员。
以目前的配置为例，成员包括：
• OpenAI/GPT-5.1
• Google/Gemini-3-pro-preview
• Anthropic/Claude-sonnet-4.5
• x-AI/Grok-4
具体的工作流是这样的：
第一步，查询被分发给上述所有模型。
第二步，所有模型都能看到彼此（匿名化处理后）的回复，然后它们会对这些回复进行审阅和排名。
第三步，一位 “大模型主席”（Chairman LLM）会获取所有上下文信息，并生成最终的回复。
“智囊团”的运行效果
Karpathy表示，在同一个查询下并排看到多个模型的结果非常有趣。更逗的是，看它们互相评估和排名的过程。
结果显示，模型们通常非常乐意承认其他LLM的回答优于自己。这也让这种方法成为一种颇具意思的模型评估策略
实测案例
在今天用“大模型委员会”阅读书籍章节的测试中：

模型们的共识：一致推选 GPT-5.1 为最佳、最有洞察力的模型；同时一致认为 Claude 的表现最差，其他模型介于两者之间
Karpathy的体感：并不完全认同模型的评判。定性来看，他觉得 GPT-5.1 有点过于啰嗦和铺陈；Gemini 3 则更加凝练和经过处理；而在该领域下，Claude 的回答确实太简短了
Karpathy认为，“大模型智囊团”的数据流设计空间非常广阔，目前关于LLM集成的构建似乎还处于探索不足的阶段。
目前，该项目代码已开源。
项目地址：
https://github.com/karpathy/llm-council

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

北汽集团张建勇：目前订单交付周期已稳定控制在30天以内

雷军提醒：辅助驾驶不是自动驾驶，驾驶时仍需时刻保持专注

小米汽车败诉，双倍赔偿！

华为“最强境”奕境开启招商：东风与华为合力的境系列旗舰胜算几何？

海韵将推出1000W无风扇钛金电源

小米汽车工厂内电池产线起火？回应来了

全站最新

北汽集团张建勇：目前订单交付周期已稳定控制在30天以内

雷军提醒：辅助驾驶不是自动驾驶，驾驶时仍需时刻保持专注

小米汽车败诉，双倍赔偿！

华为“最强境”奕境开启招商：东风与华为合力的境系列旗舰胜算几何？

热门推荐

北汽集团张建勇：目前订单交付周期已稳定控制在30天以内

雷军提醒：辅助驾驶不是自动驾驶，驾驶时仍需时刻保持专注

高仕斌院士：做好本职工作就是最大的创新｜院士上封面

小米汽车败诉，双倍赔偿！

华为“最强境”奕境开启招商：东风与华为合力的境系列旗舰胜算几何？

海韵将推出1000W无风扇钛金电源

小米汽车工厂内电池产线起火？回应来了

谷歌证实：黑客通过供应链攻击窃取了200余家企业的数据

内部研究揭示Meta嘴脸：为求增长不择手段，账户违规17次才被封号

东风猛士M817 Hero版汽车发布：30.19万元，标配三把差速锁

试驾遭感应门夹脚反被要求赔偿？小鹏汽车回应：涉事员工严肃处理全国强化服务培训

AI投资风向变了！市场现在要求少“画饼”多“变现”

荣耀游戏研发工程师透露《王者荣耀》144Hz模式“很快就能更新”

新玩法！Karpathy周末手搓“大模型智囊团”应用：各大LLM同台互评，代码已开源

小米员工：REDMI K90 Pro Max手机音量问题已修复