当前位置：首页 » 资讯 » 新科技 » 正文

2026开年王炸模型MiroThinker 1.5实测：谷歌没做到的被它做到了

IP属地中国·北京 AI寒武纪 时间：2026-01-19 20:20:43

作为一个每天需要处理海量信息的自媒体从业者，我最近有一种深深的疲惫感。
我们原本以为AI是解药，但现在LLM它们给我的感觉更像一个技艺高超的速记员，你问它任何问题，它都能秒回，文笔流畅，逻辑看似通顺。但当你去核实细节时，往往会发现它在一本正经地胡说八道，要么给的全是我愿称为“失焦”的流水账式的内容，你说错吧，倒是全是正确的废话，包括ChatGPT 和 Gemini的深度研究功能
在投资决策、深度写作、技术调研这些容错率极低的场景下，“大概率正确”=“不可用”。
我们需要的不只是一个会说话的AI，而是一个严谨的科学家。它应该是不自信的，是多疑的，是在开口回答之前，先去翻阅成百上千份资料，交叉验证后才敢下结论的。
最近，我在 GitHub上发现了一个名为 MiroThinker 的开源深度研究项目，这个项目最近发布了 1.5 版本，此前曾凭借成功预测 Polymarket 题目，连续登顶 Future X全球榜首，力压诸多国际顶尖机构和闭源商业模型，堪称2026年开年智能体领域的”黑马“模型，仅使用 300 亿（30B）个参数即可实现与万亿参数模型相当的性能。
它的思路让我眼前一亮：它不拼参数规模，而是把技能点全点在了去伪存真上，这点很打动我，我抱着试一试的态度去体验了一下，说实话还真有点东西，可以说完全超出了我的预期
废话不多说，看我的实测
地址在这：
https://dr.miromind.ai/
实测
打开MiroThinker界面长这样：

先小试牛刀，我抛出了一个争议且没有标准答案的问题。请看MiroThinker是如何一步步拆解的：
2026年人类会实现AGI吗？如果会，是那家公司会率先宣布实现AGI，为什么
直接放结论：

在这个case中，MiroThinker 并没有简单地罗列新闻，而是进行了多轮检索、交叉验证、定义对齐，最终给出了一个基于概率的判断，整个思考过程全部摊开给你看，你能清楚看到模型在做什么，层层递进，逻辑严密
我们来拆解一下
1：结构化拆解

MiroThinker它像一个严谨的分析师，先把问题拆解成了三个具体的求证方向：
1. 学术界和预测市场怎么看？（宏观概率）2. OpenAI、xAI、Google的具体路线图是什么？（微观证据）3. 现在的技术基准分是多少？（客观现状）
2：饱和式广度检索

注意看它的搜索路径，它不是只搜了一次
为了回答这一个问题，它自主进行了近10轮的深度检索
它不仅看了通用的新闻，还去翻阅了斯坦福的专家报告、metaculus预测市场数据、甚至是由于OpenAI内部泄露的研究员路线图
这种“不把底朝天不罢休”的检索深度，确保了它掌握的信息比大多数人类研究员还要全面
3：对抗性交叉验证

这是最显功力的地方——去伪存真
它检索到了马斯克说“2026年实现”，但它没有轻信，而是立刻找来“现有技术自动化率仅2.5%”和“长期记忆得分为0”的硬数据进行对冲
它通过对比由于商业利益驱动的公关话术和冷冰冰的技术指标，最终判断：
2026实现概率低于（20-30%）。它没有顺着热点炒作，而是帮你回归理性
4：基于证据链的精准推演

看这个结论，太犀利了
它没有止步于可能与不可能，而是给出了极具洞察的推演：如果2026年真的有人宣布AGI，大概率是马斯克的xAI
为什么？因为它分析了各家的行事风格和行业最新现状——OpenAI更谨慎（目标定在2028），而xAI有最激进的资本投入和马斯克的个人风格
这不再是简单的搜索总结，这是有逻辑、有观点的深度研报
以上过程回放：
https://dr.miromind.ai/share/9c9efccf-77ff-4dbc-91c7-bac1695f904c
刚才只是小试牛刀，现在我给它抛出了两个充满噪声的真实难题
场景一：在满天飞的消息中，寻找确定性（财经/决策场景）
注意以下仅为技术展示，不构成投资金建议
实测case：假设我有10万闲钱，想在当前A股环境下做一个月的短线。请基于最新的货币政策、市场情绪和资金流向，帮我梳理出风险与机会，并给出证据链
这个场景是金融领域最复杂的“预测+决策”问题。如果问普通AI，它大概率会给我生成一段万金油式的“股市有风险，投资需谨慎”，再加上几句正确的废话

这是一个最让AI头疼的问题：既要有宏观视野，又要落实到具体操作，还不能说假话
看看 MiroThinker 是怎么交卷的：
1：拒绝模棱两可，直接锁定核心矛盾

MiroThinker 直接抓住了当前A股的核心矛盾：央行适度宽松的定调 vs 两融余额创历史新高的杠杆风险
它在回答前就明确了：现在不是底部捡便宜，而是高位强势期，策略必须变。
2：像情报官一样挖掘“真金白银”的动向

嘴上说的不算，真金白银才是诚实的。MiroThinker 不仅看新闻，还去扒了龙虎榜和ETF资金流向它发现虽然大盘在涨，但资金在疯狂加杠杆（两融创新高），同时外资在扫货半导体和有色
3：政策穿透力

A股是政策市。MiroThinker 展现了强大的政策穿透力。它敏锐地捕捉到了工信部《有色金属行业稳增长工作方案》和国家航天局的行动计划
它告诉你：为什么这两个板块能涨？因为国家在后面推。这种逻辑归因，比单纯看K线靠谱得多
4：给出可执行的“仓位配方”

给了一套风控模型
• 40%买保险/高股息做防守；• 40%做有色/顺周期吃波段；• 20%玩科技/题材博弹性。
这哪里是AI，这简直是一个老练的基金经理在手把手教你配置资产
5：严谨的风险提示（不是免责声明）

它没有一味唱多。它明确警告：半导体市盈率百分位95%+，容错率极低。这种冷静的泼冷水，在牛市氛围中价值千金。它是在保护你的本金。
它没给我财富密码，但它帮我穿透了噪声。它像一个冷静的分析师，帮我把情绪剥离，只看证据
回放：
https://dr.miromind.ai/share/78e5d0a0-2053-4557-b841-4b0d5b06b530
场景二：内容查证场景，对抗“标题党”的终极测试
实测case：“我是一个每天习惯喝 3 罐无糖可乐的上班族。我看新闻说世卫组织（WHO）把阿斯巴甜列为了‘致癌物’，搞得我很焦虑
请帮我查证：
1. WHO 原始报告中关于‘致癌剂量’的具体定义是什么？2. FDA 或 JECFA（食品添加剂专家委员会）对此持什么态度？3. 基于我的饮用量（每天3罐），我真的面临显著的致癌风险吗？请用数据说话，不要给我模棱两可的建议。”
这个例子展示了MiroThinker强大的信息查证、概念辨析和数据计算能力

第一步：概念辨析——不仅是搜新闻，更是读懂新闻

面对“阿斯巴甜致癌”的全网恐慌，MiroThinker 没有跟风营销号
它第一步就做出了关键的概念切割：
IARC（国际癌症研究机构）：只负责贴标签（有没有可能致癌），不负责谈剂量。它列为 2B 类只代表“证据有限”，连泡菜和手机辐射都在这个类别里
JECFA（食品添加剂专家委员会）：才是负责定“安全标准”的。
这一步“定义校准”，直接把 90% 的无效焦虑过滤掉了
第二步：数据计算——拒绝模糊建议，直接上算术题

普通的 AI 可能会说：“建议您适量饮用”。什么叫适量？MiroThinker 拒绝废话，直接运行python程序：
• 设定你的体重• 设定每罐可乐的阿斯巴甜含量（200mg）。• 对比 JECFA 的安全标准（40mg/kg）。
计算结果一目了然：你每天摄入 600mg，而安全上限是 2800mg。
它用数据告诉你：你目前只用掉了 21% 的“安全额度”
第三步：权威信源——FDA 的“硬刚”态度

为了让你彻底放心，它还引入了“第三方证人”
它查到了 FDA（美国食品药品监督管理局）的官方声明，FDA 不仅维持了更宽松的标准（50mg/kg），甚至直接公开反对IARC 的分类结论
第四步：终极结论——给焦虑画上句号

最后，它给出了一个不含糊的结论：
基于现有最权威的证据，你每天 3 罐的习惯，在癌症风险上不属于‘显著危险’。”
看到这里，我手里的无糖可乐瞬间更香了
回放：
https://dr.miromind.ai/share/e45955fa-5c5e-462a-a93f-9b493cd606ae
在这个案例中，MiroThinker 展现的不是聊天能力，而是调查记者+数据分析师的能力。它不生产情绪，它只负责用严谨的逻辑和数据，把真相还给你
我把同样的问题抛给了ChatGPT 深度研究，用时半小时，给我的报告我简直读不下去
我把ChatGPT结论贴出来，大家看看，还是像流水账一样的东西，前面一段很官方的叙述，感觉不到是在替你解决问题，解决困惑，严重缺乏MiroThinker那种逻辑严密层层递进的分析最后得出严谨的结论的感觉

以上就是我的测试
MiroThinker 1.5的背后的技术
MiroThinker 1.5 的出现，揭示了一个被行业忽视的真相：大模型的未来，或许不在于把脑子练得更“重”，而在于把手练得更“勤”
底层哲学的质变：从“做题家”到“科学家”
传统大模型（做题家模式）：
目前的 Scaling Law（缩放定律）本质上是在培养“做题家”。它们试图把全人类的知识（包括错误和噪声）通过死记硬背塞进万亿参数里
弊端：一旦遇到生物学、前沿科技等训练集里没有的未知问题，它们就会基于概率分布“编”一个看似合理的答案——这就是幻觉的根源。
MiroThinker（科学家模式）：
MiroThinker 1.5 放弃了全知全能的幻想，转而拥抱“发现式智能”
核心：它被训练成一个严谨的科学家。遇到难题，它的第一反应不是瞎猜，而是执行一个慢思考的研究闭环：提出假设 → 向外部世界查证 → 发现矛盾 → 修正假设 → 再查证 → 直到证据收敛。
结论：智能的增长不再依赖内部参数的无限膨胀，而是依赖外部交互（Interactive Scaling）的深度与广度。
核心黑科技：Training-time Interactive Scaling（训练时交互扩展）
许多“搜索AI”只是在模型外面挂了一个搜索插件，而 MiroThinker 1.5 将交互内化为了模型的本能
在 v1.5 的训练阶段，团队引入了一套残酷的奖惩机制，彻底改变了模型的行为逻辑：
Evidence-Seeking（主动求证本能）：
模型不再被奖励“直接给出答案”，而是被奖励“把问题拆解并找到证据”。如果模型给出了一个高置信度的结论却缺乏信源支撑，它在训练中会受到系统性的惩罚。
Iterative Verification（自我否定与修正）：
它打破了传统思维链（CoT）的线性逻辑。传统模型一旦第一步推错了，后面就会步步错（逻辑坍塌）。而 MiroThinker 被训练成允许“反复横跳”——在交互中发现证据冲突时，必须显式地否定自己之前的假设，并修正路径。
Anti-Hallucination（反幻觉机制）：
系统性过滤“捷径”。如果模型试图通过记忆或统计概率来猜答案（偷懒），而不是去查证，会被标记为低质量推理。
结果：MiroThinker 1.5 不需要把整个互联网背在脑子里（所以参数只有 30B-235B），它学会了在需要的时候，快速、精准地向外部世界“借力”。
破解“上帝视角”：时序敏感训练沙盒 (Time-Sensitive Training Sandbox)
为什么很多 AI 预测未来不仅不准，还经常“穿越”？因为它们在训练时开了“上帝视角”——它们在学历史数据时，已经看过了“未来的答案”。
MiroThinker 构建了一个严格受控的时序沙盒
拒绝剧透：训练时，模型被强制戴上了“时间枷锁”。当它回答一个 2023 年的问题时，系统严禁它访问 2024 年的信息
动态真理：每一道题的“正确答案”不再是静态的，而是随着时间戳动态演化的。
因果律约束：这迫使模型必须在信息不完备、充满噪声的真实环境下，像人类一样去推演未来，而不是简单地复述历史。
MiroThinker 1.5 证明了“高智效比”才是 AI 的未来。它不追求拥有一个最重的脑子（万亿参数），而是培养了一双最勤快的手（高频交互）
这也是他为什么它能用极低的推理成本（$0.07），跑出比肩巨型模型的实战效果
就我的体验来说，MiroThinker 1.5它的思考的过程和给出的结论都非常像人类，你能真实的感受它是给人看的，它或许不能直接给我财富密码，但它给了我一种在复杂世界里保持理性、抓住重点的方法论，且它的效率比人类高出非常多，目前无论是GPT-5，Gemini，Claude ，还是DeepSeek的智能目前都表现出为一种锯齿状智能，MiroThinker 1.5本身的定位是拥抱发现式智能，也许这是解决问题的可行的路径
体验网站：
https://dr.miromind.ai/
Github代码地址：
https://github.com/MiroMindAI/MiroThinker
MiroFlow开源框架：
https://github.com/MiroMindAI/MiroFlow
Hugging Face模型下载：
https://huggingface.co/miromind-ai/MiroThinker-v1.5-235B

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

丰田2025年中国市场销售总量超178万辆，同比实现正增长

“大空头”伯里再发警告：AI泡沫破裂将引发科技行业漫长低迷

陈建宇：要实现万亿级市场，核心是打造上限更高、更通用的机器人

字节扣子 2.0 发布，我们深挖了它这两年的生长真相

C至信：基于焊接机器人的自动化控制系统芯片已取得集成电路布图设计权

我国成功发射卫星互联网低轨19组卫星

全站最新

丰田2025年中国市场销售总量超178万辆，同比实现正增长

“大空头”伯里再发警告：AI泡沫破裂将引发科技行业漫长低迷

陈建宇：要实现万亿级市场，核心是打造上限更高、更通用的机器人

字节扣子 2.0 发布，我们深挖了它这两年的生长真相

热门推荐

丰田2025年中国市场销售总量超178万辆，同比实现正增长

“大空头”伯里再发警告：AI泡沫破裂将引发科技行业漫长低迷

OpenAI或将在18个月内现金流枯竭，面临被吞并风险

特斯拉将转型为机器人公司，马斯克称Optimus将贡献绝大部分市值

陈建宇：要实现万亿级市场，核心是打造上限更高、更通用的机器人

字节扣子 2.0 发布，我们深挖了它这两年的生长真相

C至信：基于焊接机器人的自动化控制系统芯片已取得集成电路布图设计权

我国成功发射卫星互联网低轨19组卫星

速腾聚创割草机器人市场激光雷达销量全球第一

中微半导即将推出首款非易失性存储器芯片

中国空间站送别“老战友”

印度储能电池新增容量或增长十倍；谷歌宣布与沃尔玛提升Gemini AI购物功能；TikTok Shop东南亚跨境电商发布2026核心战略｜一周出海参考

孙宇晨出价3000万美元欲与马斯克独处1小时

中国人工智能50强，寒武纪、摩尔线程、沐曦股份位列前三

暴雪不“冻”网中国电信郑州分公司破冰护航保畅通