当前位置：首页 » 资讯 » 新科技 » 正文

小团队，为什么能超越巨头，干出更能打的大模型

IP属地中国·北京 华商韬略 时间：2026-03-08 14:13:36

不是生意，而是生命。
文 | 华商韬略陈斯文
不同于互联网、移动互联网时代，几张桌椅、几个脑袋就能创造奇迹，而是需要动辄数千张的GPU集群、亿元级的算力投入、海量的语料数据、以及顶尖的算法人才……
这样的门槛与特性，曾让很多人感叹，AI大模型这条赛道，绝不属于初创小公司，只有巨头才配坐在牌桌上。
然而，现实却给出了鼓舞后来者的答案：
智谱GLM系列模型在中文理解与推理领域比肩国际顶尖水平，MiniMax的M2.5模型以极致效率打破算力内卷，DeepSeek R1将千亿参数模型训练成本压缩到行业的1/10，Kimi则以200万字长文本处理能力开辟全新赛道……
一批初创小公司都已在大模型领域成功破局，非但不比巨头们逊色，甚至开始逆袭巨头，引领风骚。
初创公司逆袭巨头的答案，首先藏在这些公司的创始人身上。
智谱的唐杰与张鹏、MiniMax的闫俊杰、DeepSeek的梁文锋、Kimi的杨植麟，这些创始人，有一个惊人的共同点：
他们已是人生赢家，却毅然告别了辉煌与舒适区。
2019年创立智谱时，唐杰已深耕自然语言处理与知识图谱多年，手握20多项专利，主持过多个国家级科研课题，是清华大学计算机系教授，全球人工智能领域的顶尖学者。
他原本可以安于象牙塔，享受科研与学术的安稳和荣光。但当人工智能的风口初现，他坐不住了，认为这是自己躬身实践的机会，也是中国AI弯道超车的机会。

▲唐杰在办公室图源：北京大学王选计算机研究所
于是，他找到了同为清华校友的张鹏——一位在清华大学知识工程实验室工作近20年的学者，同样是技术圈内的资深大佬。
在一家小咖啡馆长谈了一个下午后，唐杰和张鹏做出了一个决定：离开清华园，搬进创业园区的小写字楼。
2021年创立MiniMax时，同样毕业于清华的闫俊杰，已是当时的AI大企商汤科技的副总裁，并主导了商汤深度学习工具链和通用智能技术体系的搭建。
彼时的商汤科技，即将港股上市，以闫俊杰的职级与贡献，继续供职，很可能成为亿万富翁。
但他觉得这不够劲，因为他已经对AI有了更大的想法——开发通用大模型，让AI像水电一样普及，融入并改变人类生活。
Kimi的创始人杨植麟，同样是“清华系”的成员，他本科时的老师正是唐杰教授。随后，他又在美国卡内基梅隆大学取得博士学位。在Facebook、google等一批巨头企业从事技术研究，并担任了清华大学的助理教授。
不出意外，这位17岁就被保送清华的天才少年，大概率将会在某家硅谷巨头获得千万级甚至更高年薪，或是成为某家国内大厂的首席科学家。
但2022年ChatGPT的发布，让他听到了新世界的敲门声。于是，他以最快速度破局入场，几乎是掐着秒表抢融资，只用四个月就创立了今天的月之暗面。
创办DeepSeek的梁文锋，更是愿景驱动的极致典型。

早在2010年，梁文锋的团队就靠着量化投资，将自营资金做到了超过5亿元。他创立的幻方量化，旗下基金规模在2021年一度超越千亿大关，位列国内量化四大天王。
按照世俗标准，他可以去买海岛、买私人飞机，顺手做做安逸的天使投资人。但凭借AI起家的梁文锋，眼光却看到了更远的地方：
“AI一定会改变世界，而中国AI不应该永远处在跟随的位置。”
曾经，创业是为了谋生，为了赚钱，改变命运，但这些创业者，他们或是学术界、产业界的大牛，手握令人羡慕的教职与履历；或是早已实现财富自由的隐形富豪，无需为经济担忧。
从第一天起，他们就为理想、为信念而勇往直前。
正是创始人的这种“拼命”底色，赋予了几家初创公司区别于大厂的独特气质——为了理想，而激情燃烧、孤注一掷，甚至无所畏惧。
智谱CEO张鹏曾有一句名言：“技术不是魔法，连惊叹都不该有，一切都是有迹可循的。”
在智谱内部，一直保持着一条清晰的技术路径——走自己的GLM算法之路。
GLM是一个巧妙的架构设计，既能做填空也能做续写，可以在相对低算力下，获得更高效的训练底座。
但在2021年，最紧迫的问题是：要不要在这条路上，训练一个千亿级参数的大模型？
GPT-3的训练成本是两千多万美元，智谱的成本控制再好，也需要千万级人民币以上，并且需要举全公司之力，花八九个月时间。
如果成功，一好百好，如果失败，什么也剩不下。
决策会上，大多数时间大家都在沉默。对于不爱说话的工程师而言，不说话，就是难度大，甚至不可能。
但核心团队最后认为：不做，不追，永远不知道自己能跑多快，跑多远。一个初创团队的前进，不应该背着经济包袱。
沉默过后的投票决策，工程师们全票通过。
相对于巨头而言，这的确是一场不对称的竞争。
大公司往往背负着沉重的“存量包袱”，它们有庞大的搜索、广告、社交、电商组成的业务生态，这些是过去的成功路径，也是某种意义上的镣铐，更重要的是，它们还需要对财务报表和投资者负责。
因此当颠覆与革命来临时，决策往往会陷入“创新的窘境”，对新技术和投入太狠，可能冲击基本面；投入太轻，又会被时代甩下。
“光着脚”的小公司则完全不同，它们没有业务包袱，没有需要维护的存量利益，只有ALL IN一条路。
今年年初，Kimi引爆了“长文本”战役。背后是看准就ALL IN的孤注一掷。
因为发现了用户“阅读长文档”的痛点，Kimi不惜血本投入算力，率先支持200万字上下文的处理能力。为了这个突破，整个公司仅在几周内，就经历了数次架构重构。
国内各大巨头并非没有技术储备，也都看到了其中的机会，但长文本处理的算力成本消耗，尚不明确的变现路径，都让其举棋不定。
这种不对称，并不只在决心与勇气。也更在于由决心与勇气激发出的方法和效率，在于对各种资源要素的调用，以及创新创造力的极致发挥。
国内某大厂的一位AI研究员曾在网上吐槽：他想要申请几张A100显卡做实验，审批流程就走了两周，等卡到位了，技术风向已经变了。
这是大公司常见的“大企业病”。哪怕一个小想法的落地，往往也要经历文本汇报，层层审批、跨部门协调、各级评审。更关键的是，大厂的研发人员还会不同程度地被KPI绑定，从而更倾向于获得稳定的考核成果。
但在小公司，战略和战术常常都是在战壕里完成。
在DeepSeek，没有明确的职级划分，也没有上下级分工，看不到冗长的决策链条；大家都是“写代码的人”，也都是“提想法的人”；每个人都可以拉人讨论，并随时调用公司训练集群的卡，无需审批，不设上限。
研发V2模型时，为了解决一个算子优化难题，几位工程师直接拉了个群，现场讨论，现场拍板，一个通宵就解决了。
这种差异，就是“成熟正规军”与“初创特种兵”的区别，正规军打仗要看地图、听指令；特种兵打仗，枪响了就冲，哪里有缺口就打哪里。
这些拿枪冲锋的特种兵里，甚至包括创始人——Minimax创立初期，闫俊杰本人就亲自参与了绝大部分核心代码的审查。
初创的智谱，团队仅有百人，且保持着极简的用人策略——绝大多数都是工程师。发布第一款大模型时，新闻稿是研发人员自己写的，Logo是一位工程师的女朋友帮忙设计的。
但正是这款大模型，1300亿的参数，直接对标OpenAI的CPT-3。并且，从2021年12月决策，到2022年8月发布，只用了9个月。
大模型的研发，固然是“烧钱游戏”，但钱烧得是否有效率，决定了最终的结果。在这一点上，创业公司每一分钱都要花在刀刃上的习惯，将资源的利用率逼到了极致。
就在2月底，OpenAI获得了来自软银、英伟达、亚马逊的新一轮投资，总计高达1100亿美元，它的背后，始终有微软的支持。而国内几家AI创业企业，始终没打过太富裕的仗。
月之暗面的天使轮总估值，只有3亿美元；Minimax靠上市前的8轮融资，总共拿到了15亿美元，但天使轮仅有3100万；DeepSeek的前期基本靠梁文锋与幻方量化的自有资金；智谱获得的第一笔投资，甚至只有区区4000万元人民币。
这种资源上的“有限战”，逼着创业小公司真的要像特种兵一样，用好手里的每一颗子弹。
算力，曾经是智谱最大的挑战，训练千亿级模型，需要数千块GPU芯片连续运转数月，智谱只能去东凑西借——2020年，它就向一家国内云服务供应商借了一批闲置GPU。
在最困难的时期，唐杰和张鹏每天最重要的事，就是观察两个窗口指标：一个训练进度，一个银行账户。
但这也磨练出了创业团队的极限生存能力：智谱的工程师们始终围绕着模型做极致优化，DeepSeek的团队甚至为了提升显存利用率，重写了底层的通信协议。
也正是因为极致的“算”与“省”，练就了国产大模型的优秀——DeepSeek-V3在性能比肩GPT-4o的同时，训练成本不到后者的二十分之一。
一位目睹了进程的投资人说：“大厂用钞能力掩盖工程能力的不足，小公司却用工程能力补上了钞能力的短板”。
从决策到组织，从效率到斗志，各种不对称的因素加在一起，让小团队不断逆袭大巨头，但其背后的核心逻辑，并非是大公司打不过小公司。
它的关键，不在规模大小，实力强弱，而在规模实力等硬指标背后的软实力。而当大公司的硬实力与小公司的软实力相结合，带来的将是大公司的更加所向披靡。
AI竞赛，正在上演类似的故事。
新春之际，字节跳动的Seedance2.0惊艳世界，连好莱坞大牌导演都惊叹不已，表示重塑影视行业的真正拐点正式到来。

▲图源：CCTV4微信公众号
这样的追赶与突破，得益于字节保持至今的纪律性与饥饿感。在这家公司的历史上，类似的故事一抓一大把。
2016年，还在孵化阶段的抖音，由张一鸣亲自面试产品经理的岗位。一个毕业仅8个月的男生，只带了一张写着结论的A4纸，他唯一的资历，是每天刷12个小时短视频，拆解过2000个爆款视频的逻辑。
张一鸣当场给出了岗位：P7职级，专家档薪资，无试用期，进入抖音核心组，3个月看数据。
3个月内，这位应届生主导了抖音首页滑动逻辑、拍摄按钮交互，滤镜优先级三个核心模块，帮助用户时长提升21%，留存提升14%。
在字节内部，有着极其严格的日常开支要求，连打印纸都必须双面使用，但在战略投入上，算法研发、算力采购、AI大模型框架的建设，预算永远从实际需要出发，从无纸面上限。
它带来的结果是，超千亿元被投入GPU集群与自研训练框架的建设，帮助GPU利用率从30%上升到90%，成本下降了70%，训练速度提升3倍。
老牌大厂阿里，也在用行动证明，大象同样可以跳舞。
今年，通义千问Qwen系列模型在全球开源榜单上屡次登顶，成为能与Llama、GPT系列分庭抗礼的中国力量。这背后，是阿里对“云智一体”战略的长期坚守与自我革命。

在阿里内部，通义团队被赋予了特区般的“创业权限”。他们打破了层级森严的汇报机制，重构了一套敏捷的研发体系。为了在算力上实现极致性价比，团队主动发起“技术攻坚战”，将模型推理成本在一年内降低了超过90%，让大模型从“奢侈品”变成了“日用品”。
更关键的是，阿里不断对内“开刀”——为了推动AI落地，阿里云甚至不惜重构其产品逻辑，将通义大模型深度嵌入钉钉等超级应用中。
当大多数公司还在探索AI入口时，钉钉团队在短短几个月内就上线了“魔法棒”功能，只需输入一个“/”符号，AI就能自动生成文档、整理会议纪要。
为了这个“斜杠”功能，钉钉产品团队与通义实验室进行了封闭式开发，跳过了繁琐的跨部门审批，成为了打破大厂部门墙的经典案例。
这些不计代价，直奔彼岸，不讲程序，只看效率的规则，正是AI时代最宝贵的品质。
其实，在所有商业时代，这些都是最宝贵的品质，造就了许多商业传奇——今天的阿里、腾讯、字节跳动，都是从小公司逆袭而来。
在资本与技术更密集的AI时代，这些品质得到了进一步放大，让AI时代最震撼人心的技术突破，往往不属于那些躺在功劳簿上的企业，也不属于那些只盯着KPI报表的职业经理人。它一如既往地属于那些：
义无反顾冲向风暴中心的人。
，识风云人物，读韬略传奇。
版权所有，禁止私自转载
部分图片来源于网络
如涉及侵权，请联系删除

声明：包含AI生成内容

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

全国人大代表、中国工程院院士肖伟： “工业智能大模型”给中药插上AI翅膀

足不出户一键养龙虾！美团推出OpenClaw远程部署服务

雷军说未来每周或仅需工作3天，每天工作2小时，建议大家要用开放的心态，迎接更先进的时代

科技周报｜政府工作报告提芯片自研新突破；马云与阿里、蚂蚁核心管理层罕见齐聚谈AI

中电信量子辟谣！与量子通信手机REED ONE GK5无任何关联

千问AI眼镜G1现货开售，美媒大呼“Meta可得小心了”

全站最新

全国人大代表、中国工程院院士肖伟： “工业智能大模型”给中药插上AI翅膀

足不出户一键养龙虾！美团推出OpenClaw远程部署服务

雷军说未来每周或仅需工作3天，每天工作2小时，建议大家要用开放的心态，迎接更先进的时代

科技周报｜政府工作报告提芯片自研新突破；马云与阿里、蚂蚁核心管理层罕见齐聚谈AI

热门推荐

全国人大代表、中国工程院院士肖伟： “工业智能大模型”给中药插上AI翅膀

足不出户一键养龙虾！美团推出OpenClaw远程部署服务

雷军说未来每周或仅需工作3天，每天工作2小时，建议大家要用开放的心态，迎接更先进的时代

科技周报｜政府工作报告提芯片自研新突破；马云与阿里、蚂蚁核心管理层罕见齐聚谈AI

科研人员在实验室生成抗肿瘤免疫细胞

专访全国人大代表、本源量子首席科学家郭国平：锚定量子计算产业化破解“书架”到“货架”转化难题

中电信量子辟谣！与量子通信手机REED ONE GK5无任何关联

千问AI眼镜G1现货开售，美媒大呼“Meta可得小心了”

AI自主提交35%代码！Cursor CEO重磅宣言：第三AI编程时代已至

刚刚，Karpathy惊呼「后AGI」！AI通宵狂改110次代码，他去蒸桑拿

中电信量子集团：与所谓“量子通信手机样品”无任何关联

通研院重磅成果！一套策略让人形机器人学会后空翻、霹雳舞，准确率超90%

陶琳：特斯拉中国超充站突破2500座，充电网络持续开放

但斌：AI有一天可能取代掉基金经理

“龙虾”炸了！年轻人为何排队疯抢