精彩观点:
全球仅四家公司在三模态均达到领先水平:MiniMax是全球仅有的四家在语言、视频、声音三个模态都达到全球领先水平的公司之一,另外三家是OpenAI、谷歌和字节跳动。公司将80%以上资源投入模型层和基础设施,模型本身才是核心产品,应用只是展示窗口。未来竞争将是全模态融合,单模态公司将失去竞争力。
高效的研发组织和持续创新的能力才是关键:尽管市场以惊人的月度双位数速度增长,但真正能在模型层持续发布全球领先产品的核心玩家数量在不断减少。资源(算力、资金、人才)并非成功的唯一保证,高效的研发组织和持续创新的能力才是真正的壁垒。
M2模型成为AI编程领域最大国产模型:今年10月MiniMax发布的M2语言模型是全球开源模型中真实token用量最大的AI编程模型,成为首个真正切入该领域的国产模型,用量相当于其他所有国产模型总和。
每一块钱买到更多智能:MiniMax从创立第一天就是全球化公司,所有产品均服务全球用户,目前大部分商业化收入来自海外。核心战略是与所有人共创智能,用更少资源做出更领先的模型和创新,提供更高的"per dollar intelligence"(每块钱的智能水平)。
Agent智能体已成为内部HR和财务数字同事:公司推出的Agent智能体产品在调研写报告等任务上已超越普通实习生水平,内部HR、财务、商务分析等部门已高度依赖该数字同事,未来可自主完成简历筛选、联系候选人甚至面试等工作。
与海外技术接近但估值差两个数量级:MiniMax等国内大模型公司在技术上已接近甚至在某些领域超越美国同行,且差距持续缩小,但估值仍相差两个数量级。比如谷歌、OpenAI、Anthropic和xAI。这些公司估值可能是中国公司的100倍,但是技术就领先5%,投入可能在50至100倍之间。相比之下,国内公司研发效率更高但被严重低估。
![]()
12月20日,MiniMax稀宇科技副总裁薛子钊做客由华尔街见闻和中欧国际工商学院联合主办的「Alpha峰会」,薛子钊不仅复盘了MiniMax成立四年来的心路历程,更直言AI大模型行业与我们熟悉的移动互联网有着本质区别,传统的“流量思维”和“大力出奇迹”在这里可能并不奏效。
这位曾在高瓴资本任职的资深投资人,如今作为AI行业的亲历者,强调大模型行业的市场空间完全取决于“模型的智能水平”,每一次智能的跳变都会瞬间解锁全新的市场。然而,尽管市场在高速膨胀,真正能留在牌桌上的玩家却在急剧减少。
薛子钊指出大模型更像是一项“造芯片、造火箭一样的系统工程”,单纯靠堆砌资金和挖人,并不能保证成功。
未来AI将从“昂贵的玩具”变成普惠的工具。正如MiniMax所追求的“per dollar intelligence”(每一美元能买到的智能),谁能用更高效的研发效率做出拓展行业边界的创新,谁就能定义下一个时代。
在这场没有硝烟的战争中,技术的迭代速度将决定生死,而无论是巨头还是创业者,稍有停歇,就可能被时代抛下。
以下是华尔街见闻整理的精华内容:
各位好,非常荣幸有机会与大家分享我们在行业中看到的动向与进展,包括公司成立四年以来取得的一些阶段性成果。
首先,这个标题是我们的 slogan,叫做“与所有人共创智能”。这句话其实影响了我们后续很多商业决策和战略,包括我们希望成为一家什么样的公司,我们的模型理念和产品理念是什么,这些我后面会展开介绍。
![]()
AI行业反直觉的两大特点
在介绍公司之前,我想分享这个行业两个非常不同的特点。可能和在座许多有金融投资背景的朋友以往看到过的行业,包括大家最熟悉的互联网和移动互联网行业,都有所不同,甚至有些反直觉。
第一个特点是,这个行业的市场空间只有一个核心驱动因素,就是模型的智能水平。模型的智能水平随着模型的发布而不断提升,并且这种提升通常不是连续性的。
![]()
例如,回想三年前的 GPT-3.5,经过半年时间,GPT-4 发布,其水平就实现了一次跃升。每次这样的跃升,都会解锁更多新的应用场景和用途。许多此前被认为模型无法胜任的场景,随着智能水平的跃升就变得可行了。
这意味着,每解锁一次,就会有更大的市场空间和可触达的市场被划归到大模型能够服务的范围。而这种向上的跃升在发生之前,往往难以预料,每一次都像是一个惊喜的意外。
我举几个例子大家可能会更有体会。一个最近的例子是谷歌的Nano Banana图像生成模型,用户可以通过文字生成图片并与之多轮互动。在这个模型发布之前,业内最好的图片模型是 Midjourney。用户输入一段文字,它能生成非常精美的图片,在多数场景下已难辨真假。
在Nano Banana发布前,人们对于更好的图像生成模型的想象,可能是像素更高、审美更专业、细节更丰富。但一两个月前Nano Banana发布后,大家突然发现,它生成的图片似乎能理解世界的知识。例如,让它生成一个幻灯片投影仪的内部结构,它就能做出像教学课件一样的内容,图片中的文字和物体具有其物理含义。
这个模型发布后,大家突然发现可以用它来做 PPT。你只需输入想表达的内容,它就能直接生成一张完整的 PPT 页面,其中包含有逻辑、有物理关系的图文内容。这种对于世界知识的理解能力,在模型发布前是大家根本想不到的。
在这个行业,我们经常发现这样的循环:每一次模型智能水平的提升,都会解锁更多场景;这些新场景会为模型公司带来更多的下游市场和商业化收入;这些收入又可以投入到下一代模型的研发中,从而推动模型智能水平持续攀升。这种飞轮或闭环效应在这个行业是非常独特的。
再举一个例子,比如 SaaS 软件。去年,如果我们看二级市场的 SaaS 软件公司,他们大多宣称自己是 AI 的受益者,会讲述如何利用模型提升软件效率。那些在应用模型上取得一些成果的公司,交易倍数通常也很高。
![]()
但到了今年,情况发生了变化。模型的智能水平从具备一定推理能力的 L2 级别,上升到了接近智能体水平的 L3 级别。其区别在于,模型现在能够自主规划并执行较为复杂的任务。
于是大家突然发现,过去几十年沉淀下来的许多软件工作流程,模型似乎可以自主完成。例如,在人力资源管理软件中,那些以往需要固化成固定代码流程的功能,现在模型可以通过自主识别、泛化理解任务目标,并运用编程能力来解决,仿佛不再需要固化的软件流程。
今年在二级市场大家也看到了,从年初开始,正是因为模型智能水平的上升,这些 SaaS 软件公司似乎从 AI 大模型的受益者,变成了可能被大模型取代的风险对象,因此它们的交易倍数下降了很多。同时,这部分 SaaS 软件市场也瞬间被划归到了大模型的市场份额之中。
这其实是不断在发生的例子。我再举一个多模态的例子,我们的海螺视频生成模型,也是当前全球用量最大的模型之一。在视频生成模型刚推出时,大家可能觉得只能做一些简单粗糙的视频素材生成。
但今年,随着模型智能水平的提升,我们看到非常多专业用户开始使用。例如,国内短剧行业非常发达,短剧制作公司非常在意成本和制作投入的 ROI,他们就会用 AI 生成来辅助制作短剧。在广告行业,比如奔驰以前推出一款车型,会制作预算高达几百万美金的大片级广告片。现在,通过结合 AI 的方式,用同样的预算可能制作出十个、一百个同等质量的宣传片,今年广告行业的 AI 渗透也非常快。
下一步的渗透,都将随着模型智能水平的提升而进行。我们在图片领域已经看到了:现在,你可能不再需要一位精通 Photoshop 的专业人士。你直接与图片生成模型对话,用自然语言描述需要修改哪里,它可能比以往任何一代最专业的修图师都修得更好。
当模型的智能水平达到这种程度并解锁该场景后,这部分市场就被划归到了大模型的市场。
这与大家看到的许多行业的驱动力有本质区别。
我们熟悉的移动互联网,常常讲数据的飞轮:有更多数据就更懂用户,推荐算法就更精准,用户体验更好,留存更高,然后又能获得更多数据。这是移动互联网推荐引擎的闭环。
但在这个行业,情况完全不同。我们看到基本上每三个月到半年,大家就会突然眼前一亮,模型的智能水平又上了一个台阶,从而解锁出更多的场景。
这个行业现在增长很快。根据一些统计数字,其年化收入目前接近三百亿美金——这是此时此刻,全球头部模型层公司收入的总和。
它的增速状态是:本月与上月相比,保持着双位数的增长。这个数字很惊人,意味着每月增长约百分之十,即一年增长约一点一的十二次方。这是非常可怕的增速。通常,增速如此快的行业会吸引越来越多的公司参与竞争,因为每年的增量都会大于去年的存量。
但这个行业的第二个非常不同之处在于:我们看到,真正参与模型层竞争、能持续发布全球领先模型的公司数量并没有变多,而是从三年前到现在持续在减少。目前全球大概只有十家左右。
放到国内语境,帮大家回顾一下:在二二年十一月 OpenAI 发布 ChatGPT 后,过了一个春节,到二三年年初,这变成了国内关注度最高的行业。二三年年中,有非常多的公司宣称要做大模型。那时有个词叫“百模大战”,类似于若干年前的百团大战。
但到了二四年,我相信大家已经听不到这个词了。二四年,我们的同行发明了一个词叫“五小龙”还是“六小龙”,即从一百家变成了个位数。因为很多家放弃了基座模型的持续研发,今年又进一步淘汰。这是国内大家能切身感受到的,真正参与领先模型发布的玩家在减少的趋势。
海外也是如此。我举个海外大厂的例子可能比较有体感。两年前,Llama 1、Llama 2 是公认的全球最好的开源语言模型。但从Llama 3 开始,可能就不算第一梯队了。到了 Llama 4 甚至更差。现在,它的开源模型其实已经没什么人用了。
因此,今年三四月份,马克·扎克伯格花了几亿美金,以天价从谷歌、OpenAI 挖人,组成了一个新的团队,收购了Alexandr Wang的Scale AI。组建这个团队后,我们作为业内人,其实一直觉得不太对——大模型肯定不是这么做出来的。
但仍然有很多人认为,重组后的团队都是最精英的,应该没问题。现在半年过去了,大家可能也看到很多报道,这个团队仍然什么都没做出来,而且非常混乱,有很多公开新闻描述其内部如何混乱。
读完这些文章,大家会有两个很好的理解:
第一,大模型研发是一个类似于造芯片、造火箭的系统工程,不是单点的算法创新。每一代模型可能需要做一千个决策,如果你能做对其中八百个,模型最终会不错;但如果只做对五百个,即使投入大量算力成本训练出来,结果也会很差。
第二,大家可能会更理解,在一个大厂组织里,如果存在很多摩擦,如果一号位并非真正懂大模型技术,中间会发生什么样的组织损耗。
你说他们没有资源吗?它的集群比任何一家中国公司,包括中国大厂的都要大、要多;它花的钱、招的人都是全球最好的。但即便如此,也并不一定能保证它在这个行业做出领先的模型。
还有很多其他例子,比如另一个投资了OpenAI的海外大厂,但自己也有一个内部的AI团队在做自研模型,但到现在为止,还没有任何人知道他们做出了什么,即始终没有发布过领先的模型。包括另一个投资了 Anthropic的大厂,同时自己也有一个自研模型团队,花了非常多的资源和资金,也始终没有做出来。
这么多数据点让大家看到的是,这个行业真正的壁垒并非简单地拥有大量人才或庞大的算力集群。真正的壁垒在于,你能否持续做出创新,拓展行业的边界?而不是简单地把其他公司的人挖过来做复现。
因为这个行业的模型智能水平提升非常快,每三到六个月就会跃升一大截。因为这个行业每年的增量都比历史的存量要大,所以你必须不断向前创新、拓展行业边界,才可能在这个行业留有一席之地。
比如,meta即使把OpenAI的人全挖来,过半年做出了 OpenAI 半年前的东西,其实也已经没用了,因为这个行业已经往前走了很多。
所以,这是我们看到的这个行业真正的壁垒:如何让一个至少百人规模的研发组织高效配合,持续跟上甚至超过行业模型迭代的速度,持续做出创新。这也是为什么,尽管行业发展非常快,月度环比增速是双位数,但反而留在模型层的玩家数量却越来越少。
我举个例子,就是如果你发布一次模型失败了,可能没关系。但如果你在一年到一年半的时间里,每次发布的模型甚至还不如开源模型,那会发生什么?这个团队里最顶尖的人才会立刻流向其他公司,因为在这个行业,顶尖人才非常抢手。顶尖人才走后,次顶尖的人才也会走。然后,整个团队的研发凝聚力、信心和士气就散掉了。士气散掉后,其实很难再回到原来的状态。
这是前面想跟大家介绍的,与大家传统认知中各个行业都不同的两点:市场在飞速地、跳跃式地变大;同时,真正在模型层持续发布过全球领先模型的公司反而在变少;并且,大厂有资源并不一定就能留在牌桌上。
关于我们公司:从第一天的构想到四年来的实践
接下来回到我们公司。这张图非常有意思,是我们公司成立第一天,创始人在白板上写下的,相当于我们的商业计划书。我先介绍其中的几点内容。
这个时间点是四年以前,那时还没有 OpenAI 发布 ChatGPT,是 ChatGPT 诞生一年以前。当时我们的创始人闫俊杰(我们一般叫他花名 IO,即 Input/Output),他当时看到的一个核心点就是图中的第一点:虽然那时还没有 ChatGPT,但我们看到通用模型可能迎来爆发点。这里说的“下一代 AI”,其“上一代 AI”是指什么呢?
我们的创始人 IO 之前一直从事图像、视觉相关的“上一代 AI”,其特点是每遇到一个新的客户、一个新的场景,都需要在这个场景里训练一个专用模型,因此边际成本很高,且难以规模化。你不可能服务到每一个终端用户,因为大家场景不同,都需要针对场景重新训练模型。
但在四年前,我们非常前瞻地看到,通用模型可能即将到达工业化可用的拐点。这是我们第一天开始创业的核心判断:模型将从“几万个模型服务几万个场景”,转变为“一个通用模型服务所有场景”。这是我们看到的第一点。
第二点,我们把通用人工智能定义为可以接近通过图灵测试的智能体。Agent 这个概念后来被全球行业广泛使用,其实我们是非常早提出的。这背后隐含的含义是,我们认为通用人工智能应该实现的方向,一定是全模态交互的——不仅仅是语言交互,还包括视觉和声音。
所以,我们从第一天就在做三个模态的大模型:大家最熟悉的大语言模型、视觉相关模型和声音相关模型。因为所有人与人的交互其实都可以拆解成这三个模态。例如,我们能看到的所有内容,都可以拆解成这三种模态。只要在这三个模态中都实现了通用人工智能,组合在一起就是一个可以通过图灵测试的智能体。
这是我们当时在第一天就坚持的第二个理念和目标:我们不是只做语言模型,而是要做三个模态都实现通用智能的模型。
后面还有一些我们对于行业的理解。例如,图中打了三个星号的“系统工程”这个词刚才也介绍了,它不是单点的创新。因为在二一年底之前的上一代 AI,所有研发范式是我需要非常多的算法专家,研发组织按算法分组。但这一代完全反过来了:我们只有几个算法模型,比如公司只有三个模态的模型,也就是三个通用模型;同时,也不需要通用的技术中台,这里的基础设施变成了专门服务于这几个模型的专用基础设施。
这个过程更像是造火箭和造芯片,需要一位总工程师或一号位,对每一个模块、端到端的技术细节都有深入理解。
此外,当时我们也设想了一些模型,比如不同智能程度从 L1 到 L4 的变化,以及产品形态从闲聊到目标导向的演进。闲聊就是我们推出的第一款娱乐性产品“Talkie /星野”,而目标导向就是我们现在的智能体产品。
所以,整体来看,这个行业的一些关键时间点判断、技术路线和产品形态,我们在第一天就写在了白板上,后来验证都是正确的。我们也是整个亚洲最早成立的专注做大模型的公司。
后面发生的事情是,过了一年后,OpenAI 发布了 ChatGPT,这个行业变得人尽皆知、非常火热。行业的关注度和增速确实比我们四年前想的要快很多。我也非常幸运,当时也在场,但是在桌子的另一边——我之前一直是做投资的,来自高瓴。高瓴是我们的天使投资人,也是前几轮的持续投资人,后来我选择加入了公司。
我们的产品与业务:以模型为核心
现在介绍我们公司的产品和业务,其实非常好理解。
三个模态的大模型就是我们核心的产品,即底层的模型层:大家熟悉的语言模型、视频生成与图像生成模型,以及声音相关的语音和音乐模型,还有支持这些模型训练和推理的平台。在模型和基础设施层,我们投入了超过百分之八十的公司资源。模型层之上是我们的产品层。
产品层,我们开发了一系列面向全球 C 端、B 端和开发者的全球化产品,有几个方向,后面会仔细介绍。正如我在开头讲的,这个行业很大的不同是,我们发现无论你做任何大模型驱动的产品,主要的用户体验其实都来自于模型本身。所以对我们来说,这些产品具体长什么样并没有那么重要。
在我们公司有一句话:我们的核心产品其实是这些模型,而大家传统意义上理解的产品,比如海螺、星野、我们的智能体 Agent、To B 的开放平台,都只是将我们的模型打包集成、面向不同用户群体的渠道或窗口。真正为客户、用户提供价值的,是我们的底层模型本身。
下面从模型层快速回顾一下我们过去四年的进展。
第一年,2022 年,在 ChatGPT 发布前,我们就已经有了自己的大语言模型。
两年前,2023 年,我们的语音模型实现了从文字生成语音的突破。其技术表现先做到了国内第一,后面做到了全球第一。我相信大家日常生活中肯定接触过由我们语音模型驱动的声音。举个例子,大家用的各种智能硬件,包括智能音箱、各种 AR/VR 眼镜、AI玩具,大概率都由我们模型驱动。
再比如,电商直播里的虚拟主播,很多声音也是我们提供的。当然,抖音会用字节的模型。基本上在声音这个赛道,我们在国内和字节加起来几乎等于全市场。例如,有声书方面,字节的番茄小说会用其自有模型,但除此之外的大部分有声书产品,都接入了我们的语音模型。
现在,以前专门做读书的创作者,只需将其音色复刻下来,就不再需要花几十个小时去朗读,只需几分钟就能用其语音逼真地读出来。大家如果听书,现在大部分内容应该都是由我们模型生成的,但大家是听不出来的。这是我们两年前在声音模态实现的阶段性成就。
去年,在视频生成模态,我们的海螺模型也做到了全球用量非常领先,处于数一数二的状态。去年八月,实际上可能更早,去年二月过年时,大家一定对 OpenAI 发布的 Sora 演示视频有印象——一位穿红裙子的女士在东京街头行走。
那时是 2024 年 2 月,它只发布了演示,模型并未开放使用。我们则在去年八月底发布了海螺模型,公开可用,所有人通过简单提示词即可生成视频。发布后,我们没有任何投放推广,但很快通过口碑在全球各大平台传播开来,迅速成为该赛道最大的视频生成平台之一。
我们的产品“海螺”第一个月甚至没有英文界面,是一个中文网站,但海外用户通过浏览器翻译使用,因为当时模型效果排在第一位。到现在,我们的模型与谷歌的 Veo 3、OpenAI的Sora2一起,被公认为模型性能最好的几个第一梯队模型。这是我们去年实现的第二个模态的突破。
今年,在第三个模态——语言模型上,我们也实现了很大突破。目前我们的新语言模型叫 M2,是全球所有开源模型中,在编程和智能体等场景真实 token 用量最大的语言模型。虽然它名字叫 M2,听起来是第二代,但若从 2022 年第一版语言模型算起,它是我们内部迭代的第八或第九代模型。
今年十月发布后,我们收到了非常好的国际反响。回过头看,我们每一年在一个模态上都实现了一个新的突破,在技术和模型用量上都做到了全球第一梯队。我们也希望未来每一年都能持续上一个台阶。
有一些量化的数据可以介绍:例如视频生成,我们每天生成接近两百万条视频。这是什么概念?谷歌的 Veo 在上次财报时发布过数据,其模型每天生成一百多万条视频。所以至少在上个季度,我们每天生成的视频量是超过谷歌 Veo 的。
另一个视角是,国内大家常用的小红书,日活跃用户超过一亿,它每天的视频和图像新增投稿量是千万级别。而我们一个平台的生成量已达两百万级别,可见渗透率在快速增长。
关于语言模型,我多说两句,这个突破我们也非常开心。在大众用户最熟悉的场景,如海外的 ChatGPT、国内的豆包或 DeepSeek 这类闲聊对话机器人,我们是不做这个产品的。因为这个产品在国内以免费为主,我们作为创业公司,认为这个产品更适合大厂来做。
我们的语言模型主攻的是语言市场中商业化收入最大的下游——AI 辅助编程和支持自主决策的智能体。这个下游在两个月前几乎 100% 由美国公司垄断,其中份额最大的是一家叫 Anthropic 的公司。
如果大家关注投资,可以搜索它每年的收入和估值增速,它是全球历史上收入增长最快的软件公司之一。它今年一月的年化收入是十亿美金,到十月时已达七十亿美金,十个月翻了七倍。在语言模型市场,目前超过一半的下游是编程相关场景,而该场景又由 Anthropic 垄断。
历史上,从来没有一个国产模型或开源模型真正切入 AI 编程场景。大家可能最熟悉的国产语言模型是 DeepSeek,它今年的突破主要是在对话问答场景。而编程这个最能商业化的场景,之前没有国产模型能切入。
我们的 M2 模型在十月底发布后,迅速成为全球编程 AI 领域用量最多的国产模型,目前用量份额排到第三名。这不是榜单打榜的分数,而是真实的 token 用量。我们现在是国产模型中用量最大的,基本相当于其他国产模型用量的总和。
当然,排在前面的还是两个美国模型。同时,看我们的下游应用,也都是编程软件场景。我们做个小小预告,未来很快也会发布 M2 模型的一个更新版。这是我们在语言模型上最新的突破。
视频模型从去年开始一直非常领先,这里就不多说了,非常直观。和大家分享一个一分钟的短片,它完全是由我们今年六月发布的第二代模型生成的。生成时的提示词都是文字,我们也把提示词列在了底部供参考。
这个短片是我们内部两位 AI 艺术家花了一天半时间,通过文生视频生成两百个六到十二秒的小片段,从中挑选出好的片段拼接而成的作品。像刚才最后两个镜头——马戏团和小丑化为灰尘消失的特效镜头,如果使用上一代计算机视觉建模技术制作,仅这两个镜头的成本可能就要小几十万,而且非常耗时,因为需要一帧一帧地进行 3D 建模和粒子效果调整。现在通过 AI 生成,可以更快迭代、更低成本地制作出高质量内容。
接下来是声音模型。刚才我也介绍了一些应用场景,现在听起来已经非常自然。我们的模型是统一的底层模型,无论什么语言、音色或场景,你只需要输入不同的语音提示词,它就可以进行克隆或模仿。
类似的,能说话就能唱歌,所以我们的音乐模型可以输入歌词生成完整歌曲。当然,歌词也可以通过我们的语言模型来创作。比如,你想把今天下午在上海中欧商学院的感想变成一首歌,它可以先帮你写成歌词,再生成歌曲。
我相信有些人可能注意到了,我们这些推广模型的演示视频本身,也是由我们的海螺视频模型生成的。
我们的核心竞争力与未来愿景
最后,我想再补充两点。
我们刚才介绍了一些模型在全球的进展和突破。我们是一家独立的创业公司,每年消耗的资源,主要是训练算力,与美国这个行业最大的公司,如 OpenAI,相差两个数量级;与国内同样在每个模态都有模型的字节相比,我们的资源消耗也小于一个数量级。
这就是创业公司存在的核心意义:我们的研发效率和资金使用效率更高,不断做创新,能用更少的资源做出更领先、迭代更快的模型。这是我们核心的竞争能力和组织能力。
最近也有很多讨论,为什么感觉模型差距在不断接近,但估值还差两个数量级?我相信大部分人稍加研究,都能得出结论:包括我们在内的国内模型公司,其价值是被严重低估的。
最后介绍一下商业化。我们从第一天就是一家全球化运营的公司,每一个产品,包括海螺视频生成、面向企业和开发者的开放平台、陪伴类产品Talkie/星野,都服务于全球用户。目前,大部分商业化收入也来自全球。
这些产品我就不一一展开了,如果大家感兴趣,欢迎到我们的官网体验,每个产品都有独立链接。
这里我最推荐的是我们的新产品 Agent(智能体),因为我个人是日活用户。我用它做调研、写报告,现在的完成度、思考深度和速度,肯定比一个普通实习生要好很多。这是我们新的智能体产品。
未来,我们相信它能成为我们的数字同事。我们内部,HR、财务和商务分析已经非常多使用我们的Agent同事,它能自主规划任务,在虚拟环境中操作电脑,例如帮助 HR 查找简历、跟踪联系等。到明年,甚至可能自主进行面试。
最后,再跟大家回顾一下前面的观点:首先,竞争留在牌桌上的玩家确实越来越少;其次,我们越来越看到,真正全模态的价值正被越来越多的人所欣赏。未来一定不是单模态的,一定是语言、视频、声音越来越融合。
我们也是全球为数不多的、仅有的四家公司之一,能在每个模态都做出全球领先的模型。目前在这个类别中,只有四家公司:两家美国公司 OpenAI 和谷歌,两家中国公司我们和字节。
我们相信,基于我们的研发效率、研发创新能力和每个模态模型的竞争力,我们可以在全球提供更好的“per dollar intelligence”,即每一块钱能买到的智能水平,真正将大模型从一个服务少数人、价格昂贵的东西,变成能服务普罗大众的产品。这符合我们的愿景——“与所有人共创智能”的行业发展趋势。
这些是我今天想跟大家分享的内容,谢谢。





京公网安备 11011402013531号