当前位置: 首页 » 资讯 » 新科技 » 正文

AI不再「炫技」,淘宝要让技术解决用户每一个具体问题

IP属地 中国·北京 机器之心Pro 时间:2025-10-28 14:14:38

机器之心报道

编辑:Youli

2003 年,美国哈佛商学院教授克莱顿・克里斯坦森在《创新者的解答》中提出这样一个观点:颠覆性创新常常通过让复杂的产品或服务变得更简单、更便宜、更易用,从而让更多的人能够参与进来……

之后的二十多年里,各路互联网先驱都把这一观点奉为圭臬,在一次又一次的技术变革中反复验证。而进入新一轮 AI 浪潮,技术的发展像是按下了加速键,从架构到参数、从单一语言到多模态大模型、从基础大模型到行业大模型……「卷生卷死」的背后是技术演进曲线的陡峭攀升,产品服务的层出不穷,而这一观点仍然适用。

对于「更多的人」来说,技术的演变、发展更像是冰山下的「不可见」,他们更关心的是冰山上的「可见」:AI 具体解决了什么问题。

这也是各大互联网厂商和新的模型玩家创新的出发点。淘宝是其中的一个典型玩家,具体做法是力求将 AI 功能融入到淘宝应用场景的每一个毛细血管深处,去解决每一个具体的用户问题。为着这一目标,淘宝的 AI 技术团队不断发力。

今年 3 月,淘宝全面升级 AIGX 技术体系,具备基础研究、应用开发和产业化的完整链条,覆盖了 AIGI(索引)、AIGR(推荐)、AIGB(出价)、AIGA(拍卖)、AIGC(创意)、AIGD(数据)等电商商业经营所需的全部场景。用阿里巴巴中国电商事业群首席科学家、技术总裁郑波的话来说,「AI 已经成为淘宝算法的基因。」

近日,在 CNCC2025 大会上,郑波首次公开了淘宝全模态大模型的最新进展,并系统介绍了多模态智能在淘宝 AIGX 技术体系的研究应用。另外,结合 AI 模型技术在淘宝应用中的实践,他认为,「狭义 AGI 很可能在 5-10 年内到来。」



以下为郑波的主题分享内容,机器之心在不改变原意的前提下进行了整理。

AI 时代,生成式 AI 将带来生产力的代际跃升

回望过去几年,我们一次次被 AI 技术突破的速度震撼 —— 两年多以前还在讨论 ChatGPT,接着就是今年年初的 Deepseek、Claude Code,再到近期发布的 Sora 2,AI 技术的迭代速度之迅猛,仿佛每年都是一个跳跃式发展的时代。

如果我们将视线放远,仔细翻看过去二十多年互联网发展与变迁的「史书」,各种各样的技术升级、产品迭代故事案例,其实都是在围绕着技术发展与商业变革双向驱动的螺旋轨迹演进。



PC 互联网时代的关键词是「数字基石」,开放式硬件架构、图形化操作系统和软件生态重塑世界,门户网站与搜索引擎推动全民数字化启蒙。而就是在这一时期,2003 年淘宝上线,正式开启中国「电商元年」,并率先在搜索中应用机器学习模型,奠定技术驱动商业的基因。

等到进入无线互联网时代,「时空折叠」成为这一时期的关键词,智能手机与 4G 催生移动互联网革命,信息流推荐与社交网络打破空间限制,而淘宝也正式开启移动端叙事。2013 年,手机淘宝实现双 11 个性化推荐,推动首页信息流化,「猜你喜欢」进入首屏,并开源高维稀疏框架 X-DeepLearning 等,引领行业技术标准。

再之后,从 AlphaGo 战胜围棋高手李世石,AI 浪潮兴起,到 ChatGPT 开启大模型叙事,Sora 引入多模态叙事,再到 DeepSeek 改写大模型落地新篇章,以及近期 Sora2 的再次重磅来袭,不可否认,我们正站在一个全新的 AI 时代进程中……

如果用一个关键词来形容,我们认为应该是「智能增强」。AI 时代以数据、模型和算力为引擎,「智能增强」使得人类与技术,第一次可以用「共生」来形容。

更为重要的是,与前两次技术革命主要解决连接效率、便捷性的命题不同的是,AI 时代的最大惊喜,应该就是生成式 AI 对于生成力的代际提升。其中,「多模态智能」,正在成为最为关键核心的技术域,它使得 AI 能够像人类一样,综合理解和生成文字、图像、语音、视频,实现从单一感知到跨模态推理的飞跃,以及产生交互行为,执行复杂任务。而这意味着 AI 可以更自然地与人协作,更好地解决人类生活中的真正实际问题。

对于淘宝来说,从 2023 年起就开始大力布局 AI,自研多模态、搜推广、视频生成等大模型家族,通用能力已然达到国内第一梯队水平。基于全面升级后的 AIGX 技术体系,AI 万能搜、AI 试衣、万相营造、广告大模型 LMA 等 AI 产品和模型不断涌现。

我们可以看到,技术创新驱动商业生态升级,而商业的海量场景反哺技术突破,形成「技术创造价值 — 价值反哺技术」的双螺旋演进。

多模态智能是淘宝最重要的 AI 技术域,已在 AIGX 技术体系「深度应用」

今年 7 月,淘宝发布了一个名为 RecGPT 的百亿参数推荐大模型,实现了生成式推荐( AIGR )的技术升级,并全面接入手机淘宝首屏「猜你喜欢」信息流。可以说,淘宝是业内第一个尝试用 LLM 能力来「系统化」改造推荐算法的,也就是说,在其他玩家还在布局基础模型的时候,我们已经在思考技术与场景的紧密结合,该如何使算法更懂用户,让用户的购物行为更为「丝滑」。

具体来看是这样,传统推荐算法通过协同过滤、深度学习等,使用用户同商品或内容的交互数据,来预测点击和成交概率,计算效率高,适合结构化数据,但会受到历史数据和冷启动的制约,还容易陷入「信息茧房」。

生成式推荐算法,则基于多模态大模型,结合世界知识,来生成符合用户偏好的新内容或个性化推荐序列。它的创造力强,支持多模态输入输出,能适应复杂非线性关系。



简单来说,传统推荐系统只能匹配现有实体来进行关联和预测,更适合标准化、结构化的需求;而生成式推荐,能够跳出原有的数据局限,生成新内容或动态策略,进行创造和推理,更适合多元化、个性化和发现性的需求,让算法更懂用户。

比如,当 RecGPT 发现一些用户群体从去年 3 月开始持续购买婴儿床、1 段奶粉、安抚玩具等商品,就会推断出该用户群体可能有宝宝出生。

因此,根据时间推断,当宝宝可能满 1 周岁时,系统会主动推荐学步车、3 段奶粉、早教玩具等适龄商品。而等到「双十一」期间,系统则会结合用户的历史品牌倾向和店铺关注,精准推荐冬季童装的优惠组合。

之所以能够做到这样,是因为我们的推荐大模型 RecGPT 以淘宝百亿参数的多模态大模型为基础,对 10 万量级的上下文进行总结,理解长达十年的用户在淘宝的行为信息,全模态认知数以亿计的商品信息,再结合世界知识进行推理,为用户推荐之前没看过甚至没想过、但又有潜在需求的商品。

又比如今年 8 月,在有些天文爱好者还不知道 9 月 8 日将会迎来月全食的时候,他们的信息流推荐中已经出现了月全食观测设备……



可以说,不同于传统推荐,RecGPT 更像个贴心的生活小助手。

最新数据是,搭载 RecGPT 大模型的推荐信息流,实现用户点击量增长超过 16%,用户加购次数和停留时长则提升 5% 以上。

在多模态生成方面,AIGC 正以前所未有的效率重塑电商场景的内容生态。

我们可以结合具体的案例来看一下。

商家有一条碎花连衣裙,且只有一张普通的平铺照片,以往情况下,在商品页面也只能这样展示,但现在不同了。仅基于这样一张照片,系统便能够匹配生成一个虚拟模特,之后生成多张模特穿着此连衣裙,在不同场景的摆拍照片。

更进一步,视频生成模型还可将照片生成为视频片段,并根据首尾帧生成视频转场,再生成虚拟模特讲解视频之后,多模态剧本生成和自动剪辑技术将全自动的制作出一条完整的「带货视频」,从而大幅降低商家的内容制作成本。



一件普通的连衣裙,可以全自动制作出完整带货视频的背后,便是淘宝自研的专注电商的视频生成模型 ——淘宝星辰・视频生成模型。从第一版推出以来,以其懂客户、懂电商的特点受到广大商家的欢迎。

此次,我们推出了升级版 ——淘宝星辰・视频生成模型 3.0,这一版视频生成模型采用了更紧凑的 16x16x4 时空压缩 VAE,在大幅增加 DIT 参数的情况下,保持推理的高效。此外,高品质、类别平衡的训练数据,搭配大幅提升的语义理解模块,使得模型动作更加灵动,语义更精确,画面更原生。升级后的版本即将上线淘宝多个电商产品。



不仅如此,要全自动生成前面的带货视频,需要优秀的多模态模型,一方面要理解图像和剧本,另一方面要支持音视频等输出,这也离不开全模态大模型「TStars-Omni」的功劳。我们的「TStars-Omni」支持输入文本、图像、视频、音频,输出文本和音频,能够极大程度对齐人类感官。

在 LLM 方面,我们采用 MLA 和 MTP,显著提升了模型的吞吐,提供了极致性价比的模型基座;视觉编码器方面,支持原生分辨率输入,很好适配了不同尺寸、不同宽高比的图片理解;音频理解方面,重点打磨语音识别能力,尤其是电商场景的用户语音,在中英文混合、方言、背景多样等方面重点优化;语音合成方面,重点优化情感合成、音色克隆等能力,打磨特色音色,应用到广告短视频配音等业务。

此外,基于 TStars-Omni 模型,我们打造了全面的商品理解,输入商品的所有多模态信息,包括标题、图片、属性、详情页图文等,可以生成商品各方面的理解,并进行深度推理。

比如,当用户分别输入一张冰箱和厨房的平面图后提问:「我可以把这个冰箱放进我的厨房吗?」TStars-Omni 模型就会对图片进行分析推理,继而回答可以还是不可以,如果答案是「无法直接嵌入」后,还会给出相关的建议和提醒。

接下来,再来介绍一下我们的 AI Agent :iFlow CLI。iFlow CLI 的核心理念是「一个内核,多种应用方式」:程序员可以把它当做 terminal 命令行,也可以作为 IDE 插件,业务开发者则可以通过 Agent SDK 快速集成。这种设计让不同用户都能找到适合自己的使用方式。



另外,iFlow CLI 打造了一个开放平台,真正做到开箱即用。通过内置的 Hooks、各种输出样式、智能体市场和命令市场,用户可以直接安装使用。同时非常安全,从结果准确性到权限管控,让大家用得安心。更重要的是,iFlow CLI 提供完全免费的多款国产模型。

在性能表现上,我们针对国内开源模型进行了深度优化。在多项基准测试中,iFlow CLI 相比 Claude Code 等工具在使用国产模型的情况下都展现出了更优的综合性能。iFlow CLI 远不止于编程,它可以应用到广告创意、学术写作、旅游攻略制定,甚至流程图绘制等各种场景。关键的一点,iFlow CLI 面向个人用户永久免费开放。

综合以上的分享可以看出,多模态智能已经在淘宝 AIGX 技术体系发挥着越来越重要的作用。



这背后正是淘宝对于技术发展与商业变革双向驱动的发展趋势的判断。我们认为,面对未来在生活消费场景越来越复杂的任务,用户需求将呈现跨模态、具身化演进,多模态的理解和生成将成为标配,也唯有多模态智能,才能支撑「所想即所得」的终极消费体验。

淘宝一直致力于建设「万能的淘宝」,我们也将构建全球领先的多模态 AI 能力体系 —— 这不仅是技术演进方向,更是生态级电商平台的升级所必需。

更为重要的是,经过不断在自家内部场景打磨、验证后,淘宝还想与业界一同「共享」AIGX 技术体系的创新能力。

技术开放与生态共振

今年 6 月,淘宝正式开源了全新一代强化学习训练框架 ROLL(Reinforcement Learning Optimization for Large-scale Learning)。



ROLL 以用户体验为核心设计理念,专为「高效・可扩展・易用」而打造,彻底打通从小模型到 600B + 超大模型的 RL 训练落地路径,在诸如人类偏好对齐、复杂推理和多轮自主交互场景等关键领域显著提升了 LLM 的性能,同时具备超高的训练效率,已在淘宝多个内部业务场景中应用,为业务创新提供了强大的技术支持。

而在 10 月初,我们的生成式预估训练框架 RecIS 也正式开源,这是一个专为超大规模稀疏 - 稠密计算设计的统一架构深度学习框架,基于 PyTorch 开源生态构建,为推荐模型训练,或是推荐结合多模态大模型训练提供了完整的解决方案,且已广泛应用在阿里巴巴广告、推荐、搜索等场景中。

不难看出,淘宝正在逐步将内部场景验证后的能力向外部释放,形成生态扩张动能,从而促进整个行业加快迈向「超级智能(ASI)」时代的步伐,这是整个人类的星辰大海。

从过去两年多的发展来看,AI 处理问题的复杂度每年以 5-10 倍速度增加,而 AI 的错误率每年降低 50%,模型 inference(推理)的成本每年也降低一个数量级。

假如我们把 「超越人类智能」定义为 ASI,把「在多数开放环境任务完成度超过 95% 的人类」定义为狭义 AGI,那么,如果模型能保持这个速度进化,狭义 AGI 很可能在 5-10 年内到来。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。