当前位置: 首页 » 资讯 » 新科技 » 正文

字节藏了一手“牌”

IP属地 中国·北京 编辑:陆辰风 虎嗅APP 时间:2025-07-13 02:07:11


出品|虎嗅黄青春频道

作者|商业消费主笔黄青春

头图|电影《Her》

字节跳动又盯上“情感大模型”了。

虎嗅获悉,字节跳动旗下火山方舟大模型平台将上线一批“情感大模型”,向企业提供 API 调用、AI 对话解决方案(如客服、信息检索服务等);豆包则在自研新“情感大模型”——与年初接入 DeepSeek 时策略一样,字节跳动依然坚持“火山开放,豆包自研”的路线,兼顾生态与自有产品。

虎嗅就上述信息向字节方面求证,火山引擎相关负责人回应称,有关“情感大模型”信息不实,没有此模型计划。

简单来说,字节跳动之所以盯上 “情感大模型”,源于其并非普通数据处理大模型,而是以 “拟人化情感理解” 为核心,即通过技术识别、理解来模拟人类情感——去年,Hume AI 推出具有情商的对话式 AI,已经能检测到用户 53 种情绪,未来电影《Her》中主人公迷恋上 Samantha 的剧情或将照进现实。

不止 “聊天”,更懂 “人心”

很多读者或许会好奇,“情感大模型”到底有什么特别之处?

区别于传统聊天机器人机械的交互,“情感大模型”不仅追求对话能力,更注重用户情感体验(如接近真人的语音、可打断对话等)——具体而言,“情感大模型”会通过分析用户的语调、停顿、表情理解情感,从而生成符合情绪的回应,即通过“理解情绪 + 精准回应”使交互更生动、真实。

简单概括就是:“情感大模型”不止 “聊天”,更懂 “人心”,更能 “共情”。

可别小瞧了这个隐秘的新风口:

腾讯研究院《2024大模型十大趋势》报告显示,“情感大模型”的发展将引领 AI 陪伴市场的快速增长,预计在接下来的2-3年内,人机陪伴市场将迎来产品和用户数量的爆发式增长;

另据非凡产研数据,人工智能伴侣平台的月活跃用户数量 2018-2023 年间增长了 30 倍,全球市场规模预计将在 2023 - 2030 年间,从 3000 万美元飙升至 1500 亿美元,年均复合增长率达到236%。


“情感大模型”之所以突然成为市场关注的焦点,一个重要原因在于:它正推动 AI 从 “工具属性” 向 “情感伴侣” 延伸,从而打开全新的应用场景。

基于此,“情感大模型”的技术演化形成了两条路径:一是在通用大模型的基础上,通过增强多模态情感计算能力,催生出具有更好情感理解与响应能力的 AI 情感应用,如豆包实时语音大模型可实现端到端对话、低时延、接近真人交互。

二是专注于情感领域的生成式大模型,如 HumeAI 的移情语音界面(EVI)、祝语未来科技的 AEGMV 等,这也是字节正在布局的方向。

以 Character.AI 为例,不仅支持1对1聊天,还可以进行创作角色、发展剧情,甚至拉角色开“群聊派对”,其 7 月 5 日新发布的TalkingMachines(自回归扩散模型)可以实时进行 AI 角色视频互动——用户只需要输入一张图片和声音信号,该模型就能实现类似 FaceTime 的通话视觉互动。


与之对应,仅去年上半年,Character.AI 在移动端累计下载量已突破 3432 万,网页端单月访问量高达 3.1 亿,在相关榜单仅次于 ChatGPT。

一位大模型工程师向虎嗅解释,“情感大模型”多以 Transformer 为基础不断改善网络结构,采取全模态关联,中间不进行模型转换动作,而是通过小组件改善准确率。

基于这样的技术特点,企业要如何落地应用呢?

虎嗅了解到,“情感大模型”与传统大语言模型在参数量和算力上有差异,业内普遍做法是有更多 NLP 专家参与,采用通用加分散专家模式,相比传统模型在算力上有所节省,但对特殊数据要求高。

与之对应,情感模型领域多采用端到端形式,不能像正常架构那样转换数据,否则模型效果差——有鉴于此,为保证长时间生成领域效果,训练时所需算力比通用版本高 30%-50%。

一位大模型创业者向虎嗅分析,“现阶段,国内外‘情感大模型’发展存在一定差距,国内大概比国外晚一年左右;也可以将‘情感大模型’视作通用大模型发展的一个节点,涉及到多模态多端学习和 MoE 架构(即混合专家模型,是一种新型的大模型架构,其核心思想是“术业有专攻”,通过多个“专家”模型共同协作来处理复杂的任务),国内在相关技术研究上已取得一定进展。”

聚焦到产品,开源证券研报指出,GPT-4o 等多模态大模型正加速推进 AI 情感陪伴大模型落地,提供实用性 Agent 功能。

比如,国外 Miko 公司推出第一代 AI 伴侣,初步实现 AI 与 IP 联动;Curio 于 2023 年 12 月推出针对 3-12 岁儿童的 AI 玩具,包括 Gabbo、Grem 和 Grok 三款产品。

至于国内,FoloToy 联合火山引擎推出“显眼包”,跃然创新持续迭代 BubblePal(截至 2024 年 10 月已销售数万台);Looi 推出可移动手机支架形态的桌面机器人,具有调整情感反应和性格特征等功能;CASIO 推出 AI 宠物机器人 Moflin,提供情感治愈价值。

字节埋“伏笔”

面对这样的市场与技术趋势,字节跳动如何布局?

虎嗅了解到,字节跳动计划通过不同垂类大模型带动豆包月活在 2025 年实现翻倍。

与之匹配的动作包括:一方面,字节会围绕抖音等 C 端体系推进娱乐、社交、陪伴、游戏场景渗透;另一方面,字节跳动会进一步提升火山引擎在 ToB 领域的输出能力,为企业提供 API 调用、AI 对话解决方案等服务,例如,为客服、销售、售后等岗位提供个性化服务,还能与智能家居、音箱、耳机(比如 Ola Friend 智能体耳机主打卖点就是接入豆包 AI 大模型)等硬件结合,未来能在唱歌、作曲等领域有更好的发展。

一个有趣的切面是,“情感大模型”在语音层面学习时,会将语音、语调、面部关键点参数(如唇形等面部 landmark 参数)以及对应的文字以数据对形式放入模型,在语速、语调、视觉等多模态之间建立统一关联——这不仅涉及用户表达、短语分析,更深层次还需理解用户真实感受,敏锐地捕捉到用户内心愉悦、生气、担忧等情感状态。

比如,Hume AI 在 2024 年发布的 EVI 能够从用户那里检测到约 53 种不同的情绪,宣称是“第一个具有情商的对话式人工智能”。

对此,Hume AI首席执行官艾伦·考恩(Alan Cowen)表示,“情商包括从行为中推断意图和偏好的能力——这是人工智能界面试图实现的核心:推断用户想要什么并执行它。因此,从用户真实需求层面来看,情商是人工智能界面最重要的要求。”

有鉴于此,“情感大模型”能大幅提高用户体验与交互效果,适用于助手类效率提升产品,在信息检索、陪伴、知识协作、AI 玩具、社交游戏等领域有显著优势——更隐秘的躁动则涌向了 AI 情趣机器人,一度带动二级市场产业上下游关联企业股价攀升。


有从业者告诉虎嗅,通用大模型未来会融合各种细分模型,如“情感大模型”、文生视频大模型、图生视频大模型等,从而变得更加全面、强大;至于大模型下一阶段进化方向,行业资深从业者的共识是世界模型(媲美人脑,通过学习现实世界中的物理和因果规律,具备“物理直觉”,可在内部模拟环境变化,并基于当前环境状态推演未来状态,同时评估自身行为后果)。

至于市场潜力,“情感大模型”热浪或将推动消费类机器人加速升级——群智咨询显示 2024 年全球机器人出货规模约 4700 万台,未来 5 年复合增长率超 20%,消费类机器人占比约 81%;高盛预测 2035 年全球人形机器人市场规模达 1540 亿美元。

当然,“情感大模型”现阶段仍面临诸多问题,如算力消耗非线性增长、模型长效记忆能力、数据收集与隐私安全等,这些既是大厂跑马圈地过程中的阻碍,也能成为业务突破后的技术护城河。

#虎嗅商业消费主笔黄青春、黄青春频道出品人,关注文娱社交、游戏影音等多个领域,行业人士交流加微信:724051399,新闻线索亦可邮件至huangqingchun@huxiu.com

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4454840.html?f=wyxwapp

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。