终于开始了。
文/修理
昨日,AilingZeng在X上公布了LPM 1.0,一个基于视频的角色表演模型,能够实时说话、唱歌、倾听、反应和做表情。
根据信息显示,LPM 1.0是面向单人全双工音视频对话的角色表演大模型,针对现有视频生成模型难以兼顾高表现力、实时推理、长时身份稳定性等挑战研发。
团队构建了以人为中心多模态数据集,训练17B参数的base LPM并将其蒸馏为低延迟流式的online LPM,实现实时视频生成、无限时长身份一致生成与细腻拟人化表演。
同时打造出首个交互角色表演基准LPM-Bench,在各项评估中取得SOTA结果,可作为对话代理、直播角色、游戏NPC的通用视觉引擎。
根据其个人主页信息,AilingZeng隶属于Anuttacon技术团队——就是蔡浩宇创办的那个AI公司。她此前曾在腾讯混元团队与AI Lab实验室从事模型相关研究工作。
该模型的技术论文一共由24位研究人员参与,内容很多,有兴趣的朋友可以自行搜索查看。葡萄君也不懂技术,这里就简单展示一下,这个模型可以具体做什么事情吧。
首先,LPM 1.0为多模态输入,你可通过1张图片+参考图片(可选)+ 说话/听/静音音频+文本的方式,来生成一段角色表演。这个表演视频可用于角色对话、角色直播和游戏NPC的视觉呈现。
通过下段视频你可以看到,该模型在角色的言语、节奏、目光,以及犹豫、思考等微表情方面上,有着相当多的真实细节。
LPM 1.0采用了多维度的角色身份稳定要素:全局外观参考、多视角身体图像与面部表情参考素材。以此来规避模型对牙齿、表情纹路、侧脸轮廓、未显露的身体形态等未知细节进行错误生成的问题,以实现角色身份的精准保持。
同时该模型也支持不同角色风格作为输入:写实、2D动漫、3D游戏和非类人生物等等,无需任何微调或领域特定训练。
并且LPM 1.0是支持实时互动的。根据官网的说法,该模型能在无限的交互时长下保持稳定、身份一致的生成,并会有回应前的停顿、身体节奏、目光转移等细节。
这种对话支持全双工(Full-duplex):就像真实的打电话或面对面聊天。双方可以同时说话、倾听,互相随时打断,直接反馈。
该GIF取自一段45分钟的演示对话,基于online LPM 480P型号生成
另外,在非对话场景中,角色独处于某个环境时,也会有着真实的呼吸节奏、自然的表演与准确的情感表达。
在Anuttacon团队看来,LPM 1.0主要优势在于:视觉忠实度、精准口型、身份保护以及自然感,包括支持任意长度的内容生成。(Kling-Avatar 2.0和OmniHuman 1.5最多限制为30秒)
所以LPM 1.0可能适用于以下情形:AI对话、游戏NPC互动、虚拟直播、教育辅导、游戏伴侣等等。长直播视频生成。
不过值得注意的是,Anuttacon团队现在没有计划向公众发布模型权重、源代码、在线演示、API、产品或任何相关产品。
本次公开仅用于展示LPM 1.0当前的研究进展,供学术交流使用。该模型不会开源或对外开放。
所以葡萄君认为,本次LPM 1.0对外披露的核心目的仍是招聘。之前不少相关人士都曾表示,蔡浩宇正在全力押注AI领域,且相关团队仍存在大量AI人才招聘缺口。而LPM大概率也不是Anuttacon唯一的技术探索方向,可以推测,他们未来很有可能还会推出更多的大模型。
看到这里,你大概就会发现,在一众游戏创始人中,蔡浩宇对AI的重视程度可能是最明显的,会亲自下场,在一线All in。
而不管是米哈游还是Anuttacon、Hoyoverse,他们近年来在AI领域的种种布局,其实已经开始形成一条有迹可循的技术探索路线。
比如说Anuttacon成立之初就表示要打造一款AI原生的游戏引擎级平台,开发者仅需输入前提条件,即可一键生成可自由交互的智能NPC, 并以此快速搭建完整游戏世界 。
而从最开始试验性质的AI游戏《Whispers from the Star》,再到后来的AI聊天产品AnuNeko,再到如今的LPM 1.0,这个技术的进化进度肉眼可见。
AnuNeko
包括米哈游或者Anuttacon近年来在各个AI领域的动作,看似分散,但现在也逐渐能串联起来了:
《崩坏:星穹铁道》团队早在2023年就已开始尝试将AI工具应用到角色行为管理、3D建模调优、NPC台词等多个方面,并希望未来打造“对话永不重复的智能NPC”。
米哈游还在2025年发布了崩坏IP项目组AI专项招募计划。该计划面向AI人才,核心目的包括“AI驱动提效”(将AI应用到游戏开发全流程)和“AI驱动创新”(通过AI带来新的游戏体验)。项目组已搭建AI Agent平台Echo和多个游戏开发管线应用。
前阵子,米哈游三位创始人蔡浩宇、刘伟、罗宇皓还通过刘伟代表,向上海交通大学捐款助力“AI未来基石基金”。不难猜想,这也是为后续的AI人才输送铺路。
而虚拟角色鹿鸣,米哈游与Hoyoverse联合开发的《雨之城》(Varsapura),则都有可能作为AI技术的探索载体。
事实上,在米哈游生活模拟新作《星布谷地》的首次测试里,已经推出了可支持玩家自由文字对话的AI NPC。
正如游戏葡萄此前的,每当谈及终极愿景时,蔡浩宇始终坚定会地认为,未来生成式的语言模型能跟游戏结合,做出非常酷的产品。
于他而言,虚拟世界是贯穿始终的灯塔。童年时对“被窝里的小电视”的幻想,因智能手机成为现实;而如今看不清终点的虚拟世界赛道,所有的AI技术布局、产品试验与底层探索,都是他一步步靠近这个终极目标的必经之路。
游戏葡萄招聘商务经理,





京公网安备 11011402013531号