当前位置: 首页 » 资讯 » 新科技 » 正文

VITA-1.5:让计算机像人一样同时"看"和"说话"的革命性突破

IP属地 中国·北京 科技行者 时间:2025-09-16 22:30:14


这项由南京大学、腾讯优图实验室、厦门大学等多家机构联合完成的研究发表于2025年1月21日,论文题为《VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction》。有兴趣深入了解的读者可以通过GitHub开源项目(https://github.com/VITA-MLLM/VITA)获取完整的代码和研究资料,该项目目前已获得超过2000个星标。

现在,请你闭上眼睛,设想这样一个场景:你正在厨房里准备晚餐,双手忙着切菜,突然想要查询某道菜的做法。你只需要对着手机说话,同时用手机摄像头对准你面前的食材,一个智能助手就能立刻理解你在做什么,然后用清晰的语音告诉你接下来该怎么做。这不是科幻电影,而是VITA-1.5这个新系统正在实现的能力。

过去,计算机要想同时处理视觉信息和语音对话是极其困难的。就像一个人要同时用左手画画、右手弹琴,还要唱歌一样,每项技能都需要大脑的不同区域协调工作。传统的人工智能系统通常只能专注于一种能力,要么是看图识别,要么是语音对话,很少能像人类一样自然地结合这些技能。

VITA-1.5的突破性在于它能够像人类一样,同时运用视觉和听觉进行自然对话。这个系统不需要先把语音转成文字,再把回答转成语音这样繁琐的步骤,而是能够直接进行语音到语音的交流。这就好比过去的翻译需要先把中文写在纸上,翻译成英文,再读出来;而现在可以直接进行同声传译一样流畅。

研究团队面临的最大挑战是如何让一个系统同时掌握看图和说话这两种完全不同的能力。视觉信息就像是一幅静态的画,包含空间和细节信息;而语音信息则像是流动的音乐,包含时间序列和韵律变化。这两种信息的处理方式截然不同,强行让系统同时学习往往会造成"顾此失彼"的问题,就像让一个学生同时学习数学和音乐,可能两样都学不好。

一、循序渐进的三阶段训练策略:从基础到精通的学习之路

VITA-1.5的成功秘诀在于它采用了一种非常聪明的分阶段训练方法,就像培养一个全能型人才一样,先让他掌握基础技能,再逐步添加新能力。

第一阶段是建立视觉理解的基础。研究团队首先让系统学会"看懂"图片和视频。这个过程就像教一个孩子认识世界一样,从简单的物体识别开始,逐渐学会理解复杂的场景。系统使用了一个名为InternViT-300M的视觉编码器作为"眼睛",能够将448×448像素的图像转换成256个视觉标记。对于高分辨率图像,系统还采用了动态分块策略,就像用放大镜仔细观察图片的每个细节一样。

在处理视频时,VITA-1.5采用了智能的帧采样策略。如果视频短于4秒,系统会均匀采样4帧;如果视频长度在4-16秒之间,则每秒采样一帧;对于超过16秒的长视频,系统会均匀采样16帧。这种策略确保了系统既能捕捉到视频的关键信息,又不会因为处理过多帧而影响效率。

这个阶段分为三个小步骤。首先是视觉对齐训练,系统学习如何将视觉特征与语言模型连接起来,只有视觉适配器是可训练的,其他模块保持冻结状态。接着是视觉理解训练,系统学会生成图像描述,这时视觉模块和语言模型都参与训练。最后是视觉指令调优,系统学会回答关于图像的各种问题,同时保留部分描述数据以增加训练的多样性。

第二阶段引入了音频理解能力。就像一个已经会看的孩子开始学会听和理解语音一样。系统的音频编码模块包含多个下采样卷积层和24个Transformer块,拥有约3.5亿个参数,输出帧率为12.5Hz。输入采用梅尔滤波器组特征,窗口大小为25毫秒,位移为10毫秒。

音频对齐训练使用了11万小时的内部语音转录配对数据,覆盖中英文两种语言。研究团队采用两步法:首先训练语音编码器,使用常见语音识别系统的连接时序分类损失函数来预测转录文本;然后训练语音适配器,将音频编码器与语言模型集成,同时引入特殊的可训练输入标记来指导语音理解过程。

音频指令调优阶段,系统学会处理语音问答任务。研究团队采样了4%的描述数据和20%的问答数据,约一半的文本问题被随机替换为相应的语音版本。系统还添加了分类头来区分输入是来自语音还是文本,使模型能够更准确地处理不同类型的输入。

第三阶段是最关键的音频输出训练。前两个阶段让系统学会了"看"和"听",现在要教它"说话"。系统使用TiCodec作为编解码模型,定制了单一码本设计,码本大小为1024,简化了推理阶段的解码过程。编解码模型负责将连续语音信号编码为离散语音标记,频率为40Hz,同时具备将这些标记解码回采样率为24000Hz语音信号的能力。

为了让系统能够输出语音,研究团队在文本标记后添加了两个语音解码器:非自回归语音解码器负责处理全局文本标记并建模语义特征,目标是生成语音标记的初始分布;自回归语音解码器则基于非自回归解码器产生的信息逐步生成更高质量的语音标记。这种设计就像先有一个大概的轮廓,然后逐步细化成清晰的画面一样。

编解码训练使用3000小时的文本-语音配对数据训练编解码模型,而解码器训练阶段,文本通过分词器和语言模型的嵌入层获得嵌入向量,语音通过编解码模型编码器获得语音标记。文本嵌入向量被发送到非自回归语音解码器获得全局语义特征,然后这些特征被送到自回归语音解码器预测相应的语音标记。重要的是,在这个阶段语言模型保持冻结状态,因此不会影响多模态性能。

二、强大的多模态架构设计:统一而高效的信息处理中心

VITA-1.5的整体架构就像一个高度协调的管弦乐团,每个组件都有自己的职责,但能够完美地协同工作。输入端采用了"多模态编码器-适配器-语言模型"的配置,将视觉和音频变换器与多层连接器结合,目标是增强对视觉、语言和音频的统一理解。

在视觉处理方面,系统的"眼睛"采用InternViT-300M作为视觉编码器,输入图像尺寸为448×448像素,每张图像生成256个视觉标记。对于需要精细处理的高分辨率图像,系统采用动态分块策略来捕获局部细节,提高图像理解的准确性。视频被视为特殊的多图像输入进行处理。为避免产生过多可能阻碍处理效率的视觉标记,视频帧不应用动态分块处理。视觉适配器采用两层多层感知机结构,将视觉特征映射为适合语言模型理解的视觉标记。

音频处理模块的设计同样精巧。语音编码器由多个4倍下采样卷积层和24个Transformer块组成,隐藏层大小为1024。下采样层帮助降低音频特征的帧率,提高语言模型的处理速度。语音适配器包含多个2倍下采样的卷积层。整个音频编码模块约有3.5亿参数,输出帧率为12.5Hz,确保了高效的音频处理能力。

语音解码器部分采用了创新的双重解码设计。TiCodec被用作编解码模型,定制了单一码本设计,码本大小为1024,这种设计简化了推理阶段的解码过程。编解码模型能够将连续语音信号编码为40Hz频率的离散语音标记,同时具备将这些标记解码回24000Hz采样率语音信号的能力。

当前的语言模型只能输出文本标记,要获得语音生成能力需要让语言模型能够输出语音标记。研究团队在文本标记后添加了两个语音解码器:非自回归语音解码器全局处理文本标记并建模语义特征,目标是生成语音标记的初始分布;自回归语音解码器基于非自回归解码器产生的语音信息逐步生成更高质量的语音标记。最终的语音标记序列通过编解码模型的语音解码器转换为连续语音信号流。两个解码器都采用4层LLaMA解码器结构,隐藏层大小为896,参数量约为1.2亿。

三、丰富多样的训练数据:涵盖多语言多场景的学习素材

VITA-1.5的训练就像培养一个博学的学者,需要大量丰富多样的学习材料。整个训练数据集包含约2.21万个问题,涵盖中英文两种语言,确保系统能够处理不同语言环境下的多模态交互。

图像描述数据是系统学习视觉理解的基础。ShareGPT4V提供了9.95万个英文图像描述问题,ALLaVA-Caption贡献了69.74万个英文描述,SharedGPT4o-Image增加了5.55万个英文样本,还有59.37万个中文合成数据。这些数据教会系统如何用自然语言描述图像内容,就像训练一个解说员学会生动地描述所看到的场景。

图像问答数据进一步提升了系统的推理能力。LLaVA-150K提供了21.84万个中文问答对,LLaVA-Mixture-sample贡献了187.21万个英文样本,LVIS-Instruct增加了93.94万个英文问答,ScienceQA提供了1.27万个英文科学问题,ChatQA贡献了7390个英文对话问答。这些数据涵盖了从一般图像问答到数学推理的各种任务,让系统学会在不同情境下进行视觉推理。

文字识别和图表理解数据帮助系统掌握更精细的视觉技能。Anyword-3M提供了170.93万个中文文字识别样本,ICDAR2019-LSVT贡献了36.63万个中文样本,UReader和SynDOG分别提供了英文文字识别训练数据。这些数据让系统能够识别图像中的文字内容,理解图表和文档,就像训练一个既能看图又能读字的助手。

视频理解数据让系统学会处理动态视觉信息。ShareGemini提供了20.57万个中文视频描述样本,合成数据贡献了56.94万个中英文视频样本和433.63万个中英文视频问答对。这些数据教会系统理解视频中的动作、场景变化和时间关系。

纯文本数据确保系统保持强大的语言理解和生成能力。157.42万个中英文合成文本问答对帮助系统在处理多模态信息的同时,不丢失原有的文本处理能力。

除了这些图像和视频数据,系统还使用了11万小时的内部语音转录配对数据进行音频编码器训练和音频编码器与语言模型的对齐,涵盖中英文两种语言。另外,3000小时由文本到语音系统生成的文本-语音配对数据用于训练语音解码器,确保系统能够生成自然流畅的语音回复。

四、全面的性能评估:与顶级模型的正面较量

为了验证VITA-1.5的实际能力,研究团队进行了全方位的性能测试,就像给一个全能运动员安排各种比赛项目一样。

在图像理解能力测试中,VITA-1.5与多个开源和闭源模型进行了对比。测试采用了九个权威评估基准,包括MME、MMBench、MMStar、MMMU、MathVista、HallusionBench、AI2D、OCRBench和MMVet。这些基准覆盖了通用多模态能力、数学推理、幻觉检测、图表理解和文字识别等多个方面。

结果显示,VITA-1.5在完成三个阶段训练后,平均得分达到66.8,表现可比肩领先的图像视频多模态大语言模型。特别值得注意的是,在完成第二阶段(音频输入调优)和第三阶段(音频输出调优)训练后,VITA-1.5几乎完全保持了第一阶段(视觉语言训练)的原始视觉语言能力,这证明了分阶段训练策略的有效性。

与闭源模型相比,VITA-1.5的表现同样令人印象深刻。在某些指标上,它甚至超越了GPT-4V和GPT-4o-mini等知名模型。例如,在OCRBench测试中,VITA-1.5得分732,超过了GPT-4V的678分。在MME综合评估中,VITA-1.5获得2352分,表现稳定可靠。

视频理解能力测试采用了Video-MME、MVBench和TempCompass等基准。尽管VITA-1.5在某些视频理解任务上仍落后于GPT-4o和Gemini-1.5-Pro等顶级闭源模型,但它与许多开源模型的表现相当,显示出良好的视频处理能力。在TempCompass基准上,VITA-1.5得分66.7,接近InternLM-XComposer-2.5的62.1分和MiniCPM-V-2.6的66.3分。

语音识别能力的测试结果尤其令人鼓舞。在中文语音识别方面,VITA-1.5在aishell-1测试集上的字符错误率仅为2.2%,在test net上为8.4%,在test meeting上为10.0%,均显著优于VITA-1.0的表现。在英文语音识别方面,系统在dev-clean上的词错误率为3.3%,在dev-other上为7.2%,在test-clean上为3.4%,在test-other上为7.5%,表现同样出色。

这些测试结果不仅超越了专门的语音模型如Wav2vec2-base,还优于其他多模态模型如Mini-Omini2和Freeze-Omini。这证明VITA-1.5成功地整合了先进的语音能力,能够支持高质量的多模态交互。

五、技术创新与实际应用:从实验室到现实生活的跨越

VITA-1.5的技术创新不仅体现在性能数据上,更重要的是它为实际应用开辟了新的可能性。这个系统实现了真正的端到端语音到语音对话,无需依赖外部的语音识别或文本转语音模块,这大大降低了延迟,提高了交互的自然性。

在实际使用场景中,VITA-1.5展现出了接近实时的交互能力。用户可以打开摄像头,进行流畅的语音对话,系统能够同时理解视觉信息和语音指令,然后直接用语音回应。这种能力在多个领域具有巨大的应用潜力。

在教育领域,VITA-1.5可以作为智能辅导助手,学生可以通过语音提问,同时展示作业或学习材料,系统能够理解具体问题并提供针对性的语音解答。在医疗保健领域,它可以协助医生进行病例分析,通过语音描述症状的同时展示影像资料,获得初步的诊断建议。

在客户服务方面,VITA-1.5可以提供更加自然和高效的服务体验。客户可以通过语音描述问题,同时展示相关产品或文档,系统能够准确理解情况并提供相应的解决方案。在无障碍技术领域,这个系统可以为视觉或听觉障碍人士提供更好的信息获取和交流方式。

研究团队已经将VITA-1.5的训练和推理代码在GitHub上开源,项目地址为https://github.com/VITA-MLLM/VITA,目前已获得超过2000个星标,这表明了学术界和工业界对这项技术的高度关注。开源发布降低了技术门槛,使更多研究者和开发者能够基于VITA-1.5进行进一步的研究和应用开发。

与传统的多模态系统相比,VITA-1.5的主要优势在于其统一的端到端架构。传统系统通常需要多个独立模块的协作,例如先用自动语音识别将语音转为文本,然后用文本到语音系统生成回复语音,这种流水线式的处理方式不仅增加了延迟,还可能在各个环节引入错误。VITA-1.5通过统一的训练策略,让所有模态在同一个框架下协同工作,实现了更加自然和高效的交互。

系统的另一个重要特点是其可扩展性。三阶段训练策略不仅解决了多模态冲突问题,还为未来集成更多模态(如触觉、嗅觉等)提供了框架参考。这种渐进式的能力扩展方法可能成为构建更加全面的人工智能系统的标准范式。

从技术发展的角度来看,VITA-1.5代表了多模态人工智能从专业工具向日常助手转变的重要一步。它展示了如何通过精心设计的训练策略和架构,让人工智能系统具备更加接近人类的感知和交流能力。这不仅推进了人工智能技术的发展,也为构建更加智能和便民的数字社会提供了重要支撑。

说到底,VITA-1.5的出现标志着我们正在进入一个全新的人机交互时代。过去,我们需要学习如何与计算机"对话",使用特定的命令和界面;现在,计算机开始学习如何像人一样与我们交流,能看能听能说,理解我们的意图和需求。这种转变不仅会改变我们使用技术的方式,更会重新定义人与机器之间的关系。

虽然VITA-1.5目前在某些复杂的视频理解任务上仍有提升空间,但它已经展现出了巨大的潜力和价值。随着技术的不断完善和应用场景的不断扩展,我们有理由相信,这样的多模态智能系统将在不久的将来成为我们日常生活中不可或缺的助手,让人工智能真正服务于人类的美好生活。

对于那些关注人工智能发展趋势的读者,VITA-1.5的成功经验提供了宝贵的启示:技术突破往往不是一蹴而就的,而是需要通过精心设计的策略和持续的努力来实现。对于想要了解更多技术细节的研究者和开发者,可以通过访问GitHub项目页面(https://github.com/VITA-MLLM/VITA)获取完整的代码和文档资源。

Q&A

Q1:VITA-1.5和其他AI语音助手有什么区别?

A:VITA-1.5最大的区别是能同时处理视觉和语音信息进行实时对话。传统AI助手要么只能听语音,要么只能看图片,而VITA-1.5可以一边看摄像头画面一边进行语音对话,就像真人一样同时用眼睛和耳朵理解你的需求,然后直接用语音回答,不需要先转成文字再转成语音的中间步骤。

Q2:普通人什么时候能用上VITA-1.5?

A:目前VITA-1.5还主要是研究阶段的技术,研究团队已经在GitHub上开源了代码,但普通用户直接使用还需要一定的技术门槛。不过随着技术成熟和产业化推进,预计未来1-2年内可能会有基于这种技术的商业产品出现,让普通人也能体验到这种多模态AI交互。

Q3:VITA-1.5的语音对话质量怎么样?

A:根据测试结果,VITA-1.5在中英文语音识别方面表现出色,中文字符错误率低至2.2%,英文词错误率为3.3-7.5%,超越了许多专门的语音识别系统。它能够进行接近实时的语音交互,语音质量自然流畅,在保持强大视觉理解能力的同时实现了高质量的语音对话功能。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。