当前位置: 首页 » 资讯 » 新科技 » 正文

阿里云在深发布多模态交互开发套件 让硬件能听会看会交互

IP属地 中国·北京 编辑:江紫萱 深圳新闻网 时间:2026-01-09 12:16:24

同学们在阿里云通义智能硬件展上好奇地观看机器人演示制作咖啡,感受科技趣味。 深圳特区报记者 毕晗 摄

深圳新闻网2026年1月9日讯(深圳特区报记者 闻坤)1月8日,在深圳南山区举行的阿里云通义智能硬件展上,阿里云发布多模态交互开发套件,该套件集成了千问、万相、百聆三款通义基础大模型,并预置十多款生活休闲、工作效率等领域的Agent和MCP工具,不仅能听、会看,还能思考并且与物理世界交互,可应用于AI眼镜、学习机、陪伴玩具、智能机器人等硬件设备。

阿里云多模态交互开发套件为硬件企业和解决方案商提供了低开发门槛、响应速度快、场景丰富的平台。

现场,阿里云还展示了面向智能穿戴设备、陪伴机器人、具身智能等领域的解决方案。例如,在AI眼镜领域,基于千问VL、百聆CosyVoice等模型,阿里云打造了感知层、规划层、执行层以及长期记忆的完整交互链路,可一站式实现同声传译、拍照翻译、多模态备忘录、录音转写功能,有效解决交互不自然、回答准确率低的难题。面向家庭陪伴机器人场景,基于千问模型和多模态交互套件,阿里云推出的解决方案不仅可实时监测异常状况,并及时推送告警信息,用户还能基于关键词查找、定位视频,与机器人进行对话交互和控制设备等。

编辑:单铭捷

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。