今年的上海出租车发票的士⋘,,I:3:⒋≈,,I:8:⒍:I,,8:9:⒌:8,,⋙大模型研发热潮同样带动了AI智能体的发展,成为其强大的「动力引擎」。
目前学术界许多研究已经将大模型作为AI智能体的认知核心,大模型拥有的推理技术和强大的自然语言理解能力,让智能体具备了强大的学习和迁移能力,为智能体的研究提供了突破性的技术方案。
今年在智能体的架构方面有所突破,以更灵活的思维算法技术替代了原有的思维链和思维树的推理方式。
在智能体交互方面,斯坦福提出的AI小镇也让公众看到了多智能体协同的效益,实现更高效、更智能的决策与行动。
量子位智库预测未来智能体的发展将有两个方向:
自主智能体和智能体模拟,将分别对应B端、C端需求,能够实现复杂流程的效率提升和提供情感情绪价值。在不久的将来,嵌入自主智能体的软件极有可能改变现有的使用方式,从「用户适应软件」变成「软件适应用户习惯」,真正成为「个人助理」。
02、3D生成进入涌现期:新算法新模型爆发,质量效率可控性日新月异
在AGI爆火的今年,基于游戏、影视、XR等产业对3D数据的需求不断增长,3D生成领域出现了不少突破性的**新算法新模型**,在质量、效率、可控性多项关键性能上的学术研究突破日新月异。
今年在SIGGRAPH2023上被评为最佳论文的《3D Gaussian Splatting for Real-Time Radiance Field Rendering》介绍了一种新的可以实现快速高帧率实时渲染的方法——**3D Gaussian Splatting**。
这一新表达和算法的出现是3D生成领域的一大突破性进展,在部分数据集上多项性能(如速度、质量、可控性)均优于NeRF。
在今年10月,字节跳动的研究团队推出了一种全新的多视图扩散模型——MVDream,能够根据给定的文本提示生成几何上一致的多视图图像。这一新模型可以应用为3D生成的多视图先验,通过分数蒸馏抽样极大地提高了现有的2D提升方法的稳定性,大幅改善了3D一致性问题。
同时,今年还有多个3D生成优化模型陆续出现。
03、分割模型大一统:计算机视觉即将迎来「ChatGPT时刻」
分割一切模型(SAM)是meta在今年推出的AI模型,10月份相关论文获得ICCV 23的Best Paper Honorable Menthion。受SAM影响,CV领域和相关研究在2023年「再度火热」。
在SAM出现之前,我们所能看到的其他图像分割模型,都是专有模型,良好性能在其他领域无法体现。SAM的最大贡献即可以快速分割没见过的图像,将之前零散的图像分割模型统一。有CV从业者认为SAM的出现是计算机视觉领域进入「GPT时代」的原因。
04、具身智能带来新想象:AGI终极场景下的全新终端
今年是人形机器人和大模型同步迸发的一年,具身智能(Embodied AI)已成为AI研究新热点。
2023年,具身智能领域的几项关键性技术都取得了突破性进展。6月,李飞飞团队发布了具身智能新成果VoxPoser,能从3D空间分析出目标和环境障碍,让真实世界中的机器人在未经培训的情况下直接执行任务。
DeepMind在今年发布了新的视觉语言模型Robotic Transformer 2(RT-2),可以自动从互联网及机器人数据中学习,学习成功可转化为机器人控制的通用指令。
全世界范围内涌现出各种突破性的仿生机器人产品,大模型影响之下,具身智能将迈入新阶段。
二、自动驾驶
05、端到端自动驾驶成共识:BEV+Transformer重构技术路线
今年的CVPR最佳论文颁给了端到端自动驾驶,这几乎代表着一种共识:端到端自动驾驶是行业的未来。
随着生成式AI的发展,以ChatGPT为代表的大语言模型的泛化能力有了极大提升,端到端自动驾驶技术也因此受到广泛关注。
端到端自动驾驶技术以全部模块神经网络化为特征,对规则的依赖度低,具备智能涌现能力和跨场景应用潜力。
2023年,城市NOA成为自动驾驶厂商角逐的新方向,基于Transformer模型的BEV技术则成为当下不二的选择。
BEV+Transformer能够直接生成高质量3D数据,且包含更多有用信息,能够生成更加合理的驾驶指令,有望逐步成为自动驾驶感知的主流范式。
此外,基于BEV的物体可以通过自上而下的视图,完成轨迹预测和路线规划,且能避免图像视角下的尺度和遮挡等问题,也是实现端到端自动驾驶的关键。
三、空间计算
06、空间计算定义明确:消费级产品问世,XR全栈链路打通
6月苹果在WWDC2023开发者大会上正式推出了第一款空间计算设备**Apple Vision Pro**,这一代表性消费级空间计算产品的问世,真正将「空间计算」这一概念推向大众并迅速普及。