当前位置: 首页 » 资讯 » 新科技 » 正文

港大发布OpenCity交通大模型预测路况,零样本下表现出色

IP属地 中国·北京 编辑:李娜 智慧交通 时间:2024-09-24 08:44:17

近日,香港大学发布最新研究成果:智能交通大模型OpenCity。该模型根据参数大小分为OpenCity-mini、OpenCity-base和OpenCity-Pro三个模型版本,显著提升了时空模型的零样本预测能力,增强了模型的泛化能力。

精确的交通流量预测对于提升城市规划和交通管理效率至关重要,有助于更合理地分配资源并提升出行质量。

然而,现有的预测系统在处理未知区域的交通预测,以及进行长期预测时,常常无法达到预期效果,这些挑战主要源于交通数据在空间和时间上的不一致性,以及在不同时间和地点的显著变化。

基于「开发一种具有高度通用性、鲁棒性和适应性的时空预测模型」的思路,香港大学、华南理工大学等机构的研究人员提出了一个创新的基座模型OpenCity,能够识别并整合来自多个数据源的时空模式,以增强在不同城市环境中的零样本学习能力。

论文链接:http://arxiv.org/abs/2408.10269;代码链接:https://github.com/HKUDS/OpenCity

OpenCity结合了Transformer和图神经网络技术,以捕捉交通数据中的复杂时空关联。通过在广泛的、多样化的交通数据集上进行预训练,OpenCity能够掌握丰富且具有广泛适用性的特征表示,这些特征适用于多种交通预测情境。

实验结果显示,OpenCity在零样本学习方面取得了显著成效。

此外,OpenCity的可扩展性也得到了验证,这表明有望构建一个能够满足所有交通预测需求的系统,并且能够以较低的额外成本适应新的城市环境。

概述

现有问题

C1. 空间泛化:现有的交通预测模型在空间泛化方面存在限制,难以适应不同地区因基础设施和人口特征不同而表现出的各异交通模式。在现实条件下,全面部署传感器来收集数据并不可行。因此,开发一种能够在有限数据支持下适应新区域的模型显得格外关键。这种模型能够降低跨城市部署的成本,并确保交通预测系统在多元化的城市环境中有效运作,无需频繁重训练或调整。

C2. 时间泛化与长期预测:现有的交通预测模型虽然能够较好地处理短期预测(如未来一小时内),但在进行数小时甚至数天的长期预测时则效果不佳。模型难以适应城市环境中随时间变化而变化的复杂交通模式,这一点限制了城市规划者和交通管理者制定有效长期策略的能力。

C3. 通用表征学习与时空异质泛化:开发能够广泛适用的交通模型,关键在于开发能够广泛适用的交通模型,通过学习通用的交通动态特征实现泛化。这种泛化学习使得模型能够适应不同的应用场景,即便是在缺乏特定场景训练数据的情况下也能运行。考虑到城市交通的多样性及其时空分布的显著变化,模型需要具备适应这些变化的能力,以保持其功能性和灵活性。

图1 左图展示了不同交通数据集之间的数据分布差异,突显了开发能够适应这些分布差异的模型的必要性。右图则比较了OpenCity在零样本条件下的表现与使用全样本数据的基线模型的表现。结果表明,尽管OpenCity面对时空异质性分布偏移的挑战,其性能仍可与全样本基线模型匹敌

论文贡献

(1)通用时空建模。OpenCity针对城市交通在不同地区及时间内的多样性和变化进行专门设计。

(2)卓越的零样本预测能力。OpenCity在未经特定区域训练的情况下,展示了超越常规模型的性能,这突显了其泛化特征学习的能力,并允许该模型在新环境中快速部署,减少了重训练的需求。

(3)快速适应性。OpenCity在多个时空预测任务中显示了其广泛的适用性,能够快速地适应各种场景,实现灵活的部署。

(4)扩展能力。OpenCity展现了良好的扩展潜力,这意味着它能够在几乎无需额外训练的情况下有效地适应未知环境。

方法

图2 OpenCity整体框架

用于分布偏移泛化的时空嵌入

上下文归一化

传统方法通常依赖于训练数据的统计特征,例如均值和标准差,来进行数据的标准化处理。然而,当测试数据表现出与训练数据在地理空间上无重叠的异质性时,这些统计参数可能不再适用,也难以适应。为了克服这一挑战并满足零样本交通预测的需求,采用了实例归一化IN(⋅)处理数据。

该方法利用每个个区域的单个输入实例的均值μ(Xr)和标准差σ(Xr)进行数据标准化,而不依赖于整个训练集的统计信息。相关研究表面实例标准化能有效减轻训练数据与测试数据之间分布差异的问题,形式化如下:

用于高效长期预测的Patch嵌入

OpenCity旨在应对长期交通预测的复杂性,特别是处理增加的输入时间步长,这会导致计算资源和内存需求显著增加。为减轻这一负担,采纳了一种基于时间维度的Patch分割策略。在此策略中,设定了Patch长度P,用于确定每个Patch包含的时间步数;同时设置了步长S,用于定义连续Patch之间的重叠程度。采用此Patch处理方式后,输入数据的形状发生了变化。

,这里

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。