首个智慧城市大模型UrbanGPT，全面开源开放｜港大&百度

发布时间：2024-06-03 来源：金属加工

时空预测技术，迎来ChatGPT时刻。

时空预测致力于捕捉城市生活的动态变化，并预测其未来走向，它不仅关注交通和人流的流动，还涵盖了犯罪趋势等多个维度。目前，深度时空预测技术在生成精确的时空模型方面，依赖于大量训练数据的支撑，这在城市数据不足的情况下显得尤为困难。

港大、百度联合团队借鉴大型语言模型的思想，提出了一种新型的时空大型语言模型UbanGPT。

该模型在多种城市应用场景中展现了出色的普适性。通过结合时空依赖编码器和指令微调方法，该模型增强了对时间和空间复杂关系的理解，即使在数据稀缺的条件下也能提供更精确的预测。通过一系列广泛的实验，UrbanGPT在多个城市相关的任务上展现了其卓越的性能，并证明了其在零样本学习领域的强大潜力。

时空大型语言模型UrbanGPT

挑战1：标签稀缺和高昂的训练成本

尽管尖端的时空网络在预测任务上表现出色，但它们的效能受限于对大量标记数据的依赖。在城市应用中，获取数据通常非常困难，例如，要对整个城市的交通和空气质量进行监控，其成本是相当高的。此外，这些模型在面对新地区或新任务时，其泛化能力通常不足，需要进行重新训练以适应不同的时空环境。

挑战2：LLMs和现有的时空预测模型在零样本泛化方面存在局限

如图1所展示的，大型语言模型LLaMA能够根据输入的文本信息推断出流量模式。但是，当涉及到处理具有复杂时空依赖性的数字时间序列数据时，LLaMA的预测能力受限，有时可能会得出与实际相反的预测结果。与此同时，虽然预训练的基线模型能够有效地编码时空依赖关系，但它们可能会因为过度适应原始训练数据而在没有先前经验的新场景（零样本场景）中表现不佳。

挑战3：如何将LLMs的出色推理能力扩展到时空预测领域：

时空数据具有其独特的属性，这与LLMs所编码的信息之间存在差异。缩小这一差异，并构建一个能够在多样的城市任务中展现出卓越泛化性能的时空大型语言模型，是当前面临的一个重大挑战。

时空大型语言模型UrbanGPT

据团队了解，这是首次尝试创建一种时空大型语言模型，该模型能够预测不同数据集上的多种城市现象，特别是在训练样本受限的情境下。

本研究提出了名为UrbanGPT的时空预测框架，它赋予了大型语言模型深入理解时间和空间之间复杂相互依赖关系的能力。通过将时空依赖编码器与指令微调策略巧妙结合，该框架成功地将时空信息与大型语言模型的推理能力融合在一起。

在现实世界数据基础上进行的广泛实验验证了UrbanGPT在零样本时空学习场景中的卓越泛化性能。这些实验结果不仅凸显了UrbanGPT模型的强大泛化潜力，也证实了它在精确预测和理解时空模式方面的有效性，即便在缺乏训练样本的情况下。

时空依赖编码器

LLMs在处理语言任务时表现出色，但它们在解析时空数据中固有的时间序列及其演化模式方面存在困难。为了克服这一难题，本文提出了一种创新方法，即整合时空编码器来提升大型语言模型捕捉时空上下文中时间依赖性的能力。具体来说，所设计的时空编码器由两个核心组件构成：一个是门控扩散卷积层，另一个是多层次关联注入层。

门控时间扩散卷积层在不同层级上编码了不同程度的时间依赖性，捕捉了具有不同粒度级别的时间演化特征。为了保留这些时间信息模式，团队引入了一个多层次的关联注入层，该层旨在融合不同层级之间的相互关联性。

为应对可能出现的多样化城市场景，本文提出的时空编码器在模拟空间关联性时不依赖于特定的图结构。这种做法考虑到在零样本预测的情境下，实体间的空间联系可能是未知的或难以明确界定的。这样的设计确保了UrbanGPT能够在广泛的城市环境条件下保持其适用性和有效性。

时空指令微调框架

时空数据-文本对齐

为了让语言模型能够准确捕捉时空模式，确保文本信息与时空数据的一致性是关键。这种对齐使得模型能够整合多种类型的数据，生成更丰富的信息表示。通过结合文本和时空领域的上下文特征，模型不仅能够捕获到补充性的信息，还能提炼出更具表现力的高级语义特征。

时空提示指令

在进行时空预测时，时间与空间维度都蕴含着丰富的语义信息，这些信息对于模型准确理解特定情境下的时空动态至关重要。例如，早晨的交通流量特征与交通高峰时段显著不同，同时商业区和住宅区的交通模式也各有特点。UrbanGPT框架通过整合不同粒度的时间数据和空间特征，作为其大型语言模型的指令输入。具体来说，时间信息涵盖了日期、具体时间等要素，而空间信息则包括了城市名称、行政区划分以及周边的兴趣点（POI）等数据，如图3所示。这种多维度的时空信息整合，使得UrbanGPT能够精确地捕捉不同时间和地点的时空模式，显著增强了其在未知样本上的推理能力。

通知

首个智慧城市大模型UrbanGPT，全面开源开放｜港大&百度