在数据分布持续变化的动态环境中,如何进行连续模型泛化?
东京大学等高校的研究人员提出了名为Koodos的新框架,可以基于在一些随机时间点观测的数据分布,在任意时刻生成当下适用的神经网络。
尽管数据随时间持续发生变化,但是泛化的模型能在连续时间中与数据分布始终保持协调一致。
Koodos将模型的复杂非线性动态转化为可学习的连续动态系统,同时利用先验知识以确保泛化过程的稳定性和可控性。
实验表明,Koodos显著超越现有方法,为时域泛化开辟了全新的研究方向。
模型泛化面临三大难题
在实际应用中,数据集的数据分布往往随着时间而不断变化,预测模型需要持续更新以保持准确性。
时域泛化旨在预测未来数据分布,从而提前更新模型,使模型与数据同步变化。
领域泛化(Domain Generalization, DG)作为一种重要的机器学习策略,旨在学习一个能够在未见目标领域中也保持良好表现的模型。
近年来研究人员发现,在动态环境中,领域数据(Domain Data)分布往往具有显著的时间依赖性,这促使了时域泛化(Temporal Domain Generalization, TDG)技术的快速发展。
时域泛化将多个领域视为一个时间序列而非一组独立的静态个体,利用历史领域预测未来领域,从而实现对模型参数的提前调整,显著提升了传统DG方法的效果。
然而,现有的时域泛化研究集中在“离散时间域”假设下,即假设领域数据在固定时间间隔(如逐周或逐年)收集。
基于这一假设,概率模型被用于预测时域演变,例如通过隐变量模型生成未来数据,或利用序列模型(如LSTM)预测未来的模型参数。
然而在现实中,领域数据的观测并不总是在离散、规律的时间点上,而是随机且稀疏地分布在连续时间轴上。
例如在下图展示的示例中,与传统TDG假设的领域在时间轴上规律分布不同,实际情况下人们只能在特定事件发生时获得一个域,而这些事件的发生时间并不固定。
同时,概念漂移(Concept Drift)在时间轴上发生,即领域数据分布随着时间不断演变:如活跃用户增加、新交互行为形成、年龄与性别分布变化等。
理想情况下,每个时态域对应的预测模型也应随时间逐渐调整,以应对这种概念漂移。
最后,由于未来的域采集时间未知,作者希望泛化预测模型到未来的任意时刻。