高缺失率时序插补新突破：Glocal-IB 解锁全局

本文约2300字，建议阅读5分钟 本文介绍了 Glocal-IB 范式提升高缺失时序插补性能。

现有的时间序列插补（TSI）模型通常优化逐点重建损失，专注于恢复数值（局部信息）。然而在高缺失率下，这些模型在训练阶段仍然表现良好，但在推理阶段会产生较差的插补和扭曲的潜在表示分布。这揭示了一个关键的优化困境：当前的目标缺乏全局指导，导致模型过度拟合局部噪声，无法捕获数据的全局信息。

为了解决这个问题，来自伊利诺伊芝加哥大学，西北大学和新加坡国立的研究者联合提出了一种新的训练范式，即全局信息瓶颈（Glocal-IB）。这种损失使掩码输入的潜在表示与它们最初观察到的对应项的潜在表示对齐。它帮助模型在抑制由缺失值引起的噪声的同时保留全局结构和局部细节，从而在高缺失情况下产生更好的泛化能力。目前该工作已被 NeurIPS 2025 接收。

【论文标题】

Glocal Information Bottleneck for Time Series Imputation

【论文地址】

https://arxiv.org/abs/2510.04910

【论文源码】

https://github.com/Muyiiiii/NeurIPS-25-Glocal-IB

研究背景

时间序列数据在现实世界中广泛存在，但由于设备故障、传输失败和人为收集错误等原因，常常包含缺失值。这些缺失值在不同领域（如医疗、交通和能源系统）以不同的速率和模式出现，严重影响了时间序列数据的完整性及其下游任务的性能。因此，时间序列插补，即从部分观测数据中恢复缺失值，成为了一个具有广泛实际意义的关键问题。

图1：TSI中优化困境的示意图

现有时序插补方法通常采用编码器-解码器架构，通过随机掩码观测值来模拟缺失值进行训练。这些方法旨在从损坏的观测中学习全局数据分布，使模型能够在训练期间重建掩码值，并在推理时作为条件生成模型进行插补。然而，在高缺失率下，这些方法在训练中表现出良好的性能，但在推理阶段的插补质量却显著下降。这揭示了当前时序插补方法的一个关键优化困境：它们缺乏全局指导，导致模型过度拟合局部噪声，无法捕获数据全局信息。

由此，该文的研究者主要的贡献在于：

指出现有时序插补方法在高缺失率下虽然训练损失较低，但无法学习到具有全局语义意义的潜在表示，导致插补质量严重下降和潜在空间严重扭曲。
设计了一种新的基于信息瓶颈原理的训练范式 Glocal-IB，通过引入全局对齐损失来明确加强潜在空间的连贯性，同时进行局部重建，从而在去除无关噪声的同时改善全局和局部特征学习。

这些贡献解决了现有时序插补方法在高缺失率下的优化困境，通过全局和局部信息的联合优化，显著提高了插补性能。

Global-IB 训练范式

该论文提出了一种新的训练范式——全局信息瓶颈（Glocal-IB），该方法基于信息瓶颈（IB）原则，通过引入全局对齐损失来扩展标准信息瓶颈框架，旨在平衡紧凑性和信息性，同时保留全局和局部信息。本节进行详细描述。

图2：三种 TSI 训练架构对比

01、问题定义

给定原始多元时间序列：

其中 N 是变量数， T 是序列长度。通过一个二进制掩码 M∈{0,1}N×TM 来模拟缺失值。掩码输入定义为：

时序插补模型的输出是基于X的插补结果，目标是估计X中的缺失值。

02、信息瓶颈理论

信息瓶颈理论提供了一个理论框架，通过平衡紧凑性和信息性来识别输入中有信息量的部分。公式如下：

其中 I(z,x) 和 I(y,z) 分别表示 (z,x) 和 (y,z) 的互信息，β 是拉格朗日乘子，用于平衡两个互信息项。

03、正规部分观测输入

基于变分推断，导出正则化项的上界：

正则化损失定义为：

04、最大化全局和局部信息

局部互信息最大化

通过推导，得到局部互信息最大化的下界：

假设时间序列数据遵循高斯分布，局部损失可以简化为均方误差（MSE）损失：

全局互信息最大化

为了克服逐点重建损失的局限性，引入了全局互信息最大化的补充公式，基于对比学习的 InfoNCE 目标，推导出一个替代的下界：

全局对齐损失定义为：

05、总体训练目标

结合所有组件，包括正则化损失、局部损失和全局对齐损失，总体训练目标为：

其中 α，β1，β2 是用于平衡互信息的超参数。

通过上述方法，Glocal-IB 旨在平衡噪声抑制和全局-局部信息保留，从而在高缺失率下实现准确的时间序列插补。

实验结果

实验在九个公共时间序列数据集上进行，包括 ETTh1、ETTh2、ETTm1、ETTm2、北京空气质量、PEMS-Traffic、电力、天气和Metr-LA。实验中遵循了点缺失模式，随机掩蔽时间序列，并遵循 PyPOTS 提供的标准训练/验证/测试分割。选择了九个具有代表性的时间序列方法作为基线模型，包括基于 Transformer 的方法（SAITS、Transformer、PatchTST、iTransformer）、基于线性模型的方法（DLinear、FreTS、TimeMixer）、生成式方法（GPVAE）和基于 CNN 的方法（TimesNet）。

01、总体比较

在九个数据集上比较了不同方法的插补性能，结果显示 Glocal-IB 在所有数据集上都取得了最低的 MAE 和 MSE，特别是在 ETTh1、ETTh2、ETTm1 和 ETTm2 数据集上，MSE 降低了高达 40%。即使在包含复杂时间模式和噪声的真实世界数据集上，如北京空气质量、PEMS-Traffic、电力和Metr-LA，Glocal-IB 也帮助 Transformer 在 MAE 和 MSE 上显著超越了 SAITS 和 TimesNet。

02、潜在表示分布

实验结果表明，随着缺失率的增加，现有的时序插补方法产生的潜在分布越来越扭曲。而 Glocal-IB 在缺失率从 10% 到 70% 的情况下保持了稳定和连贯的潜在结构，即使在 90% 的缺失率下，也能捕捉到原始数据分布的总体形状。

03、通用性分析

对不同训练范式的影响进行了研究，结果表明 Glocal-IB 改进了现有插补模型的学习能力，即使在极端缺失率（90%）下也能提高性能。此外，时间序列基础模型提供的收益有限。

04、缺失模式和效率分析

实验分析了 Glocal-IB 在各种缺失模式下的有效性和效率。结果显示，Glocal-IB 在块缺失模式下仍然表现出色，优于其他基线模型。同时，Glocal-IB 的计算效率较高，引入的额外计算开销较小。

05、消融研究和敏感性分析

进行了消融研究和参数敏感性分析，以检验 Glocal-IB 各组件的贡献和鲁棒性。结果表明，正则化损失和全局对齐损失对模型性能有显著影响，适当的权重设置对过滤噪声和保持有用信息至关重要。

总结

该论文研究了当前时间序列插补方法中的优化困境。为了解决这个问题，研究者引入了一种新的训练范式——全局信息瓶颈（Glocal-IB）。Glocal-IB 通过添加基于可处理互信息近似的全局对齐损失来扩展标准的基于信息瓶颈的目标。这种损失鼓励掩码输入的潜在表示与它们完全观测到的对应项相匹配，帮助模型在减少噪声影响的同时保留全局结构和局部细节。在九个数据集上进行的广泛实验表明，Glocal-IB 在不同缺失率下始终提高插补准确性，并导致更稳定的潜在表示分布。

编辑：于腾凯

校对：林亦霖

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU