关于ZAKER 合作
雷锋网 3小时前

北大林宙辰团队论文:从数据中自适应学习时序预测损失

在多步时间序列预测任务中,预测性能随时间步长迅速退化几乎成为一种共识。例如:在气象预测中,短期的温度变化能够较为准确地刻画,但当预测跨度扩展至数日甚至一周时,预测误差就会逐渐放大,周期与趋势结构逐渐偏离真实轨迹。类似的问题在金融价格走势和电力负荷预测等场景中也广泛存在。

无论模型结构如何变化,当预测范围从短期扩展至中长期时,误差积累、趋势漂移和结构失真往往不可避免地出现。这类现象在实践中被频繁观察,却通常被视为模型表达能力或依赖建模不足的直接结果。

然而,与模型结构持续演进形成鲜明对比的是,多步预测在训练阶段所使用的损失函数却长期保持固定。大多数方法仍以逐时间点的均方误差(MSE)作为优化目标,默认将未来不同预测步视为相互独立且重要性一致的预测对象。

但是,多步预测并非一组彼此独立的回归任务,未来不同时间点之间往往呈现显著的相关性;此外,不同预测步在优化阶段的重要性也并不相同。若损失函数无法显式刻画这些结构特征,模型在长期预测中出现系统性偏差便并非偶然,而是训练阶段错误假设的自然结果。

正是在这一背景下,林宙辰团队提出了题为《Quadratic Direct Forecast for Training Multi-step Time-Series Forecast Models》的研究工作。通过重构训练目标的加权结构,引入对预测步相关性与不确定性差异的显式建模。研究团队展示了在不改变模型架构的前提下,仅通过调整训练目标即可显著改善多步预测性能的可能性,从而为时间序列预测提供了一种从训练机制层面理解长期预测失效的新视角。

论文链接:https://arxiv.org/pdf/2511.00053v1

问题根源:均方误差的两个先验

在当下的时序预测领域,绝大多数文献仍以逐时间点的均方误差(MSE)作为损失函数:

$$mathcal{L}_{text{MSE}} = |mathbf{y} - g_theta ( mathbf{x} ) |^2=sum_{t=1}^mathrm{T}left ( y_t-g_{theta,t} ( mathbf{x} ) right ) $$

这个损失函数隐含了两个先验:1. 未来不同时间点的预测是相互独立的;2. 所有预测步的重要性是相同的。

然而,现实并非如此:明天的天气与后天的天气存在相关性,预测未来 1 小时和 1 周的难度也完全不同。因此,多步预测并非一组独立的回归任务;不同预测步在优化阶段的重要性也并不相同。如损失函数无法正确刻画这些结构特征,模型在长期预测中出现系统性偏差,就并非偶然,而是训练阶段错误假设的必然结果。

研究人员上述两点先验进行了实验检验,发现它们在多步预测场景中均不成立。

首先,对标签序列的条件协方差进行了偏相关分析,以刻画在控制历史输入的影响之后,标签序列不同时间点 $Y_t$ 与 $Y_{t'}$ 之间的直接关系。实验结果显示,未来时间点之间存在大量非零偏相关系数,否定了均方误差所隐含的条件独立假设。雷峰网

进一步,对标签序列的条件方差进行了分析。实验结果显示,不同时间点的误差方差存在显著差异,且随着预测步整体增大,说明将所有预测步视为难度一致的任务并不符合数据特性,否定了均方误差隐含重要性一致假设。

QDF:从数据中自适应学习预测损失

针对 MSE 存在的两个不合理先验,林宙辰教授团队提出了 QDF(Quadratic Direct Forecast)方法,核心创新在于:不再将损失函数视为固定不变的优化目标,而是将其本身作为可学习的对象,从而自动 " 发现 " 最适合特定任务数据结构的损失表述。

从概率建模的视角出发,理想的损失函数应来源于负对数似然。在高斯误差假设下。在高斯误差假设下,给定历史序列 $mathbf{x}$,标签序列 $$mathbf{y}inmathbb{R}^mathrm{Ttimes 1}$$ 的条件分布为多元高斯分布,其负对数似然(忽略常数项)可表示为:

$$mathcal{L}_{boldsymbol{Sigma}} ( mathbf{x},mathbf{y};g_theta ) = ( mathbf{y} - g_theta ( mathbf{x} ) ) ^top boldsymbol{bar{Sigma}} ( mathbf{y} - g_theta ( mathbf{x} ) ) $$

其中,$boldsymbol{Sigma} in mathbb{R}^{T times T}$ 是标签序列的条件协方差矩阵,$T$ 为预测步长,$boldsymbol{bar{Sigma}} = boldsymbol{Sigma}^{-1}$ 为该二次型的权重矩阵。在该二次型中:权重矩阵的非对角元素刻画了未来不同时间点之间的条件相关性,从而能够显式建模标签自相关效应,打破了 MSE 所隐含的条件独立假设;权重矩阵的对角元素反映了不同预测步的不确定性差异,使得模型能够为不同难度的预测任务分配异构权重,打破了 MSE 所隐含的重要性一致假设。雷峰网

因此,该二次型损失函数在理论上能够同时解决传统 MSE 损失在多步预测场景下的两个结构性偏差问题。

然而,在实际预测任务中,权重矩阵 $boldsymbol{bar{Sigma}}$ 难以估计。为解决这一问题,研究团队受到元学习启发,将 $boldsymbol{bar{Sigma}}$ 作为可学习的对象,通过一个双层优化机制将 $boldsymbol{bar{Sigma}}$ 从数据中 " 学 " 出来:

$$min_{boldsymbol{Sigma} succeq 0} mathcal{L}_{boldsymbol{Sigma}} ( mathbf{x}_{text{out}}, mathbf{y}_{text{out}};g_{theta^*} ) quad text{s.t.} quad theta^* = argmin_{theta} mathcal{L}_{boldsymbol{Sigma}} ( mathbf{x}_{text{in}}, mathbf{y}_{text{in}};g_theta ) $$

该双层优化问题的求解过程包括两个阶段。首先,在给定 $boldsymbol{Sigma}$ 的条件下,通过在元训练集 $ ( mathbf{x}_{text{in}}, mathbf{y}_{text{in}} ) $ 上最小化损失函数 $mathcal{L}_{boldsymbol{Sigma}}$ 来更新模型参数 $theta$。接着,依据模型在元验证集 $ ( mathbf{x}_{text{out}}, mathbf{y}_{text{out}} ) $ 上的预测误差,反向传播更新 $boldsymbol{Sigma}$。其中,元训练集和元验证集来自对训练集的不同切片。

这种双层设计的核心优势在于:训练目标的优劣不再由拟合优度决定,而是由元验证集上的泛化性能来刻画。通过多次数据拆分与迭代更新,算法得以学习到在不同时间区间内一致的误差相关模式,从而形成稳定且可泛化的训练目标。

在大量实验中,一致验证优势

论文首先将 QDF 与现有损失函数进行了比较,包括通过标签变换削弱标签相关性的 FreDF 和 Time-o1。这些方法相较于均方误差均能带来一定的性能提升,但在稳定性和性能上限方面仍不及 QDF。原因在于这些方法仅部分处理标签之间的相关性,仍隐含地假设剩余误差可通过均匀加权方式进行优化,而 QDF 同时建模了标签间的相关性以及不同预测步的不确定性,并通过元学习得到最优加权权重,彻底解决了损失函数中可能存在的偏差。

其次,研究人员通过消融实验对上述两个关键因素进行了验证。实验分别考察仅建模不同预测步权重、仅建模时间相关性以及同时建模二者的情形。结果显示,两种因素单独引入时均能带来性能提升,而二者同时作用时效果最为显著。

研究人员也对模型输出的预测序列进行了可视化分析。结果表明,基于均方误差训练的模型在周期性时间序列中普遍存在振幅压缩、峰值被抹平以及拐点响应滞后的现象。引入 QDF 后,模型在峰值位置、周期相位以及长期趋势稳定性方面均表现出更高一致性,时间结构得到了更完整的保留,说明 QDF 有效训练模型尊重未来不同时间点之间的整体关系。

一次针对均方误差的系统性审判

从研究意义的角度来看,这项研究首先推翻了一个在时间序列领域长期被默认接受的假设:多步预测可以被视为多个相互独立且等权重的回归任务。这一假设在实践中被广泛采用,却缺乏系统性的经验验证。研究通过严格的概率建模分析与全面的实证检验表明,** 这一前提假设在多步预测场景中并不成立 **。

在此基础上,研究进一步提出了一种新颖的研究方法:将损失函数本身视为可以被学习的对象。不同于传统通过超参数调节或启发式设计的方式,该研究通过引入结构化的权重参数来显式建模标签间的关联性和不同预测步的重要性差异,并通过双层优化机制,直接利用未见数据上的泛化误差学习权重参数。这种设计使得损失函数的形式能够根据数据特性自适应地调整,从而形成既符合统计建模原理又具有良好泛化能力的训练目标。

对于后续研究而言,该工作所提供的启示并不局限于具体方法本身,而体现在更一般的研究范式上。其一,研究强调了对领域内默认假设保持持续审视的重要性;其二,展示了如何从统计建模出发反推优化目标的合理形式;其三,为元学习思想在时间序列预测领域的应用和发展提供了理论和实践参考,展示了如何将元学习的思想与领域特定的统计方法有机结合。

作者信息

论文第一作者王浩,现为浙江大学控制学院博士研究生,研究方向聚焦于因果推断、多任务学习技术及其在大语言模型中的应用。2022 年 - 2023 年,他曾在蚂蚁金服、微软亚洲研究院科研实习,从事推荐系统理论研究。2025 年起,他在小红书参加 RedStar 实习项目,进行大语言模型、可信奖励模型领域的研究工作。

论文通讯作者林宙辰,现任北京大学智能学院、通用人工智能全国重点实验室教授。他的研究领域包括机器学习和数值优化。他已发表论文 360 余篇,谷歌学术引用超过 42,000 次。他是 IAPR、IEEE、AAIA、CCF 和 CSIG 会士,多次担任 CVPR、NeurIPS、ICML 等会议的 Senior Area Chair,现任 ICML Board Member。

参考链接:https://zhouchenlin.github.io/

相关标签