timetotakeiteasy全文翻译（A Time Series is Worth 64 Words（PatchTST模型）论文解读）

时间2025-07-30 09:27:36分类IT科技浏览5477

导读：摘要我们提出了一种高效的基于Transformer设计的模型，用于多变量时间序列预测和自我监督表征学习（self-supervised learning）。它基于两个关键部分：1、将时间序列分隔成子序列级别的patches，作为Transformer的输入；2、独立通道(channel-...

摘要

我们提出了一种高效的基于Transformer设计的模型，用于多变量时间序列预测和自我监督表征学习（self-supervised learning）。它基于两个关键部分：1 、将时间序列分隔成子序列级别的patches ，作为Transformer的输入；2 、独立通道(channel-independence) ，每个通道包含一个单一的单变量时间序列，它们共享相同的embedding和Transformer权重。设计patches有3个好处：局部序列信息被保留在embedding中；在相同的回视窗口下，注意力图的计算和内存使用量呈2次方减少；模型可以关注到更长的历史信息。我们提出的PatchTST模型（channel-independent patch time series Transformer）可以显著提高长期预测的准确性。我们还将模型应用于自监督预训练任务，并取得了出色的微调性能，在大数据集上的表现由于监督学习。将一个数据集上的masked预训练结果转移到其他数据集上也能产生SOTA预测精度。

简介

预测是时间序列分析中最重要的任务之一。随着深度学习模型的快速发展，关于这个主题的研究工作数量大大增加。深度模型不仅在预测任务上表现出优异的性能，并且在表征学习上也表现出优异的性能，抽象的表征可以被提取并转移到各种下游任务中，如分类和异常检测，以达到SOTA精度。

在深度学习模型中，Transformer在自然语言处理（NLP）、计算机视觉（CV）、语音以及最近的时间序列等各个领域都取得了巨大成功，得益于其注意力机制，可以自动学习序列中元素间联系，因此称为序列建模任务的理想选择。Informer 、Autoformer和FEDformer是Transformer模型成功应用于时间序列数据的最佳变种之一。不幸的是，尽管Transformer模型设计十分复制，最近的论文显示，一个非常简单的线性模型可以在各种常见的基准上超过之前的所有模型，它挑战了Transformer在时间序列预测中的适用性。在本文中，我们试图通过提出基于Transformer的PatchTST模型来解决这一问题。

Patching：时间序列预测的目的是了解每个不同时间步间相关性。然而，单个时间步长并不像句子中的一个单词那样具有语义，因此提取局部语义信息对于分析他们之间的联系至关重要。以前的工作大多只使用单点（point-wise）的输入标记，或者只是从系列中手动提取信息。相比之下，我们通过将时间步聚集到子系列级别的patch中，增强了位置（locality）性，并捕获了单点（point-wise）所没有的综合语义信息。独立通道（Channel-independence）：多变量时间序列是一个多通道信号，每个Transformer的输入tokens可以由单通道或多通道的数据表示。根据输入tokens的设计特性，提出了Transformer架构的不同变体。通道混合（Channel-mixing）值的是后一种情况，即输入tokens采取所有时间序列特征向量并将其投射到embedding空间以混合信息。另一方面，独立通道意味着每个输入tokens只包含来自同一通道的信息。这被证明在CNN和线性模型中运行良好，但还没有被应用到基于Transformer模型中。

我们在下表中提供了对交通数据集的关键性研究结果，该数据集由862个时间点组成。我们的模型有以下几个优点。

减少时空复杂度：原始的Transformer在时间和空间上都有

(

)

O(N^2)

O(N2)的复杂性，其中

N是输入tokens的数量。如果不进行预处理，

N将与输入序列长度

L具有相同的值，这在实践中成为计算时间和内存的主要瓶颈。通过应用patch ，我们可以将

N缩小几倍：

≈

N \approx L/S

N≈L/S ，从而降低时间和空间复杂度。上表说明了patch的作用。通过设置patch长度

P = 16

P=16 ，步长

S = 8

S=8 ，

336

L = 336

L=336 ，训练时间大大减少。长回视窗口学习能力：上表显示，通过将回视窗口

L从96增加到336 ，MSE可以从0.518降低到0.397 。然而，简单地延长

L是以较大的内存和计算量为代价的。由于时间序列往往带有大量的时间冗余信息，以前的一些工作试图通过采用下采样或精心设计的注意力稀疏连接来忽略部分数据点，模型仍然产生足够的信息来进行良好的预测。我们研究了

380

L = 380

L=380的情况。时间序列每4步采样一次并将最后一个点加入序列中，输入tokens数量为

N = 96

N=96 。与使用包含最近96个时间点（0.518）相比，该模型取得了更好的MSE得分（0.447），表明即使输入tokens数量相同，更长的回视窗口也能传达更重要的信息。这让我们想到一个问题：有没有办法在保持长回视窗口的同时避免“扔掉 ”一些数据？patch是一个很好的答案。它可以将包含类似数值的局部时间点分组，同时使模型能够减少输入tokens的长度，以利于计算。从上表中可以看出，当

336

L = 336

L=336时，通过patch ，MSE从0.397进一步降低到0.367 。表征学习能力：随着强大的自监督学习技术的出现，需要具有多个非线性抽象层的复杂模型来捕捉数据的抽象表示。简单的模型，如线性模型，由于其有限的可表达性，可能不适合该任务。通过PatchTST模型，我们不仅证实了Transformer对时间序列是有效的，并且证明了他的表征能力可以进一步提高预测性能。我们的PatchTST模型在上表中取得了最好的MSE（0.349）

我们在下面的章节中详细介绍了我们的方法，并进行了大量的实验来最终证明我们的想法。我们不仅用超视距预测结果和消融实验证明了模型的有效性，而且还实现了SOTA自监督表征学习和迁移学习。

本文方法

模型结构

我们考虑以下问题：给定一个具有回视窗口

L 的多元时间序列样本集合：

(

)

(x_1,...,x_L)

(x1,...,xL)，其中每个

X_t

Xt在时间步长

t时是维度为

M的向量，我们想预测

T的未来值(

x_{L+1},...,x_{L+T}

xL+1,...,xL+T) 。我们的PatchTST如下图所示，模型利用Transformer encoder作为核心结构。

前向过程：我们把从索引1开始的长度为

L的第

i个单变量序列表示为

(

)

(

)

(

)

x^{(i)} = (x_1^{(i)},...,x_L^{(i)})

x(i)=(x1(i),...,xL(i))其中

i = 1,...,M

i=1,...,M 。输入

(

)

(x_1,...,x_L)

(x1,...,xL)被分隔成

M个单变量序列

(

)

∈

x^{(i)} \in R^{1 \times L}

x(i)∈R1×L ，其中每个序列都根据channel-independence设置进入Transformer网络。然后Transformer将提供预测结果

(

)

(

)

(

)

∈

\hat{x}^{(i)} = (\hat{x}^{(i)}_{L+1},...,\hat{x}^{(i)}_{L+T}) \in R^{1 \times T}

x(i)=(xL+1(i),...,xL+T(i))∈R1×T

Patching：每个输入的单变量时间序列

(

)

x^{(i)}

x(i)首先被划分为patch ，这些patch可以是重叠的，也可以是非重叠的。将patch长度记为

P ，将两个连续patch之间的非重叠区域记为

S ，那么patch过程将产生一个patch序列

(

)

∈

x_p^{(i)} \in R^{P \times N}

xp(i)∈RP×N其中

N是产生的patch数量，

[

(

−

)

]

N = [\frac{(L-P)}{S}]+2

N=[S(L−P)]+2 。这里，我们把最后一个值

(

)

x_L^{(i)}

xL(i)的

S个重复数字pad到原序列的末尾，再进行patch 。

随着patch操作，输入token数量可以从L减少到大约

L/S

L/S 。这意味着注意力图谱的内存使用和计算复杂度以4倍的速度下降。因此，在训练时间和GPU内存限制下，patch设计可以让模型看到更长的历史序列，这可以显著提高模型预测性能。

Transformer Encoder：我们使用普通的Transformer Encoder ，将观察到的信号映射到潜在表征（latent representations）。通过可训练的线性投影

∈

W_p \in R^{D \times P}

Wp∈RD×P，以及可学习的加法位置编码

∈

W_{pos} \in R^{D \times N}

Wpos∈RD×N ，将patch映射到维度为D的Transformer latent空间，应用于监测patch的时间顺序：

(

)

(

)

x_d^{(i)} = W_px_p^{(i)} + W_{pos}

xd(i)=Wpxp(i)+Wpos ，其中

(

)

∈

x_d^{(i)} \in R^{D \times N}

xd(i)∈RD×N表示送入Transformer encoder的输入。多头注意力

h = 1,...,H

h=1,...,H ，将他们转化为query矩阵

(

)

(

)

Q^{(i)} = (x_d^{(i)})^TW_{h}^{Q}

Q(i)=(xd(i))TWhQ ，key矩阵

(

)

(

)

K_h^{(i)} = (x_d^{(i)})^TW_h^K

Kh(i)=(xd(i))TWhK和value矩阵

(

)

(

)

h_h^{(i)} = (x_d^{(i)})^TW_h^V

hh(i)=(xd(i))TWhV ，其中

∈

W_h^K \in R^{D \times d_k}

WhK∈RD×dk ，

∈

W_h^V \in R^{D \times D}

WhV∈RD×D 。之后，按比例输出的方式来获得注意力输出

(

)

∈

O^{(i)} \in R^{D \times N}

O(i)∈RD×N ，即：

(

)

(

)

(

)

timetotakeiteasy全文翻译（A Time Series is Worth 64 Words（PatchTST模型）论文解读）

摘要

简介

相关工作

本文方法

模型结构