首页IT科技admm图像去噪(ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》)

admm图像去噪(ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》)

时间2025-08-04 18:00:11分类IT科技浏览5980
导读:这是一篇ICLR2023 top 5%论文...

这是一篇ICLR2023 top 5%论文

论文链接:https://openreview.net/pdf?id=vSVLM2j9eie

代码:https://github.com/Thinklab-SJTU/Crossformer

1. Multivariate Time Series Forecasting

MTS                ,多变量时序数据预测                。利用MTS的历史值可以预测其未来的趋势                        ,例如心电图(ECG)        ,脑电图(EEG)脑磁图(MEG)的诊断以及系统监测等等都是固有的多变量问题                        。该任务数据每个实例序列拥有多个维度                ,是一个d维向量和m个观测值(时间序列)的列表                        ,如下所示数据(借鉴自综述论文:《The great multivariate time series classification bake off: a review and experimental evaluation of recent algorithmic advances》)

2. 动机

MTS的核心额外复杂性在于        ,区别性特征可能存在于维度之间的相互作用中        ,而不仅仅存在于单个序列中的自相关性中        。标准的Transformer中核心self-attention可能仅仅建模了单个序列的自相关性                        ,忽略了跨维度的依赖关系                。

此外                ,如下图所示        ,当数据序列很长时                        ,计算复杂性高                ,但是可以观察到,接近的数据点具有相似的注意权重!

基于此                        ,作者提出一个分层encoder-decoder框架Crossformer

.

3. Crossformer

目标:输入一段历史序列

x

1

:

T

R

T

×

D

x_{1:T} \in \mathbb{R}^{T\times D}

x1:TRT×D                        ,预测未来的一段序列

x

T

+

1

:

T

+

τ

R

τ

×

D

x_{T+1:T+\tau} \in \mathbb{R}^{\tau \times D}

xT+1:T+τRτ×D
.

3.1 Hierarchical Encoder-Decoder

作者提出一个新的层次Encoder-Decoder的架构,如下所示                ,由左边encoder(灰色)和右边decoder(浅橘色)组成                        。其主要包含Dimension-Segment-Wise (DSW) embedding                        ,Two-Stage Attention (TSA)层和Linear Projection        。

Dimension-Segment-Wise (DSW) embedding:为了将输入

x

1

:

T

R

T

×

D

x_{1:T} \in \mathbb{R}^{T\times D}

x1:TRT×D
进行分segment        ,从而减少计算复杂性        。如果最后每个序列要分成

L

L

L
个segment                ,每个序列

d

m

o

d

e

l

d_{model}

dmodel
的通道数                        ,则最后的输入记为:

Z

R

L

×

D

×

d

m

o

d

e

l

Z \in \mathbb{R}^{L \times D \times d_{model}}

ZRL×D×dmodel
. Two-Stage Attention (TSA)层:捕获cross-time和cross-dimension依赖关系                        。替待原来的self-attention在encoder和decoder中的位置                。 Linear Projection:应用于每一个decoder层的输出        ,以产生该层的预测        。对各层预测结果进行求和        ,得到最终预测结果

x

T

+

1

T

+

τ

p

r

e

d

x^{pred}_{T+1:T+\tau}

xT+1T+τpred

.

下面主要讲解DSW和TSA如何实现的!

3.2 Dimension-Segment-Wise embedding (DSW)

输入

x

1

:

T

R

T

×

D

x_{1:T} \in \mathbb{R}^{T\times D}

x1:TRT×D                        ,表明输入包含

T

T

T
个序列                ,每个序列有

D

D

D
个维度                        。如下所示        ,如果我们分的每个segment的长度为

L

s

e

g

L_{seg}

Lseg
                       ,则每个序列中可以划分出

T

L

s

e

g

\frac{T}{L_{seg}}

LsegT
个segment                ,每个序列有

D

D

D
个维度,则整个输入共包含

T

L

s

e

g

×

D

\frac{T}{L_{seg}} \times D

LsegT×D
个segment                        ,故

x

1

:

T

x_{1:T}

x1:T
可以记为:

x

1

:

T

=

{

x

i

,

d

(

s

)

1

i

T

L

s

e

g

,

1

d

D

}

x_{1:T}=\{x^{(s)}_{i,d}|1\le i \le \frac{T}{L_{seg}}, 1 \le d \le D \}

x1:T={xi,d(s)∣1iLsegT,1dD}
                。在

d

d

d
维度中的第

i

i

i
个segment的size记为

x

i

,

d

(

s

)

R

1

×

L

s

e

g

x^{(s)}_{i,d} \in \mathbb{R}^{1 \times L_{seg}}

xi,d(s)R1×Lseg

                        ,然后使用线性投影和位置嵌入将每个段嵌入到一个向量中:

其中

h

i

,

d

R

d

m

o

d

e

l

h_{i,d} \in \mathbb{R}^{d_{model}}

hi,dRdmodel
,

E

R

d

m

o

d

e

l

×

L

s

e

g

E \in \mathbb{R}^{d_{model} \times L_{seg}}

ERdmodel×Lseg
表示可学习的映射矩阵。

E

i

,

d

(

p

o

s

)

R

d

m

o

d

e

l

E^{(pos)}_{i,d} \in \mathbb{R}^{d_{model}}

Ei,d(pos)Rdmodel
表示在

(

i

,

d

)

(i,d)

(i,d)
位置的可学习位置嵌入                        。

最后                ,可以获得一个2D的向量数组

H

=

{

h

i

,

d

1

i

T

L

s

e

g

,

1

d

D

}

R

T

L

s

e

g

×

D

×

d

m

o

d

e

l

H=\{ h_{i,d}|1 \le i \le \frac{T}{L_{seg}},1 \le d \le D \} \in \mathbb{R}^{\frac{T}{L_{seg}} \times D \times d_{model}}

H={hi,d∣1iLsegT,1dD}RLsegT×D×dmodel

.

3.3 Two-Stage Attention (TSA)

由上可得输入现在为:

H

R

T

L

s

e

g

×

D

×

d

m

o

d

e

l

H \in \mathbb{R}^{\frac{T}{L_{seg}} \times D \times d_{model}}

HRLsegT×D×dmodel                        ,为了方便        ,记

L

=

T

L

s

e

g

L=\frac{T}{L_{seg}}

L=LsegT
                ,则输入为

H

R

L

×

D

×

d

m

o

d

e

l

H \in \mathbb{R}^{L \times D \times d_{model}}

HRL×D×dmodel

                        。TSA主要由cross-time stage和

cross-dimension stage组成                        ,如下图所示。

Cross-Time Stage

对于每个维度        ,包含所有时间序列                。因此        ,对于

d

d

d
维度

Z

:

,

d

R

L

×

d

m

o

d

e

l

Z_{:,d} \in \mathbb{R}^{L \times d_{model}}

Z:,dRL×dmodel

上                        ,cross-time依赖关系可记为:

其中

1

d

D

1 \le d \le D

1dD

                ,所有维度共享MSA(multi-head self-attention). Cross-Dimension Stage

对于每个时间点        ,包含所有维度                        。因此                        ,对于第

i

i

i
时间点

Z

i

,

:

t

i

m

e

R

D

×

d

m

o

d

e

l

Z^{time}_{i,:} \in \mathbb{R}^{D \times d_{model}}

Zi,:timeRD×dmodel
1)如果使用标准Transformer进行                ,如下图所示,可以很容易得到复杂性为

O

(

D

2

)

\mathcal{O}(D^2)

O(D2)
!总共有

L

L

L
个时间segment                        ,因此总复杂性为

O

(

D

2

L

)

\mathcal{O}(D^2L)

O(D2L)

.

2)作者引入router机制                        ,每个时间点共享        。如下图所示,

R

i

,

:

R

c

×

d

m

o

d

e

l

R_{i,:} \in \mathbb{R}^{c×d_{model}}

Ri,:Rc×dmodel
(

c

c

c

是常数)是作为路由器的可学习向量                ,作为第一个MSA的query.

B

i

,

:

R

c

×

d

m

o

d

e

l

B_{i,:} \in \mathbb{R}^{c×d_{model}}

Bi,:Rc×dmodel

                        ,作为第二个MSA的key和value.

由上可知        ,第一个MSA复杂性为

O

(

c

D

L

)

\mathcal{O}(cDL)

O(cDL)
                ,第二个MSA也是如此                        ,因此        ,最终复杂性为

O

(

2

c

D

L

)

\mathcal{O}(2cDL)

O(2cDL)
        ,其中

2

c

2c

2c
为常量                        ,记复杂性变为

O

(

D

L

)

\mathcal{O}(DL)

O(DL)
!!

4 实验

SOTA方法对比

更多对比方法:

消融实验

参数分析

复杂性分析

可视化

运行速度对比

5. 结论

提出了Crossformer                ,一种基于transformer的模型        ,利用跨维度依赖进行多元时间序列(MTS)预测                。 DSW (dimension - segment - wise)嵌入:将输入数据嵌入到二维矢量数组中                        ,以保留时间和维度信息                        。 为了捕获嵌入式阵列的跨时间和跨维度依赖关系                ,设计两阶段注意(TSA)层        。 利用DSW嵌入和TSA层,设计了一种分层编码器(HED)来利用不同尺度的信息        。

在6个数据集上的实验结果展示了该方法优于之前的先进技术                        。

以上仅为本人小记                        ,有问题欢迎指出(●ˇ∀ˇ●)

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
wordpress采集手机壁纸(WordPress采集破解版——打造个人网站的终极利器) 网站死活不收录的原因(解决网站不收录的疑惑,让您的网站腾飞)