首页IT科技变形金刚studio(变形金刚——Transformer入门刨析详解)

变形金刚studio(变形金刚——Transformer入门刨析详解)

时间2025-10-15 22:27:42分类IT科技浏览6393
导读:Transformer是什么呢? \qquad...

Transformer是什么呢?

\qquad

Transformer最早起源于论文Attention is all your need                 ,是谷歌云TPU推荐的参考模型                 。

\qquad

目前                           ,在NLP领域当中        ,主要存在三种特征处理器——CNN                 、RNN以及Transformer            ,当前Transformer的流行程度已经大过CNN和RNN                           ,它抛弃了传统CNN和RNN神经网络            ,整个网络结构完全由Attention机制以及前馈神经网络组成                           。首先给出一个来自原论文的Transformer整体架构图方便之后回顾        。

\qquad

上图中的Transformer可以说是一个使用“self attention                 ”的Seq2seq模型            。

那么要想了解Transformer        ,就必须先了解"self attention"                           。

\qquad

如果给出一个Sequence要处理                           ,最常想到的可能就是RNN了                ,如下图1所示            。RNN被经常使用在输入是有序列信息的模型中    ,但它也存在一个问题——它不容易被“平行化                         ”        。那么“平行化          ”是什么呢?

\qquad

比如说在RNN中a1,a2,a3,a4就是输入                           ,b1,b2,b3,b4就是输出                           。对于单向RNN                     ,如果你要输出b3那么你需要把a1,a2,a3都输入并运算了才能得到;对于双向RNN,如果你要输出任何一个bi,那么你要把所有的ai都输入并运算过才能得到                。它们无法同时进行运算得出b1,b2,b3,b4    。

\qquad

而针对RNN无法“平行化             ”这个问题                      ,有人提出了使用CNN来取代RNN                          ,如下图所示                           。输入输出依然为ai                         、bi                     。它利用一个个Filter(如下图黄色三角形)(我的理解是类似于计网的滑动窗口协议)去得出相应的输出    ,比如b1是通过a1,a2一起得出;b2是通过a1,a2,a3得出。可能会存在一个疑问——这样不就只考虑临近输入的信息                 ,而对长距离信息没有考虑了?

\qquad

当然不是这样                           ,它可以考虑长距离信息的输入        ,只需要在输出bi上再叠加一层Filters就能涵盖更多的信息            ,如下图黄色三角形                           ,所有输入ai运算得出b1,b2,b3作为该层的输入                      。所以说只要你叠加的层数够多            ,它可以包含你所有的输入信息                          。

\qquad

回到咱们对“平行化                        ”问题的解答:使用CNN是可以做到“平行化              ”的        ,下图中每一个蓝色的三角形                           ,并不用等前面的三角形执行完才能执行                ,它们可以同时进行运算    。

self attention

\qquad

self attention模型输入的xi先做embedding得到ai    ,每一个xi都分别乘上三个不同的w得到q          、k             、v                 。

其中:

\qquad

\qquad

\qquad

\qquad

a

i

=

W

x

i

\ a^i=Wx^i

ai=Wxi

\qquad

\qquad

\qquad

\qquad

\qquad

q

i

=

W

q

a

i

\ q^i=W^qa^i

qi=Wqai

\qquad

\qquad

\qquad

\qquad

\qquad

k

i

=

W

k

a

i

\ k^i=W^ka^i

ki=Wkai

\qquad

\qquad

\qquad

\qquad

\qquad

v

i

=

W

v

a

i

\ v^i=W^va^i

vi=Wvai
拿每个qi去对每个ki做点积得到

a

1

,

i

\ a_{1,i}

a1,i

                           ,其中d是q和k的维度                           。

\qquad

\qquad

\qquad

\qquad

\qquad

a

1

,

i

=

q

1

k

i

/

d

\ a_{1,i}=q^1·k^i/{\sqrt d}

a1,i=q1ki/d
再把

a

1

,

i

\ a_{1,i}

a1,i
经过一个Soft-max之后得到

a

^

1

,

i

\hat a_{1,i}

a1,i

a

^

1

,

i

=

e

x

p

(

a

1

,

i

)

/

j

e

x

p

(

a

1

,

j

)

\hat a_{1,i} =exp(a_{1,i})/\sum_{j} exp(a_{1,j})

a1,i=exp(a1,i)/jexp(a1,j)

\qquad

接下来把

a

^

1

,

j

\hat a_{1,j}

a1,j
与对应的

v

j

v^j

vj
分别做乘积最后求和得出第一个输出

b

1

b_1

b1
                    ,同理可得到所有

b

i

b_i

bi

        。

b

1

=

i

n

a

^

1

,

i

v

i

b^1 =\sum_{i}^n \hat a_{1,i}v^i

b1=ina1,ivi

\qquad

那么到这里就可以看出输出b1是综合了所有的输入xi信息,同时这样做的优势在于——当b1只需要考虑局部信息的时候(比如重点关注x1,x2就行了)                      ,那么它可以让

a

^

1

,

3

\hat a_{1,3}

a1,3

a

^

1

,

4

\hat a_{1,4}

a1,4
输出的值为0就行了            。

那么self attention是这么做平行化的呢?

咱们复习一下前面说到的q                        、k              、v的计算:

\qquad

\qquad

\qquad

\qquad

\qquad

q

i

=

W

q

a

i

\ q^i=W^qa^i

qi=Wqai

\qquad

\qquad

\qquad

\qquad

\qquad

k

i

=

W

k

a

i

\ k^i=W^ka^i

ki=Wkai

\qquad

\qquad

\qquad

\qquad

\qquad

v

i

=

W

v

a

i

\ v^i=W^va^i

vi=Wvai

\qquad

因为

q

1

=

w

q

a

1

\ q^1=w^qa^1

q1=wqa1
                         ,那么根据矩阵运算原理    ,我们将

a

1

         、

a

2

                        、

a

3

                  、

a

4

\ a^1     、a^2                         、a^3                      、a^4

a1、a2                     、a3                          、a4
串起来作为一个矩阵I与

w

q

\ w^q

wq
相乘可以得到

q

1

     、

q

2

                 、

q

3

                         、

q

4

\ q^1          、q^2             、q^3                        、q^4

q1              、q2         、q3                        、q4
构成的矩阵Q                           。同理可得

k

i

                  、

v

i

\ k^i     、v^i

ki                         、vi

的矩阵K                      、V            。

然后我们再回忆观察一下

a

1

,

i

\ a_{1,i}

a1,i的计算过程(为方便理解                 ,此处省略

d

\sqrt d

d

):

\qquad

\qquad

\qquad

a

1

,

1

=

k

1

q

1

\ a_{1,1}=k^1·q^1

a1,1=k1q1

\qquad

a

1

,

2

=

k

2

q

1

\ a_{1,2}=k^2·q^1

a1,2=k2q1

\qquad

\qquad

\qquad

a

1

,

3

=

k

3

q

1

\ a_{1,3}=k^3·q^1

a1,3=k3q1

\qquad

a

1

,

4

=

k

4

q

1

\ a_{1,4}=k^4·q^1

a1,4=k4q1

\qquad

我们可以发现计算都是用

q

1

\ q^1

q1
去乘以每个

k

i

\ k^i

ki
得出

a

1

,

i

\ a_{1,i}

a1,i
                           ,那么我们将

k

i

\ k^i

ki
叠加起来与

q

1

\ q^1

q1
相乘得到一列向量

a

1

,

i

\ a_{1,i}

a1,i
(i=1,2,3,4)        。然后你再加上所有的

q

i

\ q^i

qi
就可以得到整个

a

i

,

j

\ a_{i,j}

ai,j
矩阵                           。最后对

a

i

,

j

\ a_{i,j}

ai,j
的每一列做一个soft-max就得到

a

^

i

,

j

\hat a_{i,j}

ai,j

矩阵                。

最后再把

a

^

i

,

j

\hat a_{i,j}

ai,j与所有

v

i

\ v^i

vi

构成的矩阵V相乘即可得到输出    。

\qquad

在这里我们对输入I到输出O之间做的事情做一个总结:我们先用I分别乘上对应的

W

i

\ W^i

Wi
得到矩阵Q,K,V        ,再把Q与

K

T

\ K^T

KT
相乘得到矩阵A            ,再对A做soft-max处理得到矩阵KaTeX parse error: Expected group after ^ at position 7: \hat A^̲                           ,最后再将KaTeX parse error: Expected group after ^ at position 7: \hat A^̲

与V相乘得到输出结果O                           。整个过程都是进行矩阵乘法            ,都可以使用GPU加速                     。

self-attention的变形——Multi-head Self-attention

\qquad

Multi-head Self-attention跟self-attention一样都会生成q、k                     、v        ,但是Multi-head Self-attention会再将q                          、k     、v分裂出多个

q

1

,

2

\ q^{1,2}

q1,2
(这里举例分裂成两个)                           ,然后它也将q跟k去进行相乘计算                ,但是只跟其对应的k                 、v进行计算    ,比如

q

1

,

1

\ q^{1,1}

q1,1
只会与

k

1

,

1

\ k^{1,1}

k1,1
                         、

k

2

,

1

\ k^{2,1}

k2,1
进行运算                           ,然后一样的乘以对应的v得到输出

b

1

,

1

\ b^{1,1}

b1,1

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
yolo训练代码简写(YOLOV8——快速训练指南(上手教程、自定义数据训练)) windows 11 正式发布!(Windows 11今日正式推送:四大变化值得你拥有)