1.标准Transformer经典Transformer模型(如上图所示),它是由编码器(蓝框)和解码器(绿框)组成,标准VisionTransformer(ViT)[2]主要应用了其中的编码器,编码器模块主要由一个MultiHeadSelfAttention(MHA)和一个MultilayerPerceptron(MLP)组成。2.视觉Transformer标准Transformer编码器的输入是一维embedding,为了能将该编码器应用于图像任务,将尺寸为(H,W,C)的图像切分成尺寸为(P,P,C)的图像块,一共得到个图像块,reshape...