vision transformer(EfficientFormer)
本文目录
EfficientFormer
EfficientFormer: Vision Transformers at MobileNet Speed 2 Jun 2022 · Yanyu Li , Geng Yuan , Yang Wen , Eric Hu , Georgios Evangelidis , Sergey Tulyakov , Yanzhi Wang , Jian Ren · Edit social preview ***隐藏网址*** ***隐藏网址*** Vision Transformers (ViT) have shown rapid progress in computer vision tasks, achieving promising results on various benchmarks. However, due to the massive number of parameters and model design, e.g., attention mechanism, ViT-based models are generally times slower than lightweight convolutional networks. Therefore, the deployment of ViT for real-time applications is particularly challenging, especially on resource-constrained hardware such as mobile devices. Recent efforts try to reduce the computation complexity of ViT through network architecture search or hybrid design with MobileNet block, yet the inference speed is still unsatisfactory. This leads to an important question: can transformers run as fast as MobileNet while obtaining high performance? To answer this, we first revisit the network architecture and operators used in ViT-based models and identify inefficient designs. Then we introduce a dimension-consistent pure transformer (without MobileNet blocks) as design paradigm. Finally, we perform latency-driven slimming to get a series of final models dubbed EfficientFormer. Extensive experiments show the superiority of EfficientFormer in performance and speed on mobile devices. Our fastest model, EfficientFormer-L1, achieves 79.2% top-1 accuracy on ImageNet-1K with only 1.6 ms inference latency on iPhone 12 (compiled with CoreML), which is even a bit faster than MobileNetV2 (1.7 ms, 71.8% top-1), and our largest model, EfficientFormer-L7, obtains 83.3% accuracy with only 7.0 ms latency. Our work proves that properly designed transformers can reach extremely low latency on mobile devices while maintaining high performance 视觉转换器(ViT)在计算机视觉任务方面取得了快速进展,在各种基准上取得了有希望的结果。然而,由于大量的参数和模型设计,例如注意机制,基于ViT的模型通常比轻量级卷积网络慢数倍。因此,为实时应用程序部署ViT尤其具有挑战性,尤其是在资源受限的硬件(如移动设备)上。近年来,人们试图通过网络架构搜索或与MobileNet块的混合设计来降低ViT的计算复杂度,但推理速度仍不令人满意。这就引出了一个重要的问题:变压器能否像MobileNet一样快速运行,同时获得高性能?为了回答这个问题,我们首先回顾了基于ViT的模型中使用的网络架构和运营商,并确定了低效的设计。然后,我们引入了一个维度一致的纯transformer(无MobileNet块)作为设计范例。最后,我们执行延迟驱动的瘦身,以获得一系列称为EfficientFormer的最终模型。在移动设备上进行的大量实验表明,EfficientFormer在性能和速度上都具有优越性。我们最快的型号EfficientFormer-L1在ImageNet-1K上实现了79.2%的top-1精度,而iPhone 12(使用CoreML编译)上的推理延迟仅为1.6 ms,甚至比MobileNetV2(1.7 ms,71.8%top-1)快一点;我们最大的型号EfficientFormer-L7在延迟仅为7.0 ms的情况下获得了83.3%的精度。我们的工作证明,设计得当的转换器可以在移动设备上达到极低的延迟,同时保持高性能
阅读笔记-SoViT Mind visual tokens for vision transformer
这篇文章的出发点包含两方面: 1. ViT是纯transformer的结构,剔除了CNN中具有的一些归纳偏置,使其必须依赖较大规模的数据集去学习这种偏置,从而对于中心规模scratch训练得到的模型性能远低于CNN结构。 2. 在ViT方法,以及基于ViT的系列方法中,都引入了一个class token,利用encoder输出的class token的特征进行分类,但忽略了每个patch token所包含的语义信息 所以本文的主要工作就是针对前述两方面分别设计了两个模块。如图1所示, 其核心的bockbone和ViT相同。在 ‘A small, hierarchical module’ 中其实是一个简化的CNN backbone; 在 ’second-order, cross covariance pooling’中其本质就是一种特征池化的方式,我们在CCT Escaping the big data paradigm with compact transformers 那篇文章也接触到类似的池化方法,那里提出的一种seqpooling的方法本质是一种加权平均的思想。 类似与T2T的方式,为了更好的从scratch处理中小规模的数据,同样的引入了inductive bias,但该偏置的引入又不影响backbone,即ViT的结构,于是只能在输入上进行操作。T2T使用的是多层的T2T module, 这里其实本质上就是简化的cnn backbone。其最基础的结构为: 当然中间的stage本部分可以使用不同的经典cnn结构,比如dense net和resnet net, inception net等等, 最终获得的特征图尺寸为原始图像的8倍下采样,最后一层1x1的卷积层将特征维度映射为backbone的输入尺寸,可以发现这里backbone丝毫没改变。 ViT仅利用class token的特征进行最后的分类,而研究认为在最后输出的patch token (visual token)中同样含有利于分类的语义信息,因此可以将class token与patch token结合用于分类。最直接的想法是将patch token特征平均池化和class token融合。而本文使用的是second-order pooling,又称为bilinear pooling。 second-order pooling的主要思想是利用不同机制获得的特征之间的相关性来刻画图像。具体而言,同一个样本以不同方式获得的特征分别为 , , 于是特征之间的相关性其实就是X,Y之间的协方差矩阵 , 于是 就是其二阶池化的结果。 在ViT中每个样本划分成不同的patch token,每个patch token都对应一个特征,于是通过两个线性变换 , 就能分别获得 。 实验部分相对而言还是比较充分的。 参考文献 ***隐藏网址***
更多文章:
投资1000元3天赚500(投资了一千多,第一天摆摊才赚一百元,有点信心不足了怎么办)
2024年7月14日 09:29
艺术字生成器在线转换器(哪个网站可以生成书法字体在线 免费)
2024年10月16日 19:15
冒险岛online手机版叫什么(冒险岛Online的手游版本)
2024年9月4日 13:40
小李升职换岗后蚂蚁庄园(某单位空出3个领导岗位,全部从外单位提拔人员来补充,合理不)
2024年3月9日 06:45
office2010官方下载免费完整版(计算机考试用的办公软件下载office2010免费下载地址)
2024年9月6日 15:20
tweak ui(用Tweak UI V2 如何给文件夹加密啊)
2024年5月29日 07:49
视频分割软件(手机什么视频分割软件 可以每一个字每一个字分割 先ai识别字幕 然后分割 就像图片下面这样)
2024年7月31日 05:35
win7一键ghost重装系统(电脑重装系统步骤(xp+win7)ghost系统安装)
2024年7月23日 18:14