vision transformer（EfficientFormer）

2024-09-06 03:55:22 ：1

大家好，关于vision transformer很多朋友都还不太明白，不过没关系，因为今天小编就来为大家分享关于EfficientFormer的知识点，相信应该可以解决大家的一些困惑和问题，如果碰巧可以解决您的问题，还望关注下本站哦，希望对各位有所帮助！

本文目录

EfficientFormer
阅读笔记-SoViT Mind visual tokens for vision transformer

EfficientFormer

EfficientFormer: Vision Transformers at MobileNet Speed 2 Jun 2022 · Yanyu Li , Geng Yuan , Yang Wen , Eric Hu , Georgios Evangelidis , Sergey Tulyakov , Yanzhi Wang , Jian Ren · Edit social preview ***隐藏网址*** ***隐藏网址*** Vision Transformers (ViT) have shown rapid progress in computer vision tasks, achieving promising results on various benchmarks. However, due to the massive number of parameters and model design, e.g., attention mechanism, ViT-based models are generally times slower than lightweight convolutional networks. Therefore, the deployment of ViT for real-time applications is particularly challenging, especially on resource-constrained hardware such as mobile devices. Recent efforts try to reduce the computation complexity of ViT through network architecture search or hybrid design with MobileNet block, yet the inference speed is still unsatisfactory. This leads to an important question: can transformers run as fast as MobileNet while obtaining high performance? To answer this, we first revisit the network architecture and operators used in ViT-based models and identify inefficient designs. Then we introduce a dimension-consistent pure transformer (without MobileNet blocks) as design paradigm. Finally, we perform latency-driven slimming to get a series of final models dubbed EfficientFormer. Extensive experiments show the superiority of EfficientFormer in performance and speed on mobile devices. Our fastest model, EfficientFormer-L1, achieves 79.2% top-1 accuracy on ImageNet-1K with only 1.6 ms inference latency on iPhone 12 (compiled with CoreML), which is even a bit faster than MobileNetV2 (1.7 ms, 71.8% top-1), and our largest model, EfficientFormer-L7, obtains 83.3% accuracy with only 7.0 ms latency. Our work proves that properly designed transformers can reach extremely low latency on mobile devices while maintaining high performance 视觉转换器（ViT）在计算机视觉任务方面取得了快速进展，在各种基准上取得了有希望的结果。然而，由于大量的参数和模型设计，例如注意机制，基于ViT的模型通常比轻量级卷积网络慢数倍。因此，为实时应用程序部署ViT尤其具有挑战性，尤其是在资源受限的硬件（如移动设备）上。近年来，人们试图通过网络架构搜索或与MobileNet块的混合设计来降低ViT的计算复杂度，但推理速度仍不令人满意。这就引出了一个重要的问题：变压器能否像MobileNet一样快速运行，同时获得高性能？为了回答这个问题，我们首先回顾了基于ViT的模型中使用的网络架构和运营商，并确定了低效的设计。然后，我们引入了一个维度一致的纯transformer（无MobileNet块）作为设计范例。最后，我们执行延迟驱动的瘦身，以获得一系列称为EfficientFormer的最终模型。在移动设备上进行的大量实验表明，EfficientFormer在性能和速度上都具有优越性。我们最快的型号EfficientFormer-L1在ImageNet-1K上实现了79.2%的top-1精度，而iPhone 12（使用CoreML编译）上的推理延迟仅为1.6 ms，甚至比MobileNetV2（1.7 ms，71.8%top-1）快一点；我们最大的型号EfficientFormer-L7在延迟仅为7.0 ms的情况下获得了83.3%的精度。我们的工作证明，设计得当的转换器可以在移动设备上达到极低的延迟，同时保持高性能

阅读笔记-SoViT Mind visual tokens for vision transformer

这篇文章的出发点包含两方面： 1. ViT是纯transformer的结构，剔除了CNN中具有的一些归纳偏置，使其必须依赖较大规模的数据集去学习这种偏置，从而对于中心规模scratch训练得到的模型性能远低于CNN结构。 2. 在ViT方法，以及基于ViT的系列方法中，都引入了一个class token，利用encoder输出的class token的特征进行分类，但忽略了每个patch token所包含的语义信息所以本文的主要工作就是针对前述两方面分别设计了两个模块。如图1所示，其核心的bockbone和ViT相同。在 ‘A small, hierarchical module’ 中其实是一个简化的CNN backbone；在 ’second-order, cross covariance pooling’中其本质就是一种特征池化的方式，我们在CCT Escaping the big data paradigm with compact transformers 那篇文章也接触到类似的池化方法，那里提出的一种seqpooling的方法本质是一种加权平均的思想。类似与T2T的方式，为了更好的从scratch处理中小规模的数据，同样的引入了inductive bias，但该偏置的引入又不影响backbone，即ViT的结构，于是只能在输入上进行操作。T2T使用的是多层的T2T module，这里其实本质上就是简化的cnn backbone。其最基础的结构为: 当然中间的stage本部分可以使用不同的经典cnn结构，比如dense net和resnet net， inception net等等，最终获得的特征图尺寸为原始图像的8倍下采样，最后一层1x1的卷积层将特征维度映射为backbone的输入尺寸，可以发现这里backbone丝毫没改变。 ViT仅利用class token的特征进行最后的分类，而研究认为在最后输出的patch token （visual token）中同样含有利于分类的语义信息，因此可以将class token与patch token结合用于分类。最直接的想法是将patch token特征平均池化和class token融合。而本文使用的是second-order pooling，又称为bilinear pooling。 second-order pooling的主要思想是利用不同机制获得的特征之间的相关性来刻画图像。具体而言，同一个样本以不同方式获得的特征分别为 , , 于是特征之间的相关性其实就是X，Y之间的协方差矩阵 , 于是就是其二阶池化的结果。在ViT中每个样本划分成不同的patch token，每个patch token都对应一个特征，于是通过两个线性变换 , 就能分别获得。实验部分相对而言还是比较充分的。参考文献 ***隐藏网址***

关于vision transformer，EfficientFormer的介绍到此结束，希望对大家有所帮助。

vision transformer（EfficientFormer）

本文编辑：admin

： vision transformer

上一篇：forgetable（forgetful与forgetable有何区别）

下一篇：jeesite官网（jeesite 怎么验证表单的）

更多文章：

投资1000元3天赚500（投资了一千多，第一天摆摊才赚一百元，有点信心不足了怎么办）

本文目录投资了一千多，第一天摆摊才赚一百元，有点信心不足了怎么办请问投资20000元，一天能赚500-1000元的，有什么生意两千块钱投资什么项目，一天能赚300-500的收入可以介绍一下吗目前，做哪些生意一天能挣500-1000元做什么能

2024年7月14日 09:29

东方烟草网东方烟草网（泰山烟黑色的是什么烟）

今天给各位分享泰山烟黑色的是什么烟的知识，其中也会对泰山烟黑色的是什么烟进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！本文目录泰山烟黑色的是什么烟东方烟草网账号被冻结怎么办扫一扫香烟真假鉴别方法关于烟草的网站主要有哪

2024年5月2日 19:06

滴滴打车app下载安卓（安卓手机下载不了滴滴出行）

这篇文章给大家聊聊关于滴滴打车app下载安卓，以及安卓手机下载不了滴滴出行对应的知识点，希望对各位有所帮助，不要忘了收藏本站哦。本文目录安卓手机下载不了滴滴出行滴滴打车司机版怎么下载跑滴滴车需要下载哪些软件滴滴出行安卓手机怎么下载不了怎么下

2024年7月25日 05:40

艺术字生成器在线转换器（哪个网站可以生成书法字体在线免费）

这篇文章给大家聊聊关于艺术字生成器在线转换器，以及哪个网站可以生成书法字体在线免费对应的知识点，希望对各位有所帮助，不要忘了收藏本站哦。本文目录哪个网站可以生成书法字体在线免费艺术字体在线生成求字体转换工具（就是将宋体字转换为隶书楷

2024年10月16日 19:15

冒险岛online手机版叫什么（冒险岛Online的手游版本）

大家好，如果您还对冒险岛online手机版叫什么不太了解，没有关系，今天就由本站为大家分享冒险岛online手机版叫什么的知识，包括冒险岛Online的手游版本的问题都会给大家分析到，还望可以解决大家的问题，下面我们就开始吧！本文目录冒险岛

2024年9月4日 13:40

qq怎么群发消息给好友（qq消息怎么群发）

各位老铁们好，相信很多人对qq怎么群发消息给好友都不是特别的了解，因此呢，今天就来为大家分享下关于qq怎么群发消息给好友以及qq消息怎么群发的问题知识，还望可以帮助大家，解决大家的一些困惑，下面一起来看看吧！本文目录qq消息怎么群发QQ怎么

2024年8月12日 19:31

小李升职换岗后蚂蚁庄园（某单位空出3个领导岗位，全部从外单位提拔人员来补充，合理不）

本文目录某单位空出3个领导岗位，全部从外单位提拔人员来补充，合理不公务员晋升或者换岗，可以通过哪些途径来实现某单位空出3个领导岗位，全部从外单位提拔人员来补充，合理不从命题扩展展示的内容来看，显然单位一把手做法不合理！我们不否认干部交流，不

2024年3月9日 06:45

office2010官方下载免费完整版（计算机考试用的办公软件下载office2010免费下载地址）

这篇文章给大家聊聊关于office2010官方下载免费完整版，以及计算机考试用的办公软件下载office2010免费下载地址对应的知识点，希望对各位有所帮助，不要忘了收藏本站哦。本文目录计算机考试用的办公软件下载office2010免费下载

2024年9月6日 15:20

微博添加到桌面什么意思？新浪微博桌面保存的图片存在哪里

本文目录微博添加到桌面什么意思新浪微博桌面保存的图片存在哪里如何把新浪微博放在桌面上新浪微博有电脑桌面版吗微博上关注的人怎么设置不了桌面解决方法新浪微博桌面如何设置如何将微博快捷方式到桌面上新浪微博桌面版如何用如何设置新浪微博桌面微博桌面

2024年3月21日 03:00

打印机无法打印（打印机显示无法打印怎么办）

本文目录打印机显示无法打印怎么办打印机无法打印的处理办法打印机为何无法打印打印机无法打印怎么办打印机突然无法打印已连接打印机但是无法打印怎么办打印机无法打印怎么处理打印机打印错误无法打印怎么办联想m7400打印机无法打印佳能打印机PB打不出

2024年6月17日 10:33

tweak ui（用Tweak UI V2 如何给文件夹加密啊）

本文目录用Tweak UI V2 如何给文件夹加密啊用Tweak UI V2 如何给文件夹加密啊一、加密文件或文件夹步骤一：打开Windows资源管理器。步骤二：右键单击要加密的文件或文件夹，然后单击“属性”。步骤三：在“常规”选项卡上，单

2024年5月29日 07:49

视频分割软件（手机什么视频分割软件可以每一个字每一个字分割先ai识别字幕然后分割就像图片下面这样）

各位老铁们，大家好，今天由我来为大家分享视频分割软件，以及手机什么视频分割软件可以每一个字每一个字分割先ai识别字幕然后分割就像图片下面这样的相关问题知识，希望对大家有所帮助。如果可以帮助到大家，还望关注收藏下本站，您的支持是我们最

2024年7月31日 05:35

360杀毒软件病毒库（360杀毒软件怎么离线升级病毒库）

大家好,今天小编来为大家解答以下的问题，关于360杀毒软件病毒库，360杀毒软件怎么离线升级病毒库这个很多人还不知道，现在让我们一起来看看吧！本文目录360杀毒软件怎么离线升级病毒库为什么360杀毒软件病毒库无法更新360如何更新病毒库36

2024年8月20日 23:50

只知道部分歌词，寻歌名？能帮我翻译这首歌的歌词吗

本文目录只知道部分歌词，寻歌名能帮我翻译这首歌的歌词吗必应词典爱词霸百度词典译典通词典沪江小D 金桥翻译 n词酷在线词典灵格斯词典有道词典金山词霸这些歌词一个人的天堂两个人的向往你是我的天堂求颂VAE歌词有没有和goo

2024年5月19日 16:27

psp必玩神作（psp有哪些好玩的游戏）

各位老铁们好，相信很多人对psp必玩神作都不是特别的了解，因此呢，今天就来为大家分享下关于psp必玩神作以及psp有哪些好玩的游戏的问题知识，还望可以帮助大家，解决大家的一些困惑，下面一起来看看吧！本文目录psp有哪些好玩的游戏PSP有哪些

2024年9月2日 04:05

荒芜之地怎么去（wow部落怎么去荒芜之地）

本文目录wow部落怎么去荒芜之地魔兽世界里面BL怎么到荒芜之地去练级多少级去魔兽世界如何去荒芜之地和悲伤沼泽魔兽世界里的部落如何能到荒芜之地wow部落怎么去荒芜之地从阿拉希高地，向南跑（地图下方）穿过LM领地（湿地）。在跑过洛克莫丹（LM

2024年5月19日 14:43

win7一键ghost重装系统（电脑重装系统步骤（xp+win7）ghost系统安装）

大家好，win7一键ghost重装系统相信很多的网友都不是很明白，包括电脑重装系统步骤(xp+win7)ghost系统安装也是一样，不过没有关系，接下来就来为大家分享关于win7一键ghost重装系统和电脑重装系统步骤(xp+win7)gh

2024年7月23日 18:14

各种颜色的代码是什么？十六进制颜色代码表

本文目录各种颜色的代码是什么十六进制颜色代码表各种颜色的英文缩写html背景颜色代码有哪些十六进制颜色代码十六进制颜色码的对照表代表十二种颜色的英文字母可以告诉我吗颜色代码怎么打photoshop主要颜色的代码#开头的染发代码的色调0到9分

2023年9月19日 15:00

ps怎么画云朵？云记只有三种笔刷吗

本文目录ps怎么画云朵云记只有三种笔刷吗怎么在photoshop中载入云朵笔刷怎么用PS把云做成字ps的云朵字怎么制作ps怎么画云朵如果要画云朵的话，最直接的方法就是到网站去找“云朵笔刷”，下载后直接将这个笔刷拖入到PHOTOSHOP界面，

2024年5月11日 18:05

美图手机哪个型号最好（美图手机哪款好用）

大家好,今天小编来为大家解答以下的问题，关于美图手机哪个型号最好，美图手机哪款好用这个很多人还不知道，现在让我们一起来看看吧！本文目录美图手机哪款好用美图手机哪款最好用求推荐美图手机哪个型号好美图手机哪个型号最好美图二手手机哪个好一直搞不清

2024年6月19日 02:00