鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野

轻薄滴假象

发布于 2024-6-4 09:55

浏览

0收藏

本文作者为VMamba的原班人马，其中第一作者王兆植是中国科学院大学和鹏城实验室的2022级联合培养博士生，共同一作刘悦是中国科学院大学2021级直博生。他们的主要研究方向是视觉模型设计和自监督学习。

如何突破 Transformer 的 Attention 机制？中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型 vHeat。将图片特征块视为热源，并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于Attention机制的视觉模型， vHeat 同时兼顾了：计算复杂度（1.5次方）、全局感受野、物理可解释性。

vHeat-base 模型在高分辨率图像输入时，throughput、GPU 显存占用、flops 分别是 Swin-base 模型的3倍、1/4、3/4，在图像分类、目标检测、语义/实例分割等基础下游任务上达到了先进的性能表现。

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

论文地址: https://arxiv.org/pdf/2405.16555
代码地址: https://github.com/MzeroMiko/vHeat
论文标题：vHeat: Building Vision Models upon Heat Conduction

Overview

CNN 和视觉 Transformer（ViT）是当前最主流的两类基础视觉模型。然而，CNN的性能表现受限于局部感受野和固定的卷积核算子。ViT 具有全局依赖关系的表征能力，然而代价是高昂的二次方级别计算复杂度。我们认为 CNN 和 ViT 的卷积算子和自注意力算子都是特征内部的像素传播过程，分别是一种信息传递的形式，这也让我们联想到了物理领域的热传导。于是我们根据热传导方程，将视觉语义的空间传播和物理热传导建立联系，提出了一种 1.5 次方计算复杂度的视觉热传导算子（Heat Conduction Operator, HCO），进而设计出了一种兼具低复杂度、全局感受野、物理可解释性的视觉表征模型 vHeat。HCO 与 self-attention 的计算形式和复杂度对比如下图所示。实验证明了 vHeat 在各种视觉任务中表现优秀。例如 vHeat-T 在 ImageNet-1K 上达到 82.2% 的分类准确率，比 Swin-T 高 0.9%，比 Vim-S 高1.7%。性能之外，vHeat 还拥有高推理速度、低 GPU 显存占用和低 FLOPs 这些优点。在输入图像分辨率较高时，base 规模的 vHeat 模型相比于 Swin 达到 3 倍吞吐量、1/4 的GPU显存占用和 3/4 的 FLOPs。

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

方法介绍

用

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

表示点

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

在 t 时刻下的温度，物理热传导方程为

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

，其中 k>0，表示热扩散率。给定 t=0 时刻下的初始条件

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

，该热传导方程可以采用傅里叶变换求得通解，表示如下：

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

其中

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

和

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

分别表示傅里叶变换和逆傅里叶变换，

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

表示频域空间坐标。

我们利用 HCO 来实现视觉语义中的热传导，先将物理热传导方程中的

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

扩展为多通道特征

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

，将

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

视为输入，

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

视为输出，HCO 模拟了离散化形式的热传导通解，如下公式所示：

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

其中

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

和

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

分别表示二维离散余弦变换和逆变换，HCO 的结构如下图 (a) 所示。

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

此外，我们认为不同图像内容应该对应不同的热扩散率，考虑到

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

的输出在频域中，我们根据频率值来决定热扩散率，

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

。由于频域中不同位置表示了不同的频率值，我们提出了频率值编码（Frequency Value Embeddings, FVEs）来表示频率值信息，与 ViT 中的绝对位置编码的实现和作用类似，并用 FVEs 对热扩散率 k 进行预测，使得 HCO 可以进行非均匀、自适应的传导，如下图所示。

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

vHeat 采用多层级的结构实现，如下图所示，整体框架与主流的视觉模型类似，其中的 HCO layer 如图 2 (b) 所示。

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

实验结果

ImageNet分类

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

通过对比实验结果不难看出，在相似的参数量和 FLOPs 下:

vHeat-T 取得了 82.2%的性能，超过 DeiT-S 达 2.4%、Vim-S 达 1.7%、Swin-T 达 0.9%。
vHeat-S 取得了 83.6%的性能，超过 Swin-S 达 0.6%、ConvNeXt-S 达 0.5%。
vHeat-B 取得了 83.9%的性能，超过 DeiT-B 达 2.1%、Swin-B 达 0.4%。

同时，由于 vHeat 的 O (N^1.5) 低复杂度和可并行计算性，推理吞吐量相比于 ViTs、SSM 模型有明显的优势，例如 vHeat-T 的推理吞吐量为 1514 img/s，比 Swin-T 高 22%，比 Vim-S 高 87%，也比 ConvNeXt-T 高 26%，同时拥有更好的性能。

下游任务

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

在 COCO 数据集上， vHeat 也拥有性能优势：在 fine-tune 12 epochs 的情况下，vHeat-T/S/B 分别达到 45.1/46.8/47.7 mAP，超过了 Swin-T/S/B 达 2.4/2.0/0.8 mAP，超过 ConvNeXt-T/S/B 达 0.9/1.4/0.7 mAP。在 ADE20K 数据集上，vHeat-T/S/B 分别达到 46.9/49.0/49.6 mIoU，相比于 Swin 和 ConvNeXt 依然拥有更好的性能表现。这些结果验证了 vHeat 在视觉下游实验中完全 work，展示出了能平替主流基础视觉模型的潜力。

分析实验

有效感受野

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

vHeat 拥有全局的有效感受野，可视化对比的这些主流模型中只有 DeiT 和 HiViT 也具备这个特性。但是值得注意的是，DeiT 和 HiViT 的代价是平方级的复杂度，而 vHeat 是 1.5 次方级的复杂度。

计算代价

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野-AI.x社区

上图从左到右分别为 vHeat-B 与其他 base 规模下的 ViT-based 模型的推理吞吐量 / GPU 显存占用 / 计算量 FLOPs 对比。可以明显看出，由于 O (N^1.5) 的计算复杂度，vHeat 相比于对比的模型有更快的推理速度、更低的显存占用以及更少的 FLOPs，并且在图像分辨率越大时，优势会更为明显。在输入图像为 768*768 分辨率时，vHeat-B 的推理吞吐量为 Swin-B 的 3 倍左右，GPU 显存占用比 Swin-B 低 74%，FLOPs 比 Swin-B 低 28%。vHeat 与 ViT-based 模型的计算代价对比，展示出其处理高分辨率图像的优秀潜质。

本文转自机器之心，作者：机器之心

原文链接:https://mp.weixin.qq.com/s/SR_yMehYn9Zmh79Gm3BZFg

标签

赞

收藏

回复

举报

回复

相关推荐

谷歌出手整顿大模型“健忘症”！反馈注意力机制帮你“更新”上下文，大模型无限记忆力时代将至

51CTO技术栈 • 2471浏览 • 0回复
基于多级注意力机制的并行预测模型

Tang_Lan • 2460浏览 • 0回复
Python轴承故障诊断 | 多尺度特征交叉注意力融合模型

Tang_Lan • 2770浏览 • 0回复
基于多级注意力机制的并行预测模型

Tang_Lan • 1597浏览 • 0回复
组合模型、注意力机制在单步、多步、单变量、多变量预测中的应用

Tang_Lan • 1364浏览 • 0回复
ACL 2024 | 提升大模型持续学习性能，哈工大、度小满提出共享注意力框架SAPT

轻薄滴假象 • 1327浏览 • 0回复
聊聊组合模型、注意力机制在单步、多步、单变量、多变量预测中的应用

Tang_Lan • 1148浏览 • 0回复
组合模型、注意力机制在单步、多步、单变量、多变量预测中的应用

Tang_Lan • 1635浏览 • 0回复
麻省理工提出“跨层注意力”，极大优化Transformer缓存

Aceryt • 1795浏览 • 0回复
即插即用 | 时间编码+LSTM+全局注意力

Tang_Lan • 1632浏览 • 0回复
LLM基础模型系列：深入注意力机制

鲁班模锤1 • 976浏览 • 0回复
聊聊 KAN、KAN 卷积结合注意力机制！

Tang_Lan • 2088浏览 • 0回复
注意力机制的变体之MLA

shizhi02 • 2817浏览 • 0回复
智能体协作进化论，从心智理论到逆向注意力

xuxiangda • 678浏览 • 0回复
【技术前沿】FlashAttention-2：深度学习中的高效注意力机制新突破

sword_hero • 612浏览 • 0回复
一文图解BERT注意力机制

石映飞云 • 572浏览 • 0回复
【深度探索】FlashAttention-3：深度学习注意力机制的再进化

sword_hero • 557浏览 • 0回复
基于深度学习故障诊断注意力机制案例分析

步惊云_32 • 293浏览 • 0回复
大模型神经网络之注意力机制——attention

AI探索时代 • 272浏览 • 0回复

轻薄滴假象

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略 2024-09-19 12:23:48发布
视频生成控制提升几十倍，新一代轻量级ControlNeXt火了，贾佳亚团队正挑战Scaling Law 2024-08-29 13:29:28发布

热门推荐

DeepSeek R1横空出世，超越OpenAI o1，教你用Ollama跑起来 0回复

一文说清楚"知识蒸馏"（让“小模型”也能拥有“大智慧”） 0回复

寻找乐子人｜ “多语言、精准定位”上海导游智能体搭建方案 2回复

大推理模型DeepSeek-R1深度解读：成本降低95%，推动语言模型推理效率新高度 0回复

2025 年：如何构建有效的智能体 0回复

上一篇：高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

下一篇：不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载