产品
ICLR 2025
AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:[email protected];[email protected]本文一作孟维康是哈尔滨产业年夜学(深圳)与鹏城试验室结合培育的博士生,本科结业于哈尔滨产业年夜学,重要研讨偏向是年夜范围基本模子的高效练习跟推理算法研讨。通信作者张正教学,哈尔滨产业年夜学(深圳)的长聘教学及博士生导师,教导部青年长江学者,广东特支打算青年珠江学者,深圳市优青。临时从事高效力多模态呆板进修的研讨,专一于高效与可托多模态年夜模子。课题组:Big Media Intelligence (BMI) 欢送校表里优良学者的参加以及来访交换。课题组主页:https://cszhengzhang.cn/BMI/论文题目:PolaFormer: Polarity-aware Linear Attention for Vision Transformers论文链接:https://arxiv.org/pdf/2501.15061GitHub 链接:https://github.com/ZacharyMeng/PolaFormerHuggingface 权重链接:https://huggingface.co/ZachMeng/PolaFormer/tree/main只管 Vision Transformer 及其变种在视觉义务上获得了亮眼的机能,但仍面对着自留神力机制时空间平方庞杂度的挑衅。为懂得决这一成绩,线性自留神力经由过程计划新的核函数调换尺度自留神力机制中的 softmax 函数,使模子庞杂度下降为线性。这篇论文中,研讨者提出了一个新的「极性感知线性留神力」模块,使模子到达了更高的义务机能与盘算效力。详细来说,本任务从线性自留神力方式须要满意留神力权重矩阵的两个特征(即正值性跟低信息熵)动手。起首,指出了现有的做法为了满意正值性,就义了 Q 矩阵跟 K 矩阵元素中负值的缺点,提出了极性感知的盘算方法能够保障 Q 矩阵跟 K 矩阵中全部元素能够同等地停止类似度的盘算,使盘算成果更正确,模子表现才能更强。其次,本文提出只有采取一族存在特别性子的映射函数,就能够无效下降留神力权重散布的信息熵,并给出了数学上的证实。大批的试验标明,本文提出的线性留神力模块能够直接调换现有 Vision Transformer 框架中的自留神力模块,并在视觉基本义务跟 LRA 义务上分歧地晋升了机能。引入Transformer 模子曾经在普遍的视觉义务中展示出亮眼的机能。其中心模块 —— 经由过程 softmax 归一化的点积自留神力机制,让 Transformer 模子能够无效地捕获长间隔依附关联。但是,这带来了模子 O (N^2) 庞杂度,在处置长序列视频或高辨别率图像时,会招致相称年夜的盘算开支跟显存占用。这限度了它们在资本受限情况中的效力,使得在这些场景下的现实安排变得艰苦。线性留神力,作为一种更具可行性的处理计划应用核化特点映射调换 q,k 点积中的 Softmax 操纵,无效地将时光跟空间庞杂度从 O (N²d) 下降到 O (Nd²)。只管线性留神力在盘算效力上有所晋升,但在表白才能方面仍不迭基于 Softmax 的留神力,咱们的剖析断定了形成这种缺乏的两个重要起因,它们都源于 Softmax 近似进程中的信息丧失:负值丧失。依附非负特点映射(如 ReLU)的线性留神力模子无奈坚持与原始 q,k 点积的分歧性。这些特点映射仅保存了正 - 正交互感化,而要害的正 - 负跟负 - 负交互感化则完整丧失。这种抉择性表现限度了模子捕捉片面关联范畴的才能,招致留神力求的表白才能削弱跟判断力下降。留神力散布高信息熵。不 softmax 的指数缩放,线性留神力会招致权重散布愈加平均且熵更低。这种平均性减弱了模子辨别强弱 q,k 对的才能,侵害了其对主要特点的存眷,并在须要精致细节的义务中下降了机能。在这项任务中,作者提出了一种极性感知线性留神力(PolaFormer)机制,旨在经由过程归入被疏忽的负交互感化来处理先火线性留神力模子的范围性。与此同时,为懂得决线性留神力中罕见的留神力权重散布信息熵过高的成绩,他们供给了数学实践基本,标明假如一个逐元素盘算的函数存在正的一阶跟二阶导数,则能够从新缩放 q,k 呼应以下降熵。这些加强功效独特供给了一个更持重的处理计划,以缩小线性化跟基于 Softmax 的留神力之间的差距。配景尺度自留神力机制的低效斟酌一个长度为 N、维度为 D 的序列。该序列被分红 h 个头,每个头的维度是 d。在每个头中,差别地位的标志(token)独特被存眷以捕捉长间隔依附关联。输出可表现为可见,自留神力的庞杂度是 O (N2d)。这种庞杂度使得自留神力机制在处置长序列时效力低下,招致盘算本钱急剧回升。现在,下降自留神力的庞杂度的重要方式包含但不限于稀少留神力、线性化留神力以及基于核的留神力等。基于核的线性留神力为了缓解尺度自留神力机制的效力瓶颈,人们提出了基于核的线性留神力机制,该机制将类似度函数剖析为特点映射的点积。依照 Linear Attention 任务里的标记,咱们界说作为 softmax 核函数。从数学上讲,线性留神力的目的是应用 ϕ(q_i)ϕ(k_j)^T 来近似 SM (⋅,⋅),则留神力输出的第 t 行能够重写为:经由过程应用矩阵乘法的联合律,每个头的庞杂度能够下降到 O (Nd’2),此中 d’是特点映射后的维度,与序列长度成线性关联。方式概览极性感知留神力极性感知留神力背地的中心思维是为懂得决现有线性留神力机制的范围性,这些机制平日会抛弃来自信身分的有代价信息。PolaFormer 在处置负身分时,极性感知留神力将 query 跟 key 向量剖析为它们的正部跟负部。这种剖析容许机制分辨斟酌正类似度跟负类似度对留神力权重的影响。详细来说,对查问向量 q 跟键向量 k,能够将它们剖析为:此中,分辨代表 q 的正部跟负部,同理对 k。跟将这些剖析代入 q 跟 k 的内积中,能够失掉:前两项捕获了同号身分之间的类似性,然后两项则代表了异号身分之间的彼此感化。之前的线性留神力方式,如基于 ReLU 的特点映射,经由过程将负身分映射到零来打消它们,这在近似 q,k 点积时会招致明显的信息丧失。为懂得决这个成绩,极性感知留神力机制依据 q,k 的极性将它们离开,并自力盘算它们之间的彼此感化。留神力权重的盘算方法如下:PolaFormer 依据极性明白地将 q,k 对离开,处置在内积盘算进程中维度的同号跟异号交互感化。这些交互感化在两个流中处置,从而可能更正确地重修原始的 softmax 留神力权重。为了防止不用要的庞杂性,作者沿着通道维度拆分 v 向量,在不引入额定可进修参数的情形下处置这两品种型的交互感化。而后,将输出停止拼接,并经由过程一个可进修的标记感知矩阵停止缩放,以确保正确重修 q,k 关联。作者统计剖析了两个 G 矩阵的特征,存在一个显明的负相干跟代价差别。这证实了本文提出的可进修混杂战略弥补了松懈减法操纵所带来的影响。用于下降信息熵的可进修幂函数为懂得决线性留神力中罕见的留神力权重散布信息熵过高的成绩,作者供给了数学实践基本,标明假如一个逐元素盘算的函数存在正的一阶跟二阶导数,则能够从新缩放 q,k 呼应以下降熵。这一实践有助于说明为什么先前的特点映射会进步信息熵,从而招致留神力散布过于腻滑。为了简化,作者采取通道级可进修的幂函数停止从新缩放,这保存了 Softmax 中固有的指数函数的尖利性。这使得模子可能捕捉尖利的留神力峰值,进步了其辨别强弱呼应的才能。与此同时,为了辨别开差别通道之间的主次关联,作者计划了可进修的幂次来捕获每个维度的差别主要性最后,因为之前的实践任务曾经标明,自留神力矩阵实质上是低秩的。这一特征在进修 v 向量时可能招致退化解,尤其是在本文的情形下,当须要紧凑的表现来包容极性感知信息时。作者摸索了种种技巧来增添秩并停止了融化试验,比方 DWC 跟 DCN。试验成果作者对模子在三个义务长进行了评价:图像分类、目的检测跟实例宰割,以及语义宰割。作者将模子机能与之前的高效视觉模子停止了比拟。别的,他们在 LRA 义务上评价了模子,便于与其余线性留神力模子停止对照。起首,作者重新开端在图像分类义务上练习了模子。而后,他们在 ADE20K 数据集上对预练习模子停止微调,用于语义宰割义务,还在 COCO 数据集长进行微调,用于目的检测义务。论断在本研讨中,作者提出了 PolaFormer,这是一种存在线性庞杂度的新型高效 Transformer,重要奉献如下:本文指呈现无方法负值疏忽的成绩,提出了极性感值的映射函数,让每个元素都参加到留神力的盘算;在实践上,作者提出并证实了存在一族逐元素函数可能下降熵,并采取了可进修的幂函数以实现简练性跟从新缩放。别的,作者还应用了卷积来缓解由自留神力矩阵的低秩特征惹起的退化解成绩,并引入了极性感知系数矩阵来进修同号值跟异号值之间的互补关联。
上一篇:《光环》《和平机械》PS版大冲破:地平线之外的 下一篇:没有了