Llama都在用的RoPE有了视频版,复旦上海AI Lab等提出长视频理解/检索绝佳拍档
<div id="container" data-v-1d7a5742="" data-element="root" contentScore="6472">Llama都在用的RoPE(旋转位置嵌入)被扩展到视频领域,长视频理解和检索更强了。复旦大学、上海AI实验室等提出VideoRoPE,并确定了将RoPE有效应用于视频所需的四个关键特性。
在长视频检索、视频理解和视频幻觉等各种下游任务中,VideoRoPE始终优于先前的RoPE变体。
用三维结构保留时空关系
RoPE是一种能够将相对位置信息依赖集成到self-attention中并提升transformer架构性能的位置编码方式。
RoPE及其变体因其长上下文处理能力而被广泛采用,但将一维RoPE扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。
作为分析的一部分,这项工作引入了一个具有挑战性的V-NIAH-D(带干扰项的视觉大海捞针)任务,该任务在V-NIAH任务的基础上增加了周期性干扰项。
V-NIAH-D任务表明,先前缺乏适当时间维度分配的RoPE变体很容易被干扰项误导。基于分析,作者提出了VideoRoPE,它具有三维结构,旨在保留时空关系。
VideoRoPE的特点包括低频时间分配以减轻周期性碰撞、对角布局以保持空间对称性,以及可调整的时间间隔以解耦时间和空间索引。
左图:为了展示频率分配的重要性,基于VIAH(a),作者提出了一个更具挑战性的V-NIAH-D任务(b),其中插入了相似图像作为干扰项。
右图:与M-RoPE相比,VideoRoPE在检索中更具鲁棒性,并且不容易受到干扰项的影响。
上图:M-RoPE的时间维度局限于局部信息,导致对角线布局。
下图:VideoRoPE有效利用时间维度进行检索。
M-RoPE在定位目标图像上有效,但在多选问题中表现不佳,因为它主要通过垂直位置编码来定位图像,而非时间特征,导致时间维度未能捕捉长距离依赖关系,关注局部信息。相比之下,空间维度则捕捉长距离语义信息,导致M-RoPE在频率分配设计上表现较差。
VideoRoPE设计
作者团队提出了VideoRoPE,一种视频位置嵌入策略,优先考虑时间建模,通过低频时间分配(LTA)减少振荡并确保鲁棒性。它采用对角线布局(DL)以保持空间对称性,并引入可调时间间隔(ATS)来控制时间间隔。VideoRoPE有效地建模了时空信息,从而实现了鲁棒的视频位置表示。
1、低频时间分配(LTA):
考虑一个基于RoPE的LLM,头部维度为128,对应64个旋转角度θn,分布在不同维度上。每个图示中,用平行的蓝色平面表示cos(θnt)在3维上的表现。
(a)对于M-RoPE,时间依赖性由前16个高频旋转角度建模,导致振荡和位置信息失真。低维度间隔较短,振荡周期性使得远距离位置可能具有相似信息,类似哈希碰撞(如红色平面所示),容易引发干扰,误导模型。
(b)相比之下,VideoRoPE通过最后16个旋转角度建模时间依赖性,具有更宽的单调间隔。时间建模不再受振荡影响,显著抑制了干扰项的误导效应。
2、对角线布局(DL):
原始1D RoPE(Su et al., 2024)未包含空间建模。M-RoPE(Wang et al., 2024b)虽然采用3D结构,但引入了不同帧间视觉标记索引的差异。
相比之下,VideoRoPE实现了平衡,保留了原始RoPE一致的索引增长模式,并引入了空间建模。优点包括:1)保留视觉标记的相对位置,避免文本标记过于接近角落;2)保持原始RoPE编码形式,相邻帧的空间位置信息增量与文本标记增量一致。
3、可调时间间隔(ATS):
为了缩放时间索引,作者团队引入缩放因子δ来对齐视觉和文本标记之间的时间信息。假设τ为标记索引,起始文本(0≤τ
页:
[1]