ICML 2025
作者:BET356官网在线登录日期:2025/06/10 浏览:
帕祖(Pazhou)实验室和中国技术大学(University of Sechnology)共同推出了关键的上下文注意机制(CCA意见),以实现对超长文本进行建模的伟大背景。在任务建模的128K超长序列上下文中,CCA的构想速度是标准自我意见机制的7.9倍,而密钥值缓存(KV CACHE)的使用记忆降低了93%,这比现有良好的良好性能方法更好。纸张标题:长上下文语言建模的变压器的核心环境链接链接链接:https://arxiv.org/pdf/2412.12465代码链接:https://github.com/chenyaofo/cca-cription日期:2025年12月17日,ICML 2025和第一次提交了2024年12月17日的结果。基米·马巴(Kimi Moba)。 CCA-不仅具有快速速度和低移动性资源,而且还为上下文化的准确性和效率设定了新的基准,以LONG文本处理。引言最近的研究[1,2,3]发现,LLMS中大多数层的注意力主要集中在某些令牌中,显示出明显的稀疏性(见图1)。这一发现表明,我们可以使用这种广泛的功能来降低注意机制的计算复杂性。在Llama2-7b模型中的注意力重量的可视化,阴影越深,注意力的重量就越高。在上下文中,最后一个令牌对某些令牌具有很大的关注,也就是说,注意力的重量具有很大的稀疏性。现有的注意方法[5,6,7]通常会降低预定杂物模式的计算成本。但是,在Q&A的工作中,可以在上下文中在不同位置分发基本信息,并且任何位置都可以访问该模型,这称为“到达”。现有方法通常忽略维护令牌之间访问的重要性,这可能会导致限制ED信息传输,从长期和复杂的任务中影响模型的性能。为了解决这个问题,作者提出了长期上下文模型建模(CCA-Attion)的高效率,其特征是以下特征:巨大的长模型密码保存,建模长期希望的能力得到了显着降低计算值。线性计算复杂性:通过引入基本令牌以专注于关键环境,从而大大提高了计算效率。插头和播放集成:模型结构和重新训练无需更改,可以轻松地与预训练的LLMS集成,只需少量维修即可进行性能优化。与DeepSeek [8]发布的NSA相比,它需要从一开始就引入其他压缩模块和LLM的培训,CCA-可以通过没有现有的LLMS无缝地替换为通常的自我grandical模块引入其他参数和模型结构的变化。如果ikukumfor moba由月球的黑暗侧释放[9],它通过门控机制处理无关的障碍物,则CCA义动态的主环境将主要上下文作为基本代币,同时减少计算量,它可以确保与所有令牌的信息相互作用,并保持所有令牌,并保持完整的全球化功能。 CCA注意力:CCA注意示意图全球感知池的创新解决方案:降低计算大小的明智之举。自然计算的标准体积随着阶段的长度而迅速增加,并且长处理序列的开销的计算非常高。大量研究发现,注意力的分布不均匀,大多数注意力权重分配给了某些爱Forever代币,其余的仅促成了冗余背景。受到启发,建议全球感知池模量e。具体而言,输入的依从性分为不会彼此溢出的组,而G是组的大小。计算了对I组的查询向量以及该组中所有令牌的主要向量的重要性,并获得了组的核心。使用该组的最终令牌。与I组的最后一个令牌相对应的查询向量是组I组的主要矩阵,整体是一个学习的参数。将核心令牌分开以获得对主要令牌令牌的依从性,以减少冗余。 May -set使用主要顺序 - 键入以减少注意力计算,而不是原始令牌以降低尺寸,从而降低了存储的复杂性和复杂性。由核心令牌的顺序计算得出的键值矩阵表示:学到的参数在哪里。和本地维护模块:获得本地依赖性的关键,尽管全局池感知模块可以有效y捕获长期依赖性,由于其压缩属性,良好的本地环境可能被忽略,这些局部语义对于语言建模同样至关重要。为此,作者进一步提出了一个模块,该模块维护该区域,以为全球模块提供有效的辅助信息。具体而言,该模块将确保每个令牌都可以关注至少以前的w原始令牌,从而占据局部上下文信息并保持语义信息的延续:要解决一代过程中很难将标记数量的问题作为与集体大小保持一致的整数,以防止不明显的信息;这是线性令牌修订的键 - 值矩阵的原始行。本地保留的模块共享转换为全局池模块的线性参数,而无需引入上面的其他参数。在实际推理中,本地模块提供了极好的语义支持以补偿由全球压缩引起的信息损失,并共同形成一个完整的上下文建模系统。全局本地模块可以是微型融合:创建一个全面访问的桥梁。理解模块的理解模块和本地储备模块在计算过程中仅涉及令牌的一部分,从而导致访问有限。为了解决这个问题,作者已经采用了一种全球 - 本地模块方法来微型融合。具体而言,这种方法将矩阵的键值与两个注意模块结合在一起,以产生统一的键矩阵。因此,CCA注意的最终输出表示为:矩阵值的总和,其中每个位置的输出计算的表达如下:基于Triton的加速度:提高效率的强大动机。为了在训练,预填充和解码过程中达到抽筋级别的速度,作者强制执行与TR保持一致的内核基于ITON的硬件。作者借鉴了Flashhattetention设计的想法和Gumagtriton的Amus,其中包括基本操作员,将全球汇集的关注和本地保留的关注以及对独立和缓存的操作员的关注,从而有效地消除了冗余计算,并有效地支持KV缓存技术,从而进一步提高了培训效率,从而进一步提高了计算效率,从而在培训中提高了培训,预填充了预填充和填充阶段。与标准的自我护理机制相比,CCA意见对计算和KV缓存内存足迹的复杂性具有重大好处,从而达到了更快的运行速度并提高了内存使用效率。实验设置结果作者在Slimpajama数据集中对Llama2-7b-32k和Llama2-7b-80k型号应用CCA注意事项以及Llama2-7B-80K型号以及精致的1,000步。比较技术包括诸如Streamingllm,LM Infinite和Sinfere之类的巨大刺激性。考试涵盖了长板座和多文件基准Q&A具有准确的匹配标记(EM分数),在长期文字活动中全面衡量模型性能。长期语言建模CCA-LLM在Longbench-E基准中获得了最高的平均水平。以Llama2-7b-32k模型为例,其得分明显优于LM限制和临界值。在LLAMA2-7B-80K模型中,CCA的注意力仍在执行,平均标记与标准自我护理相当,与此同时,延迟和使用视频记忆的延迟大大减少,显示出更强的效率效率效率处理。长序列语言建模实验长期文档问答任务在基本分析中的多档案问答活动中,CCA-LLM在不同的序列长度上表现出了出色的性能,并且随着上下文长度的增加,其性能优势变得更加明显。当与64K和128K等超长环境进行交流时,EM的CCA-LULM标记超过了标准的自我控制机制,T他的理解速度显着改善了128K上下文的长度,识别速度达到了标准自尊方法的7.9倍,显示了良好文本上的Exst上的Exst。与通常的自我粘附和其他良好的注意技术(例如临界)相比,CCA注意力对理解和使用记忆的速度显示出显着的好处。与仅着重于加速预填充阶段的Sinference不同,ACCA注意力可以同时优化两个预填充和解码的阶段,从而实现端到端的全部处理有效的推理。在64K上下文的长度上,CCA注意的速度达到了自我整合标准的5.7倍,并且使用KV高速缓存视频记忆的使用大大降低了。在128K上下文的工作中,识别速度提高了7.9倍,使用KV缓存视频存储器的使用降低了93%,这完全反映了长期建模的效率和实用性。 比较IVE记忆和计算效率摘要作者提出了长期建模的背景(CCA注意)机制的主要背景。与通常的自我保健相比,CCA-分布在维持模式Performelo的同时大大减少了计算开销。该方法由两个互补模块组成:全局感知池模块:核心令牌(核心令牌)是根据输入令牌的重要性获得的,该输入令牌的重要性,用于后续计算注意力,以有效地获得全局粒状粒状粒状信息;本地储备模块:专注于相邻代币的细颗粒上下文的信息,作为全球池模块的有效补充。实验结果表明,CCA注意力在各种长文本活动中表现良好,同时显着提高了计算效率,并且具有出色的实用性和整合。在线实时广播以帮助每个人更好地了解这项工作,陈Yaofor从6月10日19:00到20:00写,将带来实时广播共享。所有人都是直播沟通的Maenjoy。来宾资料:Chen Yaofo于2024年获得南中国中国技术大学的博士学位,目前是南中国中国技术大学未来技术学院的博士后。研究的主要方向是出色的神经网络结构设计,模型和暴力的优化以及转移。他们在国际人工智能国际会议ICML,ICLR,CVPR和AAAI,以及IEEE TCSVT和NEARAL NECTORT的杂志当局发表了讨论。实时广播约会:此直播活动有质量检查,欢迎每个人加入小组聊天。参考[1] longformer:长文件变压器。 Arxiv预印型ARXIV:2004.05150,2020。[2]大鸟:更长的变压器。在神经信息处理信息中高级,33:17283–17297,2020。 Arxiv:2302.13971,2023。国际学习代表会议,2024.LLMS,2025。
相关文章