Transformer 是时下最强大的 seq2seq 架构。预训练 transformer 通常具有 512(例如 BERT)或 1024 个(例如 BART)token 的个上下文窗口,这对于目前许多文本摘要数据集(XSum、CNN/DM)来说是足够长的。
但 16384 并不是生成所需上下文长度的上限:涉及长篇叙事的任务,如书籍摘要(Krys-´cinski et al.,2025)或叙事问答(Kociskýet al.,2018),通常输入超过 10 万个 token。维基百科文章生成的挑战集(Liu*et al.,2018)包含超过 50 万个 token 的输入。生成式问答中的开放域任务可以从更大的输入中综合信息,例如回答关于维基百科上所有健在作者的文章的聚合属性的问题。图 1 根据常见的上下文窗口长度绘制了几个流行的摘要和问答数据集的大小;最长的输入比 Longformer 的上下文窗口长 34 倍以上。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
在这些超长输入的情况下,vanilla transformer 无法进行缩放,因为原生注意力机制具有平方级的复杂度。长输入 transformer 虽然比标准 transformer 更高效,但仍需要大量的计算资源,这些资源随着上下文窗口大小的增加而增加。此外,增加上下文窗口需要用新的上下文窗口大小从头开始重新训练模型,计算上和环境上的代价都不小。
在「Unlimiformer: Long-Range Transformers with Unlimited Length Input」一文中,来自卡内基梅隆大学的研究者引入了 Unlimiformer。这是一种基于检索的方法,这种方法增强了预训练的语言模型,以在测试时接受无限长度的输入。
论文链接:https://arxiv.org/pdf/2305.01625v1.pdf
Unlimiformer 可以被注入到任何现有的编码器 - 解码器 transformer 中,能够处理长度不限的输入。给定一个长的输入序列,Unlimiformer
可以在所有输入 token 的隐藏状态上构建一个数据存储。然后,解码器的标准交叉注意力机制能够查询数据存储,并关注前 k 个输入 token。数据存储可以存储在 GPU 或 CPU 内存中,能够次线性查询。
Unlimiformer 可以直接应用于经过训练的模型,并且可以在没有任何进一步训练的情况下改进现有的 checkpoint。Unlimiformer 经过微调后,性能会得到进一步提高。本文证明,Unlimiformer 可以应用于多个基础模型,如 BART(Lewis et al.,2025a)或 PRIMERA(Xiao et al.,2025),且无需添加权重和重新训练。在各种长程 seq2seq 数据集中,Unlimiformer 不仅在这些数据集上比 Longformer(Beltagy et al.,2025b)、SLED(Ivgi et al.,2025)和 Memorizing transformers(Wu et al.,2025)等强长程 Transformer 表现更好,而且本文还发现 Unlimiform 可以应用于 Longformer 编码器模型之上,以进行进一步改进。
由于编码器上下文窗口的大小是固定的,Transformer 的最大输入长度受到限制。然而,在解码过程中,不同的信息可能是相关的;此外,不同的注意力头可能会关注不同类型的信息(Clark et al.,2019)。因此,固定的上下文窗口可能会在注意力不那么关注的 token 上浪费精力。
在每个解码步骤中,Unlimiformer 中每个注意力头都会从全部输入中选择一个单独的上下文窗口。通过将 Unlimiformer 查找注入解码器来实现:在进入交叉注意力模块之前,该模型在外部数据存储中执行 k 最近邻 (kNN) 搜索,在每个解码器层中的每个注意力头中选一组 token 来参与。
编码
为了将比模型的上下文窗口长度更长的输入序列进行编码,本文按照 Ivgi et al. (2025) 的方法对输入的重叠块进行编码 (Ivgi et al. ,2025),只保留每个 chunk 的输出的中间一半,以确保编码过程前后都有足够的上下文。最后,本文使用 Faiss (Johnson et al., 2019) 等库对数据存储中的编码输入进行索引(Johnson et al.,2019)。
检索增强的交叉注意力机制
在标准的交叉注意力机制中,transformer 的解码器关注编码器的最终隐状态,编码器通常截断输入,并仅对输入序列中的前 k 个 token 进行编码。
本文不是只关注输入的这前 k 个 token,对于每个交叉注意头,都检索更长的输入系列的前 k 个隐状态,并只关注这前 k 个。这样就能从整个输入序列中检索关键字,而不是截断关键字。在计算和 GPU 内存方面,本文的方法也比处理所有输入 token 更便宜,同时通常还能保留 99% 以上的注意力性能。
图 2 显示了本文对 seq2seq transformer 架构的更改。使用编码器对完整输入进行块编码,并将其存储在数据存储中;然后,解码时查询编码的隐状态数据存储。kNN 搜索是非参数的,并且可以被注入到任何预训练的 seq2seq transformer 中,详情如下。
长文档摘要
表 3 显示了长文本(4k 及 16k 的 token 输入)摘要数据集中的结果。
在表 4 的训练方法中,Unlimiformer 能够在各项指标上达到最优。
书籍摘要
表 5 显示了在书籍摘要上的结果。可以看到,基于 BARTbase 和 PRIMERA,应用 Unlimiformer 都能取得一定的改进效果。
# gpt
# 都有
# 几个
# 维基百科
# 情况下
# 更长
# 万个
# 在这些
# 应用于
# 长程
# 数据存储
# gpt-4
# https
# bert
# transformer
# cnn
# faiss
# input
# Length
# Token
# 架构
# ai
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
AI时代生存指南:掌握软实力,成为不可替代的人
百度输入法智能预测怎么关 百度输入法ai联想词关闭
2025年QA工程师必备:五款AI自动化测试工具深度解析
医疗专家如何利用课程和内容赋能女性对抗癌症
智行ai抢票怎么设置抢票截止时间_智行ai抢票截止时间设置与确认【步骤】
教你用AI将一篇长文自动拆解成社交媒体帖子,实现一文多发
5分钟教你用AI生成短视频分镜脚本,小白也能拍大片
千问怎么设置快捷指令_千问指令创建与一键调用【技巧】
Gemini手机端怎么发图片_Gemini手机端发图方法【步骤】
可灵ai怎么生成招聘JD文案_可灵aiJD生成要素与岗位描述优化【技巧】
唐库AI拆书工具怎样设置拆书深度_唐库AI拆书工具深度调节与内容详略控制【技巧】
Google AI Studio文本转语音教程:零成本创作高质量音频
5分钟教你用AI生成婚礼流程策划案,备婚新人必备
电脑硬件升级指南:旧电脑的回收利用与性能提升
颠覆工作方式:2025年必备的9款强大AI工具
N8N工作流:自动化知识管理与智能问答解决方案
告别噪音:使用Adobe Podcast提升录音质量
ChatGPT怎样用提示词模拟专家视角_ChatGPT专家视角设置【指南】
微信AI数字人能否识别语音消息_微信AI数字人语音识别与回复设置【教程】
Gemini 与 Google Drive 结合的文件智能检索
Tamilnad Mercantile Bank TMB:如何在线下载账户报表
秀米AI排版如何自动生成模板_秀米AI排版模板生成入口与风格选择【攻略】
Base44 AI应用构建器深度评测:Wix 8000万美元收购的秘密
都灵裹尸布之谜:AI揭示耶稣基督的真实面貌?
AI视频生成终极指南:免费为店铺打造引流爆款
如何用AI设计一个Logo?5个步骤教你打造专属品牌标志
Android图像翻译器应用:技术、应用与未来展望
揭秘面部和谐:打造完美脸型的终极指南
Thesis AI:一键生成高质量学术论文的秘密武器
Midjourney怎么用一键生成海报_Midjourney海报生成教程【方法】
ChatGPT官方主页入口 ChatGPT网页版快速进入指南
通义千问怎么找新功能入口_通义千问新功能查找【攻略】
AI|直播|话术生成工具有哪些_一键生成带货话术的AI工具推荐
秀米AI智能排版怎样生成节日专题模板_秀米AI智能排版节日模板调用【技巧】
AI网站构建指南:Duda平台免费创建教程
tofai免费网页版入口 tofai官网手机版网站
CallidusAI:提升合同起草效率的智能Word插件指南
Ocfotech AI 房地产工具:提升房地产投资效率的终极指南
如何利用 ChatGPT 进行深度行业竞品分析
批改网ai检测工具怎么导出检测结果_批改网ai检测工具报告导出与格式选择【指南】
豆包 AI 辅助进行精简版个人周报撰写技巧
解锁 Gemini Gems 高级用法:打造专属 AI 专家助手
AI在销售CRM软件中的角色:提升效率和客户互动
AI代码助手的崛起:软件工程的未来展望与实用指南
打造AI Jarvis:停止功能、联网、中文与人脸集成
ChatGPT 4o图像生成器:免费AI绘画技巧与应用
Removebg怎样快速抠图_Removebg上传图片与自动抠图步骤【教程】
DeepSeek如何编写Shell脚本 DeepSeek自动化运维指南
通义千问怎样优化提示词更口语化_通义千问口语化技巧【教程】
即梦AI怎样生成产品描述_即梦AI产品描述生成与卖点提炼【实操】
2023-05-19
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。