预训练无需注意力,扩展到4096个token不成问题,与BERT相当


Transformer 作为 NLP 预训练模型架构,能够有效的在大型未标记的数据上进行学习,研究已经证明,Transformer 是自 BERT 以来 NLP 任务的核心架构。

最近的工作表明,状态空间模型(SSM)是长范围序列建模有利的竞争架构。SSM 在语音生成和 Long Range Arena 基准上取得了 SOTA 成果,甚至优于 Transformer 架构。除了提高准确率之外,基于 SSM 的 routing 层也不会随着序列长度的增长而呈现二次复杂性。

本文中,来自康奈尔大学、 DeepMind 等机构的研究者提出了双向门控 SSM (BiGS),用于无需注意力的预训练,其主要是将 SSM routing 与基于乘法门控(multiplicative gating)的架构相结合。该研究发现 SSM 本身在 NLP 的预训练中表现不佳,但集成到乘法门控架构中后,下游准确率便会提高。

实验表明,在受控设置下对相同数据进行训练,BiGS 能够与 BERT 模型的性能相匹配。通过在更长的实例上进行额外预训练,在将输入序列扩展到 4096 时,模型还能保持线性时间。分析表明,乘法门控是必要的,它修复了 SSM 模型在变长文本输入上的一些特定问题。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址:https://arxiv.org/pdf/2212.10544.pdf

方法介绍

SSM 通过以下微分方程将连续输入 u (t) 与输出 y (t) 联系起来:

对于离散序列,SSM 参数被离散化,其过程可以近似为:

这个方程可以解释为一个线性 RNN,其中 x_k 是一个隐藏状态。y 也可以用卷积计算:

Gu 等人展示了一种在神经网络中使用 SSM 的有效方法,他们开发了参数化 A 的方法,称为 HiPPO,其产生了一个稳定而高效的架构,称为 S4。这保留了 SSM 对长期序列建模的能力,同时比 RNN 训练更有效。最近,研究人员提出了 S4 的简化对角化版本,它通过对原始参数更简单的近似实现了类似的结果。在高层次上,基于 SSM 的 routing 为神经网络中的序列建模提供了一种替代方法,而无需二次计算的注意力成本。

预训练模型架构

SSM 能取代预训练中的注意力吗?为了回答这个问题,该研究考虑了两种不同的架构,如图 1 所示的堆叠架构(STACK)和乘法门控架构(GATED)。

具有自注意力的堆叠架构相当于 BERT /transformer 模型,门控架构是门控单元的双向改编,最近也被用于单向 SSM。带有乘法门控的 2 个序列块(即前向和后向 SSM)夹在前馈层中。为了进行公平比较,门控架构的大小保持与堆叠架构相当。

图 1:模型变量。STACK 是标准 transformer 架构,GATED 为基于门控单元。对于 Routing 组件(虚线),该研究同时考虑双向 SSM(如图所示)和标准自注意力。门控(X)表示逐元素乘法。

实验结果 

预训练

表 1 显示了 GLUE 基准测试中不同预训练模型的主要结果。BiGS 在 token 扩展上复制了 BERT 的准确率。这一结果表明,在这样的计算预算下,SSM 可以复制预训练 transformer 模型的准确率。这些结果明显优于其他基于非注意力的预训练模型。想要达到这个准确率,乘法门控是必要的。在没有门控的情况下,堆叠 SSM 的结果明显更差。为了检查这种优势是否主要来自于门控的使用,本文使用 GATE 架构训练了一个基于注意力的模型;然而,结果显示该模型的效果实际上低于 BERT。

表 1:GLUE 结果。(Top)在控制设置下,不同架构和 routing 的比较。参见图 2 了解详细信息。(Bottom) 报告了基于 CNN、LSTM 和 FNet 的其他非注意力预训练模型的可比结果。

Long-Form 任务

表 2 结果显示,可以将 SSM 与 Longformer EncoderDecoder (LED) 和 BART 进行比较,但是,结果显示它在远程任务中表现得也不错,甚至更胜一筹。与其他两种方法相比,SSM 的预训练数据要少得多。即使 SSM 不需要在这些长度上进行近似,长格式也依旧很重要。

表 2:SCROLLS Encoder 测试结果。基线模型都是编码器 —— 解码器模型,一个基于 Longformer (LED),另一个基于 BART。输入的长度有截断。

更多内容请查看原论文。


# 门控  # 可以用  # 还能  # 不需要  # 微分方程  # 这一  # 是一个  # 都是  # 提出了  # 两种  # 架构  # https  # nlp  # bert  # transformer  # lstm  # rnn  # cnn  #   # Token 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: AI复古风照片编辑教程:Gemini AI轻松打造复古时尚  GitHub MCP Server:AI赋能代码管理的未来  Base44 AI应用构建器深度评测:Wix 8000万美元收购的秘密  智行ai抢票如何查看抢票进度_智行ai抢票进度查询与状态解读【实操】  Midjourney怎样用参数调色彩饱和度_Midjourney饱和度调整【方法】  百度ai助手怎么取消 百度ai助手取消显示设置  2025年最佳免费AI艺术生成器:POD终极指南  怎么用AI帮你解读复杂的学术论文?快速抓住核心论点和证据  AI在销售CRM软件中的角色:提升效率和客户互动  电脑百度ai助手怎么关闭 电脑版百度ai助手移除教程  怎么用AI帮你写一份有说服力的加薪申请?  如何用豆包ai做SWOT分析_豆包ai快速生成个人或企业优劣势分析【指南】  人工智能时代:你需要知道的真相和未来趋势  打造AI Jarvis:停止功能、联网、中文与人脸集成  Kling 2.0终极指南:AI视频创作秘籍,告别低质量  Thesis AI:一键生成高质量学术论文的秘密武器  扣子AI怎样设置多轮对话逻辑_扣子AI逻辑树搭建与分支设计【教程】  CodeRabbit CLI: AI 代码审查工具,提升编码效率与代码质量  AMD Ryzen 5 2600: 游戏玩家高性价比之选  Jetson SegNet: 语义分割深度探索与实践  Kling AI 2.5 Turbo:视频生成领域的颠覆者,深度评测与对比  2025年AI招聘大师班:初学者友好且功能强大  CallidusAI:提升合同起草效率的智能Word插件指南  AI伴侣:连接还是孤独?真实对话揭秘AI伦理困境  Gemini怎样用语音输入_Gemini语音输入设置【方法】  热门科技新闻:BetterHelp、Photoshop AI、AMD CPU及NVIDIA显卡  ChatGPT怎么用一键生成活动策划案_ChatGPT策划案生成教程【攻略】  挖掘用户数据:洞察与策略,提升播客全球影响力  Gemini怎样写精准提示词_Gemini提示词编写方法【步骤】  豆包AI怎么做数据分析 豆包AI数据处理入门教程  冷邮件营销新策略:工作坊模式助力B2B销售增长  文本分类:生成模型与朴素贝叶斯算法的全面指南  Jasper AI如何做SEO优化 Jasper AI结合SurferSEO用法【教程】  AI照片编辑终极指南:一键打造潮流图像  批改网ai检测工具怎么导出检测结果_批改网ai检测工具报告导出与格式选择【指南】  批改网AI检测工具怎么关联班级学生_批改网AI检测工具班级绑定与学生管理【步骤】  如何用AI帮你制定个人OKR?目标管理从未如此简单  Descript vs. Wisecut:AI视频编辑工具深度测评与最佳选择  AI猴子视频制作终极指南:从入门到网红,轻松上手!  AI音乐创作:颠覆传统,开启音乐新纪元  Lovart AI设计助手:AI驱动设计,零成本开启创意新纪元  Gemini 辅助进行博物馆数字化藏品分类建议  千问AI赚钱指南:新手也能月入破万的实操路径解析!  斑马AI能否关联学校教材_斑马AI教材同步与版本匹配【技巧】  播客数据深度分析:用户地域分布及增长策略探讨  ChatGPT背后的AI革命:OpenAI的崛起与Google的危机  利用AI自动化回复Google Voice短信:终极指南  通义千问怎么设置功能偏好_通义千问偏好设置【教程】  DeepSeek写合同怎么用_DeepSeek写合同使用方法详细指南【教程】  动漫肌肉美学:盘点最佳动漫肌肉男体格 

 2023-05-08

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.