ICLR 2025 Oral|用巧妙的「传送」技巧,让神经网络的训练更加高效


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本论文作者赵博是加州大学圣地亚哥分校的三年级在读博士,其导师为 Rose Yu。她的主要研究方向为神经网络参数空间中的对称性,及其对优化、泛化和损失函数地貌的影响。她曾获 DeepMind 奖学金,并且是高通创新奖学金的决赛入围者。邮箱:bozhao@ucsd.edu

众多神经网络模型中都会有一个有趣的现象:不同的参数值可以得到相同的损失值。这种现象可以通过参数空间对称性来解释,即某些参数的变换不会影响损失函数的结果。基于这一发现,传送算法(teleportation)被设计出来,它利用这些对称变换来加速寻找最优参数的过程。尽管传送算法在实践中表现出了加速优化的潜力,但其背后的确切机制尚不清楚。

近日,来自加州大学圣地亚哥分校、Flatiron Institute、美国东北大学等机构的研究人员发布的《Improving Convergence and Generalization Using Parameter Symmetries》论文中,展示了传送不仅能在短期内加快优化过程,而且能总体上缩短收敛时间。此外,研究还发现,传送到具有不同曲率的最小值可以改善模型的泛化能力,这意味着最小值的曲率与泛化能力之间存在联系。研究者们进一步将传送技术与多种优化算法以及基于优化的元学习相结合,这些结果充分展示了在优化过程中融入参数空间对称性的潜力。
  • 论文链接:https://openreview.net/forum?id=L0r0GphlIL
  • 代码链接:https://github.com/Rose-STL-Lab/Teleportation-Optimization
  • 作者主页:https://b-zhao.github.io/

背景:对称性和传送算法

参数空间对称性(parameter space symmetry)是群 G 在参数空间(Param)上的一个作用,该作用使得损失函数 L 的值保持不变:
对称传送算法(symmetry teleportation)在损失函数水平集中寻找更陡峭的点以加速梯度下降:
传送后,损失值不会改变。然而,梯度和之后的训练轨迹会有所不同。
传送对收敛速度的提高

论文第一部分提供了对传送提高收敛速度的理论证明。

通过传送,随机梯度下降(SGD)会收敛到一个包含多个静止点的盆地,其中通过传送可达的每个点都是静止的。图 1 中的定理提供了损失函数梯度期望值的上限。相比之下,普通 SGD 只能保证存在一个点 wt,使得梯度最终会很小。加入传送后,对于群作用轨道上所有的点,梯度都将很小。
                               图 1:该定理提供了损失函数梯度期望值的上限

此外,在进行一次传送后,梯度下降的方向与牛顿法(Newton’s method)方向相同。因此,收敛速度具有一个二次收缩项,这是二阶方法的典型特征。相反,如果在相同的假设下省略传送步骤,算法的收敛速度将仅呈现线性收敛。图 2 中的定理展示了传送导致的线性和二次收敛的混合。
                               图 2:该定理展示了传送导致的线性和二次收敛的混合

通过传送改善泛化能力

在探索机器学习模型优化的过程中,「传送」这一概念最初被提出是为了加速收敛并提高算法的效率。然而,在该论文的第二部分,研究者们将视野扩展到了一个新的目标 —— 提升模型的泛化能力。

泛化能力通常与模型在训练过程中达到的极小值的「锐度」(sharpness) 相关。为了深入理解这一点,研究者们引入了一个新的概念 ——「极小值曲率」(curvature),并讨论其对泛化的影响。通过观察极小值的锐度、曲率与泛化能力之间的关联,研究者们提出了一种新的方法,将锐度和曲率纳入传送的目标中来提升模型的泛化性能。 

图 3 通过可视化的方式展示了一个梯度流 L (w) 和一条极小值上的曲线(γ),这两条曲线的曲率对应着极小值的锐度和曲率。此外,表中还显示了测试集上的损失与锐度或曲率之间的 Pearson 相关性。在三个数据集中,锐度与验证损失呈强正相关,而极小值的曲率则与验证损失呈负相关。这些发现表明,具有较小锐度或较大曲率的极小值,可能会带来更好的泛化效果。
                                   图 3:展示了一个梯度流 L (w) 和一条极小值上的曲线(γ)

这些相关性的一种解释来源于损失地形(loss landscape)在不同数据分布上的变化。当数据分布发生变化导致损失地形变化时,尖锐的极小值损失增加较大(如图 4 右侧所示)。在图 4 中,曲率较大的极小值与变化后的极小值距离更远(如图 4 左侧所示)。
                                            图 4

取得了极小值的属性与泛化能力的相关性后,该研究人员将参数传送到具有不同锐度和曲率的区域,以提高模型的泛化能力。图 5 为在 CIFAR-10 上 SGD 的训练曲线,其中在第 20 个 epoch 进行了一次传送。实线代表平均测试损失,虚线代表平均训练损失。
                                                    图 5

传送到更平坦的点略微改善了验证损失。通过传送改变曲率对泛化能力有更显著的影响。传送到曲率较大的点有助于找到具有较低验证损失的极小值,而传送到曲率较小的点则产生相反的效果。这表明至少在局部,曲率与泛化相关。

传送和其他优化器的结合

标准优化器

传送不仅有助于 SGD 的收敛速度。为了展示传送与其他标准优化器的良好兼容性,研究者们使用不同的优化器在 MNIST 上训练了一个三层神经网络,并进行了带传送和不带传送的训练。如图 6 所示,在使用 AdaGrad、带动量的 SGD、RMSProp 和 Adam 时,传送提高了这些算法的收敛速度。
                                图 6:在使用 AdaGrad、带动量的 SGD、RMSProp 和 Adam 时,传送提高了这些算法的收敛速度

学习传送

受条件编程(conditional programming)和基于优化的元学习(meta-learning)的启发,研究者们还提出了一个元优化器,用于学习在损失水平集中移动参数的位置。这种方法避免了在群流形上优化的计算成本,并改进了现有的仅限于局部更新的元学习方法。

图 7 总结了训练算法。研究人员使用了两个 LSTM 元优化器 (m1, m2) 来学习局部更新 ft 和传送中使用的群元素 gt。在两层 LeakyReLU 神经网络上的实验中,他们使用了不同初始化创建的多个梯度下降轨迹上训练元优化器,并在训练中未见过的新初始值上测试收敛速度。
                                图 7:总结了训练算法

与基线相比,同时学习两种更新类型(LSTM (update,tele))比单独学习它们(LSTM (update) 、LSTM (lr,tele))能够实现更好的收敛速率。

总结

该论文的主要贡献包括传送加速 SGD 收敛的理论保证、极小值曲率的量化及其与泛化相关性的证据、基于传送的改善泛化的算法以及学习传送位置的元学习算法。

传送广泛适用于在损失水平集中搜索具有优秀属性的参数。对称性与优化之间的密切关系开启了许多激动人心的机会。探索传送中的其他目标是一个有潜力的未来方向。其他可能的应用包括将传送扩展到不同的架构,如卷积或图神经网络,以及不同的算法,如基于采样的优化。


# 锐度  # 其对  # 较小  # 提出了  # 多个  # 过程中  # 这一  # 所示  # 如图  # 展示了  # 神经网络  # https  # lstm  # 算法  # github  # Conditional  # using  # 架构  # git 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 美图秀秀AI抠图如何换背景_美图秀秀AI背景替换与贴纸添加【攻略】  AI视频生成器完全指南:免费工具、教程及最佳实践  利用 DeepSeek 提高敏捷开发中的 Sprint 规划效率  Filmora 13 AI音乐生成器:创意视频配乐新纪元  PlotDot Horizon:AI编剧工具颠覆好莱坞?深度评测  Canva AI工具教程:动漫化图像、生成艺术与定制QR码  摆脱情歌魔咒:告别心碎,拥抱新生的情感之旅  AI赋能QA:测试管理的未来趋势与实践  FeelinAI聊天网页版 Feelin官方网站地址  AI照片编辑终极指南:一键打造潮流图像  Semrush AI标题生成器:免费提升SEO和内容创作效率  Voice AI:下一代AI语音助手,重塑人机交互  提升Fortnite OG游戏性能:NVIDIA控制面板最佳设置  批改网AI检测工具怎样设置检测维度_批改网AI检测工具维度勾选与权重调整【技巧】  Fiverr网站审计终极指南:免费工具、SEO技巧和实战案例  Midjourney怎么用一键生成壁纸_Midjourney壁纸生成教程【教程】  乐高积木重现约拿的故事:圣经故事趣味解读  Excel AI:5大免费AI功能提升数据分析效率  Talvix AI:AI驱动的招聘平台,提升招聘效率和质量  Tradie Hub:领先的线索管理系统,助力业务增长  AI驱动合同管理:Microsoft Power Platform实战指南  零基础玩转千问AI,轻松实现月入万元的最新方法!  tofai官方网站入口 tofai在线网页版登录  百度输入法ai写作怎么关 百度输入法ai帮写禁用  探索古希腊之美:AI打造的绝|美女|神形象赏析  豆包AI的发现页面有什么功能_探索热门智能体与话题  Vidu AI:使用Q1模型轻松创建电影级短片  汽车“以旧换新”补贴升级:2026年置换最高补1.5万元  Midjourney怎样加风格词调质感_Midjourney风格词技巧【指南】  极氪回应明年车辆质保权益等问题:部分政策有调整  AI伴侣:连接还是孤独?真实对话揭秘AI伦理困境  Comet浏览器:使用ChatGPT增强您的搜索体验  探索孟加拉音乐魅力:高尔德普林特莎丽,节日欢歌  终极人声移除器UVR5:AI驱动的免费开源音频处理神器  AI合同提取指南:利用智能实现高效采购和节省成本  AI时代软件工程师如何破局?未来必备技能全解析  如何用AI帮你进行竞品功能对比分析?轻松制作对比矩阵  如何用AI帮你把小说改编成电影剧本?3步掌握核心技巧  AI症状自检:最佳AI症状检查器,告别网络庸医!  正确安装梁托:终极指南与常见错误规避  批改网ai检测工具怎么设置检测严格度_批改网ai检测工具严格度调整【技巧】  Wrike:AI赋能的项目管理平台,提升电商效率与团队协作  ChatGPT官网免费使用入口 ChatGPT在线版官方地址  Ifor Williams拖车终极指南:农场主的选择和省税秘诀  怎么用AI帮你写一份有说服力的加薪申请?  百度输入法全感官ai怎么关 百度输入法全感官皮肤关闭  创客贴AI排版如何批量处理图文_创客贴AI排版批量操作与效率提升【方法】  5分钟教你用AI生成婚礼流程策划案,备婚新人必备  2025年度AMD处理器终极评选:年度最佳CPU推荐  5分钟教你用AI生成短视频分镜脚本,小白也能拍大片 

 2024-05-10

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.