70倍极致压缩!大模型的检查点再多也不怕


AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

该论文的作者均来自于华为诺亚实验室,第一作者为李文硕,通讯作者为王云鹤和陈醒濠。相关团队团队近年来在ICML、CVPR、NeurIPS、ICCV、ECCV等顶会上有多项代表性工作发表,在高效大语言模型、视觉模型等领域都有丰富的成果产出,和知名高校和科研机构合作广泛。

大模型作为当下 AI 工业界和学术界当之无愧的「流量之王」,吸引了大批学者和企业投入资源去研究与训练。随着规模越做越大,系统和工程问题已经成了大模型训练中绕不开的难题。例如在 Llama3.1 54 天的训练里,系统会崩溃 466 次,平均 2.78 小时一次!

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

那么,频繁存储检查点就显得十分必要。但存储检查点本身也是一个大工程。

Meta 做了很多努力来加速存储检查点时间和增加存储频率,来对抗频繁出现的系统失效。但频繁存储也意味着大量的存储资源开销,其训练集群配备了 240PB 的 SSD 来应对这一挑战,光存储这一项的耗费就要亿元!

华为诺亚的 ExCP 方法也就应运而生,为了应对存储带来的巨大开销,他们提出了极致压缩检查点技术,能够无损压缩模型 70 倍,大幅降低训练中的存储开销。

代码目前已经开源,在 Apache 2.0 框架下发布,issue 中已经有小伙伴成功复现了结果。

  • 文章地址:https://arxiv.org/abs/2406.11257
  • 仓库地址:https://github.com/Gaffey/ExCP

方法也很有创新性,文章中提到了两个重要的概念,一个是利用训练中检查点的残差信息,通过时间序列上信息的稀疏性实现更高的剪枝比例;另一个是将优化器和权重联合起来进行压缩,实现整体的高压缩率。

具体方法

1. 检查点残差

在训练过程中,当前的参数可以看作上一个检查点存储的权重加上逐次迭代时梯度更新的总和,这部分是相对稀疏的,包含的信息量较少,因此对这一残差进行压缩,可以获得更好的压缩比例。而与此相反的,优化器中存储的动量是梯度一阶矩和二阶矩的滑动平均值,对于一阶矩来说,它的滑动平均默认的参数是 0.9,在数百到数千个迭代之后与上一次检查点存储的内容已经没有太大的关联,所以对于优化器直接压缩其本身的值而非残差。最终待压缩的检查点表示为

2. 权重 - 优化器动量联合压缩

目前已有的模型压缩相关的工作一般只关注于模型的推理性能,或者是模型最终存储检查点的大小,而不关注模型在整个训练过程中对储存空间的开销。因而已有工作只对权重进行压缩,而忽略了 Adam 等常见优化器中实际上存储了两倍于权重数量的动量。这一工作一方面将两者一起进行了压缩,显著提升了整体的压缩比例;另一方面也利用了权重和优化器动量的关联性,进一步提升彼此的压缩比例。

权重剪枝:由于剪枝的权重是残差值,优化器动量的二阶矩可以大致表示在过去一段时间内权重残差值的变化幅度,所以可以使用优化器动量的二阶矩作为指标来确定不同层的剪枝比例。剪枝策略如下文公式所示

式中,W 和分别表示权重和二阶矩。


优化器动量剪枝:对于动量剪枝,可以使用一阶矩作为指示器来进行剪枝,论文中有关于可收敛性的一个简要证明。同时,如果一个位置的权重已经被剪枝,那么对应位置的优化器动量也应该同步被处理,所以剪枝策略如下文公式所示

式中, 表示一阶矩。

3. 整体压缩流程

整体压缩流程如 Algorithm 1 所示,依次进行计算权重残差 / 联合压缩 / 非均匀量化 / 编码压缩等步骤,得到最终的压缩结果。

而恢复出检查点完整文件的流程则如 Algorithm 2 所示,进行解压缩之后,首先从非均匀量化后存储的码本和下标中恢复出浮点结果,然后再与基准权重(上一个检查点的原始权重或恢复出的重建权重)相加,得到检查点完整文件。而恢复出整个训练流程中的检查点文件的流程如 Algorithm 3 所示,在完成训练后只保存初始化权重的随机种子和每个检查点存储的压缩结果,然后依次对检查点进行恢复以得到完整的检查点序列,以供从其中选择某个或多个检查点恢复训练 / 进行测试等。

实验结果

文章中不仅对于大语言模型做了评估,在 ViT-L32 这样较大的视觉模型上这一方法也能取得很好的效果。

从消融实验里也可以看出,采用残差剪枝的方法大大减少了剪枝带来的损失。

文章中还提供了大语言模型压缩前后问答的样例,可以看到压缩本身对于模型的问答能力也没有造成损害。


# git  # apache  # github  # https  # issue  # 这一  # 所示  # 诺亚  # 华为  # 可以使用  # 数年  # 器中  # 迭代  # 都有  # 如果您 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: Napkin AI:无需设计技能,AI一键生成精美图表  v0 Report深度测评:AI文档生成器的优缺点分析与实用指南  AI写作鱼怎么一键生成朋友圈文案_AI写作鱼文案风格切换与字数设置【指南】  AI音乐创作:颠覆传统,开启音乐新纪元  高效赋能:在线健身教练必备的七大工具  AI任务管理器终极评测:找到最适合你的效率神器  解锁生成式AI工程师之路:技能、职业发展与未来趋势  AI赋能抵押贷款:Total Expert AI 销售助理深度解析  蚂蚁阿福官方网站入口_网页版在线解读体检报告  ChatGPT官方网页端入口 ChatGPT官网快速登录方法  DeepSeek AI:AI通用谜题解题器,解题思路全解析  AI同伴的未来:超越工具,迈向情感连接与个人成长  LALAL.AI教程:音视频人声分离、降噪终极指南  利用 DeepSeek 辅助进行编译器原理课程学习  QuickBooks Desktop 到 Online 迁移指南:轻松转移您的公司数据  实测效率提升超35%!科大讯飞星火AIPC开启AI办公新纪元  AI症状自检:最佳AI症状检查器,告别网络庸医!  去哪旅行ai抢票助手怎样提升抢票速度_去哪旅行ai抢票助手加速包与多通道使用【技巧】  Venggage AI Pitch Deck生成器:快速创建投资者演示文稿  Google Gemini 处理结构化 XML 数据转换教程  使用 ChatGPT 自动生成月度财务分析报告  轻松创建引人入胜短视频:Riverside.fm教程  即梦ai能否生成节日主题插画_即梦ai节日主题关键词与元素库使用【攻略】  AI面试作弊与反作弊:求职者与企业的博弈  Decart Lucy 14B:颠覆AI视频生成领域的革命性模型  AI赋能软件测试:自动化、智能化与未来趋势  通义千问怎么设置功能偏好_通义千问偏好设置【教程】  想做自媒体?教你用AI批量生成视频脚本,实现内容自由  怎么使用网页版deepseek【教程】  ChatGPT怎样用提示词设上下文_ChatGPT上下文设置技巧【方法】  百度ai助手工具栏怎么关 百度ai助手状态栏隐藏  Google AI Studio Build模式更新:免费AI应用开发新纪元  苹果手机百度ai怎么关 iPhone百度输入法ai关闭  AMD Ryzen 2025 CPU深度解析:新品发布与选购指南  百度APP搜索框ai怎么关 百度APP搜索框ai图标去除  Cred.ai信用卡深度评测:信用提升的秘密武器  小型邮件列表的终极指南:使用AI最大化营销效果  Amazon Rekognition: 图像与视频分析的强大AI工具  AI网站构建指南:Duda平台免费创建教程  Feelin网页版在线玩 Feelin角色扮演网页版入口  百度输入法怎么去除ai模块 百度输入法纯净版安装教程  如何用AI帮你分析用户评论?3步挖掘用户真实需求  提升企业效率:QR Platform管理后台功能全面解析  ChatGPT官网免费使用入口 ChatGPT在线版官方地址  老电脑焕新:i5-2400搭配FirePro V5900 打造复古游戏利器  批改网ai检测工具怎么检测多语言作文_批改网ai检测工具多语言切换与检测支持【技巧】  百度输入法蓝色图标怎么关 百度输入法ai图标消除  Telegram与n8n集成教程:自动化AI助手构建指南  雷小兔ai智能写作怎么设置写作风格_雷小兔ai智能写作风格选择方法【指南】  EcoFlow Delta 3 Max Plus:打造你的智能电力生态系统 

 2024-08-05

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.