把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍


利用cpu和gpu协同计算,显著提升大语言模型推理效率!来自cmu、华盛顿大学和meta ai的研究人员提出了一种名为magicpig的新方法,它巧妙地利用cpu上的局部敏感哈希(lsh)技术,有效缓解了gpu内存容量限制,从而大幅提升大语言模型(llm)的推理速度和准确性。

与仅依赖GPU的注意力机制相比,MagicPIG在解码吞吐量方面实现了1.76到4.99倍的提升,并在多个下游任务中取得了优于现有技术(例如Quest)的准确率。

这项研究的主要贡献在于:

  1. 突破性精度提升: 不同于其他稀疏注意力机制,MagicPIG基于采样和估计而非搜索,从而在保证推理质量的前提下,显著提高效率。

  2. 高效异构计算: 将解码阶段的注意力计算和哈希表操作卸载到CPU,充分利用异构计算架构,提高吞吐量并降低模型部署成本。

GPU内存瓶颈:KV缓存的挑战

在LLM推理中,KV缓存是主要的性能瓶颈。 KV缓存存储中间注意力键值对,避免重复计算。然而,其内存占用随着批量大小和序列长度线性增长,严重限制了GPU的批量处理能力,导致GPU利用率低下。例如,在NVIDIA A100-40GB GPU上处理Llama-3.1-8B模型(上下文长度128k)时,只能处理单个请求,且近一半的解码时间都耗费在KV缓存访问上。多样性生成和长链式推理等技术进一步加剧了这一问题。

TopK注意力机制的局限性

注意力机制本身具有稀疏性,因此动态稀疏注意力和TopK近似方法被广泛研究。但这些方法通常会造成精度下降。现有技术如Quest、H2O和Loki主要通过选择注意力得分最高的键值对来提高效率,但这种基于TopK的近似方法存在偏差,缺乏理论保障,尤其在高精度要求的任务(如聚合任务、常用词提取、高频词提取和逻辑推理)中表现不佳。

下图显示了TopK注意力机制的估计误差和性能下降:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

研究人员通过观察发现,TopK方法的失效与以下现象有关:

  1. 首个输入token的隐藏状态几乎不随输入变化。
  2. 键状态的中心方向在不同输入句子中保持稳定。
  3. 键状态的中心与汇聚点token的键状态几乎相反。

下图展示了这些观察结果:

MagicPIG:基于采样的注意力估计

为了解决TopK方法的局限性,MagicPIG提出了一种基于采样的注意力估计方法。 该方法将问题视为偏差校正问题,利用局部敏感哈希(LSH)技术生成采样概率,并通过重要性采样来估计注意力输出。 与TopK方法相比,这种基于采样的方法显著降低了估计误差。

下图对比了基于采样的方法和TopK方法的估计误差:

系统设计:CPU-GPU协同工作

MagicPIG将注意力计算和哈希表操作卸载到CPU,充分利用CPU的内存优势。 研究人员发现,通过采样技术降低内存访问量,可以有效弥补CPU内存带宽低于GPU的不足。 系统将LLM解码分为四个部分:参数计算(GPU)、注意力计算(CPU)、随机投影(GPU)和检索(CPU)。

下图展示了MagicPIG的系统架构:

实验结果

实验结果表明,MagicPIG在长文本RULER任务中取得了比Quest更高的准确率,并且在推理速度和吞吐量方面有显著提升。

下图展示了MagicPIG在长文本RULER任务中的准确率:

下图展示了MagicPIG的吞吐量提升:

总结:MagicPIG 通过巧妙地结合采样技术和异构计算,为高效的LLM推理提供了一种新的思路,有望降低LLM的部署成本并推动其更广泛的应用。


# 提出了  # 这一  # 中取得了  # 华盛顿  # 提高效率  # 键值  # 充分利用  # 链式  # 异构  # ai  # 展示了  # llama  # 系统架构  # Token  # 架构  # 键值对  # 内存占用 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 百度AI搜索能否查实时新闻_百度AI搜索新闻频道与更新频率【方法】  OpenAI Codex最强攻略:提升AI编码效率的秘诀  Orkestra Obsolete: 用古董乐器重塑经典“Blue Monday”  AI简历优化指南:如何让你的简历轻松通过ATS筛选系统  tofai官网入口网站 tofai官网入口网页版  AI赋能建筑合同管理:ChatGPT实用案例深度解析  Straico团队案例研究:AI赋能,效率提升的秘诀  AI在销售CRM软件中的角色:提升效率和客户互动  使用双端队列(deque)解决字母字符串问题  解读 Karan Aujla:如何用音乐连接全球与故土?  Claude如何关闭自动续费_Claude续费关闭方法【方法】  解密Poppy Playtime怪物:全面解析玩具世界背后的故事  豆包AI怎么评价回答的好坏_点赞与反馈功能使用教程  揭秘颜值真相:社交实验的背后,你是几分?  利用 Gemini 1.5 Pro 进行超长视频摘要提取  Midjourney怎么用一键生成logo_Midjourneylogo生成步骤【教程】  XRAI Glass:AI赋能的增强现实眼镜,对话新体验  免费涨粉秘籍:Instagram快速提升技巧,告别粉丝流失  Midjourney怎么用一键生成漫画_Midjourney漫画生成方法【攻略】  如何用 ChatGPT 快速生成短视频分镜脚本  消除噪音,提升音质:Audo.ai终极指南  7个简单高效的面部肌肉锻炼,改善面部不对称,塑造完美脸型  BeFunkyAI排版怎么给图片加艺术字_BefunkyAI排版艺术字添加与样式调整【指南】  豆包AI怎么关闭消息推送_通知与提醒管理设置教程  AI电商网站搭建:CSV到WooCommerce全流程指南  利用Gen AI和AI Agent进行软件测试:Ollama本地LLM实践  利用豆包 AI 进行个性化旅行 Vlog 脚本设计  千问能否生成多语言年终总结_千问多语言翻译与本地化调整【攻略】  AI视频制作教程:从图像到病毒式Vlog全攻略  稿定设计AI抠图怎样调整透明度_稿定设计AI透明度滑块与渐变设置【攻略】  银行对账单解读完全指南:掌握财务状况,优化资金管理  AI社交媒体自动化:n8n与HeyGen打造个性化内容引擎  AI面试助手:提升招聘效率的终极工具  解锁 Gemini Gems 高级用法:打造专属 AI 专家助手  AI自动化工作流:Zapier提升效率,优化工作流程  VideoGen教程:AI视频生成器,无需拍摄快速制作视频  千问如何生成年终总结PPT_千问PPT模板选择与内容自动填充【攻略】  AI写作鱼如何一键生成情书_AI写作鱼情书生成与浪漫度调整【步骤】  AI赋能QA:测试管理的未来趋势与实践  goPDF:AI驱动的PDF文档处理全方位指南,提升工作效率  如何使用 Gemini 进行 Google Cloud 架构成本预估  都灵裹尸布之谜:AI揭示耶稣基督的真实面貌?  AI图像识别如何减少保险欺诈和加速理赔  豆包AI的发现页面有什么功能_探索热门智能体与话题  文心一言解读法律条文教程 文心一言专业领域应用  随机故事生成器:激发创意,轻松创作精彩故事  ChatGPT 辅助自媒体博主进行选题与大纲策划  2025年生成式AI发展蓝图:娱乐、医疗及创意产业的革新  ChatGPT一键生成PPT怎么加动画_ChatGPTPPT动画添加【指南】  DiagramMagic:AI驱动的在线图表生成器终极指南 

 2024-12-31

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.