利用cpu和gpu协同计算,显著提升大语言模型推理效率!来自cmu、华盛顿大学和meta ai的研究人员提出了一种名为magicpig的新方法,它巧妙地利用cpu上的局部敏感哈希(lsh)技术,有效缓解了gpu内存容量限制,从而大幅提升大语言模型(llm)的推理速度和准确性。
与仅依赖GPU的注意力机制相比,MagicPIG在解码吞吐量方面实现了1.76到4.99倍的提升,并在多个下游任务中取得了优于现有技术(例如Quest)的准确率。
这项研究的主要贡献在于:
突破性精度提升: 不同于其他稀疏注意力机制,MagicPIG基于采样和估计而非搜索,从而在保证推理质量的前提下,显著提高效率。
高效异构计算: 将解码阶段的注意力计算和哈希表操作卸载到CPU,充分利用异构计算架构,提高吞吐量并降低模型部署成本。
GPU内存瓶颈:KV缓存的挑战
在LLM推理中,KV缓存是主要的性能瓶颈。 KV缓存存储中间注意力键值对,避免重复计算。然而,其内存占用随着批量大小和序列长度线性增长,严重限制了GPU的批量处理能力,导致GPU利用率低下。例如,在NVIDIA A100-40GB GPU上处理Llama-3.1-8B模型(上下文长度128k)时,只能处理单个请求,且近一半的解码时间都耗费在KV缓存访问上。多样性生成和长链式推理等技术进一步加剧了这一问题。
TopK注意力机制的局限性
注意力机制本身具有稀疏性,因此动态稀疏注意力和TopK近似方法被广泛研究。但这些方法通常会造成精度下降。现有技术如Quest、H2O和Loki主要通过选择注意力得分最高的键值对来提高效率,但这种基于TopK的近似方法存在偏差,缺乏理论保障,尤其在高精度要求的任务(如聚合任务、常用词提取、高频词提取和逻辑推理)中表现不佳。
下图显示了TopK注意力机制的估计误差和性能下降:
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
研究人员通过观察发现,TopK方法的失效与以下现象有关:
下图展示了这些观察结果:
MagicPIG:基于采样的注意力估计
为了解决TopK方法的局限性,MagicPIG提出了一种基于采样的注意力估计方法。 该方法将问题视为偏差校正问题,利用局部敏感哈希(LSH)技术生成采样概率,并通过重要性采样来估计注意力输出。 与TopK方法相比,这种基于采样的方法显著降低了估计误差。
下图对比了基于采样的方法和TopK方法的估计误差:
系统设计:CPU-GPU协同工作
MagicPIG将注意力计算和哈希表操作卸载到CPU,充分利用CPU的内存优势。 研究人员发现,通过采样技术降低内存访问量,可以有效弥补CPU内存带宽低于GPU的不足。 系统将LLM解码分为四个部分:参数计算(GPU)、注意力计算(CPU)、随机投影(GPU)和检索(CPU)。
下图展示了MagicPIG的系统架构:
实验结果
实验结果表明,MagicPIG在长文本RULER任务中取得了比Quest更高的准确率,并且在推理速度和吞吐量方面有显著提升。
下图展示了MagicPIG在长文本RULER任务中的准确率:
下图展示了MagicPIG的吞吐量提升:
总结:MagicPIG 通过巧妙地结合采样技术和异构计算,为高效的LLM推理提供了一种新的思路,有望降低LLM的部署成本并推动其更广泛的应用。
# 提出了
# 这一
# 中取得了
# 华盛顿
# 提高效率
# 键值
# 充分利用
# 链式
# 异构
# ai
# 展示了
# llama
# 系统架构
# Token
# 架构
# 键值对
# 内存占用
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
百度AI搜索能否查实时新闻_百度AI搜索新闻频道与更新频率【方法】
OpenAI Codex最强攻略:提升AI编码效率的秘诀
Orkestra Obsolete: 用古董乐器重塑经典“Blue Monday”
AI简历优化指南:如何让你的简历轻松通过ATS筛选系统
tofai官网入口网站 tofai官网入口网页版
AI赋能建筑合同管理:ChatGPT实用案例深度解析
Straico团队案例研究:AI赋能,效率提升的秘诀
AI在销售CRM软件中的角色:提升效率和客户互动
使用双端队列(deque)解决字母字符串问题
解读 Karan Aujla:如何用音乐连接全球与故土?
Claude如何关闭自动续费_Claude续费关闭方法【方法】
解密Poppy Playtime怪物:全面解析玩具世界背后的故事
豆包AI怎么评价回答的好坏_点赞与反馈功能使用教程
揭秘颜值真相:社交实验的背后,你是几分?
利用 Gemini 1.5 Pro 进行超长视频摘要提取
Midjourney怎么用一键生成logo_Midjourneylogo生成步骤【教程】
XRAI Glass:AI赋能的增强现实眼镜,对话新体验
免费涨粉秘籍:Instagram快速提升技巧,告别粉丝流失
Midjourney怎么用一键生成漫画_Midjourney漫画生成方法【攻略】
如何用 ChatGPT 快速生成短视频分镜脚本
消除噪音,提升音质:Audo.ai终极指南
7个简单高效的面部肌肉锻炼,改善面部不对称,塑造完美脸型
BeFunkyAI排版怎么给图片加艺术字_BefunkyAI排版艺术字添加与样式调整【指南】
豆包AI怎么关闭消息推送_通知与提醒管理设置教程
AI电商网站搭建:CSV到WooCommerce全流程指南
利用Gen AI和AI Agent进行软件测试:Ollama本地LLM实践
利用豆包 AI 进行个性化旅行 Vlog 脚本设计
千问能否生成多语言年终总结_千问多语言翻译与本地化调整【攻略】
AI视频制作教程:从图像到病毒式Vlog全攻略
稿定设计AI抠图怎样调整透明度_稿定设计AI透明度滑块与渐变设置【攻略】
银行对账单解读完全指南:掌握财务状况,优化资金管理
AI社交媒体自动化:n8n与HeyGen打造个性化内容引擎
AI面试助手:提升招聘效率的终极工具
解锁 Gemini Gems 高级用法:打造专属 AI 专家助手
AI自动化工作流:Zapier提升效率,优化工作流程
VideoGen教程:AI视频生成器,无需拍摄快速制作视频
千问如何生成年终总结PPT_千问PPT模板选择与内容自动填充【攻略】
AI写作鱼如何一键生成情书_AI写作鱼情书生成与浪漫度调整【步骤】
AI赋能QA:测试管理的未来趋势与实践
goPDF:AI驱动的PDF文档处理全方位指南,提升工作效率
如何使用 Gemini 进行 Google Cloud 架构成本预估
都灵裹尸布之谜:AI揭示耶稣基督的真实面貌?
AI图像识别如何减少保险欺诈和加速理赔
豆包AI的发现页面有什么功能_探索热门智能体与话题
文心一言解读法律条文教程 文心一言专业领域应用
随机故事生成器:激发创意,轻松创作精彩故事
ChatGPT 辅助自媒体博主进行选题与大纲策划
2025年生成式AI发展蓝图:娱乐、医疗及创意产业的革新
ChatGPT一键生成PPT怎么加动画_ChatGPTPPT动画添加【指南】
DiagramMagic:AI驱动的在线图表生成器终极指南
2024-12-31
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。