首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了


快准备好你的 gpu!


Llama 3.1 终于现身了,不过出处却不是 Meta 官方。

今日,Reddit 上新版 Llama 大模型泄露的消息遭到了疯传,除了基础模型,还包括 8B、70B 和最大参数的 405B 的基准测试结果

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

下图为 Llama 3.1 各版本与 OpenAI GPT-4o、Llama 3 8B/70B 的比较结果。可以看到,即使是 70B 的版本,也在多项基准上超过了 GPT-4o

                           图源:https://x.com/mattshumer_/status/1815444612412414087294

显然,3.1 版本的 8B 和 70B 模型是由 405B 蒸馏得来的,因此相比上一代有着明显的性能提升。

有网友表示,这是首次开源模型超越了 GPT4o 和 Claude Sonnet 3.5 等闭源模型,在多个 benchmark 上达到 SOTA

与此同时,Llama 3.1 的模型卡流出,细节也泄露了(从模型卡中标注的日期看出基于 7 月 23 日发布)。

有人总结了以下几个亮点:

  • 模型使用了公开来源的 15T+ tokens 进行训练,预训练数据截止日期为 2025 年 12 月;
  • 微调数据包括公开可用的指令微调数据集(与 Llama 3 不同)和 1500 万个合成样本;
  • 模型支持多语言,包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。

                             图源:https://x.com/iScienceLuvr/status/1815519917715730702

虽然泄露的 Github 链接目前 404 了,但有网友给出了下载链接(不过为了安全,建议还是等今晚的官方渠道公布):

不过这毕竟是个千亿级大模型,下载之前请准备好足够的硬盘空间:

以下是 Llama 3.1 模型卡中的重要内容:

模型基本信息

Meta Llama 3.1 多语言大型语言模型 (LLM) 集合是一组经过预训练和指令微调的生成模型,大小分别为 8B、70B 和 405B(文本输入 / 文本输出)。Llama 3.1 指令微调的纯文本模型(8B、70B、405B)针对多语言对话用例进行了优化,在常见的行业基准上优于许多可用的开源和闭源聊天模型。

模型架构:Llama 3.1 是优化了的 Transformer 架构自回归语言模型。微调后的版本使用 SFT 和 RLHF 来对齐可用性与安全偏好。

支持语言:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
 
从模型卡信息可以推断,Llama 3.1 系列模型的上下文长度为 128k。所有模型版本都使用分组查询注意力(GQA)来提高推理可扩展性。

预期用途

预期用例。Llama 3.1 旨在用于多语言的商业应用及研究。指令调整的纯文本模型适用于类助理聊天,而预训练模型可以适应各种自然语言生成任务。

Llama 3.1 模型集还支持利用其模型输出来改进其他模型(包括合成数据生成和蒸馏)的能力。Llama 3.1 社区许可协议允许这些用例。 

Llama 3.1 在比 8 种受支持语言更广泛的语言集合上进行训练。开发人员可以针对 8 种受支持语言以外的语言对 Llama 3.1 模型进行微调,前提是遵守 Llama 3.1 社区许可协议和可接受使用策略, 并且在这种情况下负责确保以安全和负责任的方式使用其他语言的 Llama 3.1。

软硬件基础设施
 
首先是训练要素,Llama 3.1 使用自定义训练库、Meta 定制的 GPU 集群和生产基础设施进行预训练,还在生产基础设施上进行了微调、注释和评估。

其次是训练能耗,Llama 3.1 训练在 H100-80GB(TDP 为 700W)类型硬件上累计使用了 39.3 M GPU 小时的计算。这里训练时间是训练每个模型所需的总 GPU 时间,功耗是每个 GPU 设备的峰值功率容量,根据用电效率进行了调整。 

训练温室气体排放。Llama 3.1 训练期间基于地域基准的温室气体总排放量预估为 11,390 吨二氧化碳当量。自 2025 年以来,Meta 在全球运营中一直保持净零温室气体排放,并将其 100% 的电力使用与可再生能源相匹配,因此训练期间基于市场基准的温室气体总排放量为 0 吨二氧化碳当量。

用于确定训练能源使用和温室气体排放的方法可以在以下论文中找到。由于 Meta 公开发布了这些模型,因此其他人不需要承担训练能源使用和温室气体排放。

论文地址:https://arxiv.org/pdf/2204.05149

训练数据
 
概述:Llama 3.1 使用来自公开来源的约 15 万亿个 token 数据进行了预训练。微调数据包括公开可用的指令数据集,以及超过 2500 万个综合生成的示例。 
 
数据新鲜度:预训练数据的截止日期为 2025 年 12 月。

Benchmark 评分

在这一部分,Meta 报告了 Llama 3.1 模型在标注 benchmark 上的评分结果。所有的评估,Meta 都是使用内部的评估库。

安全风险考量

Llama 研究团队致力于为研究界提供宝贵的资源来研究安全微调的稳健性,并为开发人员提供适用于各种应用的安全且强大的现成模型,以减少部署安全人工智能系统的开发人员的工作量。
 
研究团队采用多方面数据收集方法,将供应商的人工生成数据与合成数据相结合,以减轻潜在的安全风险。研究团队开发了许多基于大型语言模型 (LLM) 的分类器,以深思熟虑地选择高质量的 prompt 和响应,从而增强数据质量控制。
 
值得一提的是,Llama 3.1 非常重视模型拒绝良性 prompt 以及拒绝语气。研究团队在安全数据策略中引入了边界 prompt 和对抗性 prompt,并修改了安全数据响应以遵循语气指南。 

Llama 3.1 模型并非设计为单独部署,而是应作为整个人工智能系统的一部分进行部署,并根据需要提供额外的「安全护栏」。开发人员在构建智能体系统时应部署系统安全措施。

请注意,该版本引入了新功能,包括更长的上下文窗口、多语言输入和输出,以及开发人员与第三方工具的可能集成。使用这些新功能进行构建时,除了需要考虑一般适用于所有生成式人工智能用例的最佳实践外,还需要特别注意以下问题: 

工具使用:与标准软件开发一样,开发人员负责将 LLM 与他们所选择的工具和服务集成。他们应为自己的使用案例制定明确的政策,并评估所使用的第三方服务的完整性,以了解使用此功能时的安全和安保限制。

多语言:Lama 3.1 除英语外还支持 7 种语言:法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。Llama 可能可以输出其他语言的文本,但这些文本可能不符合安全性和帮助性性能阈值。

Llama 3.1 的核心价值观是开放、包容和乐于助人。它旨在服务于每个人,并适用于各种使用情况。因此,Llama 3.1 的设计宗旨是让不同背景、经历和观点的人都能使用。Llama 3.1 以用户及其需求为本,没有插入不必要的评判或规范,同时也反映了这样一种认识,即即使在某些情况下看似有问题的内容,在其他情况下也能达到有价值的目的。Llama 3.1 尊重所有用户的尊严和自主权,尤其是尊重为创新和进步提供动力的自由思想和表达价值观。
 
但 Llama 3.1 是一项新技术,与任何新技术一样,其使用也存在风险。迄今为止进行的测试尚未涵盖也不可能涵盖所有情况。因此,与所有 LLM 一样,Llama 3.1 的潜在输出无法事先预测,在某些情况下,该模型可能会对用户提示做出不准确、有偏差或其他令人反感的反应。因此,在部署 Llama 3.1 模型的任何应用之前,开发人员应针对模型的具体应用进行安全测试和微调。

模型卡来源:https://pastebin.com/9jGkYbXY
参考信息:https://x.com/op7418/status/1815340034717069728
https://x.com/iScienceLuvr/status/1815519917715730702
https://x.com/mattshumer_/status/1815444612412414087294


# prompt  # 基础设施  # 英语  # 进行了  # 法语  # 德语  # 适用于  # 西班牙语  # 多语言  # 葡萄牙语  # 开发人员  # git  # llama  # gpt  # https  # transformer  # 人工智能  # github  # Token  # 架构  # claude  # 可再生能源 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 宝可梦朱紫:如何高效刷闪异色宝可梦,提升游戏体验  AI游戏革命:文本驱动,无限可能  秀米AI智能排版怎样生成节日专题模板_秀米AI智能排版节日模板调用【技巧】  FeelinAI聊天网页版 Feelin官方网站地址  旅游营销AI:ChatGPT邮件营销策略,提升旅游业务转化率  专家:26年1月中国车市将实现“开门红” 高端增长强劲  批改网AI检测工具如何对接学校系统_批改网AI检测工具系统对接与数据同步【步骤】  百度AI助手网页版入口 免安装直接打开入口  Wix AI:无需代码免费创建专业网站完整指南  Kling 2.0终极指南:AI视频创作秘籍,告别低质量  音乐天赋自测:你天生拥有绝对音感吗?15个问题揭晓  如何用AI帮你进行竞品功能对比分析?轻松制作对比矩阵  百度ai助手工具栏怎么关 百度ai助手状态栏隐藏  利用 DeepSeek 提高敏捷开发中的 Sprint 规划效率  AI猫咪视频创作指南:轻松打造百万级YouTube Shorts  构建卓越的AI驱动测试自动化框架:QA工程师指南  SmartEbook AI:下一代电子书创作工具,轻松实现被动收入  通义千问怎么找新功能入口_通义千问新功能查找【攻略】  提升房地产业务:AI语音助手赋能房地产经纪公司  Claude如何保存对话记录_Claude对话保存步骤【步骤】  留学文书PS怎么写?教你用AI写出招生官眼前一亮的个人陈述  Filmora AI 语音增强和降噪终极指南  如何利用AI优化简历关键词?轻松通过ATS筛选系统  3步教你用AI帮你把菜谱转换成详细的烹饪步骤视频脚本  通义千问网页版怎么切换账号_通义千问账号切换步骤【指南】  AI照片编辑:为你的单人照添加逼真女友,告别孤单  提升效率:使用AI代理自动生成视频标题的实用指南  Midjourney怎样生成网页图标_Midjourney图标生成教程【方法】  Venggage AI Pitch Deck生成器:快速创建投资者演示文稿  如何通过 DeepSeek 优化 Kubernetes 配置文件  AI简历优化指南:如何让你的简历轻松通过ATS筛选系统  Character AI深度解析:功能、用户反馈与替代方案全攻略  如何利用豆包 AI 快速查询当地生活服务资讯  怎么用AI学习新知识?3步教你构建个人知识库  创客贴AI排版如何批量处理图文_创客贴AI排版批量操作与效率提升【方法】  PixianAI抠图如何导出PSD_PixianAI分层导出与PSD保存设置【实操】  EdrawMax AI:项目管理和创意专业人士的终极图表工具  探索贝奥武夫:英雄史诗的起源、故事与文化意义  解读诗歌中的女性视角:Shelley Puhak 的作品解析  美食ASMR:感官盛宴与解压体验  AI照片编辑终极指南:一键打造潮流图像  文本分类与聚类:网络安全中的自然语言处理应用  GravityWrite:AI驱动的内容创作,提升排名和效率  AI绘画工具怎么用_AI绘画工具使用方法详细指南【教程】  CanvaAI抠图能否保留透明图层_CanvaAI透明图层保留与导出设置【方法】  JSON Prompting: 创造爆款AI广告的秘诀和方法  ChatGPT一键生成PPT怎么加动画_ChatGPTPPT动画添加【指南】  数据集中化:提升AI效率,节省企业时间与成本的终极指南  教你用AI一键为代码添加注释,小白也能读懂复杂程序  经济型游戏PC构建指南:30000卢比畅玩3A游戏 

 2024-07-23

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.