陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文


会议组织者都是 nlp 头部科学家,在语言建模方面有着相当的成果。

随着 AI 领域的快速发展,大模型逐渐成为研究的核心,为了更好地探索这一领域,2025 年,一批知名的青年学者组织了一个名为 COLM(Conference on Language Modeling)的新会议。

该会议的组织者们都是 NLP 头部科学家,在语言建模方面有着相当的成果。他们其中既有来自业界的研究人员,也有来自学术界的研究人员。

在今年的组织者中,有我们熟悉的陈丹琦、Angela Fan 等华人学者。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

COLM 是一个专注于语言建模研究的学术场所,旨在创建一个具有不同科学专业知识的研究人员社区,专注于理解、改进和评论语言模型技术的发展。这不仅是学术界的一次创新尝试,也是搭起了语言模型交流互鉴的新桥梁,进一步促进其探索和合作。

接收论文链接:https://colmweb.org/AcceptedPapers.html

刚刚,大会公布了 2025 年杰出论文奖,共有 4 篇论文获奖。

值得一提的是,号称撼动 Transformer 统治地位的 Mamba 也在获奖论文中。

此前,Mamba 这项研究惨遭 ICLR 拒稿,引来学术界轩然大波。

不过,之后 Mamba 原班人马发布的 Mamba-2 顺利拿下了 ICML 2025。如今 Mamba 又获得了 COLM 杰出论文奖,很多网友都送来祝贺。

Mamba 作者之一、卡内基梅隆大学机器学习系助理教授 Albert Gu 用一张表情很好的表达了自己的感受,看来「COLM 是真香」。

杰出论文奖

论文 1:Dated Data: Tracing Knowledge Cutoffs in Large Language Models

  • 机构:霍普金斯大学

  • 作者:Jeffrey Cheng、Marc Marone、Orion Weller、Dawn Lawrie等

  • 论文地址:https://openreview.net/pdf?id=wS7PxDjy6m

大型语言模型 (LLM) 通常有「知识截止日期」,即收集训练数据的时间。该信息对于需要 LLM 提供最新信息的应用场景至关重要。

然而,训练数据中所有子资源是否共享相同的「知识截止日期」?模型响应展示出的知识是否与数据截止值一致?

该论文定义了「有效截止」的概念,它与 LLM 报告的「知识截止日期」不同,并且训练数据子资源之间也有所不同。该研究提出了一种简单的方法,通过跨版本的数据探测来估计 LLM 在资源级别的有效截止点。至关重要的是,该方法不需要访问模型的预训练数据。

通过分析,该研究发现有效的截止值通常与报告的截止值有很大不同。为了了解这一观察结果的根本原因,该研究对开放的预训练数据集进行了大规模分析。

分析揭示了造成这些不一致的两个主要原因:

  • 由于新 dump 中存在大量旧数据,导致 CommonCrawl 数据出现时间错位; 

  • LLM 重复数据删除方案的复杂性涉及语义重复和词汇近似重复。

论文 2:Mamba: Linear-Time Sequence Modeling with Selective State Spaces

  • 机构:卡内基梅隆大学、普林斯顿大学

  • 作者:Albert Gu、Tri Dao

  • 论文地址:https://arxiv.org/pdf/2312.00752

自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,但随着模型规模扩大和处理序列变长,其计算效率问题凸显,特别是在长上下文中,计算量将呈平方级增长。

为解决这一问题,研究者们围绕注意力开发了多种变体,如线性注意力、门控卷积、循环模型、SSMs 等,但它们在语言等模态上的表现并不理想,无法进行基于内容的推理。

基于此,论文作者进行了几项改进。首先,让 SSM 参数成为输入的函数,解决了离散模态的弱点,使模型能根据当前 token 有选择地传播或遗忘信息。

这种改动导致卷积效率降低,对模型的计算带来了挑战。论文作者设计了一种硬件感知算法,将先前的 SSM 架构设计与 Transformer 的 MLP 块合并为一个块,简化了深度序列模型架构,形成了一种包含选择性状态空间的简单、同质的架构设计(Mamba)。

Mamba 可以随上下文长度的增加实现线性扩展,其性能在实际数据中可提高到百万 token 长度序列,并实现 5 倍的推理吞吐量提升。

作为通用序列模型的骨干,Mamba 在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面,无论是预训练还是下游评估,他们的 Mamba-3B 模型都优于同等规模的 Transformer 模型,并能与两倍于其规模的 Transformer 模型相媲美。

更多详情,可以参考本站之前的报道:五倍吞吐量,性能全面包围 Transformer:新架构 Mamba 引爆 AI 圈。

论文 3:AI-generated text boundary detection with RoFT

  • 机构:俄罗斯 AI 基金会与算法实验室、英国伦敦玛丽女王大学、日本 Noeon 研究所、斯科尔科沃科学技术学院等

  • 作者:Laida Kushnareva, Tatiana Gaintseva, Dmitry Abulkhanov等

  • 论文地址:https://arxiv.org/pdf/2311.08349

随着大语言模型的发展,我们越来越频繁地遇到这样的情况:一篇文章起初可能出自人类之手,但随后可能被 AI 接手加以润色。如何从这种文本中检测出人类写作与机器生成的界限?这是一个具有挑战性的问题,但还尚未得到太多关注。

论文作者试图填补这一空白。他们对最先进的检测方法进行了测试。具体而言,他们采用「真假文本」测试集,测试了在极限情况下,这些方法的表现。「真假文本」测试集包含各种语言模型生成的多个主题的短文本。

他们发现,基于困惑度的边界检测方法,在处理特定领域的数据时,比对 RoBERTa 模型进行监督式的方法更加鲁棒。他们还发现了一些特定的文本特征。这些特征可能会干扰边界检测算法的判断,导致算法在处理跨领域的文本时,其性能会下降。

论文 4:Auxiliary task demands mask the capabilities of smaller language models

  • 机构:哈佛大学、斯坦福大学

  • 作者:Jennifer Hu、Michael Frank

  • 论文地址:https://openreview.net/forum?id=U5BUzSn4tD#discussion

发展心理学家一直在争论语言理解或心理理论等认知能力何时出现。这些争论通常取决于「任务要求」的概念 —— 与执行特定评估相关的挑战。在衡量语言模型 (LM) 的能力时,任务的性能是模型基础知识的函数,再加上模型在给定可用资源的情况下解释和执行任务的能力。

该研究表明,对于类比推理、反思推理、单词预测和语法判断,任务要求较高的评估方法比要求减少的评估方法产生的性能更低。对于参数较少和训练数据较少的模型,这种「需求差距」最为明显。实验结果表明,LM 的性能不应被解释为智能(或缺乏智能)的直接表现,而应被解释为通过研究人员设计选择的视角所看到的能力反映。


# 的是  # 斯坦福大学  # 模态  # 普林斯顿  # 较少  # 门控  # 进行了  # 截止日期  # 都是  # 架构  # 这一  # https  # nlp  # transformer  # 算法  # 循环  # Token  # html 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 豆包AI能否生成领导汇报版总结_豆包AI汇报版精简与结构调整【教程】  如何使用 Gemini 进行 Google Cloud 架构成本预估  Feelin聊天网页版地址 Feelin AI官方网站首页  播客成功的秘诀:打造高转化率的内容和社区  如何用AI一键生成名片设计 AI个人电子名片制作指南【教程】  途牛旅游AI怎样设置抢票提醒_途牛AI抢票提醒时间与频率设置【方法】  AI驱动保险代理:最佳保险 lead generation 公司与服务  汽车“以旧换新”补贴升级:2026年置换最高补1.5万元  AI聊天机器人:朋友还是谄媚者?深度解析与实用建议  Ifor Williams拖车终极指南:农场主的选择和省税秘诀  Midjourney怎样加风格词调质感_Midjourney风格词技巧【指南】  PlotDot Horizon:AI编剧工具颠覆好莱坞?深度评测  如何用AI一键生成求职简历?AI简历优化与制作工具推荐【干货】  GitHub Copilot与Azure AI Foundry模型:加速AI编程实践  怎么用AI帮你解读复杂的学术论文?快速抓住核心论点和证据  Cred.ai信用卡深度评测:信用提升的秘密武器  播客数据深度分析:用户地域分布及增长策略探讨  XRAI Glass:AI赋能的增强现实眼镜,对话新体验  如何通过 DeepSeek 优化分布式存储系统架构  怎么用AI帮你写一份有说服力的加薪申请?  如何配置 DeepSeek 以支持企业级私有化部署  EdrawMind终极评测:AI赋能思维导图,提升效率与创造力  Filmora AI 语音增强和降噪终极指南  乐高积木重现约拿的故事:圣经故事趣味解读  如何用AI帮你设计调查问卷?科学提问,精准收集反馈  AI驱动的合同审查:Adobe Acrobat AI助手提升效率与准确性  豆包 AI 辅助进行精简版个人周报撰写技巧  11月电动两轮车线上销售排名出炉:九号份额达26.9%  AI伴侣:连接还是孤独?真实对话揭秘AI伦理困境  AI图像生成平台深度对比:Midjourney vs. Stable Diffusion  秀米AI智能排版怎样生成节日专题模板_秀米AI智能排版节日模板调用【技巧】  稿定AI智能设计怎样自动生成电商Banner_稿定AI智能设计Banner生成流程【步骤】  利用AI模板高效创建产品需求文档 (PRD)  在线奇幻名称生成器:打造独一无二的角色名  斑马AI怎样注册账号_斑马AI注册流程与儿童信息绑定【教程】  AI自动化工作流:Zapier提升效率,优化工作流程  智行ai抢票能否抢下铺票_智行ai抢票下铺优先设置与成功率提升【技巧】  文心一言 4.0 在公文写作规范中的实战技巧  AI数字人教程:轻松打造专属YouTube虚拟形象  DeepSeek V3 本地部署对硬件要求的详细说明  P&ID图完全解析:符号、应用及绘制指南  百度AI搜索如何开启无痕搜索_百度AI搜索无痕模式设置与隐私保护【攻略】  AI写作鱼怎么一键生成论文大纲_AI写作鱼大纲生成与逻辑梳理【技巧】  千问如何生成预算执行总结_千问预算数据与执行对比分析【方法】  找不到百度AI助手入口 最新官网登录入口  AI绘画工具怎么用_AI绘画工具使用方法详细指南【教程】  提升Fortnite OG游戏性能:NVIDIA控制面板最佳设置  Excel Copilot:AI驱动的强大新功能与实用案例解析  lovemo手机网页版入口 lovemo官网登录网址  ChatGPT背后的AI革命:OpenAI的崛起与Google的危机 

 2024-10-09

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.