谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练


效果更稳定,实现更简单。

大型语言模型(LLM)的成功离不开「基于人类反馈的强化学习(RLHF)」。RLHF 可以大致可以分为两个阶段,首先,给定一对偏好和不偏好的行为,训练一个奖励模型,通过分类目标为前者分配更高的分数。然后通过某种强化学习算法优化这个奖励函数。然而,奖励模型的关键要素可能会产生一些不良影响。

来自卡内基梅隆大学(CMU)和 Google Research 的研究者联合提出了一种简单的、理论上严格的、实验上有效的 RLHF 新方法 —— 自我博弈偏好优化(Self-Play Preference Optimization,SPO)。该方法消除了奖励模型,并且不需要对抗性训练。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文:A Minimaximalist Approach to Reinforcement Learning from Human Feedback
文地址:https://arxiv.org/abs/2401.04056

方法简介

SPO 方法主要包括两个方面。首先,该研究通过将 RLHF 构建为两者零和博弈(zero-sum game),真正消除了奖励模型,从而更有能力处理实践中经常出现的噪声、非马尔可夫偏好。其次,通过利用博弈的对称性,该研究证明可以简单地以自我博弈的方式训练单个智能体,从而消除了不稳定对抗训练的需要。

实际上,这相当于从智能体中采样多个轨迹,要求评估者或偏好模型比较每对轨迹,并将奖励设置为轨迹的获胜率。
SPO 避免了奖励建模、复合 error 和对抗性训练。通过从社会选择理论(social choice theory)中建立最小最大获胜者的概念,该研究将 RLHF 构建为两者零和博弈,并利用该博弈支付矩阵的对称性来证明可以简单地训练单个智能体来对抗其自身。

该研究还分析了 SPO 的收敛特性,并证明在潜在奖励函数确实存在的情况下,SPO 能以与标准方法相媲美的快速速度收敛到最优策略。

实验

该研究在一系列具有现实偏好函数的连续控制任务上,证明了 SPO 比基于奖励模型的方法性能更好。SPO 在各种偏好设置中能够比基于奖励模型的方法更有效地学习样本,如下图 2 所示。

该研究从多个维度将 SPO 与迭代奖励建模 (RM) 方法进行比较,旨在回答 4 个问题:

  1. 当面 intransitive 偏好时,SPO 能否计算 MW?
  2. 在具有独特 Copeland Winners / 最优策略的问题上,SPO 能否匹配或超过 RM 样本效率?
  3. SPO 对随机偏好的稳健性如何?
  4. SPO 可以处理非马尔可夫偏好吗?

在最大奖励偏好、噪声偏好、非马尔可夫偏好方面,该研究的实验结果分别如下图 6、7、8 所示:

感兴趣的读者可以阅读论文原文,了解更多研究内容。


# Error  # 算法  # https  # 马尔  # 多个  # 法相  # 可夫  # 所示  # 最优  # 如下图  # 不需要  # 提出了  # 感兴趣 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 百度APP搜索框ai怎么关 百度APP搜索框ai图标去除  AI视频创作终极指南:文本到视频的免费工具与技巧  goPDF:AI驱动的PDF文档处理全方位指南,提升工作效率  AI赋能副业:五大掘金机会,轻松开启智能创收时代  3步教你用AI创作漫画脚本,从故事到分镜全搞定  AI视频生成器完全指南:免费工具、教程及最佳实践  银行对账单解读完全指南:掌握财务状况,优化资金管理  智能合约简明教程:概念、应用与未来趋势  SnappaAI排版如何生成社交媒体图_SnappaAI排版社媒图尺寸与风格选择【技巧】  AI照片编辑终极指南:一键打造潮流图像  提升企业效率:QR Platform管理后台功能全面解析  LTX Studio:AI电影制作平台深度评测与应用指南  如何用AI一键生成手机壁纸?4K高清AI壁纸生成关键词【分享】  豆包AI怎么评价回答的好坏_点赞与反馈功能使用教程  普通人如何用豆包AI月入过万?2026最新内容创作变现全攻略!  千问如何生成预算执行总结_千问预算数据与执行对比分析【方法】  OpenAI 播客精选:技术内幕、育儿经与AI未来  C3.ai深度解析:投资者必知的关键洞察  2025年冷邮件营销:技巧、工具和成功案例分享  Claude怎么用新功能代码调试_Claude代码调试使用【方法】  百度AI搜索怎样搜索百科知识_百度AI搜索百科频道与词条跳转【技巧】  探索心灵的音乐之旅:Kanwar Garewal的《Ishq Bulleh Nu》  探索Roblox:虚拟角色定制与互动乐园  豆包AI怎么关闭消息推送_通知与提醒管理设置教程  教你用AI帮你写一份完整的用户调研报告,从数据到结论全搞定  Canva AI终极指南:免费AI聊天机器人,设计、视频、网站全搞定!  2025数据科学学习指南:技能、工具和学习路线图  留学文书PS怎么写?教你用AI写出招生官眼前一亮的个人陈述  智行ai抢票能否抢下铺票_智行ai抢票下铺优先设置与成功率提升【技巧】  智行ai抢票能否跨站抢票_智行ai抢票跨站抢票开启与规则【教程】  PixianAI抠图如何导出PSD_PixianAI分层导出与PSD保存设置【实操】  批改网AI检测工具怎样优化检测精度_批改网AI检测工具精度调节与模型选择【实操】  AI怎么修复模糊视频 视频画质增强AI软件Topaz Video使用【教程】  AI 编码助手大比拼:Gemini、Tabnine 和 Cline 的深度测评  Excel Copilot:AI驱动的数据分析革命,提升效率秘籍  n8n教程:如何用AI自动生成个性化简历  Brevio AI:利用AI代理提升电商营销效果  AI邮件营销风险解析:如何规避客户触达的潜在陷阱  怎么用AI帮你写一份有说服力的加薪申请?  深度学习姿态估计:技术、应用与未来趋势全解析  P&ID图完全解析:符号、应用及绘制指南  LeetCode问题解析:移除回文子序列,掌握字符串技巧  Kaiber AI视频制作教程:轻松打造吸睛AI视频  AI视频工具:加速内容创作,提升效率的终极指南  使用 Claude 4 和 n8n 实现 AI 工作流自动化  AI简历生成工具有哪些_一键生成专业简历的AI工具推荐  豆包AI里的智能体有什么用_不同类型智能体使用场景介绍  SEO必备工具:网站分析与优化终极指南  免费AI头像生成终极指南:逼真、个性化、无水印  AI CRM集成:提升客户关系管理效率的关键 

 2024-02-15

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.