本论文作者杨睿是中国科学技术大学 2019 级硕博连读生,师从王杰教授、李斌教授,主要研究方向为强化学习、自动驾驶等。他曾以第一作者在 neurips、kdd 等顶级期刊与会议上发表论文两篇,曾获滴滴精英实习生(16/1000+)。
近日,中科大王杰教授团队 (MIRA Lab) 针对离线强化学习数据集存在多类数据损坏这一复杂的实际问题,提出了一种鲁棒的变分贝叶斯推断方法,有效地提升了智能决策模型的鲁棒性,为机器人控制、自动驾驶等领域的鲁棒学习奠定了重要基础。论文发表在 CCF-A 类人工智能顶级会议 Neural Information Processing Systems(NeurIPS 2025)。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
引言
在机器人控制领域,离线强化学习正逐渐成为提升智能体决策和控制能力的关键技术。然而,在实际应用中,离线数据集常常由于传感器故障、恶意攻击等原因而遭受不同程度的损坏。这些损坏可能表现为随机噪声、对抗攻击或其他形式的数据扰动,影响数据集中的状态、动作、奖励和转移动态等关键元素。经典离线强化学习算法往往假设数据集是干净、完好无损的,因此在面对数据损坏时,机器学习到的策略通常趋向于损坏数据中的策略,进而导致机器在干净环境下的部署时性能显著下降。
尽管研究者在鲁棒离线强化学习领域已经取得了一些进展,如一些方法尝试通过增强测试期间的鲁棒性来缓解噪声或对抗攻击的影响,但它们大多在干净数据集上训练智能体模型,以防御测试环境中可能出现的噪声和攻击,缺乏对训练用离线数据集存在损坏的应对方案。而针对离线数据损坏的鲁棒强化学习方法则只关注某一特定类别的数据存在损坏,如状态数据、或转移动态数据存在部分损坏,他们无法有效应对数据集中多个元素同时受损的复杂情况。
为了针对性地解决这些现有算法的局限性,我们提出了一种鲁棒的变分贝叶斯推断方法(TRACER),有效地增强了离线强化学习算法在面临各类数据损坏时的鲁棒性。TRACER 的优势如下所示:
1. 据我们所知,TRACER 首次将贝叶斯推断引入到抗损坏的离线强化学习中。通过将所有离线数据作为观测值,TRACER 捕捉了由各类损坏数据所导致的动作价值函数中的不确定性。
2. 通过引入基于熵的不确定性度量,TRACER 能够区分损坏数据和干净数据,从而调控并减弱损坏数据对智能体模型训练的影响,以增强鲁棒性。
3. 我们在机器人控制(MuJoCo)和自动驾驶(CARLA)*环境中进行了系统性地测试,验证了 TRACER 在各类离线数据损坏、单类离线数据损坏的场景中均显著提升了智能体的鲁棒性,超出了多个现有的 SOTA 方法。
1. 方法介绍
1.1 动机
考虑到(1)多种类型的损毁会向数据集的所有元素引入较高的不确定性,(2)每个元素与累积奖励(即动作值、Q 值)之间存在明确的相关性关系(见图 1 中的虚线),因此使用多种受损数据估计累积奖励函数(即动作值函数)会引入很高的不确定性。
图 1. 决策过程的概率图模型。实线连接的节点表示数据集中的数据,而虚线连接的 Q 值(即动作值、累积回报)不属于数据集。
为了处理这类由多种数据损毁(即状态、动作、奖励、状态转移数据受损)导致的高不确定性问题,基于图 2 所示的概率图模型,我们提出利用数据集中的所有元素作为观测数据。我们旨在利用这些观测数据与累积奖励之间的高度相关性,来准确地识别动作值函数的不确定性。
1.2 基于受损数据的贝叶斯推断
我们提出使用离线数据集的所有元素作为
观测值,利用数据之间的相关性同时解决不确定性问题。具体地,基于离线数据集中动作价值与四个元素(即状态、动作、奖励、下一状态)之间的关系,我们分别使用各个元素作为观测数据,通过引入变分贝叶斯推理框架,我们最大化动作值函数的后验分布,从而推导出各个元素对应的基于最大化证据下界 (ELBO) 的损失函数。基于对动作价值函数的后验分布的拟合,我们能有效地将数据损坏建模为动作值函数中的不确定性。
1.3 基于熵的不确定性度量
为了进一步应对各类数据损坏带来的挑战,我们思考如何利用不确定性进一步增强鲁棒性。鉴于我们的目标是提高在干净环境中的智能体性能,我们提出减少损坏数据的影响,重点是使用干净数据来训练智能体。因此,我们提供了一个两步计划:(1)区分损坏数据和干净数据;(2)调控与损坏数据相关的损失,减少其影响,从而提升在干净环境中的表现。
对于(1),由于损坏数据通常会造成比干净数据更高的不确定性和动作价值分布熵,因此我们提出通过估计动作值分布的熵,来量化损坏数据和干净数据引入的不确定性。
对于 (2),我们使用分布熵指数的倒数来加权我们提出的 ELBO 损失函数。因此,在学习过程中,TRACER 能够通过调控与损坏数据相关的损失来减弱其影响,并同时专注于最小化与干净数据相关的损失,以增强在干净环境中的鲁棒性和性能。
1.4 算法架构
图 2. TRACER 算法框架图。
2. 实验介绍
为了模拟数据受损的情形,我们对数据集的部分数据加入随机噪声或对抗攻击来构建损坏数据。在我们的实验中,我们对 30% 的单类数据进行损坏。因此,在所有类型的数据都有损坏时,整个离线数据集中,损坏数据占约的规模。
各类数据均受损
所有类型数据元素均存在损坏的部分实验结果见表 1,TRACER 在所有控制环境中均获得了较为明显的性能提升,提升幅度达 + 21.1%,这一结果展现了 TRACER 对大规模、各类数据损坏的强鲁棒性。
表 1. 离线数据集的所有类型元素均存在随机损坏(random)或对抗损坏(advers)时,我们的方法 TRACER 在所有环境中都获得了最高的平均得分。
单类数据受损
单种类型数据元素存在损坏的部分实验结果见表 2 和表 3。在单类数据损坏中,TRACER 于 24 个实验设置里实现 16 组最优性能,可见 TRACER 面向小规模、单类数据损坏的问题也能有效地增强鲁棒性。
表 2. 单类元素存在随机损坏时,我们的方法 TRACER 在 8 个实验设置中获得了最高的平均得分。
表 3. 单类元素存在对抗损坏时,我们的方法 TRACER 在 8 个实验设置中获得了最高的平均得分。
# 有效地
# 都有
# 中均
# 见表
# 所示
# 提出了
# 多个
# 这一
# 获得了
# 机器人技术
# 离线
# 传感器
# https
# 人工智能
# 算法
# github
# 架构
# git
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
稿定设计AI抠图怎样处理复杂边缘_稿定设计AI复杂边缘细化技巧【技巧】
PlotDot Horizon:AI编剧工具颠覆好莱坞?深度评测
Telegram与n8n集成教程:自动化AI助手构建指南
Beats to Rap On AI Stem Splitter:终极音乐创作工具
怎么用AI帮你写一份有说服力的加薪申请?
智谱AI绘画怎么用_智谱AI绘画使用方法详细指南【教程】
如何用AI一键生成手机壁纸?4K高清AI壁纸生成关键词【分享】
颠覆工作方式:2025年必备的9款强大AI工具
AI内容审查:谷歌搜索结果是否受到人为干预?
Amazon Rekognition: 图像与视频分析的强大AI工具
Google Gemini 处理结构化 XML 数据转换教程
利用AI模板高效创建产品需求文档 (PRD)
AI对决:挑战AI上帝,探索信仰与科技的边界
Artspace.ai: AI驱动的创意设计平台,提升小企业营销效率
ChatGPT一键生成PPT怎么加目录_ChatGPTPPT目录添加【步骤】
AI海报设计终极指南:免费智能工具,手机轻松搞定!
轻松制作圣经视频:无需露脸也能赚钱的教程
蚂蚁阿福官方网站入口_网页版在线解读体检报告
Azure AI 文本分类指南:自定义模型,提高文本分析精度
如何用AI帮你创建自定义表情符号(Emoji)?聊天斗图更有趣
如何利用 DeepSeek 进行多轮复杂对话的状态管理
如何用AI自动生成Python代码 AI编程助手ChatGPT使用方法【教程】
小型邮件列表的终极指南:使用AI最大化营销效果
使用ChatGPT快速生成专辑封面:AI艺术创作指南
壹伴AI智能排版如何自动生成文章配图_壹伴AI智能排版配图生成与版权说明【教程】
1-11月30万元以上插电混动车型销量榜:问界双车前二
Comet浏览器:使用ChatGPT增强您的搜索体验
Canva AI终极指南:免费AI聊天机器人,设计、视频、网站全搞定!
Claude怎样用提示词控制输出长度_Claude输出长度设置【教程】
AdobeExpressAI智能排版怎么快速生成Logo_AdobeExpressAI智能排版Logo生成入口【步骤】
Google AI Studio 中的提示词微调实验教程
AI赋能!图形设计师必备的顶级AI工具
AI PPT生成工具有哪些_一键生成演示文稿的AI工具推荐
涉及超300座!保时捷中国宣布自建充电站将停止运营
教你用AI快速制作思维导图,3步理清所有工作思路
AI视频创作新纪元:CogVideoX Flash模型深度解析
5分钟教你用AI将你的研究数据生成可视化的图表和摘要
AI生成克里希纳短视频:一步步教程,快速爆款!
苹果手机百度ai怎么关 iPhone百度输入法ai关闭
n8n教程:如何用AI自动生成个性化简历
Gemini 与 Google Drive 结合的文件智能检索
Midjourney怎样加风格词调质感_Midjourney风格词技巧【指南】
ChatGPT图像生成器完全指南:文化影响、伦理挑战与商业变革
AI CRM集成:提升客户关系管理效率的关键
播客数据深度分析:揭秘全球听众分布及增长策略
Apollo.io vs Instantly AI:深度测评与功能对比
AI海报设计终极指南:工具、技巧与避坑全攻略
都灵裹尸布之谜:AI揭示耶稣基督的真实面貌?
如何用ChatGPT准备面试 模拟面试问答与职场话术练习教程
AI末日预言?智能聊天机器人真的能替代信仰吗?
2024-11-16
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。