北大具身智能新成果:无需训练,听指令就能灵活走位


北京大学董豪团队具身导航最新成果来了:

无需额外建图和训练,只需说出导航指令,如:

Walk forward across the room and walk through the panty followed by the kitchen. Stand at the end of the kitchen

我们就能控制机器人灵活移动。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在此,机器人靠的是主动与大模型构成的“专家团队”沟通完成指令分析、视觉感知、完成估计和决策测试等一系列视觉语言导航关键任务。

目前项目主页和论文都已上线,代码即将推出:

机器人如何根据人类指令导航?

视觉语言导航涉及到一系列子任务,包括指令分析,视觉感知,完成估计和决策测试。

这些关键任务需要不同领域知识,它们环环相扣决定机器人的导航能力。

受到现实中专家讨论行为的启发,北大董豪团队提出DiscussNav导航系统。

作者首先以提示方式赋予LLM(大语言模型)和MLM(多模态大模型)专家角色和特定任务,激活它们的领域知识和能力,由此构建具备不同特长的视觉导航专家团队。

然后,作者设计了讨论问题语料库和讨论机制,遵循该机制,由LLM驱动的导航机器人可以主动发起一系列与视觉导航专家的讨论。

在每一步移动前,导航机器人都会与专家讨论来理解人类指令中要求的动作和提及的物体标志。

进而依据这些物体标志的类型有倾向性地对周围环境进行感知,指令完成情况估计,由此做出初步的移动决策。

在决策过程中,导航机器人会根据Chain-of-Thought(思维链)同时生成N个独立的预测结果,当这些预测结果之间不一致时,机器人会向决策测试专家求助,筛选出最终的移动决策。

从这个过程我们可以看到,相比传统方法需要进行额外的预训练,这个方法通过与大模型专家交互指导机器人根据人类指令移动,直接解决了机器人导航训练数据稀缺的问题

更进一步,正是由于这个特点,它也实现了零样本能力,只要遵循以上讨论流程,就能follow多样的导航指令。

以下是DiscussNav在经典的视觉语言导航数据集Room2Room上的表现。

可以看到,它显著高于所有零样本方法,甚至超过两个经过训练的方法

作者进一步在Turtlebot4移动机器人上开展真实室内场景导航实验。

凭借专家角色扮演和讨论激发出的大模型强大的语言和视觉泛化能力,DiscussNav在真实世界的表现明显优于之前最优的零样本方法和经过预训练微调的方法, 展现出良好的sim-to-real迁移能力。

通过实验,作者进一步发现,DiscussNav产生了4个强大的能力

1、识别开放世界物体,比如“白色桌子上的机械手臂”,“椅子上的泰迪熊”。

2、识别细粒度的导航标志物体,比如“厨房柜台上的植物”,“桌上的纸箱”。

3、纠正其它专家在讨论中回复的错误信息,比如标志提取专家在从导航动作序列提取导航标志前会检查并纠正被错误分解的动作序列。

4、排除不一致的移动决策,比如决策测试专家们可以根据当前环境信息从DiscussNav预测的多个不一致的移动决策中选择最合理的一个作为最终移动决定。

“*和大模型先验是Free Lunch”

通讯作者董豪在之前的报告中提出,深入探索如何有效利用*数据和大模型从海量数据中学习到的先验知识是未来具身智能研究的发展方向。

目前受限于数据规模和探索真实环境的高昂成本,具身智能研究仍将重点关注*平台实验和*数据训练。

近期大模型的进展为具身智能提供新方向,合理发掘和利用大模型中存在的语言常识和物理世界先验将推动具身智能发展。

论文地址: https://arxiv.org/abs/2309.11382


# https  # 就能  # 可以看到  # 的是  # 来了  # 北京大学  # 多个  # 在此  # 环环相扣  # 只需  # 人会 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 百度ai助手工具栏怎么关 百度ai助手状态栏隐藏  通义千问网页版怎么切换账号_通义千问账号切换步骤【指南】  N8N工作流:自动化知识管理与智能问答解决方案  AI海报设计终极指南:工具、技巧与避坑全攻略  如何用AI根据职位描述(JD)定制你的求职信?  Claude怎么用新功能诗歌创作_Claude诗歌创作使用【方法】  lovemo网页版地址 lovemo官网手机登录  现代集团CES 2026首秀机器人Atlas 发布AI机器人战略  阿里通义app怎么用_阿里通义app使用方法详细指南【教程】  精选AI销售工具:提升业绩的终极指南(2025年最新)  DeepSeek写合同怎么用_DeepSeek写合同使用方法详细指南【教程】  《高龄母亲》:从日本民间故事中汲取的人生智慧与家庭真谛  Notta AI: 提升效率的智能会议纪要工具  深度学习姿态估计:技术、应用与未来趋势全解析  AI如何变革法律行政助理角色?未来发展趋势分析  怎么用AI帮你写一份有说服力的加薪申请?  利用AI赋能教育:学习方式的未来之路  专家:26年1月中国车市将实现“开门红” 高端增长强劲  随机故事生成器:激发创意,轻松创作精彩故事  tofai官网最新入口地址 tofai网页版免下载  Kindroid AI:打造你的专属虚拟伙伴,开启AI社交新体验  AI猫咪视频创作指南:轻松打造百万级YouTube Shorts  一键生成PPT工具怎么用_一键生成PPT工具使用方法详细指南【教程】  机器学习赋能AI生产力工具:提升效率与智能决策  都灵裹尸布之谜:AI揭示耶稣基督的真实面貌?  Claude怎么用新功能会议纪要_Claude纪要生成使用【步骤】  Midjourney怎么用一键生成logo_Midjourneylogo生成步骤【教程】  GitHub Copilot CLI:终端中的 AI 编码助手  批改网AI检测工具怎么关联班级学生_批改网AI检测工具班级绑定与学生管理【步骤】  AI卡通视频制作终极指南:轻松打造百万流量  ChatGPT打造AI助手:10倍提升效率,掌控你的生活  豆包AI能否用提示词调整回答深度_豆包AI深度控制提示词技巧【方法】  通义千问怎么找新功能入口_通义千问新功能查找【攻略】  AI朋友圈文案生成工具有哪些_一键生成营销文案的AI工具推荐  网络安全警钟:揭秘“美足”背后隐藏的危机与防范  ChatGPT多轮对话技巧分享 引导AI深入探讨复杂问题的方法  如何通过 DeepSeek 进行深度神经网络超参数搜索  怎么用AI帮你解读复杂的学术论文?快速抓住核心论点和证据  ChatGPT官方网页端入口 ChatGPT官网快速登录方法  通义千问怎么用_通义千问使用方法详细指南【教程】  lovemo手机网页版入口 lovemo官网登录网址  免费AI头像生成终极指南:逼真、个性化、无水印  历史影像解密:唇语专家如何还原一战士兵对话?  批改网AI检测工具怎么生成评分报告_批改网AI检测工具报告生成与维度解读【指南】  斑马AI能否关联学校教材_斑马AI教材同步与版本匹配【技巧】  Mootion AI视频生成器:一键创作动画故事!  AI语音生成指南:免费工具、变现实战与避坑策略  P&ID图完全解析:符号、应用及绘制指南  探索未来:AI机器人AURORA揭秘亚特兰蒂斯之谜  Gamma做年终总结PPT怎么用_Gamma做年终总结PPT使用方法详细指南【教程】 

 2023-11-06

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.