多模态自监督学习:探讨目标函数、数据对齐和模型架构——以爱丁堡最新综述为例


多模态学习旨在理解和分析来自多种模态的信息,近年来在监督机制方面取得了实质性进展。

然而,对数据的严重依赖加上昂贵的人工标注阻碍了模型的扩展。与此同时,考虑到现实世界中大规模的未标注数据的可用性,自监督学习已经成为缓解标注瓶颈的一种有吸引力的策略。

基于这两个方向,自监督多模态学习(SSML)提供了从原始多模态数据中利用监督的方法。

论文地址:https://arxiv.org/abs/2304.01008

项目地址:https://github.com/ys-zong/awesome-self-supervised-multimodal-learning

在本综述中,我们对SSML的最先进技术进行了全面的回顾,我们沿着三个正交的轴进行分类: 目标函数、数据对齐和模型架构。这些坐标轴对应于自监督学习方法和多模态数据的固有特征。

具体来说,我们将训练目标分为实例判别、聚类和掩码预测类别。我们还讨论了训练期间的多模态输入数据配对和对齐策略。最后,回顾了模型架构,包括编码器、融合模块和解码器的设计,这些是SSML方法的重要组成部分。

回顾了下游的多模态应用任务,报告了最先进的图像-文本模型和多模态视频模型的具体性能,还回顾了SSML算法在不同领域的实际应用,如医疗保健、遥感和机器翻译。最后,讨论了SSML面临的挑战和未来的方向。

1.  引言

类通过各种感官感知世界,包括视觉、听觉、触觉和嗅觉。我们通过利用每个模态的互补信息来全面了解我们的周围环境。AI研究一直致力于开发模仿人类行为并以类似方式理解世界的智能体。为此,多模态机器学习领域[1]、[2]旨在开发能够处理和整合来自多个不同模态的数据的模型。近年来,多模态学习取得了重大进展,导致了视觉和语言学习[3]、视频理解[4]、[5]、生物医学[6]、自动驾驶[7]等领域的一系列应用。更根本的是,多模态学习正在推进人工智能中长期存在的接地问题[8],使我们更接近更一般的人工智能。

然而,多模态算法往往仍然需要昂贵的人工标注才能进行有效的训练,这阻碍了它们的扩展。最近,自监督学习(SSL)[9],[10]已经开始通过从现成的标注数据中生成监督来缓解这一问题。单模态学习中自监督的定义相当完善,仅取决于训练目标,以及是否利用人工标注进行监督。然而,在多模态学习的背景下,它的定义则更为微妙。在多模态学习中,一种模态经常充当另一种模态的监督信号。就消除人工标注瓶颈进行向上扩展的目标而言,定义自我监督范围的关键问题是跨模态配对是否自由获取。

通过利用免费可用的多模态数据和自监督目标,自监督多模态学习(SSML)显著增强了多模态模型的能力。在本综述中,我们回顾了SSML算法及其应用。我们沿着三个正交的轴分解各种方法:目标函数、数据对齐和模型架构。这些坐标轴对应于自监督学习算法的特点和多模态数据所需的具体考虑。图1提供了拟议分类法的概述。基于前置任务,我们将训练目标分为实例判别、聚类和掩码预测类别。还讨论了将这些方法中的两种或两种以上结合起来的混合方法。

多模态自监督所特有的是多模态数据配对的问题。模态之间的配对,或者更一般的对齐,可以被SSML算法利用作为输入(例如,当使用一种模态为另一种模态提供监督时),但也可以作为输出(例如,从未配对的数据中学习并将配对作为副产品诱导)。我们讨论了对齐在粗粒度上的不同作用,这种粗粒度通常被假定在多模态自监督中免费可用(例如,网络爬取的图像和标题[11]);有时由SSML算法显式或隐式诱导的细粒度对齐(例如,标题词和图像块[12]之间的对应关系)。此外,我们探索了目标函数和数据对齐假设的交集。

还分析了当代SSML模型架构的设计。具体来说,我们考虑编码器和融合模块的设计空间,将特定模式的编码器(没有融合或具有后期融合)和具有早期融合的统一编码器进行对比。我们也检查具有特定解码器设计的架构,并讨论这些设计选择的影响。

最后,讨论了这些算法在多个真实世界领域的应用,包括医疗保健、遥感、机器翻译等,并对SSML的技术挑战和社会影响进行了深入讨论,指出了潜在的未来研究方向。我们总结了在方法、数据集和实现方面的最新进展,为该领域的研究人员和从业人员提供一个起点。

现有的综述论文要么只关注有监督的多模态学习[1],[2],[13],[14],或单模态自监督学习[9],[10],[15],或SSML的某个子区域,例如视觉-语言预训练[16]。最相关的综述是[17],但它更侧重于时间数据,忽略了对齐和架构的多模态自监督的关键考虑因素。相比之下,我们提供了一个全面和最新的SSML算法综述,并提供了一个涵盖算法、数据和架构的新分类法。

2. 背景知识

多模态学习中的自监督

我们首先描述了本次调研中所考虑的SSML的范围,因为这个术语在之前的文献中使用不一致。通过调用不同借口任务的无标签性质,在单模态环境中定义自监督更为直接,例如,著名的实例辨别[20]或掩盖预测目标[21]实现了自监督。相比之下,多模态学习中的情况更加复杂,因为模态和标签的作用变得模糊。例如,在监督图像字幕[22]中,文本通常被视为标签,但在自监督多模态视觉和语言表示学习[11]中,文本则被视为输入模态。

在多模态环境中,术语自监督已被用于指至少四种情况:(1)从自动成对的多模态数据中进行无标签学习——例如带有视频和音频轨道的电影[23],或来自RGBD摄像机[24]的图像和深度数据。(2)从多模态数据中学习,其中一个模态已经被手动标注,或者两个模态已经被手动配对,但这个标注已经为不同的目的创建,因此可以被认为是免费的,用于SSML预训练。例如,从网络爬取的匹配图像-标题对,如开创性的CLIP[11]所使用的,实际上是监督度量学习[25],[26]的一个例子,其中配对是监督。然而,由于模式和配对都是大规模免费提供的,因此它通常被描述为自监督的。这种未经策划的偶然创建的数据通常比专门策划的数据集(如COCO[22]和Visual Genome[27])质量更低,噪音更大。(3)从高质量的目的标注的多模态数据(例如,COCO[22]中的手动字幕图像)中学习,但具有自监督的风格目标,例如Pixel-BERT[28]。(4)最后,还有一些“自监督”方法,它们混合使用免费和手动标注的多模态数据[29],[30]。为了本次调查的目的,我们遵循自监督的思想,旨在通过打破手动标注的瓶颈来扩大规模。因此,就能够在免费可用的数据上进行训练而言,我们包括了前面两类和第四类方法。我们排除了仅显示用于手动管理数据集的方法,因为它们在管理数据集上应用典型的“自监督”目标(例如,屏蔽预测)。

(a)监督式多模态学习和(b)自监督式多模态学习的学习范式:无手动标注的自监督预训练(上);对下游任务进行监督微调(下)。

3. 目标函数

在本节中,我们将介绍用于训练三类自监督多模态算法的目标函数:实例判别、聚类和掩盖预测。最后我们还讨论了混合目标。

3.1 实例判别

在单模学习中,实例判别(instance discrimination, ID)将原始数据中的每个实例视为一个单独的类,并对模型进行训练,以区分不同的实例。在多模态学习的背景下,实例判别通常旨在确定来自两个输入模态的样本是否来自同一个实例,即配对。通过这样做,它试图对齐成对模式的表示空间,同时将不同实例对的表示空间推得更远。有两种类型的实例识别目标:对比预测和匹配预测,这取决于输入是如何采样的。

3.2 聚类

聚类方法假设应用经过训练的端到端聚类将导致根据语义显著特征对数据进行分组。在实践中,这些方法迭代地预测编码表示的聚类分配,并使用这些预测(也称为伪标签)作为监督信号来更新特征表示。多模态聚类提供了学习多模态表示的机会,还通过使用每个模态的伪标签监督其他模态来改进传统聚类。

3.3 掩码预测

掩码预测任务可以采用自动编码(类似于BERT[101])或自动回归方法(类似于GPT[102])来执行。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜


# 多模  # 模态  # 的是  # 掩码  # 多个  # 两种  # 并对  # 最先进  # 类似于  # 相比之下 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 通义千问怎样优化提示词减冗余_通义千问减冗余技巧【方法】  智行ai抢票能否抢下铺票_智行ai抢票下铺优先设置与成功率提升【技巧】  SmartEbook AI:下一代电子书创作工具,轻松实现被动收入  GitHub Copilot CLI:终端中的 AI 编码助手  n8n:零代码AI自动化平台的终极指南和免费VPS设置  豆包Ai在线使用入口_豆包Ai官方网站最新登录地址  Gemini怎样连接Google账号_Gemini账号连接方法【方法】  QRCODE.AI深度评测:AI驱动的二维码生成器优缺点分析  2025年生成式AI发展蓝图:娱乐、医疗及创意产业的革新  客户生命周期价值:终极商业增长策略  AI周报生成工具有哪些_一键生成工作总结的AI工具推荐  AISIA O1皮肤检测仪操作指南:安装、使用、疑难解答  135编辑器AI排版怎样快速上手_135编辑器AI排版新手入门与功能介绍【教程】  文心一言 4.0 在公文写作规范中的实战技巧  使用ChatGPT快速生成专辑封面:AI艺术创作指南  AI旅游攻略生成工具有哪些_一键生成行程规划的AI工具推荐  教你用AI一键为代码添加注释,小白也能读懂复杂程序  Telegram与n8n集成教程:自动化AI助手构建指南  Xeon E5-2667 V2性能评测:老平台焕发新生,游戏与工作负载表现分析  grokai如何生成动态图表_grokai动态图表生成工具使用及数据可视化技巧  恐怖游戏惊魂:虚拟主播带你逃离病娇女孩的魔爪  智行ai抢票怎样设置抢票通道_智行ai抢票通道选择与速度优化【指南】  ChatGPT新手指南:大学生如何高效利用AI工具?  AI任务管理器终极评测:找到最适合你的效率神器  智能合约简明教程:概念、应用与未来趋势  RPGGO AI:颠覆传统!2D游戏创作新纪元  WorkPPT:AI驱动的PPT制作神器,效率提升不止10倍!  图像分割技术详解:定义、类型、技术与应用  银行对账单解读完全指南:掌握财务状况,优化资金管理  AI绘图软件怎么用_AI绘图软件使用方法详细指南【教程】  利用AI自动化生成电子书:Make.com的终极教程  Shopify着陆页:用AI工具快速提升营销效果  精明小鱼:儿童动画寓言故事及启示  OpenArt:终极AI内容创作平台,图像、视频和角色一致性  利用AI快速生成数组和枚举:详细指南与实用技巧  智谱清言分析数据怎么用_智谱清言分析数据使用方法详细指南【教程】  2025最佳AI效率工具:释放生产力,革新业务运营  批改网ai检测工具如何导出检测报告_批改网ai检测工具报告导出格式【步骤】  如何利用AI优化简历关键词?轻松通过ATS筛选系统  法国历史古迹修复:探秘 Château de Purnon 城堡的艺术与挑战  解锁生成式AI工程师之路:技能、职业发展与未来趋势  解密Poppy Playtime怪物:全面解析玩具世界背后的故事  热门科技新闻:BetterHelp、Photoshop AI、AMD CPU及NVIDIA显卡  清洁扫地机器人传感器:解决导航和充电难题  BeFunkyAI排版怎么给图片加艺术字_BefunkyAI排版艺术字添加与样式调整【指南】  Kling 2.0终极指南:AI视频创作秘籍,告别低质量  揭秘:发电机咒语的音频魔力与音乐的力量  OpenAI Codex最强攻略:提升AI编码效率的秘诀  XRAI Glass:AI赋能的增强现实眼镜,对话新体验  百度浏览器ai对话怎么关 百度浏览器ai聊天窗口隐藏 

 2023-04-26

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.