给语言大模型加上综合视听能力,达摩院开源Video-LLaMA


视频在当今社交媒体和互联网文化中扮演着愈发重要的角色,抖音,快手,B 站等已经成为数以亿计用户的热门平台。用户围绕视频分享自己的生活点滴、创意作品、有趣瞬间等内容,与他人互动和交流。

近期,大语言模型展现出了令人瞩目的能力。我们能否给大模型装上 “眼睛” 和 “耳朵”,让它能够理解视频,陪着用户互动呢?

从这个问题出发,达摩院的研究人员提出了 Video-LLaMA,一个具有综合视听能力大模型。Video-LLaMA 能够感知和理解视频中的视频和音频信号, 并能理解用户输入的指令,完成一系列基于音视频的复杂任务,例如音 / 视频描述,写作,问答等。目前论文,代码,交互 demo 都已开放。另外,在 Video-LLaMA 的项目主页中,该研究团队还提供了中文版本的模型,让中文用户的体验更丝滑。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

  • 论文链接:https://arxiv.org/abs/2306.02858
  • 代码地址:https://github.com/DAMO-NLP-SG/Video-LLaMA


  • Demo 地址:
  • Modelscope: https://modelscope.cn/studios/damo/video-llama/summary
  • Huggingface: https://huggingface.co/spaces/DAMO-NLP-SG/Video-LLaMA
  • 样例输入文件地址:
  • https://www./link/0fbce6c74ff376d18cb352e7fdc6273b

模型设计

Video-LLaMA 采用了模块化设计原则,把视频中的视觉和音频模态信息映射到到大语言模型的输入空间中,以实现跨模态指令跟随的能力。与之前侧重于静态图像理解的大模型研究(MiNIGPT4,LLaVA)不同,Video-LLaMA 面临着视频理解中的两个挑战:捕捉视觉中的动态场景变化和整合视听信号。

为了捕捉视频中的动态场景变化,Video-LLaMA 引入了一个可插拔的视觉语言分支。该分支首先使用 BLIP-2 中预训练好的图片编码器得到每一帧图像的单独特征,再与对应的帧位置嵌入结合后,所有图像特征被送入 Video Q-Former,Video Q-Former 将聚合帧级别的图像表示并且生成定长的综合视频表征。最后采用一个线性层将视频表征对齐到大语言模型的 embedding 空间。

至于视频中的声音信号,Video-LLaMA 使用音频 - 语言分支进行处理。首先从原始视频中均匀采样多个时长两秒的音频片段,并将每个片段转换为 128 维的梅尔频谱图。然后,采用强大的 ImageBind 作为音频编码器,单独提取每个声音片段的特征。在添加可学习的位置嵌入后,Audio Q-Former 将片段特征进行整体聚合,并生成固定长度的音频特征。与视觉语言分支类似,最后采用线性层将音频表征对齐到大语言模型的 embedding 空间。

为了减少训练成本,Video-LLaMA 冻结了预训练好的图片 / 音频编码器,只更新了视觉和音频分支中的以下参数:Video/Audio Q-Former,位置编码层以及线性层(如图 1 所示)。

为了学习视觉和文本的对齐关系,作者们首先利用大规模的视频 - 文本数据集 (WebVid-2M) 和图像 - 文本数据集(CC-595K)对视觉分支进行预训练。之后,作者们利用来自 MiniGPT-4,LLaVA 的图像指令数据集和来自 Video-Chat 的视频指令数据集来微调,从而达到更好的跨模态指令跟随能力。

至于音频 - 文本对齐关系的学习,由于缺乏大规模高质量的音频 - 文本数据,作者们采用了一种变通策略来达到这一目标。首先,音频 - 语言分支中可学习参数的目标可以理解为将音频编码器的输出与 LLM 的嵌入空间对齐。而音频编码器 ImageBind 具有非常强的多模态对齐能力,它能将不同模态的嵌入对齐到一个共同的空间中。因此,作者们使用视觉 - 文本数据来训练音频 - 语言分支,将 ImageBind 的公共嵌入空间对齐到 LLM 的文本嵌入空间,从而实现音频模态到 LLM 文本嵌入空间对齐。通过这种巧妙的方式,Video-LLaMA 能在推理过程中展现出理解音频的能力,即使从未接受过音频数据的训练。

实例展示

作者展示了 Video-LLaMA 基于视频 / 音频 / 图像的对话的一些例子。 

(1)下面两个例子展示了 Video-LLaMA 的视听综合感知能力,例子中的会话围绕有声视频展开。在例子二中,画面上仅仅显示了这个演奏家,但是声音中是观众的欢呼声和掌声,如果模型只能接受视觉信号,将无法推测到观众的积极响应,音频中并没有乐器的声音,但画面中出现了萨克斯,如果模型仅能接受听觉信号,也将无法得知演奏家演奏了萨克斯。

(2)Video-LLaMA 对于静态图像也有较强的感知理解能力,可以完成图片描述,问答等任务。

(3)令人惊奇的是,Video-LLaMA 能成功识别著名的地标和人物,并能进行常识性问答。比如下面 VIdeo-LLaMA 就成功识别出了白宫,并介绍了白宫的情况。又比如输入一张龙妈和囧雪的剧照(经典*剧《权利的游戏》中角色),VIdeo-LLaMA 不仅能够成功识别,而且能说出他们剪不断理还乱的关系。

(4)针对于视频的动态事件,Video-llama 也能很好捕捉,例如嘘声的动作,小船行驶的方向。

总结

目前,音频视频理解依旧是一个非常复杂,尚未有成熟解决方案的研究问题,Video-LLaMA 虽然表现出了令人印象深刻的能力,作者也提到了其存在一些局限性。

(1)有限的感知能力:Video-LLaMA 的视觉听觉能力仍然较为初级,对复杂的视觉声音信息依然难以辨认。其中一部分原因是数据集的质量和规模还不够好。这个研究小组正在努力构建一个高质量的音频-视频-文本对齐数据集,以提升模型的感知能力。

(2)难以处理长视频的:长视频 (如电影和电视节目) 包含大量的信息,对模型的推理能力和计算资源都较高。

(3)语言模型固有的幻觉问题,在 Video-LLaMA 中依然存在。

总的来说,Video-LLaMA 作为一个具有综合视听能力的大模型,在音频视频理解领域取得了令人印象深刻的效果。随着研究者的不断攻坚,以上挑战也将逐个被克服,使得音视频理解模型具有广泛的实用价值。



# 模态  # 音视频  # 达摩  # 并能  # 白宫  # 高质量  # 采用了  # 也将  # 互动  # php  # 出了  # embedding  # llama  # https  # nlp  # github  # 事件 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 千问怎样生成年度业绩分析_千问业绩分析模型与数据解读【攻略】  ClickUp AI Agents:项目管理的革命性突破  播客数据深度解析:揭秘全球听众分布和增长策略  如何用AI根据职位描述(JD)定制你的求职信?  Vidu AI:使用Q1模型轻松创建电影级短片  AI电影制作:颠覆传统,引领未来*新纪元  E-LabVine:AI赋能的数字化学习平台,提升高中学业表现  豆包AI怎么做数据分析 豆包AI数据处理入门教程  DeepSeek AI:AI通用谜题解题器,解题思路全解析  标准渣打银行电子账单下载完全指南:轻松管理财务  普通人如何用豆包AI月入过万?2026最新内容创作变现全攻略!  使用AI配乐:ElevenLabs Music音乐生成器终极指南  AI猴子视频制作终极指南:从入门到网红,轻松上手!  百度输入法ai写作怎么关 百度输入法ai帮写禁用  AI驱动的Web应用测试:突破QA挑战,提升用户体验  如何配置 DeepSeek 以支持企业级私有化部署  豆包 AI 辅助进行家庭装修风格对比分析  超频爱好者盛宴:液氮超频Xeon 28核处理器  宠物翻译App评测:与猫狗交流的未来科技?  tofai官网最新入口地址 tofai网页版免下载  ChatGPT 提示词工程:结构化指令编写指南  构建卓越AI代理:端到端Agentic RAG解决方案详解  千问如何生成预算执行总结_千问预算数据与执行对比分析【方法】  AI绘图软件怎么用_AI绘图软件使用方法详细指南【教程】  文心一言辅助学习方法 解决难题与知识点梳理使用指南  解密AI时尚摄影:打造完美形象的终极指南  智行ai抢票怎么选优先车次_智行ai抢票车次优先级设置技巧【指南】  通义千问怎样优化提示词更口语化_通义千问口语化技巧【教程】  CanvaAI抠图怎样调整色彩_CanvaAI色彩校正与滤镜叠加方法【攻略】  智行ai抢票如何绑定微信通知_智行ai抢票微信提醒绑定与推送设置【指南】  使用文心一言进行中文客服话术库的逻辑优化  提升效率:使用AI代理自动生成视频标题的实用指南  Gemini怎样连接Google账号_Gemini账号连接方法【方法】  ChatGPT多轮对话技巧分享 引导AI深入探讨复杂问题的方法  ChatGPT官方网页端入口 ChatGPT官网快速登录方法  国产开源模型Kimi K2 Thinking上线美应用,挑战美国科技巨头!  探索占星术:揭秘 कुंडली 中的 शुक्र,财富与运势的钥匙  DeepSeek解释机器学习模型 DeepSeek数据科学学习指南  智行ai抢票如何查看抢票进度_智行ai抢票进度查询与状态解读【实操】  AI问卷调查生成工具有哪些_一键生成调研表单的AI工具推荐  Gemini怎样写精准提示词_Gemini提示词编写方法【步骤】  使用文心一言进行高质量的唐诗宋词创意改编  2025最佳AI效率工具:释放生产力,革新业务运营  使用双端队列(deque)解决字母字符串问题  AI生成克里希纳短视频:一步步教程,快速爆款!  稿定设计AI抠图怎么修复瑕疵_稿定设计AI瑕疵修复与手动微调【步骤】  AI赋能副业:五大掘金机会,轻松开启智能创收时代  教你用AI将一段旋律扩展成一首完整的曲子  通义千问怎么设置功能偏好_通义千问偏好设置【教程】  AI音乐创作:颠覆传统,开启音乐新纪元 

 2023-06-09

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.