视频在当今社交媒体和互联网文化中扮演着愈发重要的角色,抖音,快手,B 站等已经成为数以亿计用户的热门平台。用户围绕视频分享自己的生活点滴、创意作品、有趣瞬间等内容,与他人互动和交流。
近期,大语言模型展现出了令人瞩目的能力。我们能否给大模型装上 “眼睛” 和 “耳朵”,让它能够理解视频,陪着用户互动呢?
从这个问题出发,达摩院的研究人员提出了 Video-LLaMA,一个具有综合视听能力大模型。Video-LLaMA 能够感知和理解视频中的视频和音频信号, 并能理解用户输入的指令,完成一系列基于音视频的复杂任务,例如音 / 视频描述,写作,问答等。目前论文,代码,交互 demo 都已开放。另外,在 Video-LLaMA 的项目主页中,该研究团队还提供了中文版本的模型,让中文用户的体验更丝滑。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Video-LLaMA 采用了模块化设计原则,把视频中的视觉和音频模态信息映射到到大语言模型的输入空间中,以实现跨模态指令跟随的能力。与之前侧重于静态图像理解的大模型研究(MiNIGPT4,LLaVA)不同,Video-LLaMA 面临着视频理解中的两个挑战:捕捉视觉中的动态场景变化和整合视听信号。
为了捕捉视频中的动态场景变化,Video-LLaMA 引入了一个可插拔的视觉语言分支。该分支首先使用 BLIP-2 中预训练好的图片编码器得到每一帧图像的单独特征,再与对应的帧位置嵌入结合后,所有图像特征被送入 Video Q-Former,Video Q-Former 将聚合帧级别的图像表示并且生成定长的综合视频表征。最后采用一个线性层将视频表征对齐到大语言模型的 embedding 空间。
至于视频中的声音信号,Video-LLaMA 使用音频 - 语言分支进行处理。首先从原始视频中均匀采样多个时长两秒的音频片段,并将每个片段转换为 128 维的梅尔频谱图。然后,采用强大的 ImageBind 作为音频编码器,单独提取每个声音片段的特征。在添加可学习的位置嵌入后,Audio Q-Former 将片段特征进行整体聚合,并生成固定长度的音频特征。与视觉语言分支类似,最后采用线性层将音频表征对齐到大语言模型的 embedding 空间。
为了减少训练成本,Video-LLaMA 冻结了预训练好的图片 / 音频编码器,只更新了视觉和音频分支中的以下参数:Video/Audio Q-Former,位置编码层以及线性层(如图 1 所示)。
为了学习视觉和文本的对齐关系,作者们首先利用大规模的视频 - 文本数据集 (WebVid-2M) 和图像 - 文本数据集(CC-595K)对视觉分支进行预训练。之后,作者们利用来自 MiniGPT-4,LLaVA 的图像指令数据集和来自 Video-Chat 的视频指令数据集来微调,从而达到更好的跨模态指令跟随能力。
至于音频 - 文本对齐关系的学习,由于缺乏大规模高质量的音频 - 文本数据,作者们采用了一种变通策略来达到这一目标。首先,音频 - 语言分支中可学习参数的目标可以理解为将音频编码器的输出与 LLM 的嵌入空间对齐。而音频编码器 ImageBind 具有非常强的多模态对齐能力,它能将不同模态的嵌入对齐到一个共同的空间中。因此,作者们使用视觉 - 文本数据来训练音频 - 语言分支,将 ImageBind 的公共嵌入空间对齐到 LLM 的文本嵌入空间,从而实现音频模态到 LLM 文本嵌入空间对齐。通过这种巧妙的方式,Video-LLaMA 能在推理过程中展现出理解音频的能力,即使从未接受过音频数据的训练。
作者展示了 Video-LLaMA 基于视频 / 音频 / 图像的对话的一些例子。
(1)下面两个例子展示了
Video-LLaMA 的视听综合感知能力,例子中的会话围绕有声视频展开。在例子二中,画面上仅仅显示了这个演奏家,但是声音中是观众的欢呼声和掌声,如果模型只能接受视觉信号,将无法推测到观众的积极响应,音频中并没有乐器的声音,但画面中出现了萨克斯,如果模型仅能接受听觉信号,也将无法得知演奏家演奏了萨克斯。
(2)Video-LLaMA 对于静态图像也有较强的感知理解能力,可以完成图片描述,问答等任务。
(3)令人惊奇的是,Video-LLaMA 能成功识别著名的地标和人物,并能进行常识性问答。比如下面 VIdeo-LLaMA 就成功识别出了白宫,并介绍了白宫的情况。又比如输入一张龙妈和囧雪的剧照(经典*剧《权利的游戏》中角色),VIdeo-LLaMA 不仅能够成功识别,而且能说出他们剪不断理还乱的关系。
(4)针对于视频的动态事件,Video-llama 也能很好捕捉,例如嘘声的动作,小船行驶的方向。
目前,音频视频理解依旧是一个非常复杂,尚未有成熟解决方案的研究问题,Video-LLaMA 虽然表现出了令人印象深刻的能力,作者也提到了其存在一些局限性。
(1)有限的感知能力:Video-LLaMA 的视觉听觉能力仍然较为初级,对复杂的视觉声音信息依然难以辨认。其中一部分原因是数据集的质量和规模还不够好。这个研究小组正在努力构建一个高质量的音频-视频-文本对齐数据集,以提升模型的感知能力。
(2)难以处理长视频的:长视频 (如电影和电视节目) 包含大量的信息,对模型的推理能力和计算资源都较高。
(3)语言模型固有的幻觉问题,在 Video-LLaMA 中依然存在。
总的来说,Video-LLaMA 作为一个具有综合视听能力的大模型,在音频视频理解领域取得了令人印象深刻的效果。随着研究者的不断攻坚,以上挑战也将逐个被克服,使得音视频理解模型具有广泛的实用价值。
# 模态
# 音视频
# 达摩
# 并能
# 白宫
# 高质量
# 采用了
# 也将
# 互动
# php
# 出了
# embedding
# llama
# https
# nlp
# github
# 事件
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
千问怎样生成年度业绩分析_千问业绩分析模型与数据解读【攻略】
ClickUp AI Agents:项目管理的革命性突破
播客数据深度解析:揭秘全球听众分布和增长策略
如何用AI根据职位描述(JD)定制你的求职信?
Vidu AI:使用Q1模型轻松创建电影级短片
AI电影制作:颠覆传统,引领未来*新纪元
E-LabVine:AI赋能的数字化学习平台,提升高中学业表现
豆包AI怎么做数据分析 豆包AI数据处理入门教程
DeepSeek AI:AI通用谜题解题器,解题思路全解析
标准渣打银行电子账单下载完全指南:轻松管理财务
普通人如何用豆包AI月入过万?2026最新内容创作变现全攻略!
使用AI配乐:ElevenLabs Music音乐生成器终极指南
AI猴子视频制作终极指南:从入门到网红,轻松上手!
百度输入法ai写作怎么关 百度输入法ai帮写禁用
AI驱动的Web应用测试:突破QA挑战,提升用户体验
如何配置 DeepSeek 以支持企业级私有化部署
豆包 AI 辅助进行家庭装修风格对比分析
超频爱好者盛宴:液氮超频Xeon 28核处理器
宠物翻译App评测:与猫狗交流的未来科技?
tofai官网最新入口地址 tofai网页版免下载
ChatGPT 提示词工程:结构化指令编写指南
构建卓越AI代理:端到端Agentic RAG解决方案详解
千问如何生成预算执行总结_千问预算数据与执行对比分析【方法】
AI绘图软件怎么用_AI绘图软件使用方法详细指南【教程】
文心一言辅助学习方法 解决难题与知识点梳理使用指南
解密AI时尚摄影:打造完美形象的终极指南
智行ai抢票怎么选优先车次_智行ai抢票车次优先级设置技巧【指南】
通义千问怎样优化提示词更口语化_通义千问口语化技巧【教程】
CanvaAI抠图怎样调整色彩_CanvaAI色彩校正与滤镜叠加方法【攻略】
智行ai抢票如何绑定微信通知_智行ai抢票微信提醒绑定与推送设置【指南】
使用文心一言进行中文客服话术库的逻辑优化
提升效率:使用AI代理自动生成视频标题的实用指南
Gemini怎样连接Google账号_Gemini账号连接方法【方法】
ChatGPT多轮对话技巧分享 引导AI深入探讨复杂问题的方法
ChatGPT官方网页端入口 ChatGPT官网快速登录方法
国产开源模型Kimi K2 Thinking上线美应用,挑战美国科技巨头!
探索占星术:揭秘 कुंडली 中的 शुक्र,财富与运势的钥匙
DeepSeek解释机器学习模型 DeepSeek数据科学学习指南
智行ai抢票如何查看抢票进度_智行ai抢票进度查询与状态解读【实操】
AI问卷调查生成工具有哪些_一键生成调研表单的AI工具推荐
Gemini怎样写精准提示词_Gemini提示词编写方法【步骤】
使用文心一言进行高质量的唐诗宋词创意改编
2025最佳AI效率工具:释放生产力,革新业务运营
使用双端队列(deque)解决字母字符串问题
AI生成克里希纳短视频:一步步教程,快速爆款!
稿定设计AI抠图怎么修复瑕疵_稿定设计AI瑕疵修复与手动微调【步骤】
AI赋能副业:五大掘金机会,轻松开启智能创收时代
教你用AI将一段旋律扩展成一首完整的曲子
通义千问怎么设置功能偏好_通义千问偏好设置【教程】
AI音乐创作:颠覆传统,开启音乐新纪元
2023-06-09
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。