你输入文字,让 AI 来生成视频,这种想法在以前只出现在人们的想象中,现在,随着技术的发展,这种功能已经实现了。
近年来,生成式人工智能在计算机视觉领域引起巨大的关注。随着扩散模型的出现,从文本 Prompt 生成高质量图像,即文本到图像的合成,已经变得非常流行和成功。
最近的研究试图通过在视频领域复用文本到图像扩散模型,将其成功扩展到文本到视频生成和编辑的任务。虽然这样的方法取得了可喜的成果,但大部分方法需要使用大量标记数据进行大量训练,这可能对许多用户来讲太过昂贵。
为了使视频生成更加廉价,Jay Zhangjie Wu 等人去年提出的 Tune-A-Video 引入了一种机制,可以将 Stable Diffusion (SD) 模型应用到视频领域。只需要调整一个视频,从而让训练工作量大大减少。虽然这比以前的方法效率提升很多,但仍需要进行优化。此外,Tune-A-Video 的生成能力仅限于 text-guided 的视频编辑应用,而从头开始合成视频仍然超出了它的能力范围。
本文中,来自 Picsart AI Resarch (PAIR) 、得克萨斯大学奥斯汀分校等机构的研究者在 zero-shot 以及无需训练的情况下,在文本到视频合成的新问题方向上向前迈进了一步,即无需任何优化或微调的情况下根据文本提示生成视频。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
下面我们看看效果如何。例如一只熊猫在冲浪;一只熊在时代广场上跳舞:
该研究还能根据目标生成动作:
此外,还能进行边缘检测:
本文提出的方法的一个关键概念是修改预训练的文本到图像模型(例如 Stable Diffusion),通过时间一致的生成来丰富它。通过建立在已经训练好的文本到图像模型的基础上,本文的方法利用它们出色的图像生成质量,增强了它们在视频领域的适用性,而无需进行额外的训练。
为了加强时间一致性,本文提出两个创新修改:(1)首先用运动信息丰富生成帧的潜在编码,以保持全局场景和背景时间一致;(2) 然后使用跨帧注意力机制来保留整个序列中前景对象的上下文、外观和身份。实验表明,这些简单的修改可以生成高质量和时间一致的视频(如图 1 所示)。
尽管其他人的工作是在大规模视频数据上进行训练,但本文的方法实现了相似甚至有时更好的性能(如图 8、9 所示)。
本文的方法不仅限于文本到视频的合成,还适用于有条件的(见图 6、5)和专门的视频生成(见图 7),以及 instruction-guided 的视频编辑,可以称其为由 Instruct-Pix2Pix 驱动的 Video Instruct-Pix2Pix(见图 9)。
在这篇论文中,本文利用 stable diffusion (sd)的文本到图像合成能力来处理 zero-shot 情况下文本到视频的任务。针对视频生成而非图像生成的需求,sd 应专注于潜在代码序列的操作。朴素的方法是从标准高斯分布独立采样 m 个潜在代码,即
N (0, I) ,并应用 DDIM 采样以获得相应的张量
,其中 k = 1,…,m,然后解码以获得生成的视频序列 。然而,如图 10 的第一行所示,这会导致完全随机的图像生成,仅共享所描述的语义,而不具有物体外观或运动的一致性。
为了解决这个问题,本文建议采用以下两种方法:(i)在潜在编码之间引入运动动态,以保持全局场景的时间一致性;(ii)使用跨帧注意力机制来保留前景对象的外观和身份。下面详细描述了本文使用的方法的每个组成部分,该方法的概述可以在图 2 中找到。
注意,为了简化符号,本文将整个潜在代码序列表示为:
定性结果
Text2Video-Zero 的所有应用都表明它成功生成了视频,其中全局场景和背景具有时间一致性,前景对象的上下文、外观和身份在整个序列中得到了保持。
在文本转视频的情况下,可以观察到它生成与文本提示良好对齐的高质量视频(见图 3)。例如,绘制的熊猫可以自然地在街上行走。同样,使用额外的边缘或姿势指导 (见图 5、图 6 和图 7),生成了与 Prompt 和指导相匹配的高质量视频,显示出良好的时间一致性和身份保持。
在 Video Instruct-Pix2Pix(见图 1)的情况下,生成的视频相对于输入视频具有高保真,同时严格遵循指令。
与 Baseline 比较
本文将其方法与两个公开可用的 baseline 进行比较:CogVideo 和 Tune-A-Video。由于 CogVideo 是一种文本到视频的方法,本文在纯文本引导的视频合成场景中与它进行了比较;使用 Video Instruct-Pix2Pix 与 Tune-A-Video 进行比较。
为了进行定量对比,本文使用 CLIP 分数对模型评估,CLIP 分数表示视频文本对齐程度。通过随机获取 CogVideo 生成的 25 个
视频,并根据本文的方法使用相同的提示合成相应的视频。本文的方法和 CogVideo 的 CLIP 分数分别为 31.19 和 29.63。因此,本文的方法略优于 CogVideo,尽管后者有 94 亿个参数并且需要对视频进行大规模训练。
图 8 展示了本文提出的方法的几个结果,并提供了与 CogVideo 的定性比较。这两种方法在整个序列中都显示出良好的时间一致性,保留了对象的身份以及背景。本文的方法显示出更好的文本 - 视频对齐能力。例如,本文的方法在图 8 (b) 中正确生成了一个人在阳光下骑自行车的视频,而 CogVideo 将背景设置为月光。同样在图 8 (a) 中,本文的方法正确地显示了一个人在雪地里奔跑,而 CogVideo 生成的视频中雪地和奔跑的人是看不清楚的。
Video Instruct-Pix2Pix 的定性结果以及与 per-frame Instruct-Pix2Pix 和 Tune-AVideo 在视觉上的比较如图 9 所示。虽然 Instruct-Pix2Pix 每帧显示出良好的编辑性能,但它缺乏时间一致性。这在描绘滑雪者的视频中尤其明显,视频中的雪和天空使用不同的样式和颜色绘制。使用 Video Instruct-Pix2Pix 方法解决了这些问题,从而在整个序列中实现了时间上一致的视频编辑。
虽然 Tune-A-Video 创建了时间一致的视频生成,但与本文的方法相比,它与指令指导的一致性较差,难以创建本地编辑,并丢失了输入序列的细节。当看到图 9 左侧中描绘的舞者视频的编辑时,这一点变得显而易见。与 Tune-A-Video 相比,本文的方法将整件衣服画得更亮,同时更好地保留了背景,例如舞者身后的墙几乎保持不变。Tune-A-Video 绘制了一堵经过严重变形的墙。此外,本文的方法更忠实于输入细节,例如,与 Tune-A-Video 相比,Video Instruction-Pix2Pix 使用所提供的姿势绘制舞者(图 9 左),并显示输入视频中出现的所有滑雪人员(如图 9 右侧的最后一帧所示)。Tune-A-Video 的所有上述弱点也可以在图 23、24 中观察到。
# 如图
# 所示
# 见图
# 高质量
# 情况下
# 舞者
# 一只
# 还能
# 将其
# 实现了
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
千问怎么使用插件功能_千问插件调用与功能扩展【教程】
如何用豆包ai做SWOT分析_豆包ai快速生成个人或企业优劣势分析【指南】
LTX Studio:AI电影制作平台深度评测与应用指南
Canva AI终极指南:免费AI聊天机器人,设计、视频、网站全搞定!
AMD Ryzen 2025 CPU深度解析:新品发布与选购指南
京东旅行AI能否抢返程票_京东AI返程票预约与自动抢购【技巧】
Straico团队案例研究:AI赋能,效率提升的秘诀
GitHub Copilot与Azure AI Foundry模型:加速AI编程实践
AI海报设计终极指南:免费智能工具,手机轻松搞定!
2025年AI招聘大师班:初学者友好且功能强大
斑马AI怎样调整语音播报速度_斑马AI语速设置与发音风格选择【攻略】
3步教你用AI将你的博客文章改编成引人入胜的播客脚本
百度AI搜索如何开启无痕搜索_百度AI搜索无痕模式设置与隐私保护【攻略】
ChatGPT背后的AI革命:OpenAI的崛起与Google的危机
提升房地产业务:AI语音助手赋能房地产经纪公司
智谱AI智能绘图怎么用_智谱AI智能绘图使用方法详细指南【教程】
通义千问怎么设置常用功能快捷键_通义千问快捷键设置【步骤】
千问如何生成年终总结PPT_千问PPT模板选择与内容自动填充【攻略】
小米汽车OTA冬季大版本升级:新增和优化共计9项功能
AI视频生成终极指南:免费为店铺打造引流爆款
AI驱动营销:如何利用人工智能构建高效营销漏斗
律师视角下的生成式AI:信息爆炸时代的法律实践与未来展望
怎么用ai进行用户画像分析 AI消费行为与兴趣标签提炼【详解】
AI Sales Assistant:提升销售效率与客户互动的终极指南
AISIA O1皮肤检测仪操作指南:安装、使用、疑难解答
PandaDoc vs. SignEasy: 2025 eSignature 平台终极对比
百度AI助手官方入口 文心一言网页版登录入口
AI写作避坑指南:小说家应避免的AI使用与创作技巧
豆包AI里的智能体有什么用_不同类型智能体使用场景介绍
微信AI数字人怎样切换形象风格_微信AI数字人形象更换与风格选择【技巧】
如何通过 DeepSeek 优化 Kubernetes 配置文件
百度AI搜索怎么用语音提问_百度AI搜索语音输入与识别优化【指南】
ClaudePC端怎么设主题色_ClaudePC端主题设置步骤【教程】
Descript音频编辑终极指南:技巧、AI工具与专业效果
Avokaado AI:简化合同管理和法律流程的终极指南
精明小鱼:儿童动画寓言故事及启示
易企秀AI排版如何生成H5页面_易企秀AI排版H5制作入口与组件添加【方法】
软件测试进化史:从手动到AI,迎接测试新纪元
使用ChatGPT快速生成专辑封面:AI艺术创作指南
千问AI赚钱指南:新手也能月入破万的实操路径解析!
AI数据分析报告生成工具有哪些_一键生成可视化报告的AI工具推荐
Gemini怎样用语音输入_Gemini语音输入设置【方法】
Z270 Mini-ITX主板全面评测:为Skylake和Kaby Lake打造迷你主机
Gemini怎样写细节型提示词_Gemini细节提示词编写【步骤】
Miaoaotalk 猫语翻译器测评:宠物沟通新体验?
AI落地页优化:3个技巧,转化率飙升!
Codeforces Pair Programming Problem: C 解题思路
lovemo官网直达链接 lovemo网页版在线
Mac百度输入法ai怎么关 Mac版百度ai助手禁用教程
ChatGPT官方入口 ChatGPT官网网页版访问步骤详解
2023-05-20
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。