生成视频如此简单,给句提示就行,还能在线试玩


你输入文字,让 AI 来生成视频,这种想法在以前只出现在人们的想象中,现在,随着技术的发展,这种功能已经实现了。

近年来,生成式人工智能在计算机视觉领域引起巨大的关注。随着扩散模型的出现,从文本 Prompt 生成高质量图像,即文本到图像的合成,已经变得非常流行和成功。

最近的研究试图通过在视频领域复用文本到图像扩散模型,将其成功扩展到文本到视频生成和编辑的任务。虽然这样的方法取得了可喜的成果,但大部分方法需要使用大量标记数据进行大量训练,这可能对许多用户来讲太过昂贵。

为了使视频生成更加廉价,Jay Zhangjie Wu 等人去年提出的 Tune-A-Video 引入了一种机制,可以将 Stable Diffusion (SD) 模型应用到视频领域。只需要调整一个视频,从而让训练工作量大大减少。虽然这比以前的方法效率提升很多,但仍需要进行优化。此外,Tune-A-Video 的生成能力仅限于 text-guided 的视频编辑应用,而从头开始合成视频仍然超出了它的能力范围。

本文中,来自 Picsart AI Resarch (PAIR) 、得克萨斯大学奥斯汀分校等机构的研究者在 zero-shot 以及无需训练的情况下,在文本到视频合成的新问题方向上向前迈进了一步,即无需任何优化或微调的情况下根据文本提示生成视频。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

  • 论文地址:https://arxiv.org/pdf/2303.13439.pdf
  • 项目地址:https://github.com/Picsart-AI-Research/Text2Video-Zero
  • 试用地址:https://huggingface.co/spaces/PAIR/Text2Video-Zero

下面我们看看效果如何。例如一只熊猫在冲浪;一只熊在时代广场上跳舞:

该研究还能根据目标生成动作:

此外,还能进行边缘检测:

本文提出的方法的一个关键概念是修改预训练的文本到图像模型(例如 Stable Diffusion),通过时间一致的生成来丰富它。通过建立在已经训练好的文本到图像模型的基础上,本文的方法利用它们出色的图像生成质量,增强了它们在视频领域的适用性,而无需进行额外的训练。

为了加强时间一致性,本文提出两个创新修改:(1)首先用运动信息丰富生成帧的潜在编码,以保持全局场景和背景时间一致;(2) 然后使用跨帧注意力机制来保留整个序列中前景对象的上下文、外观和身份。实验表明,这些简单的修改可以生成高质量和时间一致的视频(如图 1 所示)。

尽管其他人的工作是在大规模视频数据上进行训练,但本文的方法实现了相似甚至有时更好的性能(如图 8、9 所示)。

本文的方法不仅限于文本到视频的合成,还适用于有条件的(见图 6、5)和专门的视频生成(见图 7),以及 instruction-guided 的视频编辑,可以称其为由 Instruct-Pix2Pix 驱动的 Video Instruct-Pix2Pix(见图 9)。

在这篇论文中,本文利用 stable diffusion (sd)的文本到图像合成能力来处理 zero-shot 情况下文本到视频的任务。针对视频生成而非图像生成的需求,sd 应专注于潜在代码序列的操作。朴素的方法是从标准高斯分布独立采样 m 个潜在代码,即

 N (0, I) ,并应用 DDIM 采样以获得相应的张量

,其中 k = 1,…,m,然后解码以获得生成的视频序列

。然而,如图 10 的第一行所示,这会导致完全随机的图像生成,仅共享

所描述的语义,而不具有物体外观或运动的一致性。

为了解决这个问题,本文建议采用以下两种方法:(i)在潜在编码

之间引入运动动态,以保持全局场景的时间一致性;(ii)使用跨帧注意力机制来保留前景对象的外观和身份。下面详细描述了本文使用的方法的每个组成部分,该方法的概述可以在图 2 中找到。

注意,为了简化符号,本文将整个潜在代码序列表示为:

实验

定性结果

Text2Video-Zero 的所有应用都表明它成功生成了视频,其中全局场景和背景具有时间一致性,前景对象的上下文、外观和身份在整个序列中得到了保持。

在文本转视频的情况下,可以观察到它生成与文本提示良好对齐的高质量视频(见图 3)。例如,绘制的熊猫可以自然地在街上行走。同样,使用额外的边缘或姿势指导 (见图 5、图 6 和图 7),生成了与 Prompt 和指导相匹配的高质量视频,显示出良好的时间一致性和身份保持。

在 Video Instruct-Pix2Pix(见图 1)的情况下,生成的视频相对于输入视频具有高保真,同时严格遵循指令。

与 Baseline 比较

本文将其方法与两个公开可用的 baseline 进行比较:CogVideo 和 Tune-A-Video。由于 CogVideo 是一种文本到视频的方法,本文在纯文本引导的视频合成场景中与它进行了比较;使用 Video Instruct-Pix2Pix 与 Tune-A-Video 进行比较。

为了进行定量对比,本文使用 CLIP 分数对模型评估,CLIP 分数表示视频文本对齐程度。通过随机获取 CogVideo 生成的 25 个视频,并根据本文的方法使用相同的提示合成相应的视频。本文的方法和 CogVideo 的 CLIP 分数分别为 31.19 和 29.63。因此,本文的方法略优于 CogVideo,尽管后者有 94 亿个参数并且需要对视频进行大规模训练。

图 8 展示了本文提出的方法的几个结果,并提供了与 CogVideo 的定性比较。这两种方法在整个序列中都显示出良好的时间一致性,保留了对象的身份以及背景。本文的方法显示出更好的文本 - 视频对齐能力。例如,本文的方法在图 8 (b) 中正确生成了一个人在阳光下骑自行车的视频,而 CogVideo 将背景设置为月光。同样在图 8 (a) 中,本文的方法正确地显示了一个人在雪地里奔跑,而 CogVideo 生成的视频中雪地和奔跑的人是看不清楚的。

Video Instruct-Pix2Pix 的定性结果以及与 per-frame Instruct-Pix2Pix 和 Tune-AVideo 在视觉上的比较如图 9 所示。虽然 Instruct-Pix2Pix 每帧显示出良好的编辑性能,但它缺乏时间一致性。这在描绘滑雪者的视频中尤其明显,视频中的雪和天空使用不同的样式和颜色绘制。使用 Video Instruct-Pix2Pix 方法解决了这些问题,从而在整个序列中实现了时间上一致的视频编辑。

虽然 Tune-A-Video 创建了时间一致的视频生成,但与本文的方法相比,它与指令指导的一致性较差,难以创建本地编辑,并丢失了输入序列的细节。当看到图 9 左侧中描绘的舞者视频的编辑时,这一点变得显而易见。与 Tune-A-Video 相比,本文的方法将整件衣服画得更亮,同时更好地保留了背景,例如舞者身后的墙几乎保持不变。Tune-A-Video 绘制了一堵经过严重变形的墙。此外,本文的方法更忠实于输入细节,例如,与 Tune-A-Video 相比,Video Instruction-Pix2Pix 使用所提供的姿势绘制舞者(图 9 左),并显示输入视频中出现的所有滑雪人员(如图 9 右侧的最后一帧所示)。Tune-A-Video 的所有上述弱点也可以在图 23、24 中观察到。


# 如图  # 所示  # 见图  # 高质量  # 情况下  # 舞者  # 一只  # 还能  # 将其  # 实现了 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 千问怎么使用插件功能_千问插件调用与功能扩展【教程】  如何用豆包ai做SWOT分析_豆包ai快速生成个人或企业优劣势分析【指南】  LTX Studio:AI电影制作平台深度评测与应用指南  Canva AI终极指南:免费AI聊天机器人,设计、视频、网站全搞定!  AMD Ryzen 2025 CPU深度解析:新品发布与选购指南  京东旅行AI能否抢返程票_京东AI返程票预约与自动抢购【技巧】  Straico团队案例研究:AI赋能,效率提升的秘诀  GitHub Copilot与Azure AI Foundry模型:加速AI编程实践  AI海报设计终极指南:免费智能工具,手机轻松搞定!  2025年AI招聘大师班:初学者友好且功能强大  斑马AI怎样调整语音播报速度_斑马AI语速设置与发音风格选择【攻略】  3步教你用AI将你的博客文章改编成引人入胜的播客脚本  百度AI搜索如何开启无痕搜索_百度AI搜索无痕模式设置与隐私保护【攻略】  ChatGPT背后的AI革命:OpenAI的崛起与Google的危机  提升房地产业务:AI语音助手赋能房地产经纪公司  智谱AI智能绘图怎么用_智谱AI智能绘图使用方法详细指南【教程】  通义千问怎么设置常用功能快捷键_通义千问快捷键设置【步骤】  千问如何生成年终总结PPT_千问PPT模板选择与内容自动填充【攻略】  小米汽车OTA冬季大版本升级:新增和优化共计9项功能  AI视频生成终极指南:免费为店铺打造引流爆款  AI驱动营销:如何利用人工智能构建高效营销漏斗  律师视角下的生成式AI:信息爆炸时代的法律实践与未来展望  怎么用ai进行用户画像分析 AI消费行为与兴趣标签提炼【详解】  AI Sales Assistant:提升销售效率与客户互动的终极指南  AISIA O1皮肤检测仪操作指南:安装、使用、疑难解答  PandaDoc vs. SignEasy: 2025 eSignature 平台终极对比  百度AI助手官方入口 文心一言网页版登录入口  AI写作避坑指南:小说家应避免的AI使用与创作技巧  豆包AI里的智能体有什么用_不同类型智能体使用场景介绍  微信AI数字人怎样切换形象风格_微信AI数字人形象更换与风格选择【技巧】  如何通过 DeepSeek 优化 Kubernetes 配置文件  百度AI搜索怎么用语音提问_百度AI搜索语音输入与识别优化【指南】  ClaudePC端怎么设主题色_ClaudePC端主题设置步骤【教程】  Descript音频编辑终极指南:技巧、AI工具与专业效果  Avokaado AI:简化合同管理和法律流程的终极指南  精明小鱼:儿童动画寓言故事及启示  易企秀AI排版如何生成H5页面_易企秀AI排版H5制作入口与组件添加【方法】  软件测试进化史:从手动到AI,迎接测试新纪元  使用ChatGPT快速生成专辑封面:AI艺术创作指南  千问AI赚钱指南:新手也能月入破万的实操路径解析!  AI数据分析报告生成工具有哪些_一键生成可视化报告的AI工具推荐  Gemini怎样用语音输入_Gemini语音输入设置【方法】  Z270 Mini-ITX主板全面评测:为Skylake和Kaby Lake打造迷你主机  Gemini怎样写细节型提示词_Gemini细节提示词编写【步骤】  Miaoaotalk 猫语翻译器测评:宠物沟通新体验?  AI落地页优化:3个技巧,转化率飙升!  Codeforces Pair Programming Problem: C 解题思路  lovemo官网直达链接 lovemo网页版在线  Mac百度输入法ai怎么关 Mac版百度ai助手禁用教程  ChatGPT官方入口 ChatGPT官网网页版访问步骤详解 

 2023-05-20

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.