Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍


最近谷歌又发布了全新的文本-图像生成Muse模型,没有采用当下大火的扩散(diffusion)模型,而是采用了经典的Transformer模型就实现了最先进的图像生成性能,相比扩散或自回归(autoregressive)模型,Muse模型的效率也提升非常多。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接:https://arxiv.org/pdf/2301.00704.pdf

项目链接:https://muse-model.github.io/

Muse以masked modeling任务在离散token空间上进行训练:给定从预训练的大型语言模型(LLM)中提取的文本嵌入,Muse的训练过程就是预测随机masked掉的图像token。

与像素空间的扩散模型(如Imagen和DALL-E 2)相比,由于Muse使用了离散的token,只需要较少的采样迭代,所以效率得到了明显提高;

与自回归模型(如Parti)相比,由于Muse使用了并行解码,所以效率更高。

使用预训练好的LLM可以实现细粒度的语言理解,从而转化为高保真的图像生成和对视觉概念的理解,如物体、空间关系、姿态、cardinality等。

在实验结果中,只有900M参数的Muse模型在CC3M上实现了新的SOTA性能,FID分数为6.06。

Muse 3B参数模型在zero-shot COCO评估中实现了7.88的FID,同时还有0.32的CLIP得分。

Muse还可以在不对模型进行微调或反转(invert)直接实现一些图像编辑应用:修复(inpainting)、扩展(outpainting)和无遮罩编辑(mask-free editing)。

Muse模型

Muse模型的框架包含多个组件,训练pipeline由T5-XXL预训练文本编码器,基础模型(base model)和超分辨率模型组成。

1. 预训练文本编码器

与之前研究中得出的结论类似,研究人员发现利用预训练的大型语言模型(LLM)有利于提升高质量图像的生成结果。

比如从语言模型T5-XXL中提取的嵌入(embedding)带有关于物体(名词)、行动(动词)、视觉属性(形容词)、空间关系(介词)以及其他属性(如卡片性和组成)的丰富信息。

所以研究人员提出假设(hypothesis):Muse模型学会将LLM嵌入中的这些丰富的视觉和语义概念映射到生成的图像上。

最近也有一些工作已经证明了,由LLM学习到的概念表征与由视觉任务训练的模型学习的概念表征大致上是可以「线性映射」的。

给定一个输入的文本标题,将其传递给冻结参数的T5-XXL编码器,可以得到一个4096维的语言嵌入向量,然后将这些向量线性地投射到Transformer模型(base和超分辨率)的hidden size维度上。

2. 使用VQGAN进行Semantic Tokenization

VQGAN模型由一个编码器和一个解码器组成,其中的量化层(quantization layer)将输入图像映射成来自一个学习过的codebook的token序列。

然后完全用卷积层建立编码器和解码器,以支持对不同分辨率的图像进行编码。

编码器中包括几个下采样块来减少输入的空间维度,而解码器中则是有相应数量的上采样块来将latents映射回原始图像大小。

研究人员训练了两个VQGAN模型:一个是下采样率f=16,模型在256×256像素的图像上获得基本模型的标记,从而得到空间尺寸为16×16的标记;另一个是下采样率f=8,在512×512的图像上获得超分辨率模型的token,相应的的空间尺寸为64×64。

编码后得到的离散token可以捕捉图像的高层次语义,同时也可以消除低层次的噪声,并且根据token的离散性可以在输出端使用交叉熵损失来预测下一阶段的masked token

3. Base Model

Muse的基础模型是一个masked Transformer,其中输入是映射的T5嵌入和图像token.

研究人员将所有的文本嵌入设置为unmasked,随机mask掉一部分不同的图像token后,用一个特殊的[MASK]标记来代替原token.

然后将图像token线性地映射到所需的Transformer输入或hidden size维度的图像输入embedding中,并同时学习2D position embedding

和原始的Transformer架构一样,包括几个transformer层,使用自注意块、交叉注意力块和MLP块来提取特征。

在输出层,使用一个MLP将每个masked图像嵌入转换为一组logits(对应于VQGAN codebook的大小),并以ground truth的token为目标使用交叉熵损失。

在训练阶段,基础模型的训练目标为预测每一步的所有msked tokens;但在推理阶段,mask预测是以迭代的方式进行的,这种方式可以极大提高质量。

4. 超分辨率模型

研究人员发现,直接预测512×512分辨率的图像会导致模型专注于低层次的细节而非高层次的语义。

使用级联模型(cascade of models)则可以改善这种情况:

首先使用一个生成16×16 latent map(对应256×256的图像)的基础模型;然后是一个超分辨率模型,将基础latent map上采样为64×64(对应512×512的图像)。其中超分辨率模型是在基础模型训练完成后再进行训练的。

如前所述,研究人员总共训练了两个VQGAN模型,一个是16×16潜分辨率和256×256空间分辨率,另一个是64×64潜伏分辨率和512×512空间分辨率。

由于基础模型输出对应于16×16 latent map的token,所以超分辨率模块学会了将低分辨率的latent map 「翻译」成高分辨率的latent map,然后通过高分辨率的VQGAN解码,得到最终的高分辨率图像;该翻译模型也是以类似于基础模型的方式进行text conditioning和交叉注意力的训练。

5. 解码器微调

为了进一步提高模型生成细节的能力,研究人员选择通过增加VQGAN解码器的容量,添加更多的残差层(residual layer)和通道的同时保持编码器的容量不变。

然后对新的解码器进行微调,同时保持VQGAN编码器的权重、codebook和Transformers(即基础模型和超分辨率模型)不变。这种方式能够提高生成图像的视觉质量,而不需要重新训练任何其他的模型组件(因为视觉token保持固定)。

可以看到,经过微调的解码器以重建更多更清晰的细节。

6. 可变掩码率(Masking Rate)

研究人员使用基于Csoine scheduling的可变掩码率来训练模型:对于每个训练例子,从截断的arccos分布中抽出一个掩码率r∈[0,1],其密度函数如下.

掩码率的期望值为0.64,也就是说更偏向于选择更高的掩码率,使得预测问题更加困难。

随机的掩码率不仅对并行采样方案至关重要,而且还能实现一些零散的、开箱即用的编辑功能。

7. Classifier Free Guidance(CFG)

研究人员采用无分类指导(CFG)来提高图像的生成质量和文本-图像对齐。

在训练时,在随机选择的10%的样本上去除文本条件,注意力机制降为图像token本身的自注意力。

在推理阶段,为每个被mask的token计算一个条件logit lc和一个无条件logit lu,然后通过从无条件logit中移出一个量t作为指导尺度,形成最终的logit lg:

直观来看,CFG是以多样性换取保真度,但与以前方法不同的是,Muse通过采样过程线性地增加指导尺度t来减少多样性的损失,使得early token可以在低引导或无引导的情况下更自由地被取样,不过也增加了对later tokens条件提示的影响。

研究人员还利用这一机制,通过将无条件的logit lu替换为以negative prompt为条件的logit,促进了生成图像具有与postive prompt相关的特征。

8. 推理时迭代并行解码

在提升模型推理时间效率的一个关键部分是使用并行解码来预测单个前向通道中的多个输出token,其中一个关键假设是马尔科夫属性,即许多token是有条件地独立于给定的其他token的。

其中解码是根据cosine schedule进行的,选择固定比例中最高置信度的掩码进行预测,其中token在剩余的步中被设定为unmasked,并且适当减少masked tokens。

根据上述过程,就可以在基本模型中只用24个解码步(step)实现对256个token的推理,在超分辨率模型中用8个解码步对4096个token进行推理,相比之下,自回归模型需要256或4096步,扩散模型需要数百步。

虽然最近的一些研究包括progressive distillation、better ODE solver大大减少了扩散模型的采样步骤,但这些方法还没有在大规模的文本到图像生成中得到广泛验证。

实验结果

研究人员以不同的参数量(从600M到3B),基于T5-XXL训练了一系列基础Transformer模型。

生成图像的质量

实验中测试了Muse模型对于不同属性的文本提示的能力,包括对cardinality的基本理解,对于非单数的物体,Muse并没有多次生成相同的物体像素,而是增加了上下文的变化,使整个图像更加真实。

例如,大象的大小和方向、酒瓶包装纸的颜色以及网球的旋转等等。

定量比较

研究人员在CC3M和COCO数据集上与其他研究方法进行了实验对比,指标包括衡量样本质量和多样性的Frechet Inception Distance(FID),以及衡量图像/文本对齐的CLIP得分。

实验结果证明了632M的Muse模型在CC3M上取得了SOTA结果,在FID得分方面得到了改善,同时也取得了最先进的CLIP得分。

在MS-COCO数据集上,3B模型取得了7.88分的FID得分,略好于相似参数量的Parti-3B模型取得的8.1分。


# embedding  # 尺寸为  # 最先进  # 迭代  # 更高  # 实现了  # 取得了  # 多个  # 几个  # 是一个  # 掩码  # 谷歌  # prompt  # https  # Imagen  # transformer  # github  # position  # map  # Token  # 架构 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 实测效率提升超35%!科大讯飞星火AIPC开启AI办公新纪元  探索贝奥武夫:英雄史诗的起源、故事与文化意义  GoHighLevel AI Agent:终极指南,释放你的CRM潜力  AI赋能副业:五大掘金机会,轻松开启智能创收时代  消除噪音,提升音质:Audo.ai终极指南  百度AI搜索怎么用AI总结网页_百度AI搜索网页总结功能与调用【技巧】  Gemini 辅助进行博物馆数字化藏品分类建议  QRCODE.AI深度评测:AI驱动的二维码生成器优缺点分析  构建卓越的AI驱动测试自动化框架:QA工程师指南  简历没回改:利用AI润色让你的文字更专业  11月问界汽车哪里卖的多?成都力压北上广深位居第一  Gemini怎样写精准提示词_Gemini提示词编写方法【步骤】  n8n教程:如何用AI自动生成个性化简历  千问怎样用提示词获取健康建议_千问健康类提示词注意事项【指南】  Xcode 26 Beta 新功能:集成 ChatGPT 代码助手全面测评  壹伴AI智能排版如何自动生成文章配图_壹伴AI智能排版配图生成与版权说明【教程】  怎么用AI把你的想法变成一幅画?零绘画基础也能当艺术家  在线歌曲歌词生成器:创意歌词轻松创作指南  掌握写作技巧:小说情节设计的核心要素解析  趣味 Phonics:轻松掌握 CVC 单词拼读技巧  通义万相AI绘画怎么用_通义万相AI绘画使用方法详细指南【教程】  都灵裹尸布之谜:AI揭示耶稣基督的真实面貌?  lovemo官网直达链接 lovemo网页版在线  Sora AI:颠覆视频创作?OpenAI最新文生视频模型深度解析  探索心灵的音乐之旅:Kanwar Garewal的《Ishq Bulleh Nu》  VHEER AI:免费在线AI图像生成器终极指南  VideoGen教程:AI视频生成器,无需拍摄快速制作视频  ChatGPT官网免费使用入口 ChatGPT在线版官方地址  AI内容检测与优化:免费工具助你提升内容质量  使用 Claude 4 和 n8n 实现 AI 工作流自动化  Gemini 与 Google Drive 结合的文件智能检索  利用ChatGPT掌控健康:AI赋能的医疗新时代  OpenAI ChatGPT Agent:AI自主任务的未来  Google AI Studio:免费AI视频生成器使用指南  如何用AI帮你制定个人OKR?目标管理从未如此简单  JSON Prompting: 创造爆款AI广告的秘诀和方法  智行ai抢票怎么设置抢票截止时间_智行ai抢票截止时间设置与确认【步骤】  2025年43英寸电视选购指南:最佳品牌与型号推荐  AI 时代高效开发:版本控制与 AI 协同工作流  唐库AI拆书工具怎么查看拆书进度_唐库AI拆书工具进度查看与异常排查【方法】  如何用 ChatGPT 快速生成短视频分镜脚本  如何用AI自动生成Python代码 AI编程助手ChatGPT使用方法【教程】  EcoFlow Delta 3 Max Plus:打造你的智能电力生态系统  轻松生成二维码:免费AI工具终极指南  DeepSeek写小说怎么用_DeepSeek写小说使用方法详细指南【教程】  如何用AI帮你把小说改编成电影剧本?3步掌握核心技巧  ChatGPT怎么生成短视频脚本_ChatGPT脚本生成方法【指南】  AI生成克里希纳短视频:一步步教程,快速爆款!  Midjourney怎样用参数调色彩饱和度_Midjourney饱和度调整【方法】  ChatGPT怎样用提示词分步骤提问_ChatGPT分步提问技巧【方法】 

 2023-05-13

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.