首页IT科技high-resolution assets翻译(high-resolution image synthesis with latent diffusion models)

high-resolution assets翻译(high-resolution image synthesis with latent diffusion models)

时间2025-08-29 08:42:20分类IT科技浏览7502
导读:如何通俗理解扩散模型? - 知乎...

如何通俗理解扩散模型? - 知乎泻药                。实验室最近人人都在做扩散                ,从连续到离散                         ,从CV到NLP          ,基本上都被diffusion洗了一遍                         。但是观察发现            ,里面的数学基础并不是模型应用的必须          。其实大部分的研究者都不需要理解扩散模型的数学本质                        ,更需要的是对…https://zhuanlan.zhihu.com/p/563543020Stable Diffusion原理解读 - 知乎引言最近大火的AI作画吸引了很多人的目光              ,AI作画近期取得如此巨大进展的原因个人认为有很大的功劳归属于Stable Diffusion的开源            。Stable diffusion是一个基于Latent Diffusion Models(潜在扩散模型        ,LDMs)的文…https://zhuanlan.zhihu.com/p/583124756

 ​​​​​Jay Alammar 再发新作:超高质量图解 Stable Diffusion                         ,看完彻底搞懂「图像生成」原理 - IT之家还记得火爆全网的图解 Transformer 吗?最近这位大佬博主 Jay Alammar 在博客上对大火的 Stable Diffusion 模型也撰写了一篇图解                  ,让你从零开始彻底搞懂图像生成模型的原理    ,还配有超详细的视频讲解!https://www.ithome.com/0/668/981.htm

【生成模型】Stable Diffusion原理+代码_杀生丸学AI的博客-CSDN博客Stable diffusion是一个基于(潜在扩散模型                        ,LDMs)的文图生成(text-to-image)模型                        。具体来说                      ,得益于的计算资源支持和在LAION-5B的一个子集数据支持训练,用于文图生成              。通过在一个潜在表示空间中迭代“去噪                ”数据来生成图像                    ,然后将表示结果解码为完整的图像                          ,让文图生成能够在消费级GPU上     ,在10秒级别时间生成图片        。目前                ,Stable Diffusion发布了v2版本                        。https://blog.csdn.net/qq_45752541/article/details/129082742 stable diffusion的出现极大的推动了文生图                         ,图生图等领域的进展          ,我之前也解析过dalle2            ,文生图领域目前的论文还是非常多的                        ,stable diffusion整体上最大的贡献还是极大的加速了diffusion的落地              ,扩散模型        ,是vae的延续                        ,ae中的v其实就是通过kl散度来向ae中添加噪声                  ,扩散则是就这个加噪的过程和马尔科夫过程关联起来    ,将加噪分步了                  。stable diffusion基于latent diffusion model                        ,首先需要训练一个自编码器                      ,包括一个编码器和一个解码器,利用编码器对图片进行压缩                    ,然后在潜在表示空间上做diffusion操作                          ,最后利用解码器恢复到原始像素空间即可    。称之为感知压缩perceptual compression                        。在潜在表示空间上做diffusion操作其主要过程和标准的扩散模型没有太大的区别     ,所用到的扩散模型具体实现为time-conditional unet                      。论文为diffusion操作引入了条件机制                ,通过cross-attention的方式来实现多模态训练                         ,使条件图片生成也可以实现。

结合上面的材料稍微解析一些diffusion                    。

上面这个是vae          ,vae的最大问题是变分后验            ,在vae中                        ,我们先定义了右边蓝色的生成器              ,再学一个变分后验来适配这个生成器        ,先验分布是标准高斯分布                          。vae的生成器                        ,是将标准高斯映射到数据样本                  ,vae的后验是将数据样本映射到标准高斯(学出来的)     。我现在想要设计一种方法A    ,使得A用一种简单的变分后验将数据样本映射到标准高斯                        ,并且使得A的生成器                      ,将标准高斯映射到数据样本,注意                    ,因为生成器的搜索空间大于变分后验                          ,vae的效率远不及A方法     ,因为A是学一个生成器(搜索空间大)                ,所以可以直接模仿这个后验分布的一小步                         ,A方法就是括但模型核心思路:定义一个类似于变分后验的从数据样本到高斯分布的映射          ,然后学一个生成器            ,这个生成器模仿我们定义的这个映射的每一小步                。vae是数据样本->高斯->数据样本                        ,扩散是数据样本->一小步一小步的扩散->高斯->去噪->数据样本                         。

abstract:通过将图片合成过程分解为顺序去噪自编码器(a sequential application of denosing autoencoders)              ,diffusion models实现了广泛的应用          。此外        ,dms允许一种引导机制来控制图像生成过程无须训练            。但是在像素空间中运行对算力要求过高                        。

1.introduction

        高分辨率                        ,复杂自然场景下的图像合成目前是被scaling up likelihood-based models所主导                  ,这些模型可能在自回归transformer中有上亿参数量              。对比Gans已被证明主要局限于具有相对有限可变性的数据    ,他们的对抗学习过程不容易扩展到建模复杂的多模态分布        。dms属于基于似然的模型类别                        。训练一个dms通常需要数百个gpu days                        ,150-1000 V100 days                  。

        任何一个基于似然的模型                      ,学习大致可以分为两个阶段    。1.是感知压缩阶段,它会去除高频细节                    ,但仍然学习很少的语义变化                          ,2.实际生成模型学习数据的语义和概念组成(语义压缩)                        。我们将训练分为两个阶段     ,首先训练一个自动编码器                ,它提供一个低维的表示空间                         ,在感知上等同于数据空间          ,其次在学习的潜在空间上训练dm            ,将生成模型成为潜在扩散模型ldm                      。这种方式的优点在于我们只需要训练通用的自动编码器一次                        ,就可以重复用于多次dm训练。

2.methods

2.1 perceptual image compression

        由此可知              ,基于感知压缩的扩散模型的训练本质上是一个两阶段训练的过程        ,第一阶段需要训练一个自编码器                        ,第二阶段才需要训练扩散模型本身                    。在第一阶段训练自编码器时                  ,为了避免潜在表示空间出现高度的异化    ,作者使用了两种正则化方法                        ,一种是KL-reg                      ,另一种是VQ-reg,因此在官方发布的一阶段预训练模型中                    ,会看到KL和VQ两种实现                          。在Stable Diffusion中主要采用AutoencoderKL这种实现     。

2.2 latent diffusion models

扩散模型是一个时序去噪自编码器                          ,其目标是根据输入xt去预测一个对应去噪后的变体     ,xt是输入x的噪声版本                。而潜在扩散模型中引入了预训练的感知压缩模型                ,它包括一个编码器和一个解码器                         ,这样在训练时就可以用编码器得到zt          ,从而让模型在潜在表示空间中学习                         。与高维空间比            ,降维空间更适合基于似然的生成模型                        ,因为1.可以专注于数据的重要语义              ,低维空间中高频的细节被抽象掉了        ,2.在低维空间中可以进行更有效的计算          。

2.3 条件机制

后续就是作者的一系列实验了                        ,整体来说作者基于latent的先验自编码器                  ,训练一个dm    ,发现这样做的效果也非常好            。

3.图示

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
jQuery判断是否为空(jQuery Pagination Plugin Demo) 可以赚钱的软件并且可以提现到支付宝可以赚钱的软件有哪些支付宝-整天让我花钱的支付宝,用对了竟然能赚钱?