首页IT科技fick扩散定理(SegDiff: Image Segmentation with Diffusion Probabilistic Models 基于扩散模型的图像语义分割模型)

fick扩散定理(SegDiff: Image Segmentation with Diffusion Probabilistic Models 基于扩散模型的图像语义分割模型)

时间2025-08-02 19:26:08分类IT科技浏览5523
导读:目录...

目录

Diffusion models是生成模型的一种                ,同样的还有GAN                        ,VAE        ,Flow模型等

Abstract

2                、related work

3                        、背景

前向扩散表达:

反向生成过程:

4        、理论

5        、实验

论文地址:https://arxiv.org/pdf/2112.00390.pdf

代码:截至今天还未公开                。

随着人工智能在图像生成                ,文本生成以及多模态生成等领域的技术不断累积                        ,生成对抗网络(GAN)                        、变微分自动编码器(VAE)                、normalizing flow models        、自回归模型(AR)                        、energy-based models以及近年来大火的扩散模型(Diffusion Model)                        。

Diffusion models是生成模型的一种        ,同样的还有GAN        ,VAE                        ,Flow模型等

SegDiff

Abstract

目前最先进的图像生成方法是采用扩散概率方法        。在这项工作中                ,我们提出了一种方法来扩展这些模型执行图像分割        。该方法学习端到端        ,不依赖于预先训练的主干                        。通过对两个编码器的输出求和                        ,将输入图像中的信息与当前分割图估计中的信息合并                。然后使用附加的编码层和一个解码器迭代细化分割映射                ,使用扩散模型        。由于扩散模型是概率的,它被多次应用                        ,结果被合并成一个最终的分割图                        。新方法在城市景观验证集                、Vaihin- gen建筑分割基准和MoNuSeg数据集上产生了最先进的结果                。

introduce

扩散方法迭代地改进给定的图像                        ,得到的图像质量与其他类型的生成模型(包括对数似然模型和对抗模型)相同或更好[10,19]。这种方法已被证明在许多代任务中表现出色,无论是有条件的还是无条件的                        。

绝大多数的扩散模型都应用于没有绝对GT的领域                ,其输出要么通过用户研究                        ,要么使用几个质量和多样性分数进行评估                        。据我们所知        ,除了超分辨率[19,27,41]外                ,扩散模型还没有被应用到地GT唯一的问题中。

在这项工作中                        ,我们解决了图像分割的问题                。这个问题是经典计算机视觉和过去十年的深度学习方法的基石                        。该领域的主要方法采用不同结构的编码器-解码器网络[4, 31, 38, 50, 52, 53]        。虽然已经尝试了对抗性方法[12,33,49,51]        ,但它们并不构成当前的技术水平                。

因此        ,扩散模型主要用于类似gan生成任务                        ,在该领域是否具有竞争力是不确定的                        。在这项工作中                ,我们提出应用扩散模型来学习图像分割map        。与图像分割领域的其他最新改进不同[13,22,44]        ,我们对我们的方法进行端到端训练                        ,而不依赖于预先训练的backbone        。扩散模型采用了一个条件为输入图像的去噪网络                ,该去噪网络仅通过该信息与来自当前估计x t的信息的和进行聚合                        。具体来说,输入图像I和二值分割映射的当前估计xt通过两个不同的编码器                        ,这些多通道张量的和通过U-Net[38]提供下一个估计xt−1                。

由于生成过程本质上是随机的                        ,因此可以得到多个解        。正如我们所展示的,合并这些解决方案                ,通过简单地平均多次运行                        ,导致总体精度的提高                        。求平均                。

贡献:1、第一个应用扩散模型处理图像分割问题。

      2                        、我们提出了一种基于输入图像的模型条件化的新方法

         3                        、我们引入了多代的概念        ,以改善扩散模型的性能和校准

         4、我们在多个基准上获得了最先进的结果                        。对于较小的数据集                ,差额尤其大                        。

2                、related work

图像分割:图像分割是为每个像素分配一个标签                        ,以确定它是否属于一个特定的类别的问题。这个问题在不同的体系结构中得到了广泛的研究                。这些包括完全卷积网络[31]        ,带有跳跃式连接的编码器-解码器架构        ,如U-Net[38]                        ,基于transformer的架构                ,如segformer[50]        ,甚至结合了超网络的架构                        ,如[36]                        。

扩散模型:扩散概率模型(DPM)[43]是一类基于马尔可夫链的生成模型                ,它可以将简单分布(如高斯分布)转换为复杂分布中的采样数据        。扩散模组能够生成高质量的图像,可以与最新的GAN模组竞争                        ,甚至优于它们[10,18,35,43]                。引入了扩散模型相似度估计的变分框架

黄等                        。[21]        。随后                        ,Kingma等人提出了一种变分扩散模型,该模型对图像密度的似然估计产生了最先进的结果        。扩散模型也被应用到语言模型中[2,20]                ,其中使用了一种新的分类数据扩散模型                        。

条件扩散概率模型:在我们的工作中                        ,我们使用扩散模型来解决图像分割问题作为条件生成        ,给定的图像                。带有扩散模型的条件生成包含了类条件生成的方法                ,它是通过在时间戳中嵌入一个类来获得的        。在[8]中提出了一种指导DDPM生成过程的方法                        。该方法允许根据给定的参考图像生成图像                        ,而不需要任何额外的学习                。

在超分辨率领域        ,对低分辨率图像进行上采样        ,然后在每次迭代时将其按通道连接到生成的图像上[19,41]。模拟方法将低分辨率图像在拼接前通过卷积块[27]                        。与我们的工作一致的是                        ,扩散模型被应用于图像到图像的翻译任务[40]                        。这些任务包括去裁剪                        、填充和着色。得到的结果优于强GAN基线                。

条件扩散模型也被用于语音生成                        。用卷积网络对mel谱图进行处理                ,并作为DPM去噪网络的附加输入[6,24,30]        。此外        ,在[37]中引入了文本到语音的扩散模型                        ,该模型使用文本作为扩散模型的条件                。

在我们的工作中                ,我们采用了一种不同的方法来条件化,在输入图像通过卷积编码器后                        ,将其添加(而不是连接)到分割图像的当前估计中                        。换句话说                        ,我们学习了残差模型的DPM        。

3        、背景

我们简单介绍DDPM中的公式        。扩散模型是由马尔可夫链参数化的生成模型,由正向过程和向后过程组成                        。

前向扩散过程数学表达:

反向生成过程:

4                、理论

我们的方法修改了扩散模型                ,通过调节步长估计函数(该函数为Unet)的输入张量                        ,该输入张量结合了来自当前估计Xt和输入图像I的信息                。

在扩散模型中步长估计函数为Unet        ,在我们的模型中                ,我们步长函数可以用下式表达:

在我们的结构中Unet的decoder还是最基本的                        ,但是encoder分为了三部分:E        ,F和G        。G部分对图像进行处理        ,F对扩散模型生成的Xt进行处理                        ,然后将G和F产生的特征相加(二者具有相同的size和维度)                        。然后传入到E部分中                ,当前的索引t被传递到两个不同的网络D和E中        ,

等式17中对I有条件的θ的输出代入等式16                        ,取代了无条件的θ网络                。由此产生的推断时间过程如图1所示                ,详见Alg. 1。

4.1 使用多尺度生成

因为在计算Xt-1时需要增加随机噪声,随机噪声都是标准正态分布                        。相同的输入在每次推理的时候都会有一定随机性的结果                        。所以我们将推理算法进行多次                        ,然后对结果取平均值。

通过这种方式                        ,得到了较为稳定的分割结果并提高了性能,如图2(c)所示                。除了消融研究中的实验                ,我们在所有的实验中使用了30个生成的实例                        ,消融研究量化了这个平均过程的增益                        。

4.2 traing

总的扩散次数T需要人为设置        。对每一轮迭代        ,图像和mask都是随机获取的                ,迭代次数从均匀分布中采样的                        ,噪声epsilon从正态分布中采样                。

第t次的结果xt可以根据x0推导而来        ,图像i可以通过encoder G获得        ,然后通过网络E和G获得最后的预测输出                        。然后根据mask和预测值求的loss值                        ,

4.3 结构

G:由残差块组成                ,结合了多尺度残差        ,没有采用BN层                        ,

F是一个具有单通道输入和C通道输出的二维卷积层        。

解码器部分E和D是基于Unet网络的        。每一层都由残差块组成                ,在分辨率为16x16和8x8时,每个残差块后面都有一个注意层                        。瓶部包含两个残差块                        ,中间有一个注意层                。每个注意层包含多个注意头        。

残差块由两个卷积块组成                        ,每个卷积块包含GroupNorm                        、Silu激活函数和二维卷积层                        。残差块通过一个线性层        、silu激活函数和另一个线性层接受time embedding                。然后将结果添加到第一个2d卷积块的输出中。此外,残留块有一个传递其所有内容的残留连接                        。

在编码器侧(网络E)                ,在相同深度的残块之后有一个下叠加块                        ,这是一个步幅为2的二维卷积层                        。在解码器侧(网络D)        ,在相同深度的残差块之后有一个上采样块                ,它由空间大小翻倍的最近插值组成                        ,然后是二维卷积层。编码器中的每一层都有到解码器端的跳过连接                。

5        、实验

实验部分可以找原文去看                        。

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
loggingto(Logging system failed to initialize using configuration from ‘classpathlogbacklogback-spring.xml‘) del是什么文件(de_serv.exe是安全的进程吗 de_serv进程能结束掉吗)