首页IT科技fick扩散定理(SegDiff: Image Segmentation with Diffusion Probabilistic Models 基于扩散模型的图像语义分割模型)

fick扩散定理(SegDiff: Image Segmentation with Diffusion Probabilistic Models 基于扩散模型的图像语义分割模型)

时间2025-06-20 15:09:34分类IT科技浏览4704
导读:目录...

目录

Diffusion models是生成模型的一种             ,同样的还有GAN                     ,VAE       ,Flow模型等

Abstract

2              、related work

3                    、背景

前向扩散表达:

反向生成过程:

4       、理论

5       、实验

论文地址:https://arxiv.org/pdf/2112.00390.pdf

代码:截至今天还未公开              。

随着人工智能在图像生成             ,文本生成以及多模态生成等领域的技术不断累积                    ,生成对抗网络(GAN)                    、变微分自动编码器(VAE)             、normalizing flow models       、自回归模型(AR)                     、energy-based models以及近年来大火的扩散模型(Diffusion Model)                    。

Diffusion models是生成模型的一种       ,同样的还有GAN       ,VAE                    ,Flow模型等

SegDiff

Abstract

目前最先进的图像生成方法是采用扩散概率方法       。在这项工作中              ,我们提出了一种方法来扩展这些模型执行图像分割       。该方法学习端到端       ,不依赖于预先训练的主干                    。通过对两个编码器的输出求和                    ,将输入图像中的信息与当前分割图估计中的信息合并             。然后使用附加的编码层和一个解码器迭代细化分割映射              ,使用扩散模型       。由于扩散模型是概率的,它被多次应用                    ,结果被合并成一个最终的分割图                     。新方法在城市景观验证集             、Vaihin- gen建筑分割基准和MoNuSeg数据集上产生了最先进的结果             。

introduce

扩散方法迭代地改进给定的图像                     ,得到的图像质量与其他类型的生成模型(包括对数似然模型和对抗模型)相同或更好[10,19]。这种方法已被证明在许多代任务中表现出色,无论是有条件的还是无条件的                     。

绝大多数的扩散模型都应用于没有绝对GT的领域             ,其输出要么通过用户研究                     ,要么使用几个质量和多样性分数进行评估                    。据我们所知       ,除了超分辨率[19,27,41]外             ,扩散模型还没有被应用到地GT唯一的问题中。

在这项工作中                    ,我们解决了图像分割的问题              。这个问题是经典计算机视觉和过去十年的深度学习方法的基石                    。该领域的主要方法采用不同结构的编码器-解码器网络[4, 31, 38, 50, 52, 53]       。虽然已经尝试了对抗性方法[12,33,49,51]       ,但它们并不构成当前的技术水平              。

因此       ,扩散模型主要用于类似gan生成任务                    ,在该领域是否具有竞争力是不确定的                    。在这项工作中              ,我们提出应用扩散模型来学习图像分割map       。与图像分割领域的其他最新改进不同[13,22,44]       ,我们对我们的方法进行端到端训练                    ,而不依赖于预先训练的backbone       。扩散模型采用了一个条件为输入图像的去噪网络              ,该去噪网络仅通过该信息与来自当前估计x t的信息的和进行聚合                    。具体来说,输入图像I和二值分割映射的当前估计xt通过两个不同的编码器                    ,这些多通道张量的和通过U-Net[38]提供下一个估计xt−1             。

由于生成过程本质上是随机的                     ,因此可以得到多个解       。正如我们所展示的,合并这些解决方案             ,通过简单地平均多次运行                     ,导致总体精度的提高                     。求平均             。

贡献:1、第一个应用扩散模型处理图像分割问题。

      2                     、我们提出了一种基于输入图像的模型条件化的新方法

         3                    、我们引入了多代的概念       ,以改善扩散模型的性能和校准

         4、我们在多个基准上获得了最先进的结果                     。对于较小的数据集             ,差额尤其大                    。

2              、related work

图像分割:图像分割是为每个像素分配一个标签                    ,以确定它是否属于一个特定的类别的问题。这个问题在不同的体系结构中得到了广泛的研究              。这些包括完全卷积网络[31]       ,带有跳跃式连接的编码器-解码器架构       ,如U-Net[38]                    ,基于transformer的架构              ,如segformer[50]       ,甚至结合了超网络的架构                    ,如[36]                    。

扩散模型:扩散概率模型(DPM)[43]是一类基于马尔可夫链的生成模型              ,它可以将简单分布(如高斯分布)转换为复杂分布中的采样数据       。扩散模组能够生成高质量的图像,可以与最新的GAN模组竞争                    ,甚至优于它们[10,18,35,43]              。引入了扩散模型相似度估计的变分框架

黄等                    。[21]       。随后                     ,Kingma等人提出了一种变分扩散模型,该模型对图像密度的似然估计产生了最先进的结果       。扩散模型也被应用到语言模型中[2,20]             ,其中使用了一种新的分类数据扩散模型                    。

条件扩散概率模型:在我们的工作中                     ,我们使用扩散模型来解决图像分割问题作为条件生成       ,给定的图像             。带有扩散模型的条件生成包含了类条件生成的方法             ,它是通过在时间戳中嵌入一个类来获得的       。在[8]中提出了一种指导DDPM生成过程的方法                     。该方法允许根据给定的参考图像生成图像                    ,而不需要任何额外的学习             。

在超分辨率领域       ,对低分辨率图像进行上采样       ,然后在每次迭代时将其按通道连接到生成的图像上[19,41]。模拟方法将低分辨率图像在拼接前通过卷积块[27]                     。与我们的工作一致的是                    ,扩散模型被应用于图像到图像的翻译任务[40]                    。这些任务包括去裁剪                    、填充和着色。得到的结果优于强GAN基线              。

条件扩散模型也被用于语音生成                    。用卷积网络对mel谱图进行处理              ,并作为DPM去噪网络的附加输入[6,24,30]       。此外       ,在[37]中引入了文本到语音的扩散模型                    ,该模型使用文本作为扩散模型的条件              。

在我们的工作中              ,我们采用了一种不同的方法来条件化,在输入图像通过卷积编码器后                    ,将其添加(而不是连接)到分割图像的当前估计中                    。换句话说                     ,我们学习了残差模型的DPM       。

3       、背景

我们简单介绍DDPM中的公式       。扩散模型是由马尔可夫链参数化的生成模型,由正向过程和向后过程组成                    。

前向扩散过程数学表达:

反向生成过程:

4              、理论

我们的方法修改了扩散模型             ,通过调节步长估计函数(该函数为Unet)的输入张量                     ,该输入张量结合了来自当前估计Xt和输入图像I的信息             。

在扩散模型中步长估计函数为Unet       ,在我们的模型中             ,我们步长函数可以用下式表达:

在我们的结构中Unet的decoder还是最基本的                    ,但是encoder分为了三部分:E       ,F和G       。G部分对图像进行处理       ,F对扩散模型生成的Xt进行处理                    ,然后将G和F产生的特征相加(二者具有相同的size和维度)                     。然后传入到E部分中              ,当前的索引t被传递到两个不同的网络D和E中       ,

等式17中对I有条件的θ的输出代入等式16                    ,取代了无条件的θ网络             。由此产生的推断时间过程如图1所示              ,详见Alg. 1。

4.1 使用多尺度生成

因为在计算Xt-1时需要增加随机噪声,随机噪声都是标准正态分布                     。相同的输入在每次推理的时候都会有一定随机性的结果                    。所以我们将推理算法进行多次                    ,然后对结果取平均值。

通过这种方式                     ,得到了较为稳定的分割结果并提高了性能,如图2(c)所示              。除了消融研究中的实验             ,我们在所有的实验中使用了30个生成的实例                     ,消融研究量化了这个平均过程的增益                    。

4.2 traing

总的扩散次数T需要人为设置       。对每一轮迭代       ,图像和mask都是随机获取的             ,迭代次数从均匀分布中采样的                    ,噪声epsilon从正态分布中采样              。

第t次的结果xt可以根据x0推导而来       ,图像i可以通过encoder G获得       ,然后通过网络E和G获得最后的预测输出                    。然后根据mask和预测值求的loss值                    ,

4.3 结构

G:由残差块组成              ,结合了多尺度残差       ,没有采用BN层                    ,

F是一个具有单通道输入和C通道输出的二维卷积层       。

解码器部分E和D是基于Unet网络的       。每一层都由残差块组成              ,在分辨率为16x16和8x8时,每个残差块后面都有一个注意层                    。瓶部包含两个残差块                    ,中间有一个注意层             。每个注意层包含多个注意头       。

残差块由两个卷积块组成                     ,每个卷积块包含GroupNorm                    、Silu激活函数和二维卷积层                     。残差块通过一个线性层       、silu激活函数和另一个线性层接受time embedding             。然后将结果添加到第一个2d卷积块的输出中。此外,残留块有一个传递其所有内容的残留连接                     。

在编码器侧(网络E)             ,在相同深度的残块之后有一个下叠加块                     ,这是一个步幅为2的二维卷积层                    。在解码器侧(网络D)       ,在相同深度的残差块之后有一个上采样块             ,它由空间大小翻倍的最近插值组成                    ,然后是二维卷积层。编码器中的每一层都有到解码器端的跳过连接              。

5       、实验

实验部分可以找原文去看                    。

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
提高自己网站在百度的排名(百度网页排名怎么提升)