DDPM（Denoising Diffusion Probabilistic Models）扩散模型简述

引言

扩散模型最早是在2015年的Deep Unsupervised Learning using Nonequilibrium Thermodynamics文章中提出的，但当时扩散模型并不work，所以并没有被广泛应用。在2020年，Denoising Diffusion Probabilistic Models简称为DDPM)的出现，将扩散模型带到了一个新高度。并且在其之前主流的生成网络GAN，还存在一些缺点，因为其要训练两个网络，难度较大，容易不收敛，多样性较差，并且模型在训练过程中不稳定，只要骗过判别器即可。而生成模型用一种更简单的方法诠释了生成模型应该如何学习和生成，感觉更简单，之后扩散模型可能会替代GAN成为主流的生成模型。

以上是扩散模型的图示，可以看到扩散模型分为两个阶段，分为前向过程和逆向过程。

前向过程即上图中 $x0\mathbf{x}_0$ 到 $xT\mathbf{x}_T$ 的过程，我们向原始图像中逐步添加高斯噪声，并且后一时刻都是由前一时刻添加噪声得到的，这样我们就得到 $x1\mathbf{x}_1$ ， $x2\mathbf{x}_2$ ，…, $xT\mathbf{x}_T$ ， $xT\mathbf{x}_T$ 是完全的高斯噪声。前向过程存在的意义就是帮助神经网络去训练逆向过程，也即前向过程中得到的噪声就是一系列标签，根据这些标签，逆向过程在去噪的时候就知道噪音是怎么加进去的，进而进行训练。正向过程对应网络的训练过程
逆向过程即上图中 $xT\mathbf{x}_T$ 到 $x0\mathbf{x}_0$ 的过程。我们从标准正态分布采样的高斯噪声 $xT\mathbf{x}_T$ ，逐步对其去噪，得到 $xT−1\mathbf{x}_{T-1}$ ， $xT−2\mathbf{x}_{T-2}$ ，…， $x0\mathbf{x}_0$ ， $x0\mathbf{x}_0$ 是没有噪声的的图像。逆向过程对应网络的推理过程。

前向过程Forward Process

前向过程又称扩散过程，其是一个马尔科夫过程即当前状态只和前一个状态有关)。我们向原始图像 $x0\mathbf{x}_0$ 中逐步添加高斯噪声，噪声的标准差是固定值 $βt\beta_t$ 来确定的，均值是固定值 $βt\beta_t$ 和和 $t - 1$ 时刻的数据 $xt−1\mathbf{x}_{t-1}$ 确定的。随着 $t$ 不断增大，最终分布 $xT\mathbf{x}_T$ 服从于各向同性的高斯分布了。那么我们要加多少次噪声呢，也即 $T$ 取多大好呢？论文中将 $T$ 看做成一个超参数， $T = 1000$ ，即加1000次噪声后， $xT\mathbf{x}_T$ 会变成各向同性的高斯分布。下方是论文中给出的扩散过程 $xt\mathbf{x}_t$ 的分布。
$qxt∣xt−1)=Nxt;1−βtxt−1,βtI)q\mathbf{x}_{t}\mid\mathbf{x}_{t-1})=\mathcal{N}\mathbf{x}_{t};\sqrt{1-\beta_{t}}\mathbf{x}_{t-1},\beta_{t}\mathbf{I})$
我们可以利用重参数化技巧，将其改写成下面的式子
$xt=1−βtxt−1+βtzt−1\mathbf{x}_t=\sqrt{1-\beta_{t}}\mathbf{x}_{t-1}+\sqrt{\beta_{t}}\mathbf{z}_{t-1}$
通过这个式子，我们就可以很直观的看到这个噪声是怎么加的，即 $a \times I m a g e + b \times N o i s e$ ， $I m a g e$ 是前一时刻生成的图像，即上式中的 $xt−1\mathbf{x}_{t-1}$ ； $N o i s e$ 是标准正态分布，即上式中 $zt−1∼N0,I)\mathbf{z}_{t-1}\sim\mathcal{N}0,\mathbf{I})$ 。并且这里图像和噪音的权重是不断变化的，也即上式中的 $βt\beta_t$ ，论文中将其称作扩散率，也是按照超参数处理， $β\beta$ 的范围从0.0001逐步增大到0.002。为什么扩散率是逐渐增大的呢，也即为什么噪音所占的比例越来越大呢？可以反过来理解，在加噪声的过程中，扩散率逐渐增大，对应着在去噪声的过程中，扩散率逐渐减小，也就是说，去噪的过程是先把"明显"的噪声给去除，对应着较大的扩散率；当去到一定程度，逐渐逼近真实真实图像的时候，去噪速率逐渐减慢，开始微调，也就是对应着较小的扩散率。

重参数化技巧

如果我们要对高斯分布 $Nμ,σ2)\mathcal{N}\mu, \sigma^2)$ 进行采样一个噪声 $ϵ\epsilon$ ，等价于先从标准正态分布 $N0,1)\mathcal{N}0,1)$ 中采样的到一个噪声 $z\mathbf{z}$ ，然后对其乘上标准差 $σ\sigma$ ，加上均值 $μ\mu$ ，即 $ϵ=μ+σ⋅z\epsilon=\mu+\sigma\cdot\mathbf{z}$ 。举个例子，上面我们已经得到了 $xt\mathbf{x}_t$ 是从高斯分布 $N1−βtxt−1,βtI)\mathcal{N}\sqrt{1-\beta_{t}}\mathbf{x}_{t-1},\beta_{t}\mathbf{I})$ 采样出来的噪声，该高斯分布的均值为 $1−βtxt−1\sqrt{1-\beta_{t}}\mathbf{x}_{t-1}$ ，标准差为 $βt\sqrt{\beta_{t}}$ ，所以 $xt=1−βtxt−1+βtz\mathbf{x}_t=\sqrt{1-\beta_{t}}\mathbf{x}_{t-1}+\sqrt{\beta_{t}}\mathbf{z}$ 。

解释结束

现在我们可以根据 $xt−1\mathbf{x}_{t-1}$ 得到 $xt\mathbf{x}_t$ ，那么如果我们给出了原始图像 $x0\mathbf{x}_0$ 。能不能通过一次计算就得到加噪任意 $t$ 次之后的 $xt\mathbf{x}_t$ ？答案是可以的。
首先令 $αt=1−βt\alpha_{t}=1-\beta_{t}$ ， $αˉt=α1∗α2∗⋯∗αt\bar{\alpha}_{t}=\alpha_1\ast\alpha_2\ast\dots\ast\alpha_{t}$ ， $z~t∼N0,I)\tilde{\mathbf{z}}_{t}\sim\mathcal{N}0,\mathbf{I})$ ，则
$xt=αtxt−1+1−αtzt−1=αt∗αt−1xt−2+1−αt−1zt−2)+1−αtzt−1=αtαt−1xt−2+αt−αtαt−1zt−2+1−αtzt−1∗=αtαt−1xt−2+1−αtαt−1zˉt−2=…=αˉtx0+1−αˉtz~t\begin{aligned} \mathbf{x}_t & = \sqrt{\alpha_{t}}\mathbf{x}_{t-1}+\sqrt{1-\alpha_{t}}\mathbf{z}_{t-1} \\ & = \sqrt{\alpha_{t}}\ast\sqrt{\alpha_{t-1}}\mathbf{x}_{t-2}+\sqrt{1-\alpha_{t-1}}\mathbf{z_{t-2}})+\sqrt{1-\alpha_{t}}\mathbf{z}_{t-1} \\ & = \sqrt{\alpha_{t}\alpha_{t-1}}\mathbf{x}_{t-2}+\sqrt{\alpha_{t}-\alpha_{t}\alpha_{t-1}}\mathbf{z}_{t-2}+\sqrt{1-\alpha_{t}}\mathbf{z}_{t-1} \qquad *\\ & = \sqrt{\alpha_{t}\alpha_{t-1}}\mathbf{x}_{t-2}+\sqrt{1-\alpha_{t}\alpha_{t-1}}\bar{\mathbf{z}}_{t-2} \\ & = \dots \\ & = \sqrt{\bar{\alpha}_{t}}\mathbf{x_{0}}+\sqrt{1-\bar{\alpha}_{t}}\tilde{\mathbf{z}}_{t} \end{aligned}$
通过重参数化，我们能得到 $qxt∣x0)=Nxt;αˉtx0,1−αˉt)I)q\mathbf{x}_t\mid\mathbf{x}_0)=\mathcal{N}\mathbf{x}_t;\sqrt{\bar{\alpha}_t}\mathbf{x}_0,1-\bar{\alpha}_t)\mathbf{I})$

对于 $*$ 处运算的解释

对于任意两个正态分布 $x∼Nμ1,σ12)\mathbf{x}\sim\mathcal{N}\mu_1,\sigma_1^2)$ 和 $y∼Nμ2,σ22)\mathbf{y}\sim\mathcal{N}\mu_2,\sigma_2^2)$ ,其和的分布 $x+y∼Nμ1+μ2,σ12+σ22)\mathbf{x}+\mathbf{y}\sim\mathcal{N}\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)$

因此对于两个标准正态分布 $zt−2\mathbf{z}_{t-2}$ 和 $zt−1\mathbf{z}_{t-1}$ ,将其前面乘上一个系数， $αt−αtαt−1zt−2∼N0,αt−αtαt−1)\sqrt{\alpha_{t}-\alpha_{t}\alpha_{t-1}}\mathbf{z}_{t-2}\sim\mathcal{N}0,\alpha_{t}-\alpha_{t}\alpha_{t-1})$ ， $1−αtzt−1∼N0,1−αt)\sqrt{1-\alpha_{t}}\mathbf{z}_{t-1}\sim\mathcal{N}0,1-\alpha_{t})$ ，因此 $αt−αtαt−1zt−2+1−αtzt−1∼N0,1−αtαt−1)\sqrt{\alpha_{t}-\alpha_{t}\alpha_{t-1}}\mathbf{z}_{t-2}+\sqrt{1-\alpha_{t}}\mathbf{z}_{t-1}\sim\mathcal{N}0,1-\alpha_{t}\alpha_{t-1})$ ，也即 $1−αtαt−1zˉt−2\sqrt{1-\alpha_{t}\alpha_{t-1}}\bar{\mathbf{z}}_{t-2}$ 。这里不同形式$\mathbf{z} $单纯起区分作用，本质上都属于标准正态分布$ \mathcal{N}0,\mathbf{I})$的不同采样。

解释结束

以上就是前向过程大概内容，我们从前向过程得到的 $xt\mathbf{x}_t$ 将会作为标签，帮助网络学习如何从 $xT\mathbf{x}_T$ 中一步步去噪，最终得到 $x0\mathbf{x}_0$ 。

后向过程Reverse Process

后向过程又称逆扩散过程。我们希望能够从一个噪声分布 $xT\mathbf{x}_T$ 中逐步去预测出来目标分布 $x0\mathbf{x}_0$ 。后向过程仍然是一个马尔科夫链过程。根据我们输入的 $xt\mathbf{x}_{t}$ 去求 $xt−1\mathbf{x}_{t-1}$ 的分布，即求 $qxt−1∣xt)q\mathbf{x}_{t-1}\mid\mathbf{x}_{t})$ ，直接对该公式求解比较困难，可以使用贝叶斯公式将其转化为我们已知的量 $qxt−1∣xt)=qxt∣xt−1)qxt−1)qxt)q\mathbf{x}_{t-1}\mid\mathbf{x}_{t})=q\mathbf{x}_{t}\mid\mathbf{x}_{t-1})\frac{q\mathbf{x}_{t-1})}{q\mathbf{x}_{t})}$
由前向过程， $qxt∣xt−1)q\mathbf{x}_{t}\mid\mathbf{x}_{t-1})$ 已知，但是 $qxt−1)q\mathbf{x}_{t-1})$ 和 $qxt)q\mathbf{x}_{t})$ 未知，但是如果我们给其加上一个先决条件 $qx0)q\mathbf{x}_0)$ ，也即 $qxt−1∣x0)q\mathbf{x}_{t-1}\mid\mathbf{x}_0)$ 和 $qxt∣x0)q\mathbf{x}_{t}\mid\mathbf{x}_0)$ ，这两个分布由前向过程我们是已知的，所以对 $qxt−1∣xt)q\mathbf{x}_{t-1}\mid\mathbf{x}_{t})$ 加上一个条件 $x0\mathbf{x}_0$ ，得到一个多元条件分布
$qxt−1∣xt,x0)=qxt∣xt−1,x0)qxt−1∣x0)qxt∣x0)q\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)=q\mathbf{x}_{t}\mid\mathbf{x}_{t-1},\mathbf{x}_0)\frac{q\mathbf{x}_{t-1}\mid\mathbf{x}_0)}{q\mathbf{x}_{t}\mid\mathbf{x}_0)}$
由于扩散过程是马尔科夫过程，所以 $qxt∣xt−1,x0)=qxt∣xt−1)q\mathbf{x}_{t}\mid\mathbf{x}_{t-1},\mathbf{x}_0)=q\mathbf{x}_{t}\mid\mathbf{x}_{t-1})$
至此，所有分布我们都已知了，由于正态分布 $Nμ,σ2)\mathcal{N}\mu,\sigma^2)$ 的概率密度函数 $px)=12πσe−12x−μσ)2∝exp−12x−μσ)2)=exp−121σ2×2−2μσ2x+μ2σ2))px)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}\frac{x-\mu}{\sigma})^2}\propto exp{-\frac{1}{2}\frac{x-\mu}{\sigma})^2})=exp-\frac{1}{2}\frac{1}{\sigma^2}x^2-\frac{2\mu}{\sigma^2}x+\frac{\mu^2}{\sigma^2}))$ ，故

$qxt∣xt−1)=Nxt;αtxt−1,1−αt)I)∝exp−12xt−αtxt−1)21−αt)q\mathbf{x}_{t}\mid\mathbf{x}_{t-1})=\mathcal{N}\mathbf{x}_{t};\sqrt{\alpha_{t}}\mathbf{x}_{t-1},1-\alpha_{t})\mathbf{I})\propto exp-\frac{1}{2}\frac{\mathbf{x}_{t}-\sqrt{\alpha_{t}}\mathbf{x}_{t-1})^2}{1-\alpha_{t}})$
$xt−1=αˉt−1×0+1−αˉt−1z~t−1\mathbf{x}_{t-1}=\sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0+\sqrt{1-\bar{\alpha}_{t-1}}\tilde{\mathbf{z}}_{t-1}$ ，利用重参数技巧，则 $qxt−1∣x0)=Nxt−1;αˉt−1×0,1−αˉt−1)I)∝exp−12xt−1−αˉt−1×0)21−αˉt−1)q\mathbf{x}_{t-1}\mid\mathbf{x}_{0})=\mathcal{N}\mathbf{x}_{t-1};\sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0,1-\bar{\alpha}_{t-1})\mathbf{I})\propto exp-\frac{1}{2}\frac{\mathbf{x}_{t-1}-\sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0)^2}{1-\bar{\alpha}_{t-1}})$
$xt=αˉtx0+1−αˉtz~t\mathbf{x}_{t}=\sqrt{\bar{\alpha}_{t}}\mathbf{x}_0+\sqrt{1-\bar{\alpha}_{t}}\tilde{\mathbf{z}}_{t}$ ，同样利用重参数技巧，则 $qxt∣x0)=Nxt;αˉtx0,1−αˉt)I)∝exp−12xt−αˉtx0)21−αˉt)q\mathbf{x}_{t}\mid\mathbf{x}_{0})=\mathcal{N}\mathbf{x}_{t};\sqrt{\bar{\alpha}_{t}}\mathbf{x}_0,1-\bar{\alpha}_{t})\mathbf{I})\propto exp-\frac{1}{2}\frac{\mathbf{x}_{t}-\sqrt{\bar{\alpha}_{t}}\mathbf{x}_0)^2}{1-\bar{\alpha}_{t}})$

这样一来我们对概率分布的运算就可以转化为指数运算。由于对指数进行乘除运算相当于对其系数的加减运算，故
$qxt−1∣xt,x0)=qxt∣xt−1)qxt−1∣x0)qxt∣x0)∝exp−12[xt−αtxt−1)21−αt+xt−1−αˉt−1×0)21−αˉt−1−xt−αˉtx0)21−αˉt])q\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)=q\mathbf{x}_{t}\mid\mathbf{x}_{t-1})\frac{q\mathbf{x}_{t-1}\mid\mathbf{x}_0)}{q\mathbf{x}_{t}\mid\mathbf{x}_0)}\propto exp-\frac{1}{2}[\frac{\mathbf{x}_{t}-\sqrt{\alpha_{t}}\mathbf{x}_{t-1})^2}{1-\alpha_{t}}+\frac{\mathbf{x}_{t-1}-\sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0)^2}{1-\bar{\alpha}_{t-1}}-\frac{\mathbf{x}_{t}-\sqrt{\bar{\alpha}_{t}}\mathbf{x}_0)^2}{1-\bar{\alpha}_{t}}])$
由于我们目标是求与 $xt−1\mathbf{x}_{t-1}$ 有关的条件分布，所以将平方项进一步展开化简为关于 $xt−1\mathbf{x}_{t-1}$ 的二次函数
$qxt−1∣xt,x0)∝exp−12[αtβt+11−αˉt−1)xt−12−2αtβtxt+2αˉt−11−αˉt−1×0)xt−1−Cxt,x0)])q\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)\propto exp-\frac{1}{2}[\frac{\alpha_{t}}{\beta_{t}}+\frac{1}{1-\bar{\alpha}_{t-1}})\mathbf{x}_{t-1}^2-\frac{2\sqrt{\alpha_{t}}}{\beta_t}\mathbf{x}_t+\frac{2\sqrt{\bar{\alpha}_{t-1}}}{1-\bar{\alpha}_{t-1}}\mathbf{x}_0)\mathbf{x}_{t-1}-C\mathbf{x}_t,\mathbf{x}_0)])$
这里 $Cxt,x0)C\mathbf{x}_t,\mathbf{x}_0)$ 为 $xt−αˉtx0)21−αˉt\frac{\mathbf{x}_{t}-\sqrt{\bar{\alpha}_{t}}\mathbf{x}_0)^2}{1-\bar{\alpha}_{t}}$ ，也即 $qxt∣x0)q\mathbf{x}_t\mid\mathbf{x}_0)$ 。由于上式是关于 $xt−1\mathbf{x}_{t-1}$ 的函数，由于 $qxt∣x0)q\mathbf{x}_t\mid\mathbf{x}_0)$ 不含 $xt−1\mathbf{x}_{t-1}$ ，故将其视为常数 $C$ 。由于 $qxt−1∣xt,x0)q\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)$ 服从于正态分布，所以我们只需要找到其均值和方差就能求出其分布。怎么求？
现在我们考虑正态分布 $Nμ,σ2)\mathcal{N}\mu,\sigma^2)$ 的概率密度函数 $px)=12πσe−12x−μσ)2∝exp−12x−μσ)2)=exp−121σ2×2−2μσ2x+μ2σ2))px)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}\frac{x-\mu}{\sigma})^2}\propto exp{-\frac{1}{2}\frac{x-\mu}{\sigma})^2})=exp-\frac{1}{2}\frac{1}{\sigma^2}x^2-\frac{2\mu}{\sigma^2}x+\frac{\mu^2}{\sigma^2}))$ ，所以我们可以找出分布 $qxt−1∣xt,x0)q\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)$ 的均值和方差。由于方差 $σ2\sigma^2$ 是 $x^2$ 系数的倒数，而 $xt−12\mathbf{x}_{t-1}^2$ 的系数为 $αtβt+11−αˉt−1)\frac{\alpha_{t}}{\beta_{t}}+\frac{1}{1-\bar{\alpha}_{t-1}})$ ，其只由人为设置的超参数 $β\beta$ 确定，故方差是已知的。 $x$ 的系数为 $−2μσ2-\frac{2\mu}{\sigma^2}$ ，则我们可以根据方差来间接求出均值， $xt−1\mathbf{x}_{t-1}$ 的系数为 $2αtβtxt+2αˉt−11−αˉt−1×0)\frac{2\sqrt{\alpha_{t}}}{\beta_t}\mathbf{x}_t+\frac{2\sqrt{\bar{\alpha}_{t-1}}}{1-\bar{\alpha}_{t-1}}\mathbf{x}_0)$ 。可以发现，系数中共有四个变量 $α\alpha$ ， $β\beta$ ， $xt\mathbf{x}_t$ 和 $x0\mathbf{x}_0$ ，其中 $α\alpha$ ， $β\beta$ ， $xt\mathbf{x}_t$ 都是已知的，但是对于 $x0\mathbf{x}_0$ ，由于我们现在是处于后向过程， $x0\mathbf{x}_0$ 是未知的，现在我们要想办法将 $x0\mathbf{x}_0$ 用已知量进行替换。我们先将 $xt−1\mathbf{x}_{t-1}$ 的均值记为一个关于 $xt\mathbf{x}_t$ 和 $x0\mathbf{x}_0$ 的函数 $μ~txt,x0)\tilde{\mu}_t\mathbf{x}_t,\mathbf{x}_0)$ 。将 $1σ2=αtβt+11−αˉt−1)\frac{1}{\sigma^2}=\frac{\alpha_{t}}{\beta_{t}}+\frac{1}{1-\bar{\alpha}_{t-1}})$ 代入 $2μσ2=2αtβtxt+2αˉt−11−αˉt−1×0)\frac{2\mu}{\sigma^2}=\frac{2\sqrt{\alpha_{t}}}{\beta_t}\mathbf{x}_t+\frac{2\sqrt{\bar{\alpha}_{t-1}}}{1-\bar{\alpha}_{t-1}}\mathbf{x}_0)$ 求解可得 $μ~txt,x0)=αt1−αˉt−1)1−αˉtxt+αˉt−1βt1−αˉtx0\tilde{\mu}_t\mathbf{x}_t,\mathbf{x}_0)=\frac{\sqrt{\alpha_t}1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}\mathbf{x}_t+\frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}\mathbf{x}_0$
现在回想一下，我们已经在前向过程中已经得到了 $x0\mathbf{x}_0$ 和 $xt\mathbf{x}_t$ 的关系 $xt=αˉtx0+1−αˉtz~t\mathbf{x}_{t}=\sqrt{\bar{\alpha}_{t}}\mathbf{x_{0}}+\sqrt{1-\bar{\alpha}_{t}}\tilde{\mathbf{z}}_{t}$
现在我们用 $xt\mathbf{x}_t$ 来表示 $x0\mathbf{x}_0$ $x0=1αˉtxt−1−αˉtz~t)\mathbf{x}_0=\frac{1}{\sqrt{\bar{\alpha}_t}}\mathbf{x}_t-\sqrt{1-\bar{\alpha}_t}\tilde{\mathbf{z}}_t)$ 然后将其代入 $μ~txt)=1αtxt−1−αt1−αˉtz~t)\tilde{\mu}_t\mathbf{x}_t)=\frac{1}{\sqrt{\alpha_t}}\mathbf{x}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}}\tilde{\mathbf{z}}_t)$
这样我们就把 $x0\mathbf{x}_0$ 消掉了，现在我们只要知道了 $z~t\tilde{\mathbf{z}}_t$ ,就能将 $μ~t\tilde{\mu}_t$ 表示出来，进而得到 $qxt−1∣xt,x0)q\mathbf{x}_{t-1}\mid\mathbf{x}_{t},\mathbf{x}_0)$ 的分布，将 $xt−1\mathbf{x}_{t-1}$ 采样出来，完成一次去噪过程。那么 $z~t\tilde{\mathbf{z}}_t$ 怎么求呢？
这就要请出深度学习了，我们可以设计一个网络去预测在 $xt\mathbf{x}_t$ 时刻的噪音 $z~t\tilde{\mathbf{z}}_t$ 。网络的输入是 $xt\mathbf{x}_t$ ，网络的输出是 $z~t\tilde{\mathbf{z}}_t$ ，这是一个预测值，那么真实值在哪呢？我们只有得到真实值，我们才能计算预测值和真值之间的损失，从而训练网络。这时我们考虑前向过程，前向过程中，后一时刻等于前一时刻加上一个噪音 $z\mathbf{z}$ ， $z\mathbf{z}$ 是我们采样得来的，是已知的，也就是之前我们所谓的标签。假设我们前向过程由 $xt−1\mathbf{x}_{t-1}$ 到 $xt\mathbf{x}_t$ 加的噪音为 $z\mathbf{z}$ ，那么 $z~t\tilde{\mathbf{z}}_t$ 的真值就是 $z\mathbf{z}$ ，所以我们这个网络训练的 $z~t\tilde{\mathbf{z}}_t$ 就去不断拟合噪声 $z\mathbf{z}$ 。
至此前向过程和后向过程已经介绍结束了，如果读者想了解论文中交叉熵loss的推导，可以看公式推导这篇文章的解释由于篇幅限制，我只好把它放到另一篇文章)，这部分公式比较复杂，如果不感兴趣，直接跳过即可，不影响最后算法理解。

DDPM算法代码

训练部分

首先在真实图像分布 $qx0)q\mathbf{x}_0)$ 中采样出 $x0\mathbf{x}_0$ ，也即我们的训练图像
在区间 ${1,…,T}$ 中随机生成生成一个 $t$ ，代表扩散加噪)次数
从标准正态分布中采样一个随机噪声 $ϵ\epsilon$
计算损失函数，其中的真值是我们刚刚采样得到的噪声 $ϵ\epsilon$ ，网络预测值是 $ϵθαˉtx0+1−αˉtϵ,t)\epsilon_{\theta}\sqrt{\bar{\alpha}_t}\mathbf{x}_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)$ ，而 $αˉtx0+1−αˉtϵ\sqrt{\bar{\alpha}_t}\mathbf{x}_0+\sqrt{1-\bar{\alpha}_t}\epsilon$ 是我们在前向过程中求得的 $xt\mathbf{x}_t$ ，这其可以改写为 $ϵθxt,t)\epsilon_{\theta}\mathbf{x}_t,t)$ ，这里的 $t$ 做一个时间编码喂入网络中，因为在后向过程中，每一次迭代的网络都是相同的，即参数共享，那怎么让网络知道现在迭代到哪一步呢，那么我们就将 $t$ 一同传进去参与训练，用 $t$ 来告诉网络我现在进行到第几次迭代了。时间编码和transformer中的位置编码类似。

总结一下，训练过程就是给定 $x0\mathbf{x}_0$ 和随机噪声 $ϵ\epsilon$ ，然后生成一个扩散加噪)次数 $t$ ，进行 $t$ 次扩散过程得到 $xt\mathbf{x}_t$ ，然后通过一个网络 $ϵθ\epsilon_{\theta}$ 来预测一个合适的噪声，也就是 $z~t\tilde{\mathbf{z}}_t$

采样部分

首先从标准正态分布中采样一个随机噪声 $xT\mathbf{x}_T$ 。因为我们在前向过程中认为在原图扩散 $T$ 次之后，原图服从于一个各相同性的高斯分布。
然后进行 $T$ 次迭代，对于每一次迭代，首先采样一个标准高斯噪声，但是最后一步就不采样了。然后通过公式计算去噪一次的结果，公式中的 $ϵθ\epsilon_{\theta}$ 就是我们在训练过程得到的结果。

总结

DDPM对Deep Unsupervised Learning using Nonequilibrium Thermodynamics文中提出的模型下文称扩散模型)改进了两点

第一点，扩散模型在后向过程中，是由 $xt\mathbf{x}_t$ 预测 $xt−1\mathbf{x}_{t-1}$ ，也即直接预测图像，而DDPM是预测在前向过程中，我们从 $xt−1\mathbf{x}_{t-1}$ 扩散到 $xt\mathbf{x}_t$ 所加的噪声，有点类似Resnet，即如何将噪声从噪声-图像混合物中分离出来，从而将问题简化。
第二点，如果我们要预测一个正态分布，我们只需要学它的均值和方差即可，而DDPM将方差视作常数，只需学习均值就能得到分布，最后的效果也不错，并且降低了模型优化的难度

之后有关DDPM的改进，比如IDDPM，DM beats gan等等，读者可自行了解。

参考

Denoising Diffusion Probabilistic Models
What are Diffusion Models?
入门理解Denoising Diffusion Probabilistic Model
Probabilistic Diffusion Model概率扩散模型理论

查看全文

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.dgrt.cn/a/245492.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！

DDPM（Denoising Diffusion Probabilistic Models）扩散模型简述

引言
扩散模型最早是在2015年的Deep Unsupervised Learning using Nonequilibrium Thermodynamics文章中提出的，但当时扩散模型并不work，所以并没有被广泛应用。在2020年，Denoising Diffusion Probabilistic Models简称为DDPM)的出现&#……

编程日记2022/11/23 4:29:42

盘点 | 云原生峰会重磅发布

11 月 5 日，2022 杭州云栖大会上，阿里巴巴研究员、阿里云智能云原生应用平台总经理丁宇在云原生峰会上发表主题演讲，提出云原生激活应用构建新范式。在分享中发布阿里云在云原生领域多款新产品与全新升级，持续引领行业云原生技术趋……

编程日记2022/11/23 4:29:05

基于Multisim的LC正弦波振荡器的设计与仿真

目录 1、绪论 1 1.1选题背景及意义 1 1.2国内外研究现状 1 1.3研究主要内容 2 2、系统整体设计 3 2.1开发环境Multisim的介绍 3 2.2方案比较与论证 4 2.2.1振荡电路方案选择 4 2.2.2 控制电路设计方案 4 2.3系统整体设计 5 3、工作原理、硬件电路的设计和参数的计算 6 3.1 反馈……

编程日记2022/11/23 4:28:26

外汇天眼：FCA 已向交易应用程序运营商发出警告，要求其停止交易游戏化

英国市场监管机构希望交易应用程序开发商重新考虑关键设计元素。根据新的研究，游戏化可能会导致类似赌博的行为。
负责监管英国金融市场的金融行为监管局 FCA )周一发布了有关交易应用程序设计的市场警告。金融业监管机构担心零售交易越来越像一场游戏&#xff……

编程日记2022/11/23 4:27:46

latex 模板使用技巧——参考文献篇

参考文献说明：
一、常用参考文献类型
1、会议（INPROCEEDINGS）示例：
INPROCEEDINGS{rcnn,title{Rich feature hierarchies for accurate object detection and semantic segmentation},author{Girshick, Ross and Donahue, J……

编程日记2022/11/23 4:27:05

基于物联网的汽车爆胎预警系统

本设计是基于物联网的汽车爆胎预警系统的设计与实现设计，主要实现以下功能：
1，主机用LCD1602显示温度、气压和距离； 2，主从机间通过ZigBee进行数据的传输； 3，从机检测轮胎气压，温度……

编程日记2022/11/23 4:26:28

锐捷BGP基础配置

目录
编辑
配置IBGP邻居
配置EBGP邻居
BGP其它配置配置IBGP邻居 R2、R3、R4底层IGP互通，此处IGP互通配置不做介绍 R2与R4通过Loop0建立IBGP邻居，R3与R4通过Loop0建立IBGP邻居 R4充当反射器，R2和R3作为客户端（通过反射可以将……

编程日记2022/11/23 4:25:52

MAC苹果电脑关闭系统完整性保护SIP

苹果电脑从 macOS 10.11 开始引入了系统完整性保护机制SIP（System Integrity Protection），目的是帮助普通用户避免恶意 app 通过用户授权的方式获得所有系统权限。通过 System Integrity Protection，苹果实现了对第三方软件的限制……

编程日记2022/11/23 4:25:18

现代密码学导论-3-现代密码学原理

目录
1.4 现代密码学原理
1.4.1 原则一：正式定义
1.4.2 原则二：精确假设
1.4.3 原则三：安全性证明 1.4 现代密码学原理
Principles of Modern Cryptography
从上一节中可以清楚地看到，密码学在历史上更多地是一门艺术&#……

编程日记2022/11/23 4:24:41

Mac | 使用 Wineskin 在 Mac 上运行 exe 程序

1 Wineskin 简介
Wineskin is a user-friendly tool used to make ports of Microsoft Windows software to macOS.
很多实用工具只有 Windows 版本，而 Mac 机器本身不支持运行 exe 程序，除了安装双系统、虚拟机等方法外，Wineskin 可以将……

编程日记2022/11/23 4:24:06

cocos-lua中添加lfs的库

方案一：
1、转载：https://blog.csdn.net/sc1987910/article/details/79622014
2、上述转载的博客会编译不通过，需要在lfs.h中添加： #ifdef __cplusplus extern "C" { #endif #include <lua.h> #include <lau……

编程日记2023/4/16 15:00:53

转载各种编码格式的讲解

https://blog.csdn.net/Deft_MKJing/article/details/79460485…

编程日记2023/4/16 15:00:53

cocos-lua游戏中横屏，竖屏动态切换

1、转载自 https://blog.csdn.net/oJianYue12/article/details/80927700
2、注意点: AndroidManifest.xml文件中的配置 android:configChanges"orientation|screenSize"；android:screenOrientation"sensorLandscape"
这两个配置需要根据自……

编程日记2023/4/16 15:00:52

lua require机制

https://www.cnblogs.com/softidea/p/5242941.html…

编程日记2023/4/16 15:00:52

lua程序设计（一）

一、lua的概述 1.简单易学 2.比较灵活，数据结构只有表一种
二、 1、变量命名规范：建议遵循驼峰规则；区分大小写（注意变量命名）；避免下划线开头并紧接着一个大写字母（可能与lua中对应的全局变量……

编程日记2023/4/16 15:00:51

cocos2d-3.10 整合版本连接

官方给出的是在：http://www.cocos2d-x.org/filedown/CocosForWin-v3.10.exe 如果下载不了，可以在这里下http://cdn.cocos2d-x.org/CocosForWin-v3.10.exe…

编程日记2023/4/16 15:00:51

code=45, title=禁止登录, message=登录失败，建议升级最新版本后重试，或通过问题反馈与我们联系。

如果你是采用 java 开发的，你可以参考本文章，java 和 kotlin 都是可以相互转换的。在解决之前，先说明环境: JDK版本：java version "17.0.3.1" 【Oracle JDK】 Kotlin版本：1.8.20 采取simbot核心包开发&am……

编程日记2023/4/16 15:00:51

cocos2d屏幕适配方案以及winsize,framesize,VisibleSize,contentSize的区别和联系

一、首先要吐槽小cocos官方把这个问题描述的很模糊，讲解的不清不楚，很多人工作两三年的人也不明白。
二、言归正传：阐述下winsize，framesize,VisibleSize,contentSize的概念。frameSize表示的是屏幕的分辨率，这里多说……

编程日记2023/4/16 15:00:50

lua协程详解

https://www.cnblogs.com/zrtqsk/p/4374360.html…

编程日记2023/4/16 15:00:50

lua协程实例

一、lua协程的和c中协程的区分 1. lua 程序设计中的关于lua多线程以及协程的概述上述说的意思我认为就是 lua的协程类似于但是不等同于真正意义的多线程（同时执行一些操作）；我做过测试，同时创建1000个协程并执行（代码……

编程日记2023/4/16 15:00:49

DDPM（Denoising Diffusion Probabilistic Models）扩散模型简述

引言

前向过程Forward Process

重参数化技巧

解释结束

对于 $*$ 处运算的解释

解释结束

后向过程Reverse Process

DDPM算法代码

训练部分

采样部分

总结

参考

相关文章：

DDPM（Denoising Diffusion Probabilistic Models）扩散模型简述

盘点 | 云原生峰会重磅发布

基于Multisim的LC正弦波振荡器的设计与仿真

外汇天眼：FCA 已向交易应用程序运营商发出警告，要求其停止交易游戏化

latex 模板使用技巧——参考文献篇

基于物联网的汽车爆胎预警系统

锐捷BGP基础配置

MAC苹果电脑关闭系统完整性保护SIP

现代密码学导论-3-现代密码学原理

Mac | 使用 Wineskin 在 Mac 上运行 exe 程序

cocos-lua中添加lfs的库

转载各种编码格式的讲解

cocos-lua游戏中横屏，竖屏动态切换

lua require机制

lua程序设计（一）

cocos2d-3.10 整合版本连接

code=45, title=禁止登录, message=登录失败，建议升级最新版本后重试，或通过问题反馈与我们联系。

cocos2d屏幕适配方案以及winsize,framesize,VisibleSize,contentSize的区别和联系

lua协程详解

lua协程实例

Published by

风君子

近期文章

标签

引言

前向过程Forward Process

重参数化技巧

解释结束

对于∗*∗处运算的解释

解释结束

后向过程Reverse Process

DDPM算法代码

训练部分

采样部分

总结

参考

相关文章：

DDPM（Denoising Diffusion Probabilistic Models）扩散模型简述

盘点 | 云原生峰会重磅发布

基于Multisim的LC正弦波振荡器的设计与仿真

外汇天眼：FCA 已向交易应用程序运营商发出警告，要求其停止交易游戏化

latex 模板使用技巧——参考文献篇

基于物联网的汽车爆胎预警系统

锐捷BGP基础配置

MAC苹果电脑关闭系统完整性保护SIP

现代密码学导论-3-现代密码学原理

Mac | 使用 Wineskin 在 Mac 上运行 exe 程序

cocos-lua中添加lfs的库

转载各种编码格式的讲解

cocos-lua游戏中横屏，竖屏动态切换

lua require机制

lua程序设计（一）

cocos2d-3.10 整合版本连接

code=45, title=禁止登录, message=登录失败，建议升级最新版本后重试，或通过问题反馈与我们联系。

cocos2d屏幕适配方案以及winsize,framesize,VisibleSize,contentSize的区别和联系

lua协程详解

lua协程实例

Published by

风君子

近期文章

标签

对于 $*$ 处运算的解释