Denoising Diffusion Probabilistic Models

Ho J , Jain A , Abbeel P .Denoising Diffusion Probabilistic Models[J]. 2020.DOI:10.48550/arXiv.2006.11239.

Denoising Diffusion Probabilistic Models

前向过程

前向扩散过程就是向图像不断加高斯噪声

给定初始数据点 $x_{0} \sim q (x_{0})$ ， $q (x_{0})$ 是未被噪声破坏的原始数据分布

在 $t$ 时刻的噪化状态与上一时刻 $t - 1$ 的关系为：

q (x_{t} ∣ x_{t - 1}) = N (x_{t}; \sqrt{1 - β_{t}} x_{t - 1}, β_{t} I)

在给定前一个状态 $x_{t - 1}$ 的条件下，当前状态 $x_{t}$ 的分布是一个高斯分布。这个高斯分布的均值是 $\sqrt{1 - β_{t}} x_{t - 1}$ ，方差是 $β t I$ 。

其中 $β_{t}$ 是一个预先定义好的小于 $1$ 的正数，通常随着时间步 $t$ 的增加而增加（一开始，加一点点噪声就能比较明显的看出和原图的区别，越到后面，图像退化的越厉害，轻微的扰动已经看不出明显的变化，所以 $β_{t}$ 的值需要更大）。 $I$ 是单位矩阵。

这个过程中，我们逐渐将噪声加入到数据中，因为均值是 $\sqrt{1 - β_{t}}$ 乘以 $x_{t - 1}$ ，而 $\sqrt{1 - β t}$ 小于1，所以相当于在上一时刻的数据上缩放了一下，然后加上一个方差为 $β_{t}$ 的噪声。这样，随着 $t$ 的增加，数据中原始的信息逐渐减少，噪声逐渐增加。

输入 $x_{0}$ 的条件下， $x_{1}, x_{2}, . . ., x_{T}$ 的联合分布可以表示为：

q (x_{1 : T} ∣ x_{0}) = \prod_{t = 1}^{T} q (x_{t} ∣ x_{t - 1})

重参数化技巧 (reparameterization trick)

对于采样操作，采样的输出不是输入参数（如 $μ$ 和 $σ$ ）的一个确定函数，而是一个随机值。即使我们固定了分布参数，每次采样得到的值都是不同的。因此，采样操作不具备输入与输出之间的确定性关系，无法计算导数，进而导致采样操作不可微。

在深度学习中，我们通常使用梯度下降来优化模型参数，梯度计算依赖于链式法则。由于采样结果随机，这种不确定性使得梯度无法通过采样的结果反向传播到模型参数。

重参数化的核心思想是将随机过程与可微过程分离，这样我们可以对可微部分进行梯度计算，同时保留随机性。具体而言，重参数化技巧将从分布 $N (μ, σ^{2})$ 采样的过程转换为一个确定的线性变换加上随机噪声的过程

对于一个高斯分布：

N (x; μ, σ^{2})

它的采样过程可以写成：

x = μ + σ \cdot ϵ, ϵ \sim N (0, 1)

其中， $ϵ \sim N (0, 1)$ 是从标准正态分布中采样的噪声， $μ$ 和 $σ$ 为模型参数。

通过这种方式，将随机性分离到了 $ϵ$ 中，其与模型参数 $μ$ 和 $σ$ 无关，即在梯度计算时， $ϵ$ 不会影响 $μ$ 和 $σ$ 的梯度计算。

对于：

q (x_{t} ∣ x_{t - 1}) = N (x_{t}; \sqrt{1 - β_{t}} x_{t - 1}, β_{t} I)

采样过程就是：

x_{t} = \sqrt{1 - β_{t}} x_{t - 1} + \sqrt{β_{t}} ϵ_{t}, ϵ_{t} \sim N (0, I)

为了简化计算，令： $α_{t} = 1 - β_{t}$ ，代入：

有：

x_{t} = \sqrt{{\bar{α}}_{t}} x_{0} + \sqrt{1 - {\bar{α}}_{t}} ϵ_{t}, ϵ_{t} \sim N (0, I)

{\bar{α}}_{t} = α_{t} α_{t - 1} α_{t - 2} \dots α_{2} α_{1} = \prod_{i = 1}^{t} α_{i}

即：

x_{t} \sim N (\sqrt{{\bar{α}}_{t}} x_{0}, (1 - {\bar{α}}_{t}) I)

q (x_{t} ∣ x_{0}) = N (x_{t}; \sqrt{{\bar{α}}_{t}} x_{0}, (1 - {\bar{α}}_{t}) I)

反向过程

定义反向过程为一个以 $θ$ 为参数的马尔科夫链，它试图近似真实但未知的逆向分布：

p_{θ} (x_{0 : T}) = p (x_{T}) \prod_{t = 1}^{T} p_{θ} (x_{t - 1} ∣ x_{t})

其中：

起点： $p (x_{T}) = N (x_{T}; 0, I)$ ，即纯噪声
每一步： $p_{θ} (x_{t - 1} ∣ x_{t}) = N (x_{t - 1}; μ_{θ} (x_{t}, t), Σ_{θ} (x_{t}, t))$

反向过程的每一步也是一个高斯分布，其均值和方差由神经网路 $θ$ 预测，我们需要一个目标函数来训练 $θ$ ，最自然的目标是就是最大化模型生成真实数据的似然 $p_{θ} (x_{0})$ 。

直接计算很困难，所以引入了变分推断的思想：我们有一个由前向过程定义的、已知的真实数据分布 $q (x_{0})$ ，以及从数据到噪声的前向过程 $q (x_{1 : T} ∣ x_{0})$ ，我们可以通过最小化模型分布 $$p_{\theta}$ 和真实后验分布 $q$ 的 KL散度来训练模型。

将损失函数定义为目标函数的负值，目标函数越大，损失越小：

p_{θ} (x_{0}) = \int p_{θ} (x_{0 : T}) d x_{1 : T}

L = - \log p_{θ} (x_{0})

前向过程 $q (x_{1 : T} ∣ x_{0})$ 是我们已知的加噪过程，如果我们的反向模型 $p_{θ} (x_{1 : T} ∣ x_{0})$ 是完美的，那么它应该和“从真实数据加噪再完美去噪”的过程一致。

数学上，我们希望两个条件分布接近：

p_{θ} (x_{1 : T} ∣ x_{0}) \approx q (x_{1 : T} ∣ x_{0})

KL散度 $D_{K L} (P ∥ Q)$ 衡量分布 $P$ 和 $Q$ 的差异，对于任意 $x_{0}$ ：

D_{K L} (q (x_{1 : T} ∣ x_{0}) ∥ p_{θ} (x_{1 : T} ∣ x_{0})) \geq 0

展开KL散度：

E_{q} [\log \frac{q (x_{1 : T} ∣ x_{0})}{p_{θ} (x_{1 : T} ∣ x_{0})}] \geq 0

由于：

p_{θ} (x_{1 : T} ∣ x_{0}) = \frac{p_{θ} (x_{0 : T})}{p_{θ} (x_{0})}

有：

E_{q} [\log q (x_{1 : T} ∣ x_{0}) - \log \frac{p_{θ} (x_{0 : T})}{p_{θ} (x_{0})}] \geq 0

E_{q} [\log q (x_{1 : T} ∣ x_{0})] - E_{q} [\log p_{θ} (x_{0 : T})] + \log p_{θ} (x_{0}) \geq 0

即：

\log p_{θ} (x_{0}) \geq E_{q} [\log p_{θ} (x_{0 : T}) - \log q (x_{1 : T} ∣ x_{0})]

L = - \log p_{θ} (x_{0}) \leq E_{q} [- \log \frac{(p_{θ} (x_{0 : T}))}{q (x_{1 : T} | x_{0})}]

根据我们之前的定义：

反向过程联合分布：

p_{θ} (x_{0 : T}) = p (x_{T}) \prod_{t = 1}^{T} p_{θ} (x_{t - 1} ∣ x_{t})

前向过程联合分布：

q (x_{1 : T} ∣ x_{0}) = \prod_{t = 1}^{T} q (x_{t} ∣ x_{t - 1})

代入：

\frac{p_{θ} (x_{0 : T})}{q (x_{1 : T} ∣ x_{0})} = \frac{p (x_{T}) \prod_{t = 1}^{T} p_{θ} (x_{t - 1} ∣ x_{t})}{\prod_{t = 1}^{T} q (x_{t} ∣ x_{t - 1})}

- \log \frac{p_{θ} (x_{0 : T})}{q (x_{1 : T} ∣ x_{0})} = - \log p (x_{T}) - \sum_{t = 1}^{T} \log p_{θ} (x_{t - 1} ∣ x_{t}) + \sum_{t = 1}^{T} \log q (x_{t} ∣ x_{t - 1})

L = E_{q} [- \log p (x_{T}) - \sum_{t = 1}^{T} \log \frac{p_{θ} (x_{t - 1} ∣ x_{t})}{q (x_{t} ∣ x_{t - 1})}]

要计算这个期望，

我们需要从 $q (x_{0})$ 中采样一个数据点 $x_{0}$
然后从 $q (x_{1 : T} ∣ x_{0})$ 中采样整个加噪轨迹 $x_{1}, x_{2}, \dots, x_{T}$
对每个时间步，计算比值
最后取期望

我们希望的是对每个时间步单独计算损失，而不是对整个轨迹进行采样后再计算。

另外，公式中混合了前向和反向转移，没有清晰地分离出“去噪误差”，即缺乏明确的优化目标。

根据贝叶斯定理：

q (x_{t} ∣ x_{t - 1}) = \frac{q (x_{t - 1} ∣ x_{t}, x_{0}) q (x_{t} ∣ x_{0})}{q (x_{t - 1} ∣ x_{0})}

有：

\sum_{t = 1}^{T} \log \frac{p_{θ} (x_{t - 1} ∣ x_{t})}{q (x_{t} ∣ x_{t - 1})} = \sum_{t = 1}^{T} [\log \frac{p_{θ} (x_{t - 1} ∣ x_{t})}{q (x_{t - 1} ∣ x_{t}, x_{0})} + \log \frac{q (x_{t - 1} ∣ x_{0})}{q (x_{t} ∣ x_{0})}]

\sum_{t = 1}^{T} \log \frac{q (x_{t - 1} ∣ x_{0})}{q (x_{t} ∣ x_{0})} = \log q (x_{0} ∣ x_{0}) - \log q (x_{T} ∣ x_{0}) = - \log q (x_{T} ∣ x_{0})

于是：

L = E_{q} [- \log p (x_{T}) - \sum_{t = 1}^{T} \log \frac{p_{θ} (x_{t - 1} ∣ x_{t})}{q (x_{t - 1} ∣ x_{t}, x_{0})} + \log q (x_{T} ∣ x_{0})]

整理：

L = E_{q} [- \log \frac{p (x_{T})}{q (x_{T} ∣ x_{0})} - \sum_{t = 1}^{T} \log \frac{p_{θ} (x_{t - 1} ∣ x_{t})}{q (x_{t - 1} ∣ x_{t}, x_{0})}]

第一项是 $q (x_{T} ∣ x_{0})$ 和 $p (x_{T})$ 的 KL散度：

E_{q} [\log \frac{q (x_{T} ∣ x_{0})}{p (x_{T})}] = D_{K L} (q (x_{T} ∣ x_{0}) ∥ p (x_{T}))

第二项同理，但注意 $t = 1$ 的情况。

最后。我们得到了负对数似然的变分下界（ELBO）的分解形式：

L = E_{q} [D_{K L} (q (x_{T} ∣ x_{0}) ∥ p (x_{T})) + \sum_{t = 2}^{T} D_{K L} (q (x_{t - 1} ∣ x_{t}, x_{0}) ∥ p_{θ} (x_{t - 1} ∣ x_{t})) - \log p_{θ} (x_{0} ∣ x_{1})]

这样，损失函数被分解为三项：

第一项是最终噪声分布的 KL散度。由于前向过程确保 $q (x_{T} ∣ x_{0})$ 接近标准高斯，且 $p (x_{T})$ 也是标准高斯，这一项近似为 $0$ ，可以忽略。
第二项是一系列 KL散度，要求每个时间步上模型的反向分布 $p_{θ} (x_{t - 1} ∣ x_{t})$ 尽可能接近真实的后验分布 $q (x_{t - 1} ∣ x_{t}, x_{0})$ 。
第三项是最后一步的对数似然，即从 $x_{1}$ 生成 $x_{0}$ 的概率。

TIP

真实后验 $q (x_{t - 1} ∣ x_{t}, x_{0})$ 是一个高斯分布，下面计算其均值 ${\tilde{μ}}_{t}$ ：

已知：

q (x_{t} ∣ x_{t - 1}) = N (x_{t}; \sqrt{α_{t}} x_{t - 1}, β_{t} I), α_{t} = 1 - β_{t}

q (x_{t} ∣ x_{0}) = N (x_{t}; \sqrt{{\bar{α}}_{t}} x_{0}, (1 - {\bar{α}}_{t}) I), {\bar{α}}_{t} = \prod_{i = 1}^{t} α_{i}

q (x_{t - 1} ∣ x_{0}) = N (x_{t - 1}; \sqrt{{\bar{α}}_{t - 1}} x_{0}, (1 - {\bar{α}}_{t - 1}) I)

根据贝叶斯定理，真实后验分布为：

q (x_{t - 1} ∣ x_{t}, x_{0}) = \frac{q (x_{t} ∣ x_{t - 1}) q (x_{t - 1} ∣ x_{0})}{q (x_{t} ∣ x_{0})}

代入三个高斯分布的概率密度函数，关注指数部分（忽略常数项）：

- \frac{1}{2} [\frac{{(x_{t} - \sqrt{α_{t}} x_{t - 1})}^{2}}{β_{t}} + \frac{{(x_{t - 1} - \sqrt{{\bar{α}}_{t - 1}} x_{0})}^{2}}{1 - {\bar{α}}_{t - 1}} - \frac{{(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0})}^{2}}{1 - {\bar{α}}_{t}}]

展开前两项中与 $x_{t - 1}$ 相关的部分：

第一项展开：

\frac{1}{β_{t}} (x_{t}^{2} - 2 \sqrt{α_{t}} x_{t}^{⊤} x_{t - 1} + α_{t} x_{t - 1}^{2})

第二项展开：

\frac{1}{1 - {\bar{α}}_{t - 1}} (x_{t - 1}^{2} - 2 \sqrt{{\bar{α}}_{t - 1}} x_{0}^{⊤} x_{t - 1} + {\bar{α}}_{t - 1} x_{0}^{2})

合并同类项：

二次项系数（ $x_{t - 1}^{2}$ 的系数）

\frac{α_{t}}{β_{t}} + \frac{1}{1 - {\bar{α}}_{t - 1}}

一次项系数（ $x_{t - 1}$ 的系数）

- \frac{2 \sqrt{α_{t}}}{β_{t}} x_{t} - \frac{2 \sqrt{{\bar{α}}_{t - 1}}}{1 - {\bar{α}}_{t - 1}} x_{0}

高斯分布的精度（方差的倒数）为二次项系数：

{\tilde{β}}_{t}^{- 1} = \frac{α_{t}}{β_{t}} + \frac{1}{1 - {\bar{α}}_{t - 1}}

化简：

\begin{aligned} {\tilde{β}}_{t}^{- 1} & = \frac{α_{t} (1 - {\bar{α}}_{t - 1}) + β_{t}}{β_{t} (1 - {\bar{α}}_{t - 1})} \\ = \frac{(1 - β_{t}) (1 - {\bar{α}}_{t - 1}) + β_{t}}{β_{t} (1 - {\bar{α}}_{t - 1})} \\ = \frac{1 - {\bar{α}}_{t - 1} - β_{t} (1 - {\bar{α}}_{t - 1}) + β_{t}}{β_{t} (1 - {\bar{α}}_{t - 1})} \\ = \frac{1 - {\bar{α}}_{t - 1} + β_{t} {\bar{α}}_{t - 1}}{β_{t} (1 - {\bar{α}}_{t - 1})} \\ = \frac{1 - {\bar{α}}_{t - 1} (1 - β_{t})}{β_{t} (1 - {\bar{α}}_{t - 1})} \end{aligned}

注意到 ${\bar{α}}_{t} = α_{t} {\bar{α}}_{t - 1} = (1 - β_{t}) {\bar{α}}_{t - 1}$ ，所以：

1 - {\bar{α}}_{t} = 1 - (1 - β_{t}) {\bar{α}}_{t - 1} = 1 - {\bar{α}}_{t - 1} + β_{t} {\bar{α}}_{t - 1}

因此：

{\tilde{β}}_{t}^{- 1} = \frac{1 - {\bar{α}}_{t}}{β_{t} (1 - {\bar{α}}_{t - 1})}

方差为：

{\tilde{β}}_{t} = \frac{β_{t} (1 - {\bar{α}}_{t - 1})}{1 - {\bar{α}}_{t}}

高斯分布的均值满足：

{\tilde{β}}_{t}^{- 1} {\tilde{μ}}_{t} = \frac{\sqrt{α_{t}}}{β_{t}} x_{t} + \frac{\sqrt{{\bar{α}}_{t - 1}}}{1 - {\bar{α}}_{t - 1}} x_{0}

解得：

{\tilde{μ}}_{t} = {\tilde{β}}_{t} (\frac{\sqrt{α_{t}}}{β_{t}} x_{t} + \frac{\sqrt{{\bar{α}}_{t - 1}}}{1 - {\bar{α}}_{t - 1}} x_{0})

代入 ${\tilde{β}}_{t}$ ：

{\tilde{μ}}_{t} = \frac{β_{t} (1 - {\bar{α}}_{t - 1})}{1 - {\bar{α}}_{t}} (\frac{\sqrt{α_{t}}}{β_{t}} x_{t} + \frac{\sqrt{{\bar{α}}_{t - 1}}}{1 - {\bar{α}}_{t - 1}} x_{0}) = \frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1})}{1 - {\bar{α}}_{t}} x_{t} + \frac{β_{t} \sqrt{{\bar{α}}_{t - 1}}}{1 - {\bar{α}}_{t}} x_{0}

由：

x_{t} = \sqrt{{\bar{α}}_{t}} x_{0} + \sqrt{1 - {\bar{α}}_{t}} ϵ

解出 $x_{0}$ ：

x_{0} = \frac{1}{\sqrt{{\bar{α}}_{t}}} (x_{t} - \sqrt{1 - {\bar{α}}_{t}} ϵ)

有：

{\tilde{μ}}_{t} = \frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1})}{1 - {\bar{α}}_{t}} x_{t} + \frac{β_{t} \sqrt{{\bar{α}}_{t - 1}}}{1 - {\bar{α}}_{t}} \cdot \frac{1}{\sqrt{{\bar{α}}_{t}}} (x_{t} - \sqrt{1 - {\bar{α}}_{t}} ϵ)

由于 ${\bar{α}}_{t} = α_{t} {\bar{α}}_{t - 1}$ ：

{\tilde{μ}}_{t} = \frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1})}{1 - {\bar{α}}_{t}} x_{t} + \frac{β_{t}}{\sqrt{α_{t}} (1 - {\bar{α}}_{t})} (x_{t} - \sqrt{1 - {\bar{α}}_{t}} ϵ)

利用 $α_{t} (1 - {\bar{α}}_{t - 1}) + β_{t} = 1 - {\bar{α}}_{t}$ ，可以简化为：

{\tilde{μ}}_{t} = \frac{1}{\sqrt{α_{t}}} x_{t} - \frac{β_{t}}{\sqrt{α_{t}} (1 - {\bar{α}}_{t})} \sqrt{1 - {\bar{α}}_{t}} ϵ = \frac{1}{\sqrt{α_{t}}} (x_{t} - \frac{β_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ)

真实后验分布为：

q (x_{t - 1} ∣ x_{t}, x_{0}) = N (x_{t - 1}; {\tilde{μ}}_{t}, {\tilde{β}}_{t} I)

{\tilde{μ}}_{t} = \frac{1}{\sqrt{α_{t}}} (x_{t} - \frac{β_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ), {\tilde{β}}_{t} = \frac{β_{t} (1 - {\bar{α}}_{t - 1})}{1 - {\bar{α}}_{t}}

这个结果表明在已知原始数据 $x_{0}$ 和当前噪声数据 $x_{t}$ 时，真实的去噪均值可以通过从 $x_{t}$ 中减去一定比例的噪声 $ϵ$ 并缩放得到。

我们也将反向分布 $p_{θ} (x_{t - 1} ∣ x_{t})$ 设为高斯分布，并固定其方差为 ${\tilde{β}}_{t} I$ （或 $β_{t} I$ ，实验表明两者效果相近）。当两个高斯分布的方差相同时，它们的 KL 散度正比于均值之差的平方：

D_{K L} (q ∥ p_{θ}) \propto {‖ {\tilde{μ}}_{t} - μ_{θ} (x_{t}, t) ‖}^{2} .

为了匹配 ${\tilde{μ}}_{t}$ 的形式，我们令模型的均值参数化为：

μ_{θ} (x_{t}, t) = \frac{1}{\sqrt{α_{t}}} (x_{t} - \frac{β_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ_{θ} (x_{t}, t)),

其中 $ϵ_{θ} (x_{t}, t)$ 是神经网络预测的噪声。代入后，KL 散度项简化为：

{‖ {\tilde{μ}}_{t} - μ_{θ} (x_{t}, t) ‖}^{2} = \frac{β_{t}^{2}}{(1 - {\bar{α}}_{t}) α_{t}} {‖ ϵ - ϵ_{θ} (x_{t}, t) ‖}^{2}

在论文中，作者发现忽略权重系数 $\frac{β_{t}^{2}}{(1 - {\bar{α}}_{t}) α_{t}}$ 能使训练更稳定，因此最终损失函数采用简化的均方误差形式：

L_{simple} = E_{t, x_{0}, ϵ} [{‖ ϵ - ϵ_{θ} (x_{t}, t) ‖}^{2}]

其中：

$x_{0} \sim q (x_{0})$
$ϵ \sim N (0, I)$
$x_{t} = \sqrt{{\bar{α}}_{t}} x_{0} + \sqrt{1 - {\bar{α}}_{t}} ϵ$

训练算法

重复直到收敛：

从训练集中采样 $x_{0}$
均匀采样时间步 $t \sim 1, \dots, T$
采样噪声 $ϵ \sim N (0, I)$
计算加噪样本 $x_{t} = \sqrt{{\bar{α}}_{t}} x_{0} + \sqrt{1 - {\bar{α}}_{t}} ϵ$
计算损失 $L = | ϵ - ϵ_{θ} (x_{t}, t) |^{2}$
反向传播更新参数 $θ$

采样算法

从标准高斯分布采样初始噪声： $x_{T} \sim N (0, I)$
从 $t = T$ 到 $t = 1$ 循环：
- 预测噪声： $ϵ_{θ} = ϵ_{θ} (x_{t}, t)$
- 计算均值： $μ_{θ} = \frac{1}{\sqrt{α_{t}}} (x_{t} - \frac{β_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ_{θ})$
- 采样 $z \sim N (0, I)$ （若 $t = 1$ 则 $z = 0$ ）
- 更新： $x_{t - 1} = μ_{θ} + \sqrt{β_{t}} z$
返回生成样本 $x_{0}$

⚛️ Next.js

📈 Seo

⚛️ React.js

🎨 css

📊 d3.js

🌿 Node.js

🌱 koa.js

🥘 GAMES101

🌌 three.js

🫧 WebGPU

🤖 Rasa

🥝 机器学习

🍿 强化学习

🍳 计算机视觉

🤖 智能体

🐬 mysql

🧪 jest

Denoising Diffusion Probabilistic Models

前向过程

重参数化技巧 (reparameterization trick)

反向过程

训练算法

采样算法

Denoising Diffusion Probabilistic Models ​

前向过程 ​

重参数化技巧 (reparameterization trick) ​

反向过程 ​

训练算法 ​

采样算法 ​

Denoising Diffusion Probabilistic Models

前向过程

重参数化技巧 (reparameterization trick)

反向过程

训练算法

采样算法