对于任意的数据分布q(x),均可连续应用上述的变换(如式4.1~4.4),随着变换的次数的增多,输出的概率分布将变得越来越接近于标准正态分布。对于较复杂的数据分布,需要较多的次数或者较大的噪声。
+具体可看Demo 3.1,第一子图是随机生成的一维概率分布,经过7次的变换后,最终的概率分布与标准正态分布非常相似。相似的程度与迭代的次数和噪声大小正相关。对于相同的相似程度,如果每次所加的噪声较大(较小的α值),那所需变换的次数将较少。读者可尝试不同的α值和次数,观测最终概率分布的相似程度。
+起始概率分布的复杂度会比较高,随着变换的次数增多,概率分布q(zt)的复杂度将会下降。根据第3节结论,更复杂的概率分布对应更复杂的后验概率分布,所以,为了保证后验概率分布与高斯函数较相似(较容易学习),在起始阶段,需使用较大的α(较小的噪声),后期阶段可适当使用较小的α(较大��噪声),加快向标准正态分布转变。
+在Demo3的例子可以看到,随着变换次数增多,q(zt)的棱角变得越来越少,同时,后验概率分布q(zt−1∣zt)图中的斜线变得越来越笔直匀称,越来越像条件高斯分布。
+Z1Z2ZtZT=α1X+1−α1ϵ1=α2Z1+1−α2ϵ2…=αtZt−1+1−αtϵt…=αTZT−1+1−αTϵTwhereαt<1t∈1,2,…,T(4.1)(4.2)(4.3)(4.4)
+把式4.1代入式4.2,同时利用高斯分布的性质,可得出q(z2∣x)的概率分布的形式
+z2=α2(α1x+1−α1ϵ1)+1−α2ϵ2=α2α1x+α2−α2α1ϵ1+1−α2ϵ2=N(α1α2x, 1−α1α2)(4.5)(4.6)(4.7)
+同理,可递推得出
+q(zt∣x)=N(α1α2⋯αtx, 1−α1α2⋯αt)=N(αtˉx, 1−αtˉ)where αtˉ≜j=1∏tαj(4.8)
+比较式4.8和式2.1的形式,可发现,两者的形式是完全一致的。如果只关注最终变换后的分布q(zt),那么连续t次的小变换可用一次大变换替代,大变换的α是各个小变换的α累积。
+在DDPM[2]论文中,作者使用了1000步(T=1000),将数据分布q(x)转换至q(zT),q(zT∣x)的概率分布如下:
+q(zT∣x)=N(0.00635 x, 0.99998)(4.9)
+如果只考虑q(zT),也可使用一次变换代替,变换如下:
+ZT=0.0000403 X+1−0.0000403 ϵ=0.00635 X+0.99998 ϵ(4.10)
+可以看出,应用两种变换后,变换后的分布q(zT∣x)相同,因此,q(zT)也相同。
+