Diffusion model里面用网络学习 P(好点的图像|噪音大的图像) 就是个黑箱。训练出来的东西用来生成图像,收不收敛,跑多久才收敛,都说不清楚。
da1gaku 写了: 2022年 9月 9日 15:09 我也没做过diffusion model,只是大概看了一下。
机器学习的目标常常是让训练数据的likelihood最大化,也就是训练数据里每个输入到输出的平均概率是最大的。再加上各种约束条件让模型更光滑什么的。
这个diffusion model先让原始图像经过一系列噪音处理,最后得到体无完肤的噪音;然后训练模型(泛函)使得从噪音到原始图像的likelihood最大化。
训练模型的过程就是把每一步条件概率 P(好点的图像|噪音大的图像) 表达成高斯函数(高维度,每个像素就是一个变量),训练高斯函数的参数(miu, sigma)让它在第t步的时候,跟加噪音的高斯q(加噪音第t步图像|原始图像)的KL divergence最小化