如何理解 Diffusion model,DDPM的推导与实现

扩散模型包含两个过程,前向扩散过程(加噪)和反向生成过程(去噪)。前向扩散过程是对一张图像逐渐增加高斯噪声,直至变成图像变为随机噪声;反向生成过程将从一个随机噪声开始逐渐去噪直至生成一张图片,反向去噪过程也即图像生成过程中求解和训练的部分。下图为扩散模型与其他主流生成模型的示意图: ...

2024-09-03 · 9 分钟 · Jixuan Xu

动态漫 - 图生视频项目进展及效果

项目背景 当前动态漫视频由画师、设计师团队制作,且周期长、成本较高。 打造动漫场景下视频生成能力,赋能动态漫制作等内容创作业务,提升动态漫视频制作效果。 研发面向B端专业创作用户的动漫视频生成工具,提升动态漫视频的质量及效果。 Update and News 2024/7/28 stdit-2.2B 图生视频模型完成训练,支持4s 720p-24FPS 图生视频任务。 2024/6/15 stdit-1.1B 动漫视频模型完成,可支持4s 720p-8FPS 动漫视频生成。 2024/4/20 动漫场景下,视频caption模型完成训练。 2024/3/28 高质量、美学数据清洗生产链路构建(基于SVD数据链路构建)。 1. 高动态、美学质量数据生产链路 通过视频分镜、光流、OCR等模块,完成原始视频的镜头切分并过滤其中画面运动幅度较小和文字占比过大的视频clip。结合美学评估、镜头运动检测模块完成视频美学分数和画面运动方向的检测,通过上述链路最终完成高动态、高美学质量视频的自动化生产链路的搭建。 ...

2024-09-02 · 2 分钟 · Jixuan Xu

Classifier Guidance 和 Classifier-Free Guidance 的理解与代码实现

首先给出结论: Classifier Guidance Classifier-Free Guidance 是否需要重训Diffusion model 不需要,使用已训好的Diffusion model就可以使用 需要,重训Diffusion model 是否需要额外模型 需要,额外的针对加噪图像的分类模型 相当于不需要,有文生图的clip文本编码器就行 实现效果 可控制分类模型支持的类别数生成 任意条件即可控制 Classifier Guidance Classifier Guidance 只能是给定一个分类模型中存在的类别,让模型生成这个类别的东西。比如指定模型生成图像类别是“狗”,模型就生成一张狗的图。所以这种方式是条件生成,条件是 y,扩散过程中的生成图像是 $X_t$。 ...

2024-09-01 · 4 分钟 · Jixuan Xu