如何理解 Diffusion model,DDPM的推导与实现

扩散模型包含两个过程,前向扩散过程(加噪)和反向生成过程(去噪)。前向扩散过程是对一张图像逐渐增加高斯噪声,直至变成图像变为随机噪声;反向生成过程将从一个随机噪声开始逐渐去噪直至生成一张图片,反向去噪过程也即图像生成过程中求解和训练的部分。下图为扩散模型与其他主流生成模型的示意图: ...

2024-09-03 · 9 分钟 · Jixuan Xu

动态漫 - 图生视频项目进展及效果

项目背景 当前动态漫视频由画师、设计师团队制作,且周期长、成本较高。 打造动漫场景下视频生成能力,赋能动态漫制作等内容创作业务,提升动态漫视频制作效果。 研发面向B端专业创作用户的动漫视频生成工具,提升动态漫视频的质量及效果。 Update and News 2024/7/28 stdit-2.2B 图生视频模型完成训练,支持4s 720p-24FPS 图生视频任务。 2024/6/15 stdit-1.1B 动漫视频模型完成,可支持4s 720p-8FPS 动漫视频生成。 2024/4/20 动漫场景下,视频caption模型完成训练。 2024/3/28 高质量、美学数据清洗生产链路构建(基于SVD数据链路构建)。 1. 高动态、美学质量数据生产链路 通过视频分镜、光流、OCR等模块,完成原始视频的镜头切分并过滤其中画面运动幅度较小和文字占比过大的视频clip。结合美学评估、镜头运动检测模块完成视频美学分数和画面运动方向的检测,通过上述链路最终完成高动态、高美学质量视频的自动化生产链路的搭建。 ...

2024-09-02 · 2 分钟 · Jixuan Xu