项目背景
- 当前动态漫视频由画师、设计师团队制作,且周期长、成本较高。
- 打造动漫场景下视频生成能力,赋能动态漫制作等内容创作业务,提升动态漫视频制作效果。
- 研发面向B端专业创作用户的动漫视频生成工具,提升动态漫视频的质量及效果。
Update and News
-
2024/7/28
stdit-2.2B 图生视频模型完成训练,支持4s 720p-24FPS 图生视频任务。 -
2024/6/15
stdit-1.1B 动漫视频模型完成,可支持4s 720p-8FPS 动漫视频生成。 -
2024/4/20
动漫场景下,视频caption模型完成训练。 -
2024/3/28
高质量、美学数据清洗生产链路构建(基于SVD数据链路构建)。
1. 高动态、美学质量数据生产链路
通过视频分镜、光流、OCR等模块,完成原始视频的镜头切分并过滤其中画面运动幅度较小和文字占比过大的视频clip。结合美学评估、镜头运动检测模块完成视频美学分数和画面运动方向的检测,通过上述链路最终完成高动态、高美学质量视频的自动化生产链路的搭建。
2. 动漫场景视频caption模型构建
当前开源图片、视频caption模型(LLava-1.6, Blip2, LLaMA-VID, Pllava等)无法在动漫场景下对视频内容进行准确描述,其中部分工作存在较大的幻觉问题。为了对动漫场景下的视频数据生成准确的caption,基于开源视频caption模型完成了动漫这一垂类场景的模型训练,最终模型在模型效果与Qwen-VL-Max基本一致的同时推理速度提升一倍。
3. 动漫图生视频模型效果
完成2.2B ST-DiT图生视频模型训练,实现由文本和首帧图像引导的动漫视频生成任务。
图生视频模型效果
stdit-2.2B 动态漫生成效果(1080 * 720):
摸头 | 挥手 | ||
走路 | 走路 | ||
指东西 | 指东西 | ||
拥抱 | 打斗 |