👋 Welcome to XJX’Log

Hi, this is Jixuan Xu. I’m documenting my learning notes in this blog. Besides, I’m currently working on AIGC and digital human technologies at Bilibili 😉. Since the blog is hosted on Github, using a ’ladder’ might make the access smoother.

如何理解 Diffusion model,DDPM的推导与实现

扩散模型包含两个过程,前向扩散过程(加噪)和反向生成过程(去噪)。前向扩散过程是对一张图像逐渐增加高斯噪声,直至变成图像变为随机噪声;反向生成过程将从一个随机噪声开始逐渐去噪直至生成一张图片,反向去噪过程也即图像生成过程中求解和训练的部分。下图为扩散模型与其他主流生成模型的示意图: ...

2024-09-03 · 9 分钟 · Jixuan Xu

动态漫 - 图生视频项目进展及效果

项目背景 当前动态漫视频由画师、设计师团队制作,且周期长、成本较高。 打造动漫场景下视频生成能力,赋能动态漫制作等内容创作业务,提升动态漫视频制作效果。 研发面向B端专业创作用户的动漫视频生成工具,提升动态漫视频的质量及效果。 Update and News 2024/7/28 stdit-2.2B 图生视频模型完成训练,支持4s 720p-24FPS 图生视频任务。 2024/6/15 stdit-1.1B 动漫视频模型完成,可支持4s 720p-8FPS 动漫视频生成。 2024/4/20 动漫场景下,视频caption模型完成训练。 2024/3/28 高质量、美学数据清洗生产链路构建(基于SVD数据链路构建)。 1. 高动态、美学质量数据生产链路 通过视频分镜、光流、OCR等模块,完成原始视频的镜头切分并过滤其中画面运动幅度较小和文字占比过大的视频clip。结合美学评估、镜头运动检测模块完成视频美学分数和画面运动方向的检测,通过上述链路最终完成高动态、高美学质量视频的自动化生产链路的搭建。 ...

2024-09-02 · 2 分钟 · Jixuan Xu

Classifier Guidance 和 Classifier-Free Guidance 的理解与代码实现

首先给出结论: Classifier Guidance Classifier-Free Guidance 是否需要重训Diffusion model 不需要,使用已训好的Diffusion model就可以使用 需要,重训Diffusion model 是否需要额外模型 需要,额外的针对加噪图像的分类模型 相当于不需要,有文生图的clip文本编码器就行 实现效果 可控制分类模型支持的类别数生成 任意条件即可控制 Classifier Guidance Classifier Guidance 只能是给定一个分类模型中存在的类别,让模型生成这个类别的东西。比如指定模型生成图像类别是“狗”,模型就生成一张狗的图。所以这种方式是条件生成,条件是 y,扩散过程中的生成图像是 $X_t$。 ...

2024-09-01 · 4 分钟 · Jixuan Xu

Pllava在目标数据域下的训练推理总结

背景: 视频capiton任务中,增加帧数和模型计算量相互制约。早前的视频caption模型对时间和空间维度的下采样损失了较多的信息(videochatgpt),导致模型capiton效果不佳(过短或幻觉)。 现有的video caption数据集质量不佳,通常capiton较短、或是以对话的形式。 各开源、闭源方案调研:GPT4-v > Qwen-vl-max > Pllava > Llama-VID > Cog-VLM。 贡献: 提出了一种pooling策略,使得模型在计算、训练效率和capiton效果间达到比较好的平衡。 提出post training的方法,对多模态大模型使用LoRA训练,减轻模型在finetune过程中的遗忘和退化问题,同时能够很好的适应到目标。 模型相关: Pllava模型结构: ...

2024-08-25 · 4 分钟 · Jixuan Xu

数字分身 - 语音驱动人脸视频生成

项目背景 打造语音驱动数字人视频能力,赋能创作者,提升视频制作效率和稿件质量。 为了服务好不同类型的创作群体,研发面向专业创作用户的精品数字人,和面向大众用户的快速数字人定制合成能力是十分必要的。 Update and News 2024/7/04 🍻 5分钟定制数字人能力 在 WAIC2024 展出,获CCTV报道。 2024/4/26 💡 数字人快速合成能力正式公测。 2024/1/18 🎉 数字人精品定制功能上线必剪Studio。 one-shot 数字人快速合成 面向大众用户的快速合成能力,可实现基于用户录制的简易模版视频(10s内即可),快速完成语音驱动的数字人视频生成。数字人one-shot快速定制能力于2024世界人工智能大会进行了效果展示,必剪studio及相关音视频生成能力获得多家主流媒体曝光。 ...

2024-08-05 · 1 分钟 · Jixuan Xu

Transformer 参数量、显存占用、计算量分析

首先我们先定义模型中的一些参数,transformer的层数记为 $l$,隐藏层维度为 $h$,注意力头数为 $a$,词表大小为 $V$,训练数据的批次大小为 $b$,序列长度为 $s$。 ...

2024-08-02 · 5 分钟 · Jixuan Xu

Batch Norm, Layer Norm, RMS Norm

什么是Normalization? Normalization:规范化或标准化,就是把输入数据X,在输送给神经元之前先对其进行平移和伸缩变换,将X的分布规范化成在固定区间范围的标准分布。 $$ h = f(g \cdot \frac{x - \mu}{\sigma} + b) $$ 其中 $\mu$ 为均值,$\sigma$ 为方差,$g$ 为缩放参数,$b$ 为平移参数。归一化得到的数据符合均值为 $b$ 、方差为 $g^2$ 的分布。 ...

2024-01-15 · 2 分钟 · Jixuan Xu

Hugo + PaperMod + Github Pages 搭建一个完善的个人博客

前言 第一篇文章,内容为使用hugo搭建个人博客。 涉及工具 除了搭建博客和介绍如何使用这个博客框架这样一个流程本身,还包含了对 PaperMod 这个主题的一些细节的定制。 本文涉及到的工具或者网站: ...

2023-07-19 · 13 分钟 · Jixuan Xu