Pllava在目标数据域下的训练推理总结

背景: 视频capiton任务中,增加帧数和模型计算量相互制约。早前的视频caption模型对时间和空间维度的下采样损失了较多的信息(videochatgpt),导致模型capiton效果不佳(过短或幻觉)。 现有的video caption数据集质量不佳,通常capiton较短、或是以对话的形式。 各开源、闭源方案调研:GPT4-v > Qwen-vl-max > Pllava > Llama-VID > Cog-VLM。 贡献: 提出了一种pooling策略,使得模型在计算、训练效率和capiton效果间达到比较好的平衡。 提出post training的方法,对多模态大模型使用LoRA训练,减轻模型在finetune过程中的遗忘和退化问题,同时能够很好的适应到目标。 模型相关: Pllava模型结构: ...

2024-08-25 · 4 分钟 · Jixuan Xu