LLM合集:视频生成新王炸!Step-Video-T2V,全方位碾压开源与商业模型
1.StepVideoT2VTechnicalReport:ThePractice,Challenges,andFutureofVideoFoundationModel我们提出了StepVideoT2V,这是个有300亿参数的超厉害的文本到视频预训练模型,它能生成有204帧那么长的视频内容。为了做好视频生成这个任务,我们专门设计了一个深度压缩变分自动编码器,也就是VideoVAE。它能把空间压缩到16x16,时间上压缩8倍,还能保证视频重建的质量非常高。。用户要是输入提示内容,我们用两个双语文本编码器来处理...