
回复
本文介绍一种视觉tokenizer的生成。
AIGC生成模型在人工智能领域发展迅速,视觉生成主要有基于语言模型和扩散模型两种范式,而tokenizer是其核心组件。现有tokenizer分别针对图像或视频输入设计,存在应用灵活性和数据可扩展性的局限。因此需要一种联合图像 - 视频标记器,以实现从两种数据中联合学习,缓解单模态数据稀缺问题,并提高模型的通用性和可扩展性。
今天介绍一种OmniTokenizer方法,感兴趣的小伙伴可以看看原文:https://arxiv.org/abs/2406.09399
上图为OmniTokenize架构图,从中可以看出:
渐进式训练策略,包括两个连续阶段:
在 ImageNet、CelebA - HQ 和 FFHQ 等图像数据集以及 UCF - 101 和 Moments - in - Time 等视频数据集上评估。在相同压缩率和码本大小下,OmniTokenizer - VQVAE 在图像数据集上的重建 FID 指标优于现有方法,在 ImageNet 上达到 1.11,比之前的 SOTA 方法 ViT - VQGAN 提高了 13%;OmniTokenizer - VAE 进一步将 FID 降低到 0.69。在视频数据集上也取得了最佳的重建结果。
文转载自公众号瓦力算法学研所,作者:喜欢瓦力的卷卷