去年 12 月,谷歌推出了 PaliGemma 2 ,这是Gemma系列中的升级版视觉语言模型。该版本包含不同大小(3B、10B 和 28B 参数)的预训练检查点,可轻松针对各种视觉语言任务和领域进行微调,例如图像分割、短视频字幕、科学问答和文本相关任务,并实现高性能。
2月19日,谷歌宣布推出 PaliGemma 2 mix 检查点。PaliGemma 2 mix 是针对多种任务进行调整的模型,允许直接探索模型功能并将其开箱即用,用于常见用例。
PaliGemma 2 mix 有什么新功能?
- 一个模型可完成多项任务:PaliGemma 2 mix 可以解决短字幕和长字幕、光学字符识别 (OCR)、图像问答、对象检测和分割等任务。
- 适合开发人员的尺寸:借助不同的模型尺寸(3B、10B 和 28B 参数)和分辨率(224px 和 448px),使用最适合您需求的模型。
- 与您喜欢的框架一起使用:利用您喜欢的工具和框架,包括Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp。
如果已经在使用原始的 PaliGemma 混合检查点,则可以直接升级到 PaliGemma 2,而无需进行任何更改。该模型根据提示方式执行不同的任务。
效果展示
检测
- 任务:检测(PaliGemma-2-3b-mix-224)
- 输入:“detect android\n”
结果
多物体检测
- 任务:多目标检测(PaliGemma-2-3b-mix-224)
- 输入:“检测椅子;桌子\n”
结果
- 餐厅内物品的多物体检测
结果:
光学字符识别 (OCR)
- 任务:多目标检测(PaliGemma-2-3b-mix-224)
- 输入-“ocr\n”
结果:
分割
- 任务:分割 (PaliGemma-2-3b-mix-224)
- 输入-“segment cat\n”
结果
问答
- 任务:问答 (PaliGemma2-mix-3b-448)
- 输入:“答案 en 牛站在哪里?\n”
结果
beach
字幕
- 输入:“caption en\n”
结果
a cow standing on a beach next to a sign that says warning dangerous rip current.
光学字符识别 (OCR)
结果:
- WARNING
- DANGEROUS
- RIP CURRENT
立即开始
- 试用:https://huggingface.co/spaces/google/paligemma2-10b-mix
- 模型:https://www.kaggle.com/models/google/paligemma-2/
- 运行:https://ai.google.dev/gemma/docs/paligemma/inference-with-keras
- 部署:https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/paligemma