在 Google I/O 2024 宣布 5 个月后,Google 迄今为止功能最强的 AI 图像生成器 Imagen 3,终于在 Gemini 平台上与大家见面。
“Imagen 3 是我们质量最高的文本生成图像模型,能生成更细致的细节、更丰富的光影效果,并显著减少杂乱伪影。” ——Google
这次更新最重要的改进之一,是模型对提示词(Prompt)的理解能力更强。不仅能处理更长、更复杂的描述,还能呈现多样化风格,并捕捉更多细微细节。
什么是 Imagen 3?
Imagen 3 是 Google 最新、最高质量的文本生成图像模型,它具备:
- 更精细的细节:输出中光影层次更丰富,干扰伪影更少
- 自然语言支持:对日常语言描述的场景,更易生成符合预期的图像
- 多种风格:从超写实风光到油画、黏土动画等多种视觉效果
- 更好的文本渲染:在图像中生成文字时,不再像其他模型那样容易出错
Google 一向重视安全性。Imagen 3 在数据与模型开发过程中,采用了严格的筛选与标注来减少有害内容,同时也能降低不当输出的风险。
如何体验 Imagen 3
可以通过 Google 的 Gemini 聊天机器人来试用,登录后输入你想生成的描述即可。
注意:要选择 “Gemini Advanced” 作为语言模型。如果看不到该选项,说明需要升级至付费账号。
image.png
例子
image.png
生成的图像非常逼真。镜头光晕、环境光线都能准确呈现,人物神态也很自然。
下载:模型默认显示的预览图是 512×512,右上角可点击“Download full size”下载 2048×2048 的完整版(JFIF 格式)。
image.png
如果结果与你想要的效果不符,可以在提示词中添加更多细节。描述越具体,Imagen 3 才能更好契合你的期望。
一些示例
1. 生成编织玩偶
image.png
Imagen 3 呈现了非常细腻的针织纹理,背景虚化效果也很接近专业摄影的水准。
2. 生成文字
文字渲染一直是许多生成模型的短板,但 Imagen 3 在该示例中文字非常清晰,羽毛细节也没被扭曲。
image.png
3. 更长的文字
图片
虽然需求更复杂,模型仍然清晰呈现整句英文,不同颜色的石头字母与灰色背景区分明显。
现存局限:缺少图像编辑能力
在 Gemini 上使用 Imagen 3 时,目前不能自由调节分辨率或画幅比例,也不支持风格化滤镜、局部修补(inpainting/outpainting)等功能。所有图都是 1:1 方形。如果你更需要精细调整,Midjourney 或 Flux Labs 等平台可能更灵活。
与 Midjourney、Flux 等对比
很多人关心 Imagen 3 与其他热门模型(如 Midjourney、Dall·E 3、Flux)谁更胜一筹。从测试来看,图像质量和对提示词的匹配度都很高,很难说谁是绝对赢家。
图片
图片
图片
总结
虽然外界对 Imagen 3 抱有极高期待,但实际使用下来,既有惊艳的地方,也有些遗憾。Google 将它集成在 Gemini 等平台,但还没有一个专门的网站供大家深度使用或测试,这在某种程度上限制了它的普及度和可控度。
但从图像质量上看,Imagen 3 对细节与文字渲染的能力确实有长足进步。未来若能开放更多编辑功能(如不同分辨率、风格转换、inpainting 等),它或许能在 AI 绘图界占据更显著位置。
对于开发者,目前仅在早期访问阶段,可以通过 Vertex AI 或 Test Kitchen 试用,也可跟着官方指引使用 Python 调用 API 生成图像。
Imagen 3 能否称得上“最强”?
就图像质量和自然语言理解而言,它确实走在前列。然而,功能限制和可用性方面还留有遗憾,还不足以全面超越所有对手。随着后续版本和更多功能开放,或许 Imagen 能更上一层楼,届时我们再来评判也不迟。