Google Imagen 3 ——它会是最强的 AI 图像生成模型吗？-51CTO.COM

在 Google I/O 2024 宣布 5 个月后，Google 迄今为止功能最强的 AI 图像生成器 Imagen 3，终于在 Gemini 平台上与大家见面。

“Imagen 3 是我们质量最高的文本生成图像模型，能生成更细致的细节、更丰富的光影效果，并显著减少杂乱伪影。” ——Google

这次更新最重要的改进之一，是模型对提示词（Prompt）的理解能力更强。不仅能处理更长、更复杂的描述，还能呈现多样化风格，并捕捉更多细微细节。

什么是 Imagen 3？

Imagen 3 是 Google 最新、最高质量的文本生成图像模型，它具备：

更精细的细节：输出中光影层次更丰富，干扰伪影更少
自然语言支持：对日常语言描述的场景，更易生成符合预期的图像
多种风格：从超写实风光到油画、黏土动画等多种视觉效果
更好的文本渲染：在图像中生成文字时，不再像其他模型那样容易出错

Google 一向重视安全性。Imagen 3 在数据与模型开发过程中，采用了严格的筛选与标注来减少有害内容，同时也能降低不当输出的风险。

如何体验 Imagen 3

可以通过 Google 的 Gemini 聊天机器人来试用，登录后输入你想生成的描述即可。
注意：要选择 “Gemini Advanced” 作为语言模型。如果看不到该选项，说明需要升级至付费账号。

image.png

例子

Prompt: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow

提示词：
三位女性并肩而立，笑容满面。其中一人略微虚化在前景，身后夕阳西下，镜头出现镜头光晕，色调温暖1.
2.
3.
4.

image.png

生成的图像非常逼真。镜头光晕、环境光线都能准确呈现，人物神态也很自然。

下载：模型默认显示的预览图是 512×512，右上角可点击“Download full size”下载 2048×2048 的完整版（JFIF 格式）。

image.png

如果结果与你想要的效果不符，可以在提示词中添加更多细节。描述越具体，Imagen 3 才能更好契合你的期望。

一些示例

1. 生成编织玩偶

Prompt: Elephant amigurumi walking in savanna, a professional photograph, blurry background

提示词：
大象毛线玩偶漫步在稀树草原的照片，背景模糊1.
2.
3.
4.

image.png

Imagen 3 呈现了非常细腻的针织纹理，背景虚化效果也很接近专业摄影的水准。

2. 生成文字

Prompt: Word “light” made from various colorful feathers, black background

提示词：
在黑色背景上，用各色羽毛拼成单词 “light”1.
2.
3.
4.

文字渲染一直是许多生成模型的短板，但 Imagen 3 在该示例中文字非常清晰，羽毛细节也没被扭曲。

image.png

3. 更长的文字

Prompt: Word “Google’s Imagen 3 is amazing!” made from various colorful stones, background are gray stones

提示词：
用彩色石头拼写 “Google’s Imagen 3 is amazing!” ，背景是灰色石头1.
2.
3.
4.

图片

虽然需求更复杂，模型仍然清晰呈现整句英文，不同颜色的石头字母与灰色背景区分明显。

现存局限：缺少图像编辑能力

在 Gemini 上使用 Imagen 3 时，目前不能自由调节分辨率或画幅比例，也不支持风格化滤镜、局部修补（inpainting/outpainting）等功能。所有图都是 1:1 方形。如果你更需要精细调整，Midjourney 或 Flux Labs 等平台可能更灵活。

与 Midjourney、Flux 等对比

很多人关心 Imagen 3 与其他热门模型（如 Midjourney、Dall·E 3、Flux）谁更胜一筹。从测试来看，图像质量和对提示词的匹配度都很高，很难说谁是绝对赢家。

Prompt: photo of a smiling energetic positive mood woman laying in the sofa and reading book, realistic, photo made on iphone 11

提示：一位面带微笑、精力充沛、心情积极向上的女士躺在沙发上看书的照片，写实，照片由 iPhone 11 制作1.
2.
3.

图片

Prompt: in the style of Anthony Burrill, party, portrait of british shorthair blowing bubble gum, white background
提示：安东尼-伯里尔风格，派对，吹泡泡糖的英国短毛猫肖像，白色背景1.
2.

图片

Prompt: Polaroid photo with VSCO filter, 1990, gorgeous woman, night, flash photo, blonde, cute, young face, beautiful shadows, tropical plants, urban clothing, inside an apartment, DSLR, holding a sign written in ballpoint pen on a notebook saying “Imagen 3”
提示：带有 VSCO 滤镜的宝丽来照片，1990 年，美女，夜晚，闪光灯照片，金发，可爱，年轻的脸，美丽的阴影，热带植物，城市服装，公寓内，单反相机，拿着一个用圆珠笔写在笔记本上的牌子，上面写着 "Imagen 3"。1.
2.

图片

总结

虽然外界对 Imagen 3 抱有极高期待，但实际使用下来，既有惊艳的地方，也有些遗憾。Google 将它集成在 Gemini 等平台，但还没有一个专门的网站供大家深度使用或测试，这在某种程度上限制了它的普及度和可控度。

但从图像质量上看，Imagen 3 对细节与文字渲染的能力确实有长足进步。未来若能开放更多编辑功能（如不同分辨率、风格转换、inpainting 等），它或许能在 AI 绘图界占据更显著位置。

对于开发者，目前仅在早期访问阶段，可以通过 Vertex AI 或 Test Kitchen 试用，也可跟着官方指引使用 Python 调用 API 生成图像。

Imagen 3 能否称得上“最强”？
就图像质量和自然语言理解而言，它确实走在前列。然而，功能限制和可用性方面还留有遗憾，还不足以全面超越所有对手。随着后续版本和更多功能开放，或许 Imagen 能更上一层楼，届时我们再来评判也不迟。