Google Imagen 3 ——它会是最强的 AI 图像生成模型吗?

开发 前端
虽然外界对 Imagen 3 抱有极高期待,但实际使用下来,既有惊艳的地方,也有些遗憾。Google 将它集成在 Gemini 等平台,但还没有一个专门的网站供大家深度使用或测试,这在某种程度上限制了它的普及度和可控度。

在 Google I/O 2024 宣布 5 个月后,Google 迄今为止功能最强的 AI 图像生成器 Imagen 3,终于在 Gemini 平台上与大家见面。

“Imagen 3 是我们质量最高的文本生成图像模型,能生成更细致的细节、更丰富的光影效果,并显著减少杂乱伪影。” ——Google

这次更新最重要的改进之一,是模型对提示词(Prompt)的理解能力更强。不仅能处理更长、更复杂的描述,还能呈现多样化风格,并捕捉更多细微细节。

什么是 Imagen 3?

Imagen 3 是 Google 最新、最高质量的文本生成图像模型,它具备:

  • 更精细的细节:输出中光影层次更丰富,干扰伪影更少
  • 自然语言支持:对日常语言描述的场景,更易生成符合预期的图像
  • 多种风格:从超写实风光到油画、黏土动画等多种视觉效果
  • 更好的文本渲染:在图像中生成文字时,不再像其他模型那样容易出错

Google 一向重视安全性。Imagen 3 在数据与模型开发过程中,采用了严格的筛选与标注来减少有害内容,同时也能降低不当输出的风险。

如何体验 Imagen 3

可以通过 Google 的 Gemini 聊天机器人来试用,登录后输入你想生成的描述即可。
注意:要选择 “Gemini Advanced” 作为语言模型。如果看不到该选项,说明需要升级至付费账号。

image.pngimage.png

例子

Prompt: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow

提示词:
三位女性并肩而立,笑容满面。其中一人略微虚化在前景,身后夕阳西下,镜头出现镜头光晕,色调温暖
  • 1.
  • 2.
  • 3.
  • 4.

image.pngimage.png

生成的图像非常逼真。镜头光晕、环境光线都能准确呈现,人物神态也很自然。

下载:模型默认显示的预览图是 512×512,右上角可点击“Download full size”下载 2048×2048 的完整版(JFIF 格式)。

image.pngimage.png

如果结果与你想要的效果不符,可以在提示词中添加更多细节。描述越具体,Imagen 3 才能更好契合你的期望。

一些示例

1. 生成编织玩偶

Prompt: Elephant amigurumi walking in savanna, a professional photograph, blurry background

提示词:
大象毛线玩偶漫步在稀树草原的照片,背景模糊
  • 1.
  • 2.
  • 3.
  • 4.

image.pngimage.png

Imagen 3 呈现了非常细腻的针织纹理,背景虚化效果也很接近专业摄影的水准。

2. 生成文字

Prompt: Word “light” made from various colorful feathers, black background

提示词:
在黑色背景上,用各色羽毛拼成单词 “light”
  • 1.
  • 2.
  • 3.
  • 4.

文字渲染一直是许多生成模型的短板,但 Imagen 3 在该示例中文字非常清晰,羽毛细节也没被扭曲。

image.pngimage.png

3. 更长的文字

Prompt: Word “Google’s Imagen 3 is amazing!” made from various colorful stones, background are gray stones

提示词:
用彩色石头拼写 “Google’s Imagen 3 is amazing!” ,背景是灰色石头
  • 1.
  • 2.
  • 3.
  • 4.

图片图片

虽然需求更复杂,模型仍然清晰呈现整句英文,不同颜色的石头字母与灰色背景区分明显。

现存局限:缺少图像编辑能力

在 Gemini 上使用 Imagen 3 时,目前不能自由调节分辨率或画幅比例,也不支持风格化滤镜、局部修补(inpainting/outpainting)等功能。所有图都是 1:1 方形。如果你更需要精细调整,Midjourney 或 Flux Labs 等平台可能更灵活。

与 Midjourney、Flux 等对比

很多人关心 Imagen 3 与其他热门模型(如 Midjourney、Dall·E 3、Flux)谁更胜一筹。从测试来看,图像质量和对提示词的匹配度都很高,很难说谁是绝对赢家。

Prompt: photo of a smiling energetic positive mood woman laying in the sofa and reading book, realistic, photo made on iphone 11

提示:一位面带微笑、精力充沛、心情积极向上的女士躺在沙发上看书的照片,写实,照片由 iPhone 11 制作
  • 1.
  • 2.
  • 3.

图片图片

Prompt: in the style of Anthony Burrill, party, portrait of british shorthair blowing bubble gum, white background
提示:安东尼-伯里尔风格,派对,吹泡泡糖的英国短毛猫肖像,白色背景
  • 1.
  • 2.

图片图片

Prompt: Polaroid photo with VSCO filter, 1990, gorgeous woman, night, flash photo, blonde, cute, young face, beautiful shadows, tropical plants, urban clothing, inside an apartment, DSLR, holding a sign written in ballpoint pen on a notebook saying “Imagen 3”
提示:带有 VSCO 滤镜的宝丽来照片,1990 年,美女,夜晚,闪光灯照片,金发,可爱,年轻的脸,美丽的阴影,热带植物,城市服装,公寓内,单反相机,拿着一个用圆珠笔写在笔记本上的牌子,上面写着 "Imagen 3"。
  • 1.
  • 2.

图片图片

总结

虽然外界对 Imagen 3 抱有极高期待,但实际使用下来,既有惊艳的地方,也有些遗憾。Google 将它集成在 Gemini 等平台,但还没有一个专门的网站供大家深度使用或测试,这在某种程度上限制了它的普及度和可控度。

但从图像质量上看,Imagen 3 对细节与文字渲染的能力确实有长足进步。未来若能开放更多编辑功能(如不同分辨率、风格转换、inpainting 等),它或许能在 AI 绘图界占据更显著位置。

对于开发者,目前仅在早期访问阶段,可以通过 Vertex AI 或 Test Kitchen 试用,也可跟着官方指引使用 Python 调用 API 生成图像。

Imagen 3 能否称得上“最强”?
就图像质量和自然语言理解而言,它确实走在前列。然而,功能限制和可用性方面还留有遗憾,还不足以全面超越所有对手。随着后续版本和更多功能开放,或许 Imagen 能更上一层楼,届时我们再来评判也不迟。


责任编辑:武晓燕 来源: 大迁世界
相关推荐

2022-07-12 14:50:03

模型研究

2024-08-30 12:57:25

2023-12-14 12:46:54

训练数据

2023-12-07 11:12:54

大型语言模型Gemini人工智能

2017-04-13 16:36:28

AI人工智能

2022-10-04 09:19:14

网约车微信T3打车

2018-10-12 14:48:00

2025-02-12 10:17:12

2020-03-12 18:12:10

Google FuchAndroid移动应用

2024-03-06 16:08:13

人工智能扩散模型生成模型

2023-05-16 08:00:00

开源项目MONAI医学图像

2023-08-02 16:09:16

2023-12-19 08:00:00

人工智能AI艺术生成器数据

2025-01-10 09:05:00

2023-05-04 16:24:10

人工智能图像生成器

2022-06-21 14:14:06

DevOpsNoOps

2023-08-02 10:17:06

谷歌AI

2023-08-14 11:52:32

AI工具机器学习

2023-03-29 10:04:18

图像AI

2022-09-29 23:50:47

人工智能神经网络平面设计
点赞
收藏

51CTO技术栈公众号