编辑 | 伊风
出品 | 51CTO技术栈(微信号:blog51cto)
谷歌Gemini的AI生图功能在漫长的沉寂后官宣重返!并推出了重大升级后的模型Imagen 3!
此前,Gemini的这项功能因为过分注重“政治正确”而被群嘲。例如生成了黑人形象的华盛顿等等,在引起广泛争议之后,这项功能随之被禁用。
现在,谷歌对其进行了升级,并准备在“未来几天”向部分用户进行灰度测试,该早期版本暂时只支持英语。
时隔数月,想必Imagen 3被谷歌寄于厚望,准备干票大的,“一雪前耻”。
图片
谷歌本月早些时候通过其AI Test Kitchen推出了Imagen 3,悄悄试水。
图片
现在它即将支持在Gemini中进行使用。据说,升级后的工具能够生成从逼真的风景到纹理丰富的油画,而且只需“几个词的描述”即可。
那么,Imagen 3的效果究竟如何?与搭载了FLUX模型的Gork-2谁更能打?Gemini的生图功能一落千丈的口碑还能捡起来吗?
1.Imagen 3:足够惊艳 但来迟一步
谷歌周二宣布对其Gemini AI平台进行了重大更新,推出了“Gems”个性化AI助手和改进的图像生成模型Imagen 3。
谷歌的Imagen 3 AI模型生成的数字插图展示了一个充满活力的幻想场景,其中一只小龙正在从蛋壳中孵化出来。该图像展示了该模型逼真的细节渲染和以及根据文字提示生成想象场景的能力。
图片
推友@ChatGPT研究所试用后表示:生成图像的质量令人叹为观止。
图片
prompt:夜晚近距离拍摄一位男性冲浪者,他正骑在海浪上,一支红色照明弹举过头顶,表情紧张,脸上有轻微的胡茬。他以动感姿势站在冲浪板上,红光照亮了翻腾的海浪,照明弹后面拖着火花和烟雾。背景是星空,画面风格逼真,色彩鲜艳,动态感十足。
对比小编用GPT-4o生成的同一图像,Gemini给的图更加真实,且动作也符合逻辑。
图片
Gemini生成的女性肖像同样表现优越,给定的图片中充满了细节,皮肤的机理和肌肉都十分清晰,摆脱了之前AI重度磨皮的bug,让人看起来非常舒适。
图片
prompt:一位美丽的年轻女子的肖像,她穿着色彩鲜艳的蓝色花卉图案和服,头上戴着饰有花朵的华丽发饰,脸上带着温柔的微笑。画面采用暖色调照明,整体呈现出传统的氛围。
不过,谷歌似乎过于谨慎地进行了漫长的整改。
在经过了FLUX深度伪造级别的TED照片,以及Grok-2各种生成梗图的狂轰乱炸以后,谷歌Imagen 3在AI社区激起的浪花稍显不足。
2.Deepfake:如何在道德保障下推动AI生成图像的边界
在收回Gemini的生图功能之后,谷歌此番动作变得更为谨慎。
在生成人物图像方面,谷歌寄于了更多的限制。包括不再生成逼真的公共人物图像,以及拒绝暴力色情相关的请求。
为应对对深度伪造和错误信息的担忧,谷歌实施了安全措施,包括SynthID水印技术。然而,这些措施的有效性尚待观察,可能会引发关于负责任的AI开发和使用的持续争论。
然而,谷歌的担忧并非空穴来风,所做的种种限制也绝非多此一举。
近期,韩国就爆出了一起利用AI深度伪造(Deepfake)的社会事件,被看作是采用新犯罪手段的“N号房”卷土重来。
不法分子们使用AI技术,将个人的声音、面部表情及身体动作拼接合成虚假内容并进行传播。韩国网民在通讯软件“电报”(Telegram)上发现大量聊天群,其中有成员创建和分享露骨的性“深度伪造”图像,对象甚至涉及未成年女孩。
据外媒报道,在付费Deepfake电报频道中,男性订阅用户提供女性照片,交钱后由频道制作成色情图片。目前全国涉及深度伪造犯罪的人数可能达到22万,众多女性因此陷入不安和恐惧之中。
为了反击,韩国警方开始研究Deepfake的检测技术。据警方透露,如果在相关软件上传疑似人工智能深伪的视频,大约5至10分钟就能辨别真伪。警方表示,与以西方人为主的信息构成的现有探测软件不同,该软件学习了5400人的520万条个人信息,其中包括100万条韩国人的信息。但是该软件的探测率约为80%,尚未达到100%。因此,比起证据资料,警方计划将其作为设定调查方向的信息。
但是,值得深思的是,一旦受害者被制作了换脸的色情图像,当那些备有用心之人传播着内容并为此洋洋得意时,伤害就已经实际的产生了。
如果不能从源头遏制这种犯罪,再强大的检测技术也只能在事后进行弥补。更何况,互联网往往都是谣言的声浪高过澄清,没有真正有效的武器让不安中的女性保护自己免受AI换脸的毒害。
3.AI巨头的较量:谷歌在拥挤市场中的战略举动
虽然AI生图技术存在着相当的风险,但谷歌也无法放弃这方面的开发。
在过去一年中,包括OpenAI、微软、Meta、Anthropic和Hugging Face在内的公司都推出了可定制的AI chatbot,整个行业正向个性化AI体验转变。
从Sora在年初的炸场,到FLUX给AI社区带来的亿些震撼,都表明拥抱多模态是一个不可撼动的大趋势。
Gems和Imagen 3的推出似乎是谷歌试图赶上甚至超越其竞争对手的努力。
尽管谷歌长期以来一直是AI研究的先驱,transformer的架构最早就诞生于谷歌。然而,在ChatGPT爆发之后,谷歌在面向消费者的AI产品推向市场方面有时有所滞后。
最近,谷歌推出自己的Pixel 9系列时,所搭载的AI功能让人小小的惊艳了一把。
这表明,随着AI技术的不断成熟,主要参与者正在争相成为最用户友好、最强大且道德责任感最强的平台。这样的内卷,倒是可以多来一些。
参考链接:
1.https://venturebeat.com/ai/googles-gemini-ai-gets-major-upgrade-with-gems-assistants-and-imagen-3/