Midjourney V5上线后,网友们用它生成了数不清的惊叹作品。
在这个AI作画工具面前,人和人的差距,或许就体现在prompt上了。
去年在科罗拉多州博览会艺术比赛上用AI打败了人类的获奖者,花了80多个小时,经过900次迭代后,才用Midjourney完成了《太空歌剧院》这一艺术杰作。而ta直接拒绝分享出自己的prompt。
是的,现在很多时候,一行完美又专业的prompt,已经价值千金。
而Midjourney仿佛深知我们的需求,最近,它上线了一个新功能——/describe,可以帮我们从图像中反推prompt。
从图像反推prompt
现在,如果你有一个想模仿的图像,但你不知道要用什么样的prompt去描述它,这时候,describe就帮你大忙了。比如,下图是新海诚的《言叶之庭》(「言の葉の庭」)。
拖进图像后,Midjourney生成了下面四种prompt。
根据这四个prompt,Midjourney又生成了类似风格的四幅图。
简直完美。
并且,Midjourney提供的描述也可以激发出用户的更多灵感。传统的画家可能会患有空白画布综合征,AI艺术家有时也会词穷,很难找到描述照片的词语。
在Midjourney的Discord频道上,从「/describe」就可以启动文本描述过程了。
Midjourney提供了一个拖放区,可以让你拖入图像。
然后按下回车键,就可以等待prompt了。
四个文本提示,包括描述性词语、样式详细信息和纵横比。宽高比在像素精确度方面与计算机类似,比如如果是一个16:9的图像,它会输出504:283。
而四个文本提示生成后,你可以直接点击按钮,直接用它们生成图像,当然,在提交之前,你也可以选择自己优化提示。
作家的意外收获?
更有趣的是,Midjourney的这个新功能,竟然意外地让作家们获得了帮手。
如果找不到完美的形容词来描绘一幅画,只需要把图像上传到Midjourney,文采斐然的句子就自动蹦出来了。
而Midjourney返回的文本提示,真是让人惊喜连连。其中包括「palewave」、「cranberrycore」和「icepunk」等流行语,以及各种艺术家、摄影师和作者的姓名。
而提示中出现人名时,甚至是可点击的链接,可以打开谷歌搜索,如果点击进去,你或许会获得更多的灵感来源。
比如,上传Ross Burgener的一张绝佳的作品,Midjourney会这样描述:"极光在LED照明的冰屋上跳舞,给雪的颜色带来了蓝色调"。
它认出了北极光,会在提示中给出建议——可参考艺术家Qlexis Gritchenko和摄影师Nathan Wirth。它采用的词汇包括 「极地冰山」、「发光的天空」和「空灵的雕塑」。
网友们大喜,已玩疯
现在,网友们已经玩疯了。
有网友利用describe功能,生成了许多穿白色蕾丝裙的美女。
有人输入了一堆珠宝的图像。
得到了如下的prompt。
根据这些prompt生成的图像如下。
输入一个二次元萌妹。
输出的prompt,出图效果很惊艳。
输入一只气质憨憨的大捻角羚的照片。
生成的prompt如下。
输出的prompt生成的大捻角羚,气质更为冷峻。
输入一只海滩上的狗。
Prompt生出了四只埋在坑里的狗。
输入穿着燕尾服的动漫人物。
生成如下prompt。
生成四张动漫人物。
是RLHF?
可以看到,Midjourney最近的进步,可以用飞速形容。
英伟达AI科学家Jim Fan猜测,Midjourney一直在根据人类反馈(「RLHF」)进行大规模的强化学习,并且,这可能是有史以来规模最大的文本到图像强化学习。
当用户选择放大图像时,是因为他们更喜欢它。如果不把这个过程当作奖励信号,那真是巨大的浪费。这些数据收集起来很便宜,而且完全符合用户群的需求。
拥有的用户越多,可以做的RLHF就越好,然后获得的用户就越多。
他还给出了一个免责声明,表示这就是自己的一个脑洞,自己并不认识Midjourney的人。
但他们一定已经是这么做的,因为UI的格式看起来就像一个多项选择题。
最后,要注意的是,同图像生成一样,describe功能需要使用积分,所以需要谨慎地考虑。
而且现在,Midjourney的免费功能,已经彻底关闭了。
参考资料:
https://the-decoder.com/midjourney-new-image-tool-works-in-reverse/
https://twitter.com/DrJimFan/status/1643279641065713665