实力打脸!Adobe用竞品Midjourney图片训练Firefly。内部员工批评不断终爆料 原创
撰稿 | 言征
出品 | 51CTO技术栈(微信号:blog51cto)
AIGC圈太魔幻了,啪啪打脸的时刻总是在路上!
开源的模型会变闭源,比如被认为是开源独角兽的Mistral,开始考虑“使命与商业利益之间的平衡”,推出闭源的旗舰大模型Large。当然,上一次这么说的还要数OpenAI。
不过在外界看来,理由就是四个字:我、要、赚、钱!
再比如,一开始攻击谷歌搜索广告泛滥的AI搜索宠儿Perplexity AI也宣布了自己网站开始卖起了广告位,同样一改对于“恰饭”广告的态度:只要广告足够好,就不影响用户体验。
今天同样被网友们吃到“打脸”瓜的会是谁呢?嗯,这次是Adobe。
1.质疑Midjourney,理解Midjourney,成为Midjourney?
当Adobe公司去年发布其图像生成软件Firefly时,该公司表示,这款人工智能模型主要是在Adobe Stock上训练的,其数据库包含数亿张授权图像。Adobe公司称,Firefly是一个“商业上安全”的替代方案,可以替代像Midjourney这样的竞争对手,后者是通过从互联网上抓取图片来学习的。
此外,Adobe公司曾就竞争对手的数据收集做法提出批评。该公司首席战略官斯科特·贝尔斯基(Scott Belsky)去年表示,其他模型都是建立在“公开抓取”的数据之上的。
Adobe公司在其网站上表示,Firefly比OpenAI的类似模型更胜一筹的原因之一是,它尊重创意社群,只使用有授权或可免费获取的数据进行训练。而在去年3月的一篇题为《生成式人工智能时代的负责任创新》的博客文章中,法务总监达娜·拉奥(Dana Rao)指出,生成式AI“的好坏取决于其训练数据的质量”。
她写道:“经过精心策划、多样化的数据集训练,你的模型在商业安全和伦理结果方面自然具有竞争优势。”同时,她指出Adobe公司对Firefly的训练是基于AdobeStock图像、有授权的内容和版权已过期的公有领域内容。
Adobe公司高级副总裁阿什利·斯蒂尔(Ashley Still)在本月初的彭博情报活动中表示:“当我们发布Firefly时,我们的企业客户找到我们说,‘我们很喜欢你们在做的事情,我们真的很感激你们没有在开放的互联网上窃取我们所有的知识产权。”
然而,在多次演讲和公开文章中,Adobe从未明确表示其模型实际上使用了来自这些竞争对手的一些图像,来作为其比竞争对手更安全的原因。
人设崩塌往往来自于内部消息。根据最新的爆料,幕后情况是,Adobe也在一定程度上依赖AI生成的内容来训练Firefly,包括从那些AI竞争对手那里获取的内容。
图片
彭博社报道:
Adobe’s 'Ethical' AI Tools Used Rival AI Images for Training
2.内部员工实在看不下去,爆料使用竞品素材来训练
AI生成的内容之所以会进入Firefly的训练集,是因为创作者被允许将数百万张使用其他公司技术的图像提交到Adobe Stock市场。Adobe公司代表米歇尔·哈尔霍夫(Michelle Haarhoff)去年9月在为摄影师和艺术家设立的Discord群组中写道:“Adobe Stock收藏中的生成式AI图像是Firefly训练数据集的一小部分。”
Adobe公司表示,用于训练其AI工具的图像中,只有相对较小的一部分(约5%)是由其他AI平台生成的。公司发言人表示:“提交给Adobe Stock的每一张图像,包括一小部分用AI生成的图像,都会经 过严格的审核过程,以确保其中不包含知识产权、商标、可识别的角色或标志,也不包含艺术家的名字。”
公司内部对该做法的批评声不断:据多位熟悉Firefly开发过程的员工(因讨论是私密的,故要求匿名)表示,自从Firefly诞生之初,公司内部就一直存在关于将AI生成的图像纳入模型的道德和视觉效果的争议。有些人建议逐步减少系统对生成图像的使用,但有知情人表示,目前尚无此类计划。
Adobe Stock 添加了许多AI生成的图像
然而,Adobe公司从未公开明确表示,Firefly部分使用了竞争对手工具中据称不太道德的图像进行训练。不过,根据彭博社查看的消息,Adobe公司至少在两个由公司运营的Discord在线讨论组中披露了这些细节——一个用于Adobe Stock,另一个专门用于Firefly。
3.用户实锤:惭愧,被用于训练的AI图片的确获得了奖金
2023年3月,Adobe公司发布了Firefly的“测试版”产品。当月,与Adobe Stock社群合作的劳尔·塞罗恩(Raúl Cerón)在Discord上发帖称,公司不打算使用生成的图像来训练即将发布的Firefly公开版。
“一旦我们结束测试并正式上线,我们将为它建立一个新的训练数据库,其中将不包含生成式AI的内容。” 他在6月的一篇帖子中写道。
当Adobe于9月13日宣布Firefly公开发布时,该公司还向“其内容被用于训练首个商业版Firefly模型”的Adobe Stock贡献者支付了特别的“Firefly奖金”。根据与Adobe Stock社群合作的马特·海沃德(Mat Hayward)在Discord上的一条消息,那些使用生成式AI的贡献者也在获得奖金的人之列。
海沃德写道,Adobe Stock中的AI生成图像“增强了我们的数据集训练模型,我们决定在商业发布的Firefly版本中包含这些内容。”
这一点,也被用户实际证明了。一位用户在Adobe上传Midjourney图像,结果反手就被用来训练,而且还收到了一笔奖金。
布莱恩·彭尼(Brian Penny)是一位作家和stock图像贡献者,他向Adobe Stock提交了数千张AI生成的图像——其中大多数是用Midjourney制作的。在收到奖金时,他感到十分惊讶,因为他认为自己作为AI贡献者是没有资格获得奖金的。尽管获得了经济收益,但彭尼认为让Firefly训练包含像他这样贡献的内容是一个糟糕的决定,并表示公司应该更加坦率地说明它是如何训练这款图像创建软件的。
他说:“他们需要秉持道德原则,需要更加透明,需要做得更多。”
自2022年底正式接受AI内容以来,Adobe Stock的素材库蓬勃发展。如今,大约有5700万张图像,即总数的约14%,被标记为AI生成的图像。提交AI图像的艺术家必须指明该作品是使用技术创建的,但他们不需要说明使用的是哪种工具。为了喂养其AI训练集,Adobe还提出为贡献者提供报酬,以提交大量用于AI训练的照片——例如香蕉或旗帜的图像。
4.究竟什么是道德/负责任的AI?凌乱了
要训练支撑流行内容创作产品的AI模型,需要海量的数据,同时,AI技术公司在此过程中使用版权材料的行为也受到了越来越多的审视。
Midjourney、Dall-E的制作者OpenAI以及Stable Diffusion的制作者Stability AI等公司都是利用从互联网上抓取的图片数据集来构建他们的媒体生成模型,这种做法引发了众多艺术家的愤怒和诉讼。
一位研究法律和伦理影响的助理教授认为,“这显示了负责任AI定义的模糊性,也说明了摆脱生成内容带来的社会、文化和伦理问题(如果不是法律问题的话)的困难。”
Adobe公司决定使用公司拥有版权或属于公共领域的内容来构建Firefly,很明显,是为了在快速增长的生成式人工智能市场中,使其AI图像工具脱颖而出。
然而,该公司却将其宣传为更道德、更合法的选择,适合那些希望通过少量词汇生成图像但又担心潜在版权问题的客户。不过,Adobe公司还表示,它不会基于其他人的知识产权或品牌来生成内容,也会避免产生有害图像。
哈佛大学教授丽贝卡·塔什内特(Rebecca Tushnet)专注于版权和广告法领域。她表示,用AI生成的内容进行训练可能不会让Adobe的Firefly图像生成器在商业上变得不那么安全,只要公司不误导消费者,它就不需要说明其训练内容。但是,用像Midjourney创建的图像这样的AI图像进行训练,会破坏Firefly与竞争对手服务不同的理念。
“Adobe基本上想将自己定位为更高级别的替代品,但它也想要非常便宜的输入,而AI是一个获取便宜输入的非常好的方式,”她说。
所以,到底什么才是道德的、负责任的AI,相信不少人都凌乱了。
本文转载自 51CTO技术栈,作者:言征