生成式人工智能是使用算法生成、操作或合成数据的任何自动化过程的总称,通常以图像或人类可读文本的形式出现。之所以称之为生成,是因为人工智能创造了以前不存在的东西。这就是它与判别式人工智能的不同之处,后者会区分不同类型的输入。换句话说,辨别性人工智能试图回答这样的问题:“这张图片是一只兔子还是一只狮子?”而生成式人工智能则会回应“给我画一张狮子和一只兔子坐在一起的图片”这样的提示。
主要介绍生成式AI及其与ChatGPT和DALL-E等流行模型的使用。我们还将考虑这项技术的局限性,包括为什么“太多的手指”已经成为人工生成艺术的死赠品。
生成式人工智能的出现
自从1966年麻省理工学院(MIT)开发出模拟与治疗师交谈的聊天机器人ELIZA以来,生成式人工智能已经存在多年。但是,随着新的生成式人工智能系统的发布,人工智能和机器学习领域多年的工作最近取得了成果。人们肯定听说过ChatGPT,这是一种基于文本的人工智能聊天机器人,可以产生非常像人类的散文。DALL-E和StableDiffusion也因其基于文本提示创建充满活力和逼真的图像的能力而引起关注。我们经常将这些系统和其他类似的系统称为模型,因为它们代表了基于一个子集(有时是一个非常大的子集)的信息来模拟或建模现实世界的某些方面的尝试。
这些系统的输出是如此的不可思议,以至于很多人对意识的本质提出了哲学问题,并担心生成式人工智能对人类工作的经济影响。但是,尽管所有这些人工智能创造都是不可否认的大新闻,但表面之下的事情可能比一些人想象的要少。我们稍后会讨论这些大问题。首先,让我们看看像ChatGPT和DALL-E这样的模型下面发生了什么。
生成式人工智能是如何工作的?
生成式人工智能使用机器学习来处理大量的视觉或文本数据,其中大部分是从互联网上抓取的,然后确定哪些东西最有可能出现在其他东西附近。生成式人工智能的大部分编程工作都是为了创建算法,这些算法可以区分人工智能创造者感兴趣的“事物”——比如ChatGPT这样的聊天机器人的单词和句子,或者DALL-E的视觉元素。但从根本上说,生成式人工智能是通过评估一个庞大的数据语料库来创造它的输出的,然后用语料库确定的概率范围内的东西来回应提示。
自动补全——当你的手机或Gmail提示你正在输入的单词或句子的剩余部分可能是什么——是一种低级形式的生成式人工智能。像ChatGPT和DALL-E这样的模型只是把这个想法带到了更先进的高度
训练生成式人工智能模型
开发模型以适应所有这些数据的过程称为训练。对于不同类型的模型,这里使用了一些基础技术。ChatGPT使用所谓的转换器(T就是这个意思)。转换器从长文本序列中获取意义,以理解不同的单词或语义组件之间的关系,然后确定它们彼此接近出现的可能性。这些变形器在一个被称为预训练(PinChatGPT)的过程中,在无人监督的情况下在大量自然语言文本的语料库上运行,然后由人类与模型交互进行微调。
另一种用于训练模型的技术被称为生成对抗网络(GAN)。在这种技术中,有两种算法相互竞争。一种是基于从大数据集获得的概率生成文本或图像;另一种是判别人工智能,它经过人类的训练,可以评估输出是真实的还是人工智能生成的。生成式AI会反复尝试“欺骗”具有辨别能力的AI,自动适应成功的结果。一旦生成式人工智能持续“赢得”这场竞争,具有辨别能力的人工智能就会被人类微调,这个过程就会重新开始。
这里要记住的最重要的事情之一是,尽管在训练过程中存在人工干预,但大多数学习和适应都是自动发生的。为了使模型产生有趣的结果,需要进行许多次迭代,因此自动化是必不可少的。这个过程需要大量的计算。
生成式人工智能有感知能力吗?
用于创建和训练生成AI模型的数学和编码相当复杂,远远超出了本文的范围。但如果你与这个过程的最终结果模型互动,这种体验肯定是不可思议的。你可以让戴尔-e生产出看起来像真正的艺术品的东西。您可以与ChatGPT进行对话,就像与另一个人进行对话一样。研究人员真的创造了一台会思考的机器吗?
ChrisPhipps是IBM公司前自然语言处理主管,曾参与沃森人工智能产品的开发。他将ChatGPT描述为“非常好的预测机器”。
它非常擅长预测人类会发现什么是连贯的。它并不总是连贯的(大多数情况下是),但这并不是因为ChatGPT“理解”。事实恰恰相反:消费产出的人真的很擅长做出我们需要的任何隐含假设,以使产出有意义。
菲普斯也是一名喜剧演员,他将其与一种名为MindMeld的常见即兴游戏进行了比较。
两个人每人想到一个词,然后同时大声说出来——你可以说“boot”,我说“tree”。我们完全独立地想出了这些词,一开始,它们彼此之间没有任何关系。接下来的两个参与者拿着这两个词,试着找出他们的共同点,同时大声说出来。游戏继续进行,直到两个参与者说出同一个单词。
也许两个人都说“伐木工人”。这看起来很神奇,但实际上是我们用人类的大脑来推理输入(“boot”和“tree”),并找到其中的联系。我们做的是理解的工作,而不是机器。在ChatGPT和DALL-E中发生的事情比人们承认的要多得多。ChatGPT可以编写故事,但我们人类要做很多工作才能使其有意义。
测试计算机智能的极限
人们可以给这些人工智能模型一些提示,这将使菲普斯的观点变得相当明显。例如,想想这个谜题:“一磅铅和一磅羽毛,哪个更重?”答案当然是它们的重量相同(一磅),尽管我们的本能或常识可能会告诉我们羽毛更轻。
ChatGPT将正确地回答这个谜题,您可能会认为它这样做是因为它是一台冷酷的逻辑计算机,没有任何“常识”来绊倒它。但这并不是幕后发生的事情。ChatGPT不是逻辑推理出答案;它只是根据一个关于一磅羽毛和一磅铅的问题的预测来产生输出。因为它的训练集包含了一堆解释谜题的文本,所以它组装了一个正确答案的版本。但是,如果你问ChatGPT两磅羽毛是否比一磅铅重,它会自信地告诉你它们的重量相同,因为根据它的训练集,这仍然是最有可能输出到关于羽毛和铅的提示的结果。