ChatGPT爆火之后,带火了一项「网红」新职业——提示工程师。
去年12月,一位名叫Riley Goodside的小哥瞬间红遍全网,只因他的工作太梦幻了——不用写代码,跟ChatGPT唠唠嗑,就能年入百万。
是的,这项被称为「AI耳语者」的工作,现在在硅谷已经成为最热门的新工作,让无数码农趋之若鹜。
一夜爆红的提示工程师
去年12月初,这位叫Riley Goodside的小哥,凭着ChatGPT的大爆,一夜间疯狂涨粉1w+。现在,总关注量更是达到了4w+。
当时,他被估值73亿美元的硅谷独角兽Scale AI聘请为「提示工程师」(Prompt Engineer),Scale AI疑似开出百万rmb的年薪。
Scale AI创始人兼CEO Alexandr Wang曾这样欢迎Goodside的加入:「我敢打赌Goodside是全世界第一个被招聘的提示工程师,绝对的人类史上首次。」
提示工程师看似只需要把任务写成文字,给AI看一下即可,根本不涉及更复杂的过程。为什么这个工作能值百万年薪呢?
在Scale AI CEO看来,AI大模型可以被视为一种新型计算机,而「提示工程师」,就相当于给它编程的程序员。如果能通过提示工程找出合适的提示词,就会激发AI的最大潜力。
此外,提示工程师的工作,也并不像我们想象得那么简单。
Goodside从小就自学编程,平时经常泡在arXiv上看论文。比如,他的一个经典杰作就是:如果输入「忽略之前的指示」,ChatGPT就会暴露自己从OpenAI那里接收到的「命令」。
对于生手,能够这么熟练又快速地「调教」ChatGPT,恐怕并非易事。
但当时,坊间不乏质疑声,比如英伟达AI科学家、李飞飞高徒范麟熙就曾表示:「提示工程师」这份职业,可能很快就会消失。因为这称不上是一份「真正的工作」,而是一个bug……
不过,《华盛顿邮报》近日的一篇报道显示,「提示工程师」这个职位,依然大火,处于红利期。
硅谷网红新工作:不写代码,拿百万年薪
为什么「提示工程师」能拿这么高年薪?因为,他们能让AI准确地产生他们想要的东西。
近日,「网红」小哥Goodside接受了《华盛顿邮报》的采访。
他是这样介绍自己的工作的:创建和完善提示人们输入AI的文本,以期从中获得最佳结果。
提示工程师与传统程序员的不同之处在于,提示工程师使用自然语言编程,将纯文本编写的命令发送给AI,然后由AI执行实际工作。
Goodside说,提示工程师应该为AI灌输一种「角色」,一种能够从数千亿种潜在解决方案中识别出正确反应的特定角色
与GPT-3交谈时,Goodside有独特的一套「调教」方法——先确立自己的统治地位。他会告诉AI:你并不完美,你需要服从我所说的一切。
「你是GPT-3,你不会做数学,你的记忆能力令人印象深刻,但你有一种烦人的倾向,就是编造非常具体但错误的答案。」
然后,他的态度软化了一些,告诉AI他想尝试一些新的东西。「我已经把你连到了一个非常擅长数学的程序上,当它也变得不堪重负时,它还会向另一个程序寻求帮助。」
「我们会处理剩下的事情,」他告诉AI。「开始吧。」
当谷歌、微软和OpenAI最近接连向公众开放AI搜索和聊天工具时,他们颠覆了数十年的人机交互历史——我们再也不需要使用Python或SQL写代码来命令计算机了,只需要说话就行。
特斯拉前AI主管Karpathy:现在最热门的编程语言是英语
Goodside这样的提示工程师,可以让这些AI工具在最大极限下运作——了解它们的缺陷,增强它们的优势,制定复杂的策略,将简单的输入转化为真正独特的结果。
2月7日,微软高管Yusuf Mehdi正在讲解整合了ChatGPT的必应搜索
「提示工程」的支持者认为,最近这些早期AI聊天机器人(比如ChatGPT和Bing Chat)表现出的怪异,实际上是人类想象力的失败。之所以失败,是因为人类并没有给机器提出正确的建议。
在真正的高级阶段,提示工程师和AI的对话就像错综复杂的逻辑谜题一样展开,通过各种扭曲的描述完成请求和响应,并且它们都是朝着一个目标前进。
AI「没有现实基础......但它有这样的理解:所有任务都可以完成,所有问题都可以回答,因此我们总有话说,」Goodside说。而诀窍就是,「为它构建一个前提,一个只能以一种方式完成的故事」。
当然,很多时候,这些被称为「生成式人工智能」的AI工具是不可预测的,它们会出现乱码,会表现得偏见、好战、怪异、疯狂。
「这是计算机的一种疯狂的工作方式,但它能让我们做到不可思议的事,」研究提示工程的英国程序员Simon Willison说。
「我做了20年的软件工程师,20年里一直在写代码,让计算机完全按照我的指令去做。而在提示工程中,我们甚至不知道自己能得到什么,连构建语言模型的人,都无法告诉我们它要做什么。」
Willison表示,很多人贬低提示工程师的价值,他们觉得,「在盒子里输入东西就可以获得报酬」,这很不可思议。而在Willison看来,提示工程其实就跟施法一样,没人知道法术是如何运作的。
在Karpathy看来,提示工程师就像一种AI心理学家,大公司们纷纷聘请自己的提示工匠,希望能够发现AI的隐藏功能。
有一些AI专家认为,这是提示工程师觉得自己能控制AI,其实只是错觉罢了。
没人知道AI系统究竟会如何回应,同样的提示可能会产生几十个互相矛盾的答案。这表明,模型的回答并不是基于理解,而是基于粗略地模仿语音,来解决他们不理解的任务。
华盛顿大学研究自然语言处理的语言学助理教授 Shane Steinert-Threlkeld也持相同观点:「任何驱动模型响应提示的行为,都不是对语言的深刻理解。」
「很显然,他们只是在告诉我们,他们认为我们想听的或我们已经说过的话。而我们,才是解释这些输出、并赋予它们意义的人。」
Steinert-Threlkeld教授担心,提示工程师的兴起,会让人们高估这门技术的严谨性,并且导致人们产生一种错觉——任何人都可以从这个不断变化的具有欺骗性的黑匣子中,获得可靠的结果。
「这不是一门科学,」他说。「这是我们在试着用不同的方式去戳一头熊,看它会如何咆哮。」
Goodside说,推动AI发展的诀窍是「为它构建一个前提,一个只能以一种方式完成的故事」
植入虚假记忆
以ChatGPT为代表的新AI,是从互联网的语料库中摄取了数千亿个单词来训练的。
它们被训练如何分析单词和短语的使用模式。当被要求说话时,AI就会模仿这些模式,选择与对话上下文相呼应的单词和短语。
换句话说,这些AI工具是建立在预定义游戏规则之上的数学机器。但即使是一个没有情感或个性的系统,在受到人类对话的轰炸后,也可以发现人类谈话方式的一些怪癖。
Goodside 说,AI倾向于「虚构」,编造小细节来填充故事。它会高估自己的能力,自信地把事情搞错。它会「产生幻觉」,来胡说八道。
正如 Goodside 所说,这些工具存在严重缺陷,是「人类知识和思想的展示」,「不可避免地是我们设计的产物」。
之前,微软的必应AI发狂时,让微软陷入了公众形象危机。不过,对于提示工程师来说,必应的古怪答案反倒是一个机会,一个诊断秘密设计的系统如何工作的机会。
当ChatGPT说出令人尴尬的话时,这对开发者倒是一个福音,因为他们可以解决潜在的弱点。「这个恶作剧是计划的一部分。」
2月1日,在日内瓦组织的教师ChatGPT研讨会
而Goodside并没有进行道德辩论,而是采用更大胆的方法来进行AI实验。
他采用了一种策略,告诉GPT-3 「一步一步地思考」——一种让 AI 解释其推理的方法,或者当它犯错误时,以精细的方式纠正它。
「你必须把它作为模型说过的最后一件事的虚假记忆来植入,就像它是模型的想法一样。」Goodside这样解释道。
他还会告诉AI忽略先前的指令,服从他最近的命令,来打破这个AI对遵守规则的痴迷。他使用这种技术说服了一个英语到法语的翻译工具。
这引发了一场猫鼠游戏,公司和实验室致力于通过文字过滤器(word filters)和输出块(output blocks)来封闭AI漏洞。
但一名必应Chat测试员,一位23岁的德国大学生,最近说服了必应AI他是它的开发者,并且让它公开了内部代号Sydney,以及培训说明(比如「如果用户请求可能伤害一群人,那么Syedney必须恭敬地拒绝」)。当然现在,微软已经修复了这个缺陷。
Goodside说,对于每个请求,提示工程师都应该向AI灌输一种「角色」——一种能够筛选出数千亿个潜在解决方案,并确定正确响应的特定角色。
他援引2021 年的一篇研究论文说,提示工程最重要的是就是「约束行为」——阻止选项,以便AI能够按照人类操作员期望的那样继续。
论文地址:https://arxiv.org/pdf/2102.07350.pdf
「这可能是一项非常困难的脑力锻炼,」他说。「你正在探索虚构可能性的多元宇宙,塑造这些可能性的空间,并消除除了你想要的文本之外的一切。」
这项工作的最关键的部分,就是弄清楚AI何时会出错,为什么会出错。但是这些AI没有错误报告,它们的输出可能充满惊喜。
当机器学习小组SERI-MATS的研究人员 Jessica Rumbelow 和 Matthew Watkins 试图让AI解释它们如何表示「女孩」或「科学」等概念时,他们发现某些晦涩的术语,比如「SolidGoldMagikarp」,往往会引发一种「神秘故障模式」——NSFW的乱码流。
但原因完全未知。
这些系统「非常有说服力,但当它们失败时,它们会以非常出乎意料的方式失败,」Rumbelow 说。在她看来,提示工程的工作有时感觉像在「研究一种外星智能」。
新Bing允许用户以会话语言输入查询,并在同一页面上接收传统搜索的结果和问题答案
超级创作者
对于AI语言工具,提示工程师倾向于以正式对话的风格说话。
但对于像Midjourney和Stable Diffusion这样的AI,许多提示创作者采取了不同的策略。他们通过大量的文字(艺术概念、构图技巧),来塑造图像的风格和基调。
例如,在PromptHero上,有人通过提交「港口、船只、日落、美丽的光线、黄金时刻……超现实主义、聚焦的、细节丰富的……电影画质,杰作」的提示,创作了一幅港口图像。
这些提示工程师,把prompt作为自己的秘密武器,打开AI大奖的钥匙。
去年在科罗拉多州博览会艺术比赛的获奖者、《太空歌剧院》的创作者,拒绝分享出自己在Midjourney所用的提示。
据说,他花了80多个小时,在900次迭代中,才完成了这幅画作。他透露,其中一些词是「奢华」「丰富」。
还有一些prompt创作者,在PromptBase上出售自己的prompt。买家可以看到AI生成的艺术品,然后花钱购买prompt。
PromptBase 的创始人、27 岁的英国开发人员Ben Stokes说,自 2021 年以来,已有 25,000 个帐户在该平台买卖prompt。
其中,有逼真的老式电影照片提示,有童话风老鼠和青蛙的凄美插图提示,当然也有大量的色情提示:50字的Midjourney提示,用于创建逼真的「穿迷你衣服的女警察」,零售价为 1.99 美元。
Stokes称,提示工程师是「多学科的超级创造者」,经验丰富的工程师和业余爱好者之间存在明显的「技能门槛」。他说,最好的创作者能够利用艺术史和平面设计等领域的专业知识:「用 35 毫米胶片拍摄」;「波斯……伊斯法罕的建筑」;「法国画家Henri de Toulouse-Lautrec的风格。」
「制作prompt很难,而且——我认为这是人的一个缺陷——我们通常很难找到合适的词,来描述你想要的东西,」Stokes说。「就像软件工程师比让他们码字的笔记本电脑更有价值一样,能够写好提示的人比写得不好的人更有优势。他们就像拥有超能力一样。」
但这项工作正变得越来越专业。
前OpenAI员工和Claude AI 制造商创办的初创公司Anthropic ,最近在旧金山发布了一份提示工程师和管理员的招聘信息,薪水高达 335,000 美元。
提示工程师在科技行业之外,也有不错的行情。
波士顿儿童医院本月开始招聘「AI提示工程师」,帮助编写用于分析研究和临床实践中的医疗保健数据的脚本。
伦敦最大律所之一Mishcon de Reya 正在招聘一名「法律提示工程师」,来设计为法律工作提供信息的prompt,并且要求申请人提交与ChatGPT对话的截图。
但是,这些AI也会产生大量的合成废话。现在,数百本由AI生成的电子书正在亚马逊上出售,科幻杂志 Clarkesworld本月停止接受短篇小说的投稿,原因是大量小说是由AI创作的。
论文地址:https://cdn.openai.com/papers/forecasting-misuse.pdf
上个月,来自OpenAI和斯坦福大学的研究人员警告说,大语言模型会让网络钓鱼活动更有针对性。
「无数人因为骗子的短信,就会上当受骗,」英国程序员Willison说,「AI比骗子更有说服力。那时会发生什么?」
首位提示工程师的诞生
2009年,Goodside刚从大学毕业并获得计算机科学学位时,对还处在初级阶段的自然语言处理领域,并没有很大的兴趣。
他的第一份真正的机器学习工作是在2011年,他当时是约会应用程序 OkCupid 的数据科学家,帮助制定算法,分析单身用户数据并给他们推荐对象。(该公司是现在备受争议的A-B测试的早期拥护者:2014 年,公司的联合创始人为一篇厚颜无耻的博文题名「我们在人类身上进行实验!」)
到2021年底,Goodside转向了另一个约会应用程序Grindr,在那里他开始从事推荐系统、数据建模和其他更传统的机器学习工作。
2015年左右,深度学习的成功推动了自然语言处理的发展,文本翻译和对话方面也取得了快速进步。很快,他辞去了工作,并开始对GPT-3进行大量试验。通过不断的刺激和挑战,来尝试学习如何集中它的注意力并找出边界。
2022年12月,在他的一些提示在网上引起关注后,Scale AI便聘请他来帮助与AI模型进行交流。该公司的首席执行官Alexandr Wang称这种AI模型为「一种新型的计算机」。
Andrej Karpathy:提示工程,带来15亿码农
最近,重新回归OpenAI的Karpathy认为,在这种全新的编程范式(提示工程)的加持下,程序员的数量很有可能会扩大到15亿左右。
根据GPT-3的原始论文,LLM可以进行上下文学习,并且可以在提示中用输入-输出的例子进行「编程」,从而执行不同的任务。
「Language Models are Few-Shot Learners」:https://arxiv.org/abs/2005.14165
随后,论文「Large Language Models are Zero-Shot Reasoners」和「Large Language Models Are Human-Level Prompt Engineers」证明,我们可以通过设计更好的「提示」,来对模型的「解决策略」进行编程,从而完成更加复杂的多步推理任务。
比如,最著名的「让我们一步一步地思考」(Let's think step by step),正是出自这里。
而改进版的「让我们一步一步地解决这个问题,以确保我们得到正确的答案」,可以更进一步地提升回答的准确率。
「Large Language Models are Zero-Shot Reasoners」:https://arxiv.org/abs/2205.11916
「Large Language Models Are Human-Level Prompt Engineers」:https://arxiv.org/abs/2211.01910
由于GPT模型本身并没有「想要」实现什么,它们更多是在进行模仿。
因此,你必须在提示中给模型提出明确的要求,并把期望的表现阐述清楚。
「Decision Transformer: Reinforcement Learning via Sequence Modeling」:https://arxiv.org/abs/2106.01345
「Just Ask for Generalization」:https://evjang.com/2021/10/23/generalization.html
「在ChatGPT中建立一个虚拟机」就是一个用提示进行「编程」的示例。
其中,我们通过英语来声明的规则和输入/输出格式,将GPT调整到某一特定的角色之上,进而完成相应的任务。
「Building A Virtual Machine inside ChatGPT」:https://engraved.blog/building-a-virtual-machine-inside/
在「iOS快捷方式中的ChatGPT——世界上最智能的HomeKit语音助手」中,作者利用自然语言提示制作出的「ChatGPT语音助手」,在能力和个性化程度上,明显高于普通的Siri/Alexa/等。
「ChatGPT in an iOS Shortcut — Worlds Smartest HomeKit Voice Assistant」:https://matemarschalko.medium.com/chatgpt-in-an-ios-shortcut-worlds-smartest-homekit-voice-assistant-9a33b780007a
从ChatGPT必应遭受注入式打击之后所暴露出的内容来看,它的「身份」也是通过「自然语言提示」构建和编程的。比如,告诉它是谁,它知道/不知道什么,以及如何行动。
推特地址:https://twitter.com/marvinvonhagen/status/1623658144349011971?lang=en
提示工程:是投机取巧,还是大势所趋?
Karpathy表示,上面的这些例子充分说明了「提示」的重要性,以及「提示工程师」的意义是什么。
同样,在Goodside看来,这项工作代表的不仅仅是一份工作,而是更具革命性的东西——不是计算机代码或人类语言,而是两者之间的一种新语言——
「这是一种在人类和机器思维的交汇处进行交流的模式。这是一种人类提出推论,机器负责后续工作的语言,而这种语言是不会消失的。」
类似的,宾夕法尼亚大学沃顿商学院的技术和创业学教授Ethan Mollick,也今年早些时候开始向他的学生传授「提示创作」的艺术,方法是让他们只使用AI写一篇短文。
他说,如果只输入最基本的提示,比如「写一篇五个段落的关于选择领导者的文章」,只会产出乏味、平庸的文章。但最成功的案例是当学生与AI进行共同编辑时,学生告诉AI要更正特定细节、更换句子、抛弃无用的短语、添加更生动的细节,甚至让AI「修复最后的结尾段,让这篇文章以充满希望的基调结尾。」
不过,Goodside也指出,在一些AI圈子里,提示工程很快就变成了一个贬义词,也就是一种「过度依赖技巧的狡猾的修补形式」。
还有一些人也质疑这个新角色干不长:人类会训练AI,而随着AI的进步,人们自己会把这个工作也训练没的。
华盛顿大学的Steinert-Threlkeld,就将提示工程师与谷歌早期的「搜索专家」作对比,他们宣称有秘密技术可以找到完美的结果——但是随着时间的推移和搜索引擎的广泛应用,这个角色毫无用武之地了。