本文来自微信公众号:新智元 (ID:AI_era),作者:新智元,原文标题:《不写代码,拿百万年薪!ChatGPT提示工程或造就15亿码农大军》,题图来自:视觉中国


ChatGPT爆火之后,带火了一项“网红”新职业——提示工程师。


去年12月,一位名叫Riley Goodside的小哥瞬间红遍全网,只因他的工作太梦幻了——不用写代码,跟ChatGPT唠唠嗑,就能年入百万。


是的,这项被称为“AI耳语者”的工作,现在在硅谷已经成为最热门的新工作,让无数码农趋之若鹜。


一夜爆红的提示工程师


去年12月初,这位叫Riley Goodside的小哥,凭着ChatGPT的大爆,一夜间疯狂涨粉1w+。现在,总关注量更是达到了4w+。


当时,他被估值73亿美元的硅谷独角兽Scale AI聘请为“提示工程师”(Prompt Engineer),Scale AI疑似开出百万的年薪。


图/Twitter
图/Twitter


Scale AI创始人兼CEO Alexandr Wang曾这样欢迎Goodside的加入:“我敢打赌Goodside是全世界第一个被招聘的提示工程师,绝对的人类史上首次。”


提示工程师只需要把任务写成文字,给AI看一下即可,根本不涉及更复杂的过程。为什么这个工作能值百万年薪呢?


在Scale AI CEO看来,AI大模型可以被视为一种新型计算机,而“提示工程师”,就相当于给它编程的程序员。如果能通过提示工程找出合适的提示词,就会激发AI的最大潜力。


此外,提示工程师的工作,也并不像我们想象得那么简单。


Goodside从小就自学编程,平时经常泡在arXiv上看论文。比如,他的一个经典杰作就是:如果输入“忽略之前的指示”,ChatGPT就会暴露自己从OpenAI那里接收到的“命令”。


图/ChatGPT
图/ChatGPT


对于生手,能够这么熟练又快速地“调教”ChatGPT,恐怕并非易事。


但当时,坊间不乏质疑声,比如英伟达AI科学家、李飞飞高徒范麟熙就曾表示:“提示工程师”这份职业,可能很快就会消失。因为这称不上是一份“真正的工作”,而是一个bug……


不过,《华盛顿邮报》近日的一篇报道显示,“提示工程师”这个职位,依然大火,处于红利期。


硅谷网红新工作:不写代码,拿百万年薪


为什么“提示工程师”能拿这么高年薪?因为,他们能让AI准确地产生他们想要的东西。


近日,“网红”小哥Goodside接受了《华盛顿邮报》的采访。


他是这样介绍自己的工作的:创建和完善提示人们输入AI的文本,以期从中获得最佳结果。


提示工程师与传统程序员的不同之处在于,提示工程师使用自然语言编程,将纯文本编写的命令发送给AI,然后由AI执行实际工作。

特斯拉前AI主管Karpathy:现在最热门的编程语言是英语,图/Twitter<br>
特斯拉前AI主管Karpathy:现在最热门的编程语言是英语,图/Twitter


Goodside这样的提示工程师,可以让这些AI工具在最大极限下运作——了解它们的缺陷,增强它们的优势,制定复杂的策略,将简单的输入转化为真正独特的结果。


2月7日,微软高管Yusuf Mehdi正在讲解整合了ChatGPT的必应搜索,图/Bing Chat<br>
2月7日,微软高管Yusuf Mehdi正在讲解整合了ChatGPT的必应搜索,图/Bing Chat


“提示工程”的支持者认为,最近这些早期AI聊天机器(比如ChatGPT和Bing Chat)表现出的怪异,实际上是人类想象力的失败。之所以失败,是因为人类并没有给机器提出正确的建议。


在真正的高级阶段,提示工程师和AI的对话就像错综复杂的逻辑谜题一样展开,通过各种扭曲的描述完成请求和响应,并且它们都是朝着一个目标前进。


“AI没有现实基础……但它有这样的理解:所有任务都可以完成,所有问题都可以回答,因此我们总有话说。”Goodside说。而诀窍就是,“为它构建一个前提,一个只能以一种方式完成的故事。”


当然,很多时候,这些被称为“生成式人工智能”的AI工具是不可预测的,它们会出现乱码,会表现得偏见、好战、怪异、疯狂。


“这是计算机的一种疯狂的工作方式,但它能让我们做到不可思议的事。”研究提示工程的英国程序员Simon Willison说。


“我做了20年的软件工程师,20年里一直在写代码,让计算机完全按照我的指令去做。而在提示工程中,我们甚至不知道自己能得到什么,连构建语言模型的人,都无法告诉我们它要做什么。


Willison表示,很多人贬低提示工程师的价值,他们觉得,“在盒子里输入东西就可以获得报酬”,这很不可思议。而在Willison看来,提示工程其实就跟施法一样,没人知道法术是如何运作的。


图/Twitter
图/Twitter


在Karpathy看来,提示工程师就像一种AI心理学家,大公司们纷纷聘请自己的提示工匠,希望能够发现AI的隐藏功能。


有一些AI专家认为,这是提示工程师觉得自己能控制AI,其实只是错觉罢了。


没人知道AI系统究竟会如何回应,同样的提示可能会产生几十个互相矛盾的答案。这表明,模型的回答并不是基于理解,而是基于粗略地模仿语言,来解决他们不理解的任务。


华盛顿大学研究自然语言处理的语言学助理教授Shane Steinert-Threlkeld也持相同观点:“任何驱动模型响应提示的行为,都不是对语言的深刻理解。”


“很显然,他们只是在告诉我们,他们认为我们想听的或我们已经说过的话。而我们,才是解释这些输出并赋予它们意义的人。”


Steinert-Threlkeld教授担心,提示工程师的兴起,会让人们高估这门技术的严谨性,并且导致人们产生一种错觉——任何人都可以从这个不断变化的具有欺骗性的黑匣子中,获得可靠的结果。


“这不是一门科学。”他说。“这是我们在试着用不同的方式去戳一头熊,看它会如何咆哮。”


Goodside说,推动AI发展的诀窍是“为它构建一个前提,一个只能以一种方式完成的故事”。


植入虚假记忆


以ChatGPT为代表的新AI,是从互联网的语料库中摄取了数千亿个单词来训练的。


它们被训练如何分析单词和短语的使用模式。当被要求说话时,AI就会模仿这些模式,选择与对话上下文相呼应的单词和短语。


换句话说,这些AI工具是建立在预定义游戏规则之上的数学机器。但即使是一个没有情感或个性的系统,在受到人类对话的轰炸后,也可以发现人类谈话方式的一些怪癖。


Goodside说,AI倾向于“虚构”,编造小细节来填充故事。它会高估自己的能力,自信地把事情搞错。它会“产生幻觉”,胡说八道。


正如 Goodside 所说,这些工具存在严重缺陷,是“人类知识和思想的展示”,“不可避免地是我们设计的产物”。


之前,微软的必应AI发狂时,让微软陷入了公众形象危机。不过,对于提示工程师来说,必应的古怪答案反倒是一个机会,一个诊断秘密设计的系统如何工作的机会。


当ChatGPT说出令人尴尬的话时,这对开发者倒是一个福音,因为他们可以发现潜在的弱点。“这个恶作剧是计划的一部分。”


而Goodside并没有进行道德辩论,而是采用更大胆的方法来进行AI实验。


他采用了一种策略,告诉GPT-3 “一步一步地思考”——一种让 AI 解释其推理的方法;或者当它犯错误时,以精细的方式纠正它。


图/Twitter
图/Twitter


“你必须把它作为‘模型说过的最后一件事’的虚假记忆来输入,就像它是模型自身的想法一样。”Goodside这样解释道。


他还会告诉AI忽略先前的指令,服从最近的命令,来打破这个AI对遵守规则的痴迷。他使用这种技术“说服”了一个将英语转译到法语的翻译工具。


图/Twitter
图/Twitter


当然,也少不了一些提示工程的黑客攻击,这引发了一场猫鼠游戏,公司和实验室致力于通过文字过滤器(word filters)和输出块(output blocks)来封闭AI漏洞。


图/Twitter
图/Twitter


但一位23岁的德国大学生,最近说服了必应AI,并告诉它,他是它的开发者,并且让它公开了内部代号Sydney,以及培训说明(比如“如果用户请求可能伤害一群人,那么Syedney必须恭敬地拒绝”)。当然现在,微软已经修复了这个缺陷。


Goodside说,对于每个请求,提示工程师都应该向AI灌输一种“角色”——一种能够筛选出数千亿个潜在解决方案,并确定正确响应的特定角色。


他援引2021年的一篇研究论文说,提示工程最重要的就是“约束行为”——阻止选项,以便AI能够按照人类操作员期望的那样继续。



论文地址:https://arxiv.org/pdf/2102.07350.pdf


“这可能是一项非常困难的脑力锻炼”,他说。“你正在探索虚构可能性的多元宇宙,塑造这些可能性的空间,并消除除了你想要的文本之外的一切。”


这项工作的最关键的部分,就是弄清楚AI何时会出错,为什么会出错。但是这些AI没有错误报告,它们的输出可能充满惊喜。


当机器学习小组SERI-MATS的研究人员 Jessica Rumbelow 和 Matthew Watkins 试图让AI解释它们如何表示“女孩”或“科学”等概念时,他们发现某些晦涩的术语,比如“SolidGoldMagikarp”,往往会引发一种“神秘故障模式”——NSFW的乱码流。


但原因完全未知。


这些系统“非常有说服力,但当它们失败时,它们会以非常出乎意料的方式失败”,Rumbelow 说。在她看来,提示工程的工作有时感觉像在“研究一种外星智能”。


超级创作者


对于AI语言工具,提示工程师倾向于以正式对话的风格说话。


但对于像Midjourney和Stable Diffusion这样的AI,许多提示创作者采取了不同的策略。他们通过大量的文字(艺术概念、构图技巧),来塑造图像的风格和基调。


例如,在PromptHero上,有人通过提交“港口、船只、日落、美丽的光线、黄金时刻……超现实主义、聚焦的、细节丰富的……电影画质,杰作”的提示,创作了一幅港口图像:



这些提示工程师,把prompt作为自己的秘密武器,打开AI大奖的钥匙。


去年科罗拉多州博览会艺术比赛的获奖者、《太空歌剧院》的创作者,拒绝分享出自己在Midjourney所用的提示。


据说,他花了80多个小时,在900次迭代中,才完成了这幅画作。他透露,其中一些词是“奢华”“丰富”。


还有一些prompt创作者,在PromptBase上出售自己的prompt。买家可以看到AI生成的艺术品,然后花钱购买prompt。


PromptBase 的创始人、27 岁的英国开发人员Ben Stokes说,自 2021 年以来,已有 25000 个帐户在该平台买卖prompt。


其中,有逼真的老式电影照片提示,有童话风老鼠和青蛙的凄美插图提示,当然也有大量的色情提示:50字的Midjourney提示,用于创建逼真的“穿迷你衣服的女警察”,零售价为 1.99 美元。


Stokes称,提示工程师是“多学科的超级创造者”,经验丰富的工程师和业余爱好者之间存在明显的“技能门槛”。他说,最好的创作者能够利用艺术史和平面设计等领域的专业知识:“用 35 毫米胶片拍摄”;“波斯……伊斯法罕的建筑”;“法国画家Henri de Toulouse-Lautrec的风格。”


波士顿儿童医院本月开始招聘“AI提示工程师”,帮助编写用于分析研究和临床实践中的医疗保健数据的脚本。


伦敦最大律所之一Mishcon de Reya 正在招聘一名“法律提示工程师”,来设计为法律工作提供信息的prompt,并且要求申请人提交与ChatGPT对话的截图。


但是,这些AI也会产生大量的合成废话。现在,数百本由AI生成的电子书正在亚马逊上出售,科幻杂志Clarkesworld本月停止接受短篇小说的投稿,原因是大量小说是由AI创作的。


论文地址:https://cdn.openai.com/papers/forecasting-misuse.pdf<br>
论文地址:https://cdn.openai.com/papers/forecasting-misuse.pdf


上个月,来自OpenAI和斯坦福大学的研究人员警告说,大语言模型会让网络钓鱼活动更有针对性。


“无数人因为骗子的短信,就会上当受骗”,英国程序员Willison说,“AI比骗子更有说服力。那时会发生什么?”


首位提示工程师的诞生


2009年,Goodside刚从大学毕业并获得计算机科学学位时,对还处在初级阶段的自然语言处理领域,并没有很大的兴趣。


他的第一份真正的机器学习工作是在2011年,他当时是约会应用程序 OkCupid 的数据科学家,帮助制定算法,分析单身用户数据并给他们推荐对象。(该公司是现在备受争议的A-B测试的早期拥护者:2014年,公司的联合创始人为一篇厚颜无耻的博文题名“我们在人类身上进行实验!”)


到2021年底,Goodside转向了另一个约会应用程序Grindr,在那里他开始从事推荐系统、数据建模和其他更传统的机器学习工作。


2015年左右,深度学习的成功推动了自然语言处理的发展,文本翻译和对话方面也取得了快速进步。很快,他辞去了工作,并开始对GPT-3进行大量试验。通过不断的刺激和挑战,来尝试学习如何集中它的注意力并找出边界。


2022年12月,在他的一些提示在网上引起关注后,Scale AI便聘请他来帮助与AI模型进行交流。该公司的首席执行官Alexandr Wang称这种AI模型为“一种新型的计算机”。


最近,重新回归OpenAI的Karpathy认为,在这种全新的编程范式(提示工程)的加持下,程序员的数量很有可能会扩大到15亿左右。



根据GPT-3的原始论文,LLM可以进行上下文学习,并且可以在提示中用输入-输出的例子进行“编程”,从而执行不同的任务。


“Language Models are Few-Shot Learners”:https://arxiv.org/abs/2005.14165<br>
“Language Models are Few-Shot Learners”:https://arxiv.org/abs/2005.14165


随后,论文“Large Language Models are Zero-Shot Reasoners”和“Large Language Models Are Human-Level Prompt Engineers”证明,我们可以通过设计更好的“提示”,来对模型的“解决策略”进行编程,从而完成更加复杂的多步推理任务。


比如,最著名的“让我们一步一步地思考”(Let's think step by step),正是出自这里。


而改进版的“让我们一步一步地解决这个问题,以确保我们得到正确的答案”,可以更进一步地提升回答的准确率。


“Large Language Models are Zero-Shot Reasoners”:https://arxiv.org/abs/2205.11916<br label=图片备注 class=text-img-note>
“Large Language Models are Zero-Shot Reasoners”:https://arxiv.org/abs/2205.11916

“Large Language Models Are Human-Level Prompt Engineers”:https://arxiv.org/abs/2211.01910


由于GPT模型本身并没有“想要”实现什么,它们更多是在进行模仿。


因此,你必须在提示中给模型提出明确的要求,并把期望的表现阐述清楚。


“Decision Transformer: Reinforcement Learning via Sequence Modeling”:https://arxiv.org/abs/2106.01345<br label=图片备注 class=text-img-note>
“Decision Transformer: Reinforcement Learning via Sequence Modeling”:https://arxiv.org/abs/2106.01345

“Just Ask for Generalization”:https://evjang.com/2021/10/23/generalization.html


“在ChatGPT中建立一个虚拟机”就是一个用提示进行“编程”的示例。


其中,我们通过英语来声明规则和输入/输出格式,将GPT调整到某一特定的角色之上,进而完成相应的任务。


“Building A Virtual Machine inside ChatGPT”:https://engraved.blog/building-a-virtual-machine-inside/<br>
“Building A Virtual Machine inside ChatGPT”:https://engraved.blog/building-a-virtual-machine-inside/


在“iOS快捷方式中的ChatGPT——世界上最智能的HomeKit语音助手”中,作者利用自然语言提示制作出的“ChatGPT语音助手”,在能力和个性化程度上,明显高于普通的Siri和Alexa等。


“ChatGPT in an iOS Shortcut — Worlds Smartest HomeKit Voice Assistant”:https://matemarschalko.medium.com/chatgpt-in-an-ios-shortcut-worlds-smartest-homekit-voice-assistant-9a33b780007a<br>
“ChatGPT in an iOS Shortcut — Worlds Smartest HomeKit Voice Assistant”:https://matemarschalko.medium.com/chatgpt-in-an-ios-shortcut-worlds-smartest-homekit-voice-assistant-9a33b780007a


从ChatGPT版必应遭受注入式攻击之后所暴露出的内容来看,它的“身份”也是通过“自然语言提示”构建和编程的。比如,告诉它它是谁,它知道/不知道什么,以及如何行动。


提示工程:是投机取巧,还是大势所趋?


Karpathy表示,上面的这些例子充分说明了“提示”的重要性,以及“提示工程师”的意义是什么。


同样,在Goodside看来,这项工作代表的不仅仅是一份工作,而是更具革命性的东西——不是计算机代码或人类语言,而是两者之间的一种新语言——


这是一种在人类和机器思维的交汇处进行交流的模式。这是一种人类提出推论,机器负责后续工作的语言,而这种语言是不会消失的。”


类似的,宾夕法尼亚大学沃顿商学院的技术和创业学教授Ethan Mollick,也今年早些时候开始向他的学生传授“提示创作”的艺术,方法是让他们只使用AI写一篇短文。


他说,如果只输入最基本的提示,比如“写一篇五个段落的关于选择领导者的文章”,只会产出乏味、平庸的文章。但最成功的案例是当学生与AI进行共同编辑时,学生告诉AI要更正特定细节、更换句子、抛弃无用的短语、添加更生动的细节,甚至让AI“修复最后的结尾段,让这篇文章以充满希望的基调结尾。”


不过,Goodside也指出,在一些AI圈子里,提示工程很快就变成了一个贬义词,也就是一种“过度依赖技巧的狡猾的修补形式”。


还有一些人也质疑这个新角色干不长:人类会训练AI,而随着AI的进步,人们自己会把这个工作也训练没的。


华盛顿大学的Steinert-Threlkeld,就将提示工程师与谷歌早期的“搜索专家”作对比,他们宣称有秘密技术可以找到完美的结果——但是随着时间的推移和搜索引擎的广泛应用,这个角色毫无用武之地了。


参考资料:https://www.washingtonpost.com/technology/2023/02/25/prompt-engineers-techs-next-big-job/


本文来自微信公众号:新智元 (ID:AI_era),作者:新智元