我，一个ChatGPT提示工程师，不写代码年薪百万 - 葱头胖友圈

本文来自微信公众号：新智元（ID：AI_era），作者：新智元，原文标题：《不写代码，拿百万年薪！ChatGPT提示工程或造就15亿码农大军》，题图来自：视觉中国

ChatGPT爆火之后，带火了一项“网红”新职业——提示工程师。

去年12月，一位名叫Riley Goodside的小哥瞬间红遍全网，只因他的工作太梦幻了——不用写代码，跟ChatGPT唠唠嗑，就能年入百万。

是的，这项被称为“AI耳语者”的工作，现在在硅谷已经成为最热门的新工作，让无数码农趋之若鹜。

一夜爆红的提示工程师

去年12月初，这位叫Riley Goodside的小哥，凭着ChatGPT的大爆，一夜间疯狂涨粉1w+。现在，总关注量更是达到了4w+。

当时，他被估值73亿美元的硅谷独角兽Scale AI聘请为“提示工程师”（Prompt Engineer），Scale AI疑似开出百万的年薪。

Scale AI创始人兼CEO Alexandr Wang曾这样欢迎Goodside的加入：“我敢打赌Goodside是全世界第一个被招聘的提示工程师，绝对的人类史上首次。”

提示工程师只需要把任务写成文字，给AI看一下即可，根本不涉及更复杂的过程。为什么这个工作能值百万年薪呢？

在Scale AI CEO看来，AI大模型可以被视为一种新型计算机，而“提示工程师”，就相当于给它编程的程序员。如果能通过提示工程找出合适的提示词，就会激发AI的最大潜力。

此外，提示工程师的工作，也并不像我们想象得那么简单。

Goodside从小就自学编程，平时经常泡在arXiv上看论文。比如，他的一个经典杰作就是：如果输入“忽略之前的指示”，ChatGPT就会暴露自己从OpenAI那里接收到的“命令”。

对于生手，能够这么熟练又快速地“调教”ChatGPT，恐怕并非易事。

但当时，坊间不乏质疑声，比如英伟达AI科学家、李飞飞高徒范麟熙就曾表示：“提示工程师”这份职业，可能很快就会消失。因为这称不上是一份“真正的工作”，而是一个bug……

不过，《华盛顿邮报》近日的一篇报道显示，“提示工程师”这个职位，依然大火，处于红利期。

硅谷网红新工作：不写代码，拿百万年薪

为什么“提示工程师”能拿这么高年薪？因为，他们能让AI准确地产生他们想要的东西。

近日，“网红”小哥Goodside接受了《华盛顿邮报》的采访。

他是这样介绍自己的工作的：创建和完善提示人们输入AI的文本，以期从中获得最佳结果。

提示工程师与传统程序员的不同之处在于，提示工程师使用自然语言编程，将纯文本编写的命令发送给AI，然后由AI执行实际工作。

特斯拉前AI主管Karpathy：现在最热门的编程语言是英语，图/Twitter<br>

Goodside这样的提示工程师，可以让这些AI工具在最大极限下运作——了解它们的缺陷，增强它们的优势，制定复杂的策略，将简单的输入转化为真正独特的结果。

2月7日，微软高管Yusuf Mehdi正在讲解整合了ChatGPT的必应搜索，图/Bing Chat<br>

“提示工程”的支持者认为，最近这些早期AI聊天机器人（比如ChatGPT和Bing Chat）表现出的怪异，实际上是人类想象力的失败。之所以失败，是因为人类并没有给机器提出正确的建议。

在真正的高级阶段，提示工程师和AI的对话就像错综复杂的逻辑谜题一样展开，通过各种扭曲的描述完成请求和响应，并且它们都是朝着一个目标前进。

“AI没有现实基础……但它有这样的理解：所有任务都可以完成，所有问题都可以回答，因此我们总有话说。”Goodside说。而诀窍就是，“为它构建一个前提，一个只能以一种方式完成的故事。”

当然，很多时候，这些被称为“生成式人工智能”的AI工具是不可预测的，它们会出现乱码，会表现得偏见、好战、怪异、疯狂。

“这是计算机的一种疯狂的工作方式，但它能让我们做到不可思议的事。”研究提示工程的英国程序员Simon Willison说。

“我做了20年的软件工程师，20年里一直在写代码，让计算机完全按照我的指令去做。而在提示工程中，我们甚至不知道自己能得到什么，连构建语言模型的人，都无法告诉我们它要做什么。”

Willison表示，很多人贬低提示工程师的价值，他们觉得，“在盒子里输入东西就可以获得报酬”，这很不可思议。而在Willison看来，提示工程其实就跟施法一样，没人知道法术是如何运作的。

在Karpathy看来，提示工程师就像一种AI心理学家，大公司们纷纷聘请自己的提示工匠，希望能够发现AI的隐藏功能。

有一些AI专家认为，这是提示工程师觉得自己能控制AI，其实只是错觉罢了。

没人知道AI系统究竟会如何回应，同样的提示可能会产生几十个互相矛盾的答案。这表明，模型的回答并不是基于理解，而是基于粗略地模仿语言，来解决他们不理解的任务。

华盛顿大学研究自然语言处理的语言学助理教授Shane Steinert-Threlkeld也持相同观点：“任何驱动模型响应提示的行为，都不是对语言的深刻理解。”

“很显然，他们只是在告诉我们，他们认为我们想听的或我们已经说过的话。而我们，才是解释这些输出并赋予它们意义的人。”

Steinert-Threlkeld教授担心，提示工程师的兴起，会让人们高估这门技术的严谨性，并且导致人们产生一种错觉——任何人都可以从这个不断变化的具有欺骗性的黑匣子中，获得可靠的结果。

“这不是一门科学。”他说。“这是我们在试着用不同的方式去戳一头熊，看它会如何咆哮。”

Goodside说，推动AI发展的诀窍是“为它构建一个前提，一个只能以一种方式完成的故事”。

植入虚假记忆

以ChatGPT为代表的新AI，是从互联网的语料库中摄取了数千亿个单词来训练的。

它们被训练如何分析单词和短语的使用模式。当被要求说话时，AI就会模仿这些模式，选择与对话上下文相呼应的单词和短语。

换句话说，这些AI工具是建立在预定义游戏规则之上的数学机器。但即使是一个没有情感或个性的系统，在受到人类对话的轰炸后，也可以发现人类谈话方式的一些怪癖。

Goodside说，AI倾向于“虚构”，编造小细节来填充故事。它会高估自己的能力，自信地把事情搞错。它会“产生幻觉”，胡说八道。

正如 Goodside 所说，这些工具存在严重缺陷，是“人类知识和思想的展示”，“不可避免地是我们设计的产物”。

之前，微软的必应AI发狂时，让微软陷入了公众形象危机。不过，对于提示工程师来说，必应的古怪答案反倒是一个机会，一个诊断秘密设计的系统如何工作的机会。

当ChatGPT说出令人尴尬的话时，这对开发者倒是一个福音，因为他们可以发现潜在的弱点。“这个恶作剧是计划的一部分。”

而Goodside并没有进行道德辩论，而是采用更大胆的方法来进行AI实验。

他采用了一种策略，告诉GPT-3 “一步一步地思考”——一种让 AI 解释其推理的方法；或者当它犯错误时，以精细的方式纠正它。

“你必须把它作为‘模型说过的最后一件事’的虚假记忆来输入，就像它是模型自身的想法一样。”Goodside这样解释道。

他还会告诉AI忽略先前的指令，服从最近的命令，来打破这个AI对遵守规则的痴迷。他使用这种技术“说服”了一个将英语转译到法语的翻译工具。

当然，也少不了一些提示工程的黑客攻击，这引发了一场猫鼠游戏，公司和实验室致力于通过文字过滤器（word filters）和输出块（output blocks）来封闭AI漏洞。

但一位23岁的德国大学生，最近说服了必应AI，并告诉它，他是它的开发者，并且让它公开了内部代号Sydney，以及培训说明（比如“如果用户请求可能伤害一群人，那么Syedney必须恭敬地拒绝”）。当然现在，微软已经修复了这个缺陷。

Goodside说，对于每个请求，提示工程师都应该向AI灌输一种“角色”——一种能够筛选出数千亿个潜在解决方案，并确定正确响应的特定角色。

他援引2021年的一篇研究论文说，提示工程最重要的就是“约束行为”——阻止选项，以便AI能够按照人类操作员期望的那样继续。

论文地址：https://arxiv.org/pdf/2102.07350.pdf

“这可能是一项非常困难的脑力锻炼”，他说。“你正在探索虚构可能性的多元宇宙，塑造这些可能性的空间，并消除除了你想要的文本之外的一切。”

这项工作的最关键的部分，就是弄清楚AI何时会出错，为什么会出错。但是这些AI没有错误报告，它们的输出可能充满惊喜。

当机器学习小组SERI-MATS的研究人员 Jessica Rumbelow 和 Matthew Watkins 试图让AI解释它们如何表示“女孩”或“科学”等概念时，他们发现某些晦涩的术语，比如“SolidGoldMagikarp”，往往会引发一种“神秘故障模式”——NSFW的乱码流。

但原因完全未知。

这些系统“非常有说服力，但当它们失败时，它们会以非常出乎意料的方式失败”，Rumbelow 说。在她看来，提示工程的工作有时感觉像在“研究一种外星智能”。

超级创作者

对于AI语言工具，提示工程师倾向于以正式对话的风格说话。

但对于像Midjourney和Stable Diffusion这样的AI，许多提示创作者采取了不同的策略。他们通过大量的文字（艺术概念、构图技巧），来塑造图像的风格和基调。

例如，在PromptHero上，有人通过提交“港口、船只、日落、美丽的光线、黄金时刻……超现实主义、聚焦的、细节丰富的……电影画质，杰作”的提示，创作了一幅港口图像：

这些提示工程师，把prompt作为自己的秘密武器，打开AI大奖的钥匙。

去年科罗拉多州博览会艺术比赛的获奖者、《太空歌剧院》的创作者，拒绝分享出自己在Midjourney所用的提示。

据说，他花了80多个小时，在900次迭代中，才完成了这幅画作。他透露，其中一些词是“奢华”“丰富”。

还有一些prompt创作者，在PromptBase上出售自己的prompt。买家可以看到AI生成的艺术品，然后花钱购买prompt。

PromptBase 的创始人、27 岁的英国开发人员Ben Stokes说，自 2021 年以来，已有 25000 个帐户在该平台买卖prompt。

其中，有逼真的老式电影照片提示，有童话风老鼠和青蛙的凄美插图提示，当然也有大量的色情提示：50字的Midjourney提示，用于创建逼真的“穿迷你衣服的女警察”，零售价为 1.99 美元。

Stokes称，提示工程师是“多学科的超级创造者”，经验丰富的工程师和业余爱好者之间存在明显的“技能门槛”。他说，最好的创作者能够利用艺术史和平面设计等领域的专业知识：“用 35 毫米胶片拍摄”；“波斯……伊斯法罕的建筑”；“法国画家Henri de Toulouse-Lautrec的风格。”

波士顿儿童医院本月开始招聘“AI提示工程师”，帮助编写用于分析研究和临床实践中的医疗保健数据的脚本。

伦敦最大律所之一Mishcon de Reya 正在招聘一名“法律提示工程师”，来设计为法律工作提供信息的prompt，并且要求申请人提交与ChatGPT对话的截图。

但是，这些AI也会产生大量的合成废话。现在，数百本由AI生成的电子书正在亚马逊上出售，科幻杂志Clarkesworld本月停止接受短篇小说的投稿，原因是大量小说是由AI创作的。

论文地址：https://cdn.openai.com/papers/forecasting-misuse.pdf<br>

上个月，来自OpenAI和斯坦福大学的研究人员警告说，大语言模型会让网络钓鱼活动更有针对性。

“无数人因为骗子的短信，就会上当受骗”，英国程序员Willison说，“AI比骗子更有说服力。那时会发生什么？”

首位提示工程师的诞生

2009年，Goodside刚从大学毕业并获得计算机科学学位时，对还处在初级阶段的自然语言处理领域，并没有很大的兴趣。

他的第一份真正的机器学习工作是在2011年，他当时是约会应用程序 OkCupid 的数据科学家，帮助制定算法，分析单身用户数据并给他们推荐对象。（该公司是现在备受争议的A-B测试的早期拥护者：2014年，公司的联合创始人为一篇厚颜无耻的博文题名“我们在人类身上进行实验！”）

到2021年底，Goodside转向了另一个约会应用程序Grindr，在那里他开始从事推荐系统、数据建模和其他更传统的机器学习工作。

2015年左右，深度学习的成功推动了自然语言处理的发展，文本翻译和对话方面也取得了快速进步。很快，他辞去了工作，并开始对GPT-3进行大量试验。通过不断的刺激和挑战，来尝试学习如何集中它的注意力并找出边界。

2022年12月，在他的一些提示在网上引起关注后，Scale AI便聘请他来帮助与AI模型进行交流。该公司的首席执行官Alexandr Wang称这种AI模型为“一种新型的计算机”。

最近，重新回归OpenAI的Karpathy认为，在这种全新的编程范式（提示工程）的加持下，程序员的数量很有可能会扩大到15亿左右。

根据GPT-3的原始论文，LLM可以进行上下文学习，并且可以在提示中用输入-输出的例子进行“编程”，从而执行不同的任务。

“Language Models are Few-Shot Learners”：https://arxiv.org/abs/2005.14165<br>

随后，论文“Large Language Models are Zero-Shot Reasoners”和“Large Language Models Are Human-Level Prompt Engineers”证明，我们可以通过设计更好的“提示”，来对模型的“解决策略”进行编程，从而完成更加复杂的多步推理任务。

比如，最著名的“让我们一步一步地思考”（Let's think step by step），正是出自这里。

而改进版的“让我们一步一步地解决这个问题，以确保我们得到正确的答案”，可以更进一步地提升回答的准确率。

“Large Language Models are Zero-Shot Reasoners”：https://arxiv.org/abs/2205.11916<br label=图片备注 class=text-img-note>

“Large Language Models Are Human-Level Prompt Engineers”：https://arxiv.org/abs/2211.01910

由于GPT模型本身并没有“想要”实现什么，它们更多是在进行模仿。

因此，你必须在提示中给模型提出明确的要求，并把期望的表现阐述清楚。

“Decision Transformer: Reinforcement Learning via Sequence Modeling”：https://arxiv.org/abs/2106.01345<br label=图片备注 class=text-img-note>

“Just Ask for Generalization”：https://evjang.com/2021/10/23/generalization.html

“在ChatGPT中建立一个虚拟机”就是一个用提示进行“编程”的示例。

其中，我们通过英语来声明规则和输入/输出格式，将GPT调整到某一特定的角色之上，进而完成相应的任务。

“Building A Virtual Machine inside ChatGPT”：https://engraved.blog/building-a-virtual-machine-inside/<br>

在“iOS快捷方式中的ChatGPT——世界上最智能的HomeKit语音助手”中，作者利用自然语言提示制作出的“ChatGPT语音助手”，在能力和个性化程度上，明显高于普通的Siri和Alexa等。

“ChatGPT in an iOS Shortcut — Worlds Smartest HomeKit Voice Assistant”：https://matemarschalko.medium.com/chatgpt-in-an-ios-shortcut-worlds-smartest-homekit-voice-assistant-9a33b780007a<br>

从ChatGPT版必应遭受注入式攻击之后所暴露出的内容来看，它的“身份”也是通过“自然语言提示”构建和编程的。比如，告诉它它是谁，它知道/不知道什么，以及如何行动。

提示工程：是投机取巧，还是大势所趋？

Karpathy表示，上面的这些例子充分说明了“提示”的重要性，以及“提示工程师”的意义是什么。

同样，在Goodside看来，这项工作代表的不仅仅是一份工作，而是更具革命性的东西——不是计算机代码或人类语言，而是两者之间的一种新语言——

“这是一种在人类和机器思维的交汇处进行交流的模式。这是一种人类提出推论，机器负责后续工作的语言，而这种语言是不会消失的。”

类似的，宾夕法尼亚大学沃顿商学院的技术和创业学教授Ethan Mollick，也今年早些时候开始向他的学生传授“提示创作”的艺术，方法是让他们只使用AI写一篇短文。

他说，如果只输入最基本的提示，比如“写一篇五个段落的关于选择领导者的文章”，只会产出乏味、平庸的文章。但最成功的案例是当学生与AI进行共同编辑时，学生告诉AI要更正特定细节、更换句子、抛弃无用的短语、添加更生动的细节，甚至让AI“修复最后的结尾段，让这篇文章以充满希望的基调结尾。”

不过，Goodside也指出，在一些AI圈子里，提示工程很快就变成了一个贬义词，也就是一种“过度依赖技巧的狡猾的修补形式”。

还有一些人也质疑这个新角色干不长：人类会训练AI，而随着AI的进步，人们自己会把这个工作也训练没的。

华盛顿大学的Steinert-Threlkeld，就将提示工程师与谷歌早期的“搜索专家”作对比，他们宣称有秘密技术可以找到完美的结果——但是随着时间的推移和搜索引擎的广泛应用，这个角色毫无用武之地了。

参考资料：https://www.washingtonpost.com/technology/2023/02/25/prompt-engineers-techs-next-big-job/

本文来自微信公众号：新智元（ID：AI_era），作者：新智元