据说,很多人小时候都幻想过这样的场景:


全中国14亿人,每人给我一块钱,我就能成为亿万富翁。


长大之后,我们读书工作、成家立业,生活按部就班,大富翁的梦想画上句号,人生更像是游戏世界的NPC,主打一个“不努力、不造反、热情开朗、一问三不知”。


当碳基生物组成了世界这个巨大的草台班子,硅基生物却开始——独立思考了!


是的,在ChatGPT狂飙一年之后,AI已经可以主动学习、思考、判断,并自主完成任务了。


这种像贾维斯一样的AI智能体,也叫AI Agent。


一年前,ChatGPT横空出世,有一大批人工智能专家出来呼吁,收手吧,阿祖,再这么开发下去,AI就强大到人类无法控制了。


而AI Agent,就是那个令人类“颤抖”的AI智能体。


一、什么是AI Agent?


2023年上半年,斯坦福大学人工智能实验室(SAIL)和谷歌联合发表了一篇论文《Generative Agents: Interactive Simulacra of Human Behavior》。


在文章中,研究人员创造了一个虚拟小镇“Smallville”,里面有商场、公园、酒吧、学校、咖啡馆等建筑,还有25位完全由 AI 控制的居民。



每位AI居民都有自己独特的身份和个性,它们在小镇里生活、工作,可以一起聊天、谈八卦,也可以办Party、交朋友,甚至还拥有记忆,会根据自己见过的人、说过的话,做出判断和决策。


具体来说,它们看到早餐起火,会走过去关掉炉子;如果看到卫生间有人,知道在外面等待;街头看到一个人,还会停下来聊两句……



而这一切行为,不是系统设置的,而是AI居民根据具体问题做出的具体反应。


虽然这个研究目前没有开源,咱们并不清楚AI居民是如何做出具体响应的,但试想一下,你在路上碰到一个认识的人,大概会出现四种情况:


A:不喜欢,假装没看到

B:不熟,点头打招呼

C:有点熟,聊两句天气如何,今天吃什么

D:熟悉,聊聊各自生活,甚至还会一起约饭


而AI居民的反应,就像人类思考一样,结合了两个个体之间的“交往历史”,做出了相应的决策。


这里的AI居民,具有语言、决策、记忆的综合功能,能够通过独立的思考完成接受的任务,也就是最近风光无限的AI Agent。


通俗来说,AI Agent就是AI助理。


在大模型时代,AI只能和你聊天,谈心,帮你查资料、写文章、写代码、搞创作,而且要想让AI输出你想要的结果,关键在于“提示词”,即你得学会引导AI,才能让它给出理想答案。


如果提示词给得不好,AI就会答非所问,宛如一个智障。


而在AI Agent时代,你只要说出结果,它会帮你理清过程,并下达指令。


打个比方,你正在打游戏,突然感觉饿了。这个时候,AI可能会告诉你喝点水缓解饥饿,或者建议你尽快吃饭,以免头晕、乏力;但AI Agent则可能会调取你的外卖App,分析你爱吃的菜系,还能调用支付app,直接帮你点个外卖到家。


在这个过程中,AI Agent经历了“感知(Perception)——规划(Planning)——行动(Action)”三个步骤。



感知,就是收集信息并提取相关信息。


当AI Agent接收到你说“饿了”,它会首先从一堆“饱汉不知饿汉饥”“Stay hungry,Stay foolish”等与饿了相关的信息中,提取出饿了应该怎么办的关键信息。


其次是规划,也就是综合各种情况,寻找可能的解决办法。


饿了,可以出去吃,可以叫外卖,可以自己做饭,也可以喊朋友来家里吃。此时,AI Agent 首先会检索记忆流,即它会根据你在这个时间点通常在干什么,你和最近的联系人聊了些什么,是否聊到了美食,又或者你的日程表上这个点有没有其他安排等等,来综合判断你是要出去和朋友吃,还是要在家做饭,又或者点个外卖凑活一顿。


而且在规划过程中,AI Agent还需要考虑到“近期性”和“重要性”,比如你最近消费减少,可能是月底工资不够花了,又或者你第二天要给女朋友送礼物,这个时候需要勒紧裤腰带,一切从简。


最后,再根据规划做出行动——在综合了你的个人习惯、消费情况、聊天记录、日程安排等等情况后,AI Agent决定,你应该点个外卖。


于是,它打开外卖App,帮你叫了一份你最爱的炸鸡和可乐,并帮你完成了付款。


也就是说,当你在游戏世界岁月静好的时候,是AI Agent在替你负重前行。


二、AI Agent这么强大,人类可以洗洗睡了?


电影《钢铁侠》里,每次史塔克要去冒险,贾维斯都会问一句,要不要给他的妻子打个电话。


这种超越工具性的时刻,是AI agent的终极形态。


但“很多市面上的Agent产品,其实并不Agent。”一位AI行业连续创业者这样评价道。


目前,市面上的Agent,包括OpenAI推出的GPTs,其实只是构建了一个基于特定知识库或专业数据的Chatbot,这些智能体主要用于进行问答交互,如获取行业资讯、报告等。


其主要进化路径,有两个方向:


一种是自动化。即给Agent一个目标之后,它可以自己通过目标来模拟一个思考路径,然后创建任务、完成任务,并且根据用户的目标不断重复地完成任务。


以GitHub上大受好评的Auto GPT为例,你让Auto GPT写一份某地区TOP 5鞋厂的研究报告,这是终极目标。



为完成这个任务,Auto GPT会先去网页搜索该地区五大鞋厂分别是哪些,然后再去看他们的营收数据、市场份额、产品情况等,依据搜索信息,最后以分析形式形成一份报告。


在整个过程中,Auto GPT自主将任务拆解为检索信息、提出问题和回答问题等阶段,最终完成了任务。




目前,市面上的自动化AI助理,主要集中在办公场景。


比如会议纪要,一个人做起来可能要耗费好几天的时间,但交给AI agent,它可以在全部的录音素材中,提取会议内容的重点,总结成bullet point,然后自动生成待办事项添加在To-do List中;


再比如,AI Agent可以帮助销售人员收集客户信息,分析客户喜好,拟定销售机会、自动跟进销售进度,等等。


另外一种路径,则是拟人化。


不同于自主智能体的发展路径,拟人化(智能模拟体)的发展路径更多遵循开发者设定的内部目标,强调的是拟人化的情感与交互。


现在,这种拟人化的AI agent大多出现在游戏中。像前文提到的虚拟小镇里的AI居民,以及由英伟达首席科学家Jim Fan等人发布的Voyager,都是由大模型驱动并且可以终身自主学习的智能体。


好消息是,大模型的学习能力,有时会出现智能涌现。


比如把Voyager接入游戏《我的世界》后,Voyager不是一个推动剧情的NPC,而是一个能够主动创造内容的“玩家”——通过不断自我进化,Voyager在游戏中获得的独特物品增加了 3.3 倍,行进距离增加了 2.3 倍,解锁关键科技树里程碑的速度比之前的方法快了 15.3 倍。



坏消息是,这种智能体充分进化而导致的“不确定性”,会让很多玩家在尝试过后,丧失进一步玩下去的热情——我玩游戏,不就是想获得掌控感吗?角色稍微不听话可以,完全不听话,还玩个啥啊。


当然,自动化和拟人化并不是Agent发展过程中全无交集的两条河流。


相反,自动化和拟人化是现在Agent发展的两大核心能力,围绕着这两个能力,AI Agent会在不断进化、不断成熟的过程中,探索出更多的使用场景。


三、人类距离终极智能体还有多远?


AI Agent,相当于一个硅基生物拥有一个碳基大脑。


尽管听起来遥不可及,但毋庸置疑的是,这将是AI产业的下一个风口。


比尔·盖茨在一篇文章中表示,AI Agent将颠覆个人与计算机交互的方式,并将在五年内彻底改变我们的生活。


英伟达高级研究员Jim Fan也预言,Agent将“推动整个文明的进化”。


那么,人类距离终极AI Agent,还有多少困难需要克服?


第一个问题,是开发成本高昂。


拿斯坦福大学的虚拟小镇“Smallville”来说,其中每个Agent的成本高达20美元/时,比大多数人的时薪都要高。 


第二个问题,是产品的标准化。


“和GPT从免费到收费的过程一样,Agent商业化的普及也要经历产品标准化的过程。”科技行业投资人申林宇(化名)这样评价道。


比如你用AI Agent办公,考量指标应该是,它到底有没有提高生产效率。“各式各样的大语言模型类产品出现后,免费试用的阶段大家会有新鲜感,会去玩、会去尝试,但是如果你说这个东西开始收费,大家的态度立刻会从猎奇转换成审视。没有人会为科技类的猎奇产品持续买单,科技类的产品必须切实地提高生产力才能持续商业化。”


如果Agent没有成熟的产品标准,那么商业化落地便遥遥无期。


第三个问题,是权责和道德的问题。


比如医疗类Agent,它可能比大部分人类医生的知识储备都要多,但医院如果把治疗方案交给AI,需要跨越的并不只是技术的门槛,还有道德的高墙——一个生活拮据的老人心脏不舒服,但不影响生活,医生往往会根据情况建议保守治疗,但AI可能会建议做个手术。


在自动驾驶领域,AI Agent也存在决策权归属问题。


一位投资人曾描述过这样一个画面,“你的自动驾驶车辆行驶在高速路上,忽然前方的宾利急刹车,紧急车道上停着一辆破旧的二手车,车上正有一个抱着婴儿的母亲在打电话,这个时候到底该撞向谁?我们要把这个问题交给AI来决定吗?”


因此,该投资人认为,自动驾驶在5~10年内不会有重大的商业化突破。


即便跳过这个“电车悖论”,自动驾驶过程中出现交通事故之后的权责判断,也是摆在汽车厂商面前的现实问题。


人机配合过程中,很多时候很难判断到底是车的问题,还是人的问题,亦或者是人和车在争夺决策权的过程中出的问题,所以很多厂家现在已经跳过了需要人机配合的L3阶段,直奔自动驾驶的L4阶段去了。


把什么样的问题交给AI去决定?这是AI Agent产品商业化无法回避的问题,而无论创造产品的人还是制造规则的人,都没有过去的经验可以参考,那么,政策的推进就需要摸索和时间。


还有最后一个问题,是使用门槛太高。


很多人觉得ChatGPT不好用,是因为提示词给得不够好,而Agent产品的使用门槛相对会更高,消费者对其期待也更大。


一位智能驾驶研发员告诉我,很多司机不是不想调动自动驾驶,而是很多自动驾驶的交互做得不够好,不够让司机省心。比如路径如何规划,前方有什么路况,准备怎么解决等,这些信息如果没有及时传达,司机就没有足够的安全感去信任和调用AI产品。


因此,Agent产品如何做好交互,从而提高产品渗透率和使用率,最终触达到用户,是Agent发展最后一步也是最重要的一步。 


总之,在通往终极智能体的路上,人类还需要越过很多个山丘。


四、尾声


2023年12月,Open AI董事长萨姆·奥特曼在X(原推特)上发表了自己的“年终总结”。


他写道:“这真是疯狂的一年……很高兴2023年是世界开始认真对待AI的一年。”



过去一年,从科技公司到硬件厂商,从传统制造业到新兴产业,从投资人到开发者,几乎全员都在聊AI、做AI。


AI教育、AI医疗、AI律师、AI自动驾驶,甚至AI性机器人……各种AI应用此起彼伏,但放到普通人身上,AI似乎又很遥远——它既不能替我们完成日常工作,也不能帮我们接送孩子、照顾老人。


换句话说,绝大多数人工智能应用,现在还不够智能、好用。


Windows的图形交互,简化了人与计算机的“互动”方式,推动了PC互联网的发展。


iPhone的电容屏幕和多点触控技术,改变了人与手机的“互动”方式,拉开了移动互联网的序幕。


而AI Agent,则可能改变人与AI的“互动”方式,让人工智能不再是一个光鲜亮丽、又遥不可及的名词。


尽管现在,人类距离AI Agent终极智能体还很遥远,但没有什么能够阻挡,一个必然会到来的潮流。


本文来自微信公众号:酷玩实验室(ID:coollabs),作者:酷玩实验室