从Sam Altman被罢免引出了Q*算法,然后好像引申出了一个结论:强人工智能要来了。但现实可能正相反,人工智能确实是有进展,也有巨大的潜力和颠覆性力量,但整体上的进展不是太快,而是太慢。
图灵测试2.0:抛弃它但又要回到它
1950年的图灵测试,说的是当一个人同不能看见的人与机器进行问答,又不能区分哪个是人哪个是机器的时候,那么机器就算通过了图灵测试。
现在在某些场景里,大模型确实可以通过图灵测试,所以这一版的图灵测试是一个过期的测试方式,意义不大了。
但图灵测试的基础内核是有价值的。它圈定一个场景,让人工智能完成它,通过外部对此能否感知来判断智能是不是足够这一点并未过时,实际上是变得更加关键。
对图灵测试进行扩展的话,我们可以在经济活动中圈定一个职位或者场景,然后考察人工智能是否可以完成它,同时体验服务的一方并不知道这是人提供的服务还是机器提供的服务。如果人工智能可以做到了,那就是通过图灵测试2.0,否则就不是。
为什么这是有意义的呢?
因为初代图灵测试更像是测验一个活在虚拟空间的智能体,它不需要区分真实还是虚假,只要确保逻辑自洽,那就可以达成通过测试的目标,在这个过程中胡说八道是没关系的。这是一个技术视角。
有个没场面但其实很经典的科幻电影叫《这个男人来自地球》,电影里面一个男人声称他是一个活了一万四千年的穴居人,他见证了人类的历史和文明的变迁,甚至与佛陀和耶稣有过交流。和他在一个屋子里的各位科学家尝试用逻辑去验证他是不是扯淡,但结果发现纯粹坐在屋子里,这事是整不出真假的。在屋子里凭空来说,只要人知识足够丰富,并且能保证逻辑自洽,你根本没法分辨。而走出屋子立刻就不一样了,其它的事实、反馈可以迅速判断真假。
类似的,人工智能是否真的智能是学术、技术问题,也是个商业问题,所以它必然要走出来经受更大场景的考验,不能是一个只能唠嗑的语言模型。这时候就很有必要按同样的思路,回到图灵测试智能对比的内核,对它进行一下升级。
琢磨事:《AI能赚到钱了么?》中展开过这个问题,管它叫全场景覆盖法,随着人工智能关注度的提高,似乎越来越需要强调这个视角。因为我们整个文明就是基于智能构建的,所以看人工智能总是可以有无数多个视角。比如:一种是无锚点的幻想,这就是什么都能干,类似一个想象中的超人,写小说用得上;一种是纯粹技术的视角,这种就大喜大悲,要么就是觉得这东西怎么可能有用(别看现在很火,其实过去十年AI的研究者大多是悲观态度),要么就是每天看到各种进展,觉得世界要被威胁了。
无锚点和尺度就很容易这么忽左忽右,但恰恰尺度本身才是本质。
为什么说人工智能进展其实是慢的?
如果在技术圈子里面自己和自己比,其实进步还是很大的,不管是过去的识别率还是这次的内容生成,大模型都有了相当的进步,但如果换到上面说的图灵测试2.0的视角,你就会发现即使到今天,还是通过不了。很像一条无限接近的曲线,但就是没有突破。
可以拿企业内的分工进一步举例,企业的典型岗位是:
职能:HR、财务、IT、行政、知识产权
产研:产品、研发、供应链、测试、运维
业务:市场、销售、售前、售后
每个岗位会横纵进一步细分,纵是指层级也就是我们常说的汇报路线,横是指前端、后端、APP这类职责切分。
一个100~200人的产品公司里面差不多要有各种类似的岗位,这时候我们回到图灵测试2.0的视角,哪部分现在的人工智能可以通过呢?
恐怕都通过不了,即使是进展最大的编程。
编程的时候现在的人工智能完成不了需求模型向开发模型的映射(现在确实可以让1个人干2人的活),也就是说还是需要有人抽象出需求模型,把它变成prompt;其次是一旦出问题,修正就挑战更大,因为这时候必须对整个程序的整体性认识,这种认识则大概率是不准的,这就导致改老的程序反倒是更吃力,需要一个有整体性认识的人进行协助,否则就改不对。
所以说基于大模型的人工智能通过不了图灵测试2.0,通过不了商业价值的实现就有问题(通过了不一定没问题)。
结合场景视角,我们可以说虽然忙活了10几年,但进展远没有想象中那么快。现在OpenAI差不多调集了可能调集的所有资金来进行冲刺,我们真的希望他们能冲过去,而不是反过来。
能不能通过正是两种局面:通过不了就像水库一样偶尔当供水池用用,通过了蓄积的势能就奔涌而下。
这类行业重构第一步更可能是一种大折叠,内卷到极致的折叠,然后才是新生。
大折叠
突然说折叠可能不好理解,我们拿过去的电商举个例子:
电商肯定磕掉了传统百货,并且激发了外卖、直播带货等一系列新行业。但首先是折叠掉传统百货,后面才逐渐有现在大家集体带货的局面。
人工智能如果通过图灵测试2.0,那会和这个类似,比如日常文案写作全是人工智能,那在API上能创造的商业价值估计只有原来的几千分之一,但会让这个职位彻底走入历史,此后才能创造新的角色和职位。
在这个折叠的过程中其实蕴含着第二重挑战:可以折叠掉很多现有职位,但自己未必能成为一个良性的模式,并且持续发展。(如果真停在这儿就损人不利己的意思)
在Sam Altman被逼走的短暂日子里顺道出了一条消息:每一次对OpenAI的调用都会导致亏损。也就是说OpenAI是在一种的脆弱平衡下运作,具体来说就是:全球的注意力吸引海量资本的模式,这种注意力和兴奋点的走势从反面解读其实和庞氏骗局是一样的(不是说AI是骗局,而是这种模式的特征很类似,包括数字货币)。这种趋势下,关键就是最后能不能兑现出真正的商业价值,然后才可能拉动下一个循环。所有的庞氏骗局不是中间没收益而是最终交代不清,预期值彻底踏空,然后迅速跌得什么也不是,并崩盘。
从这个角度看,AI要想构建良性循环:第一步需要通过图灵测试,第二步需要激发新的正反馈模式。然后才是2000年的互联网,AI原生应用的崛起,否则就都是前奏。从这个角度,就会觉得在这个时间点认为AI发展太快是滑稽的。
当然,这不单是OpenAI几个公司的问题,还牵涉到这次大量的创业项目。
扮演引擎角色的通用大模型,如果过不了图灵测试2.0,那基于它的各种尝试结果就没那么美妙。
潜在受害者
近来无意间看到了很多创业项目的介绍,看完的感觉就是:如果最终大模型的智能峰值过不了图灵测试2.0,那这些项目都会慢慢死去,像干涸湖泊里的鱼一样。
这类事没法举具体项目来点评,我们凭空说一个作为例子,比如:我可能发现,一个企业用多种平台,反复对齐数据特别费人工,然后可以用RPA结合模型做出改善。这有没有价值呢?有价值,但如果智能比例不够,那创造的价值就不够它自己消耗的,商业上不成立。
再比如我发现家里很多活,人不愿意干家务,那有个机器人的话有没有价值呢?有价值,但智能不够,就干不出真正有用的产品。
顺道说句,周末我去某活动见几个老朋友,就看到了几个活动中用的机器人,这简直把我看得欲哭无泪。这类所谓的具身机器人和十几年前根本没有本质进展,还是一个底盘加个Pad,真有进展的还真是智能音箱中花很多时间打磨的部分,即使很嘈杂语音识别的准确率也还是可以了。
和上面类似的项目还很多很多,包括供应链上为AI企业提供弹药做芯片做数据的,每个人都想成为英伟达,但如果通过不了图灵测试2.0,也许会再有一家,但不会有再多了。
如果智能的峰值不能进一步拉高,那这些产品就都会卡在某条线下,该花的钱一点也少不了,但就是不创造新价值。
从这个角度就更容易看到AI发展不是太快,而是太慢的真实含义。谁有多长的血条,一共又有多长的血条呢?
一点点形而上
现有经济体系里人其实是大号的工具,扮演这个角色的时间挤占比如家庭、生活上的时间。只有极少一部分人可以在这种工具角色中获得乐趣,绝大部分人不是,但都需要工作,这就是之前说的异化,和摩登时代比是程度上的差异。
而人、工具、组织模式构成了一种能力上限,随着对上限的追求越来越高,在里面的人脚下的传送带就转得越快,表现为某些人越来越忙。
而当人们一考虑会失去这样一个自己不喜欢的角色时,反倒是会更惶恐,因为有一种经济脐带被切断的感觉。
这就是最有意思的地方,怎么才能在失去了不喜欢的东西后获得喜悦?
人工智能是文明要素中的一种,提供了重构过往社会结构的力量,但也不是全部,基于它的进展,我们也许可以更低成本解决现在那些根本解决不了的问题,比如:贫穷与饥饿,它会提高整个社会的自由度,让人更有解决问题的空间,重新进行一种更高级的综合。
在这点上我同意凯文凯利的观点:科技总是既带来好的也带来坏的,但总是好的多一点点。它至少增大了可能的空间。
从这个角度看,人工智能的发展也是慢的。
小结
在人工智能上,技术、社会性的想象、商业的判断现在堆积到了一起,所以经常出现各种各样的观点,但在当前阶段对人工智能做纯技术解读或者做纯粹的社会性解读意义未必很大,只有从商业角度才能更清楚看到它这种濒临死亡和勃勃生机相叠加的矛盾状态,所以回到图灵测试2.0应该是有意义的。
本文来自微信公众号:琢磨事(ID:zuomoshi),作者:老李话一三