本文来自微信公众号:中科院物理所 (ID:cas-iop),作者:Tom Siegfried,翻译:zhenni,编辑:藏痴,头图来自:《超体》


星际日期24世纪的47025.4,星际舰队的星际机器人中尉指挥官戴塔被他的反叛机器人“兄弟”洛尔征召加入反叛人类的行列——这令企业号舰长让-吕克·皮卡德感到非常不安。“碳基生物的统治即将结束,”洛尔告诉皮卡德,“你,皮卡德,以及像你这样的人都已经过时了。”


这就是电影中《星际迷航》所表达的乐观态度,即机器们至少要三个世纪后才可能废黜人类。这只是科幻电影中的情形,而在现实生活中,智能机器已经迈出了接管世界的第一步,他们的时代已经到来。


作为人工智能宽泛概念中的一个较为具体的子领域,机器学习已经渗透到了从医疗诊断到寻找新亚原子粒子等多个人类深耕的领域。深度学习是机器学习最强大的体现,它在语音识别、语言翻译、图像识别、汽车驾驶、新材料设计以及股市趋势预测等多方面具有应用。


计算神经科学家塞尔在一篇文章中写道:“由于计算机可以毫不费力地处理天量数据,因此深度学习不光能重塑现代社会,还可能掀起科学革命——主要涵盖从粒子物理和有机化学到生物学研究和生物医学应用这样的学科。”


近些年来,数量激增的关于机器学习、深度学习和人工智能的新论文涌入了科学文献库当中。这类新研究的综述涵盖了医疗保健、流行病学、材料科学、基础物理、量子计算、分子作用模拟、流体力学、临床心理学、经济学、视觉科学以及药物发现等领域。


这些综述突出了机器学习目前已经取得的重要成就和对后续可能取得成就的预测,多数文章也提到了智能机器的局限。比如一些令人印象深刻的正确答案就来源于学习的“捷径”而非真正的理解。


智能机器也因此显然容易被误导出错。而且,如今大部分所谓的智能机器都局限在某一技能领域,高效应对特定的任务,而非具有人类普遍认知能力的灵活性。比如一台电脑可以在象棋比赛中战胜大师,却不会玩扑克。


计算机学家梅兰妮·米歇尔在她的书《人工智能:人类思维指南》中写道:“与人类对比明显的是,当今大多数人工智能的‘学习’都不能在相关任务之间转化。”


米歇尔解释道,对人工智能进行真正的探索还有许多障碍——机器仍然不能像(起码一部分)人类那样对世界进行全局的思考和推理。


米歇尔说:“人们容易高估人工智能的先进性而又低估自身智力的复杂性。”对超级智能机器接管世界的恐惧是错位的,她引用一位行为经济学家的评论:“我们的确应该害怕,但不是害怕智能机器,而是对机器在自己智能无法了解的方向进行决定。相比于机器的智能我更害怕机器的智障。


一、机器学习进步迅速


实际上,计算机学家已经开发出了一些相当强大的算法来训练机器学习。通常这些学习依托各种被称为神经网络的计算系统。这些神经网络是粗略仿照人类大脑神经细胞的处理单元。在一个传统的神经网络中,一层人工神经通过接收的输入信号来修改与另一层神经的关联强度,从而将输入信号识别传输给输出层。于是人工神经网络才能够“学习”将输入的信号认作一张猫的图片。


在过去十年左右的时间里,主流的机器学习策略依赖于多层人工神经网络,这种方法也被称为深度学习。一台深度学习的机器可以在模式中识别不同模式,使输入的分类更加精细,甚至超过专业人员的能力。一个训练有素的深度学习系统甚至可以在CT扫描中识别出逃过放射科医生眼睛的癌症信号。


在某些系统中,机器学习是“受监督的”,这种情况下训练机器所用的是标记的数据;而不受监督的学习则意味着训练机器未被告知所输入的大数据集的含义,电脑自己需要识别出分类或行为的模式。另外有一种叫做强化学习的方法,如果机器能完成某个目标(就像赢得某个游戏),那么在处理输入时就会受到“奖赏”(比如在某个存储文件中加分)强化学习通过在围棋比赛中帮助机器战胜了人类从而展示了自己的威力。


机器学习虽然在围棋上值得一个头条,但是在医药、工业和科学等领域取得的实际成就则更令人瞩目。


医药方面,机器学习帮助研究人员改进治疗效果标准测试的弱点。测试疾病治疗效果的医学试验通常依赖于测试结果平均值来确定有效性,因此可能会错过对少数患者有益的成分。比如,某个治疗发现一个减肥项目不会减少糖尿病患者的心脏问题,但是根据传染病学家维姆肯和计算机科学家凯利的报道,机器学习算法的确识别出了某一小部分患者在减重过程中心脏问题有所减少。


同时机器学习对于发现新药的测试也帮助不少。“深度学习在药物发现方法上具有广泛的应用,”化学家朱浩在最近的药理学和毒理学年度回顾文章中写道,“在这个大数据时代中,最近深度学习所支持的人工智能的进展展现出了药物发现领域巨大的前景。”


与发现新药类似,机器学习在发现工业应用的新材料方面也展现出了生产力:通过机器学习算法可以简化寻找耐磨耐拉“超硬”材料的过程。材料学家斯巴克斯撰写的文章中评价道:“这个研究……是机器学习在发现新结构材料扮演重要角色的一个精彩的体现。”


二、比起机器智能,我更怕机器智障


除了受到广泛关注的实际应用外,机器学习也给基础科学研究提供了便利。在诸如大型强子对撞机(LHC)的高能粒子加速器中,质子相撞会产生包含其他亚原子粒子的复杂粒子流(比如LHC于2012年发现的著名的希格斯玻色子),在每秒几十亿质子相撞几百万次的束流中,科学家需要从中明智地挑选出有价值的内容,这相当于在用消防高压水枪喝水时决定吸入哪些分子,机器学习便可以帮忙在背景噪声中分辨出有价值的事件。而其他机器算法可以帮助识别撞击碎片中的粒子。


物理学家盖斯特及同事说道:“深度学习已经影响了LHC的数据分析,并掀起了一股机器学习和粒子物理学界之间合作的新浪潮。”


量子物理学家卡利欧在另一篇文章中提到,机器学习的方法在数据处理方面的应用不只出现在粒子物理领域,还在宇宙学、量子计算等等其他基础物理研究领域应用。


“随着机器学习技术在工业应用中的兴起,科学家们开始寻找机器学习在基础研究中的潜力。”卡利欧和合作者在去年的一篇综述中写道。


三、学习的局限


就如卡利欧和其他综述作者所强调的那样,机器学习也有缺陷,科学家不应当被其成就蒙蔽:


“对机器学习的潜能和局限性持有健康和批判性的态度,包括分析这些方法的突破点以及它们明显不擅长的地方。”


一方面,一个机器的“智能”局限于它学习数据的性质。例如,经过训练的机器可以通过分析人类雇佣决定来筛选求职者,同时也会通过一些历史歧视数据对特定人群产生各种偏见。


即使机器表现不错,那也只是看上去比较聪明。例如,关于图像识别的报告应该考虑到,机器的准确性通常是指其前五个“猜想”——五个当中如果任何一个识别正确,机器便会获得嘉奖。


有时候看似智能的机器准确执行任务并非由于它像人类那样理解,而是机器找出了一个获得正确答案的捷径。“一个好像很容易地分辨出牛的深度神经网络,可能无法认出一头出现在草场场景以外的牛。”盖里奥斯和合作者在最近的一篇预印本文章中写道,在这个例子中“草场”变成了系统识别“牛”的捷径。


有时机器又会以纹理而非形状作为识别对象的捷径,如果一只猫的图片通过图像处理软件变成具有灰色阴影的浮雕图像,就可能被机器识别成一头大象。


这样的捷径可能就是机器容易被敌对的欺骗所愚弄的原因。


米歇尔在她的书中评论:“人类偷偷欺骗深度神经网络令其犯错出奇容易。”人眼会忽视的在医学X光片上的一点点改变就可能将机器诊断的结果,从99%未患癌症的置信变为99%存在癌症的置信。


米歇尔认为,由于人类并不理解机器如何做决定,所以很难解释这些失误的出现。在多层深度学习的神经网络中运算就像在一个黑匣子中运作,人类不能感知,也就难以确定深度学习的运行原理。


她还提到:“由于深度神经网络做的决定往往难以理解,所以其失误便很难预测和修复。”


无论机器到底如何学习,都和人类的方式不同。不只机器智能难以理解,人类智能也是如此。科学家只有更完整地理解人类智能,才能研究出更强大的人工智能替代品。所以我们也不必太过担心戴塔的兄弟洛尔会很快统治人类。


米歇尔分享了软件企业家卡普尔说的观点:“人类智能是一种绝妙、微妙而且探索甚少的现象,目前还没有任何复制它的危险。”而甚至到24世纪可能也是如此。


原文链接:Why some AI is smart until it's dumb


本文来自微信公众号:中科院物理所 (ID:cas-iop),作者:Tom Siegfried,翻译:zhenni,编辑:藏痴