我对这个话题好奇的缘起是上周 Nature 上发表的一篇编辑部评论(Editorial):《从爱因斯坦到AI:100年光阴如何改变科学》。



编辑部评论通常都很短,这篇也不例外。这篇评论本身说的:“过去100年产生的一些重大科研进展,深刻地塑造了今天的科学格局,而今天的重大科研进展也将深刻地塑造明日的科研格局,但是,塑造的方式是不确定的。”


这些重大科学突破中的一些从一开始就大大改善了人类的工业化条件,从而大大提升了人类的生活质量。如比利时化学家利奥·贝克兰在1907年将他发明的塑料商业化。但是,因为很长时间内,缺乏监管,这些科技突破对地球和人类也造成了巨大伤害。


也就是说,这篇 Nature 编辑部评论想说的是:监管。


最近两三年AI发展之势迅猛,AlphaGo之于围棋,AlphaFold之于计算生物物理,ChatGPT之于自然语言模型等等,多个领域都有了“颠覆性”的科技突破。


这些AI领域的突破,放诸百年后,会被怎样看待?未来之视今,犹如今之视昔乎?


这些AI领域的成就会因为今天的缺乏监管,而在未来逐渐伤害人类吗?因此,Nature 编辑部呼吁建立全球性的监管协议(to be governed by global agreements)—— 放任自流绝对不行。


以上,这篇短篇的编辑部评论就基本说完了。这不是引发小王兴趣的内容。


我感兴趣的是Nature编辑部的“话引子”,即七拐八歪从100年前的塑料、合成氨、相对论勾连到mRNA、ChatGPT的引子 —— “颠覆性创新”,英文是disruptive innovation。


20世纪初的颠覆性创新有:1900年马克思·普朗克的量子物理,1905年爱因斯坦的光电效应、布朗运动、狭义相对论和质能方程,1910年摩根发现基因,1925年雷蒙德·达特证明非洲是人类发源地等等。


21世纪初的颠覆性创新有:2001年人类基因组计划,2012年的CRISPR基因编辑、希格斯玻色子,2015年的引力波等等。


但是,科学界有一个主流共识:颠覆性的创新越来越少,科技创新的颠覆性也越来越低。



这是2023年初在Nature上发表的一篇科学情报学论文的名场面图片:颠覆性科学在萎缩 —— 各个领域:社会科学、技术、物理科学、生物科学和医药,都如此。


这篇论文的标题是《论文和专利都正在随时间变得不颠覆》。通讯作者罗素·方克来自明尼苏达大学卡尔森管理学院。



所以,“颠覆性”怎么定义?怎么度量?


作者使用CD指数来衡量科技颠覆性。CD指数的范围是-1到1,1代表最大知识颠覆(disruptive),-1 代表最大知识固化(consolidating)



作者考察每一篇论文或专利的文献引用情况:它引用了哪些文献,被哪些文献引用。


在理想情形下,一篇论文或专利,所有引用它的文献都不去引用它所引用的文献,那么这篇论文或专利就达到了最大颠覆性,CD值 = 1。


这个定义的假设是:一篇论文或专利能够对先前的已经发表的文献构成最大的颠覆,意味着,它的后续工作都不必引用比它更早的工作,只引用它就足够。


打个比方,一个人站在巨人的肩膀上,如果这个人也足够巨大,那么之后的人统统都只踩在这个人肩膀上就行了,而不必再去落脚在前一个巨人肩膀。


我举一个直观的例子:AlphaFold2的Nature论文。


这篇在2021年6月上线的论文目前已经被引用超过10000次,而其本身则引用了84篇论文。我没有去按定义计算它的CD值,但是我认为它的CD值会很高。


我只在这里提出直观的观察。我在谷歌学术订阅了这篇论文的引用邮件,会收到谷歌学术定时发来的引用情况,即这篇论文又被哪些新的论文或专利引用。我注意到,许多远离蛋白质结构预测的领域也在引用AlphaFold2。比如,关于美国南部某种蝴蝶的基因突变;又比如,种猪养殖中的AI应用。这些论文引用AlphaFold2的前导论文的可能性是非常低的。


下面是我随手找的一篇Agriculture杂志在2023年发表的一篇论文,标题是关于罗马尼亚绵羊育种相关基因和蛋白。工作来自罗马尼亚首都的布加勒斯特大学,应该是这个国家顶级的学府吧。这篇论文引用了AlphaFold2,还引用错了 —— 用了AlphaFoldsimulation的说法(可见作者不懂蛋白计算),还没引用原文 —— 引了ColabFold。无论如何,罗马尼亚绵羊绝不会去踩AlphaFold2所踩的肩膀。



也就是说,许多原本根本不会使用蛋白结构预测的研究,因为AlphaFold2而关注到深度学习+蛋白结构预测工具的潜力,愿意亲自上手试一试,或者愿意在写文章的时候提一嘴,哪怕自己也没用。


通俗地讲,AlphaFold2出圈了。这是颠覆。


颠覆的对立面是固化。一篇论文或专利,所有引用它的文献都同时去引用它所引用的文献,那么这篇论文或专利就达到了最大的知识巩固性,CD 值 = -1。某种意义上,这样的工作是对前面工作的完全巩固,完全没有颠覆性。


同样打个比方,一个人站在巨人的肩膀上,它之后的人全部一只脚踩它,另一只脚踩前一个巨人的肩膀。


那么,能否说:即便没有这篇论文或专利,引用它的工作也完全能抛开它,而基于之前的工作做出?我觉得应该是。


罗素·方克等作者计算了几百万篇论文的CD 值,并特别考察了有史以来所有诺贝尔奖得主的得奖论文(导致作者得奖的那一篇),如下图:



1928年,狄拉克,量子力学的狄拉克方程,CD = 1。


1953年,沃森 & 克里克,DNA双螺旋结构(诺奖),CD = 0.62。


1965年,空 & 山,电子结构的Kohn-Sham方程(诺奖),CD = -0.22。


1970年,巴尔的摩,RNA 逆转录(诺奖),CD = -0.55。


从数据上看,诺贝尔奖的获奖工作的颠覆性也是随时间下降的。


作者尝试对这一现象给出解释:


(1)现代科研工作引用的文献所涉及领域越来越少,即现代科学的单一论文所需求和影响的领域越来越狭窄。这表明现代科学越发单一化、专业化。


(2)现代科学文献的自引用情况越来越多。这表明科研工作者的路径依赖越来越大,即科研工作者习惯于沿着一条研发路线一直前进,因而越发依赖于已行进路线上的老知识。


(3)现代科研工作的平均被引用时间在增长。过去一篇论文可能经过3年就很少被引用,而现在可能经过5年还有较多引用。这可能是因为现代科学更新速度太快,以至于学者都跟不上了,从而只能依赖于自己所熟悉的更老的论文。


小王觉得有些道理。数据就是证据。


小王觉得有些“颠覆”思维的是:居然DNA双螺旋结构发现的颠覆度只有0.6,而空山方程不仅没有颠覆,颠覆度还是负的。


可见,直觉不靠谱。


我觉得颠覆的,对相关领域的专业学者则未必然 —— 有的工作虽然重要,但属于临门一脚,谈不上太多颠覆。


在相应领域浸淫已久的学者,可能会从其领域的发展历史脉络,轻易说明某工作的重要性和颠覆性有几何。因此,讨论科技史,应当建立在谨慎而细致的学科发展梳理和全面而大量的跨学科数据分析的基础上。非相关领域的学者,或非学者,应慎言。


参考文献

[1] https://www.nature.com/articles/d41586-023-04021-2

[2] https://www.nature.com/articles/s41586-022-05543-x


本文来自微信公众号:小王随笔(ID:xiaowang_essay),作者:小王随笔