arXiv 陷入争议。
华盛顿大学教授,ACL 2023 的大会副主席Emily M. Bender 公开说它是一个“毒瘤”,宣扬盲目跟风以及“超过六个月就算过时”的计算机科学文化。
arXiv作为一个开放的预印论文网站,三十多年来已经成了物理学、计算机科学、统计学等科学论文最重要的发布平台之一,特别是在数理领域,几乎所有在期刊正式发表的论文都在arXiv上有存档,计算机科学情况类似,特别是其中比较前沿的领域,比如最近火热的人工智能和大模型,更是把arXiv看作首发平台。因此,Emily M. Bender 的这番话乍一听感觉十分严重。
但如果你了解Emily M. Bender一直以来的说话习惯的话,就不会这么认为了。
作为时代周刊评选的AI 100 人中的一员,自认第一身份是语言学家的Emily M. Bender一直是人工智能和大语言模型的强有力的批评者之一。她把大语言模型比喻成窃听成性的章鱼,指责它不仅无法理解真正的内容,而且在气候危机的大背景下消耗大量能源,用虚假信息污染系统生态,同时加剧偏见和英语霸权。
考虑到她一贯的说话方式,对arXiv 刺耳的批评也算是不出所料了。
最新一例将arXiv推上争议舞台的是所谓ACL拒信事件。来自纽约大学的博士后Naomi Saphra的论文由于违反了“匿名政策”而被ACL拒收论文。
所谓匿名政策,指的是投递到ACL这种学术会议的论文,在评审期间有一段匿名期,在匿名期间作者不能在社交媒体上谈论它,也必须让论文保持“匿名状态”,哪怕是在arXiv这个“预印”平台上。
有点不服气的Naomi Saphra把事情的前因后果发在了X上,结果引发了大量对ACL的声讨。
一般吃瓜群众可能有点纳闷,评判一篇论文好坏,不应该是看它的学术水平吗,为什么匿名与否这种无关紧要的政策,却成了一条不能触碰的红线?而这一切又和arXiv有什么关系?
为何匿名?
同行评议是世界范围内评价学术论文质量高低的通用做法,ACL这种顶级学术会议为了保证论文质量,更是严格采用“双盲同行评审”的方法。
所谓双盲,就是彼此都不知道对方身份的情况下对论文进行点评。这有点类似科举考试的“糊名法”,老师只能看到试卷的内容,看不到作者的名字,从而尽可能保证公允。
因此,匿名在这里就变得很重要。像ACL这种顶级学术会议,一般都会设置一个所谓匿名期,在期间作者不仅不允许公开自己的论文内容,而且也不能在社交媒体上进行宣传,为的就是防止社交媒体的舆论影响评审过程本身。
但是,这项政策从提出的一开始就不受欢迎,或者说充满争议。其中一个要点是,在许多突飞猛进的学科,比如大模型领域,技术几乎是日新月异的,而顶级学术会议的匿名期多在一个月或者更长,这显然会让研究者错过学术交流、迭代的机会。
在这方面,最旗帜鲜明的反对者就是Meta首席人工智能科学家、深度学习先驱、图灵奖获得者杨立昆Yann LeCun。他认为这会限制科学信息的交流,阻碍技术进步,违反道德规范(因为限制人们的表达)。
有意思的是,这次ACL拒稿事件,杨立昆也同样持反对意见。
在转发中他特别引用了哈佛大学教授Boaz Barak的推文,任何试图阻碍arXiv的政策都是100%纯粹的愚蠢。
怎么讲,也可以说是一以贯之了。
杨立昆等一众大佬对arXiv的力挺和对所谓匿名政策的反对,实际上反映了arXiv在学术界广泛的影响力,这一切要从三十多年前说起。
首发平台arXiv
简单来说,你可以把arXiv理解成一个大型学术贴吧或者论坛,不同学科属于不同的分论坛,它们有自己的管理员志愿者,用来审核每一个帖子。
在arXiv出现之前,大家是靠互相发送手稿的方式来了解所在学科相关领域最新进展,直到1991年,有聪明人想到为什么我不建立一个集中存储系统来放置所有的论文呢?这就是arXiv的雏形。
值得一提的是,最早arXiv构建在Los Alamos National Laboratory 洛斯阿拉莫斯国家实验室,没错,就是奥本海默规划的负责原子弹制造的那个实验室。
arXiv和传统的论文发布平台——期刊,最大的区别在于它不需要同行评审,你的帖子,也就是论文,只需要对应板块的管理员通过审核就可以公开发布,而管理员只负责审核一些最基本的要素,比如论文中是否有攻击他人的内容等,并不负责审核论文的论证过程。
换而言之,arXiv上的论文很多质量是参差不齐的,你需要自行鉴别——就和你逛论坛一样,需要自行识别什么是精华贴。
这种去中心化的论文分发形式很容易让人们联想到互联网最初被发明时人们对它的期待,绕过权威,构建一个广泛而民主化的自发社区,人们依靠高度的自觉进行自我管理。
这是许多人喜欢arXiv的原因,它看上去是反权威的,是一种推进学术民主化的好方法,如果你是一篇好的论文,那么其他人一定会认可,评价一篇论文好坏的标准从权威挪到了普通人手上。
特别是,由于绕过了传统期刊冗长的发布流程,arXiv还成为了许多快速推进的领域论文首发的地方。
一个最最明显的例子就是前一阵闹得沸沸扬扬的超导事件。来自韩国的团队在arXiv上发表了两篇宣称实现室温超导的论文,短时间内就引起了世界关注,全球范围内同时有多个实验室按照论文中提到的方法进行了复现。
之所以有两篇,而不是一篇论文来说同一件事(两篇论文的作者部分重合),据推测就是因为抢首发的缘故。虽然这件事最后被证明子虚乌有,但arXiv的重要性可见一斑。如今许多重要理论的发现时间都以它在arXiv上出现的时间为准,尽管准确来说arXiv上的论文都是“预印”状态的。
但现在,这种“预印”状态甚至成了论文的永久状态。不少科学家不仅把arXiv作为首发平台,甚至是论文发布的唯一平台。
既然发表论文的目的是让尽可能多的人看到、讨论、交流,那为什么非要发期刊呢?它不仅流程缓慢,同行评议还经常被诟病充满了偏见和暗箱运作的空间,更何况学术期刊是出版商们赚钱的下蛋金公鸡,数据库和电子版都十分昂贵。
相反,发表在arXiv上只需要动动手指就好了。
从2002年11月开始的八个月内,俄罗斯数学家格里戈里·佩雷尔曼在arXiv连续发布了三篇预印版论文,解决了困扰数学界整整一百年的庞加莱猜想。这三篇论文没有出现在任何期刊上,也就是说arXiv上的论文虽然是所谓“预印版”,但事实上已是格里戈里·佩雷尔曼论文的最终且唯一版本。菲尔茨奖委员会也正是根据这些“预印版”论文决定授予格里戈里·佩雷尔曼菲尔茨奖(尽管他没有接受)。
类似的例子还有很多,而这两年大火的人工智能和大模型领域,arXiv更是一个绕不过去的平台,几乎所有的相关论文都首先由arXiv披露。
而这也成了arXiv挨骂的原因。
arXiv在侵蚀学术自由吗?
Emily M. Bender 说它是毒瘤的两个论点,“盲目跟风”和“超过六个月就算过时”的文化,从某个角度上说其实是一回事,arXiv这样最初以去中心化方式设计的平台,就像所有互联网平台一样,最终还是呈现出了中心化的特点,其表现之一就是对流量的趋之若鹜。
想要从浩如烟海的论文中脱颖而出(据说arXiv每月接受数以万计的论文),那么选一个恰当的方向(和标题)显然十分重要。
由于arXiv没有同行评议机制,因此,内行人一方面很容易知道下一个研究热点在哪里,另一方面也很容易制造出踩点跟风论文以便在时间上占得先机——具体的方法细节没关系,关键是要抢占点位,因为一旦率先发表了相关文章,那么这个领域后面的文章都将不得不引用它。
这一点在计算机科学,特别是深度学习、人工智能等领域尤其泛滥。同样的方法,换一个数据集,改动一些参数就可以生成一篇新的论文了。
这就是Emily M. Bender狠批“盲目跟风”的由来。在她看来,经过严密同行评议的论文应该得到更多支持。
arXiv上为了追求点击率而批量水出来的论文消解了学术的严肃性,而这种发展趋势实际上与很多互联网内容社区的发展路径相似,高质量的内容最终被流行内容淹没,于是平台整体内容质量开始下降。
除了Emily M. Bender的激进观点外,arXiv呈现出的另一个中心化问题是管理员权限的扩大。
本来内容社区的运转是靠所有人的维护,这就是学术的民主化。但与日俱增的论文数量让arXiv的管理和维护人员逐渐拥有了比一般人更大的权限。就像贴吧吧主和论坛版主可以封禁、屏蔽成员的内容一样,基本都由志愿者组成的arXiv管理员们可以拒稿乃至封禁某些论文以及它的作者。
2020年,加州大学圣地亚哥分校的理论物理学家 Jorge Hirsch 在arXiv上回击了《自然》杂志不久前登载的罗切斯特大学物理学家 Ranga Dias的有关室温超导的论文,Jorge Hirsch 用的标题就挺“流量”的,名为“一个可能的科学欺诈剖析”。
为此Ranga Dias进行了回应,而针对回应,Jorge Hirsch又发表了多篇论文反击,大家就这样你来我往在arXiv打起了嘴仗,直到管理员封禁了Hirsch的论文并把他禁言六个月,理由是论文中使用了所谓煽动性、冒犯性和武断的语言。
除了禁言,管理员还有权拒稿。据悉arXiv有大约1%到2%的拒稿率,但人们实际上并不清楚稿子被拒的具体原因,arXiv不会给出特别解释,这就让arXiv的审核机制的透明度成为了一个争议的焦点。
一个国人比较熟悉的例子是,我国量子研究领域的著名科学家陆朝阳和潘建伟,在2021年8月于arXiv平台提交的论文就被直接拒绝。2014年,瑞士日内瓦大学的量子物理学家Nicolas Gisin的论文同样被拒,这篇论文在通过同行评审后发表在了《物理快讯A》上。
进行审核当然是必要的,这可以让arXiv的内容起码符合最低的学术标准,但这个问题严峻的地方在于,arXiv登载的都是学术内容,拒稿和封禁不管具有多大的正当性,实质上都在阻碍学术讨论,而执行这种权力的人甚至都不是同行,而是绝大多数匿名的管理员。
争夺学术话语权
许多人认为,上文提到的arXiv的缺点,可以通过诸如扩大审核管理队伍规模,公开评审标准和拒稿原因,引入评论、点评和打分机制,抛弃纯粹通过引用数量来衡量论文影响力的“唯流量”评价标准等等来解决。
总结起来,就是通过更加透明和更加广泛的用户参与的方式来解决,而不是回到传统的,封闭保守的同行评议的老路上去,也就是说,大部分人对arXiv还是持正面态度,从X上众口一词对ACL的批评就能看到。
针对 arXiv 的讨论,本质上是正在进行的学术话语权争夺战的一部分:究竟是极少数的行业专家,还是更广泛的同行与大众,有权对一篇论文的学术价值进行判定?如果是后者的话,那么以什么样的形式组织这种价值判定是最公平、专业和有效?
arXiv 不是完美的,由康奈尔大学运营的arXiv,像维基百科一样,严重依赖志愿者和捐款,然而它又是非常重要的,几乎可以说是学术界互联网基础设施。也许arXiv压根不该盈利,以保证绝对公允和独立的身份促进学术发展,但它的体量跟不上快速发展的科学技术进步也是事实,这种“跟不上”产生了一些偏颇的后果,但这不应该是我们苛责它的原因。
本文来自微信公众号:GenAI新世界(ID:gh_e06235300f0d),作者:薛良Neil