本文来自微信公众号:人神共奋(ID:tongyipaocha),作者:人神共奋,头图来自:《楚门的世界》
一
前段时间,学术界爆出一个大丑闻,《发现》杂志经过调查,认定一篇由著名神经科学家Karen Ashe为通讯作者、于2006年发表在Nature上的文章,使用了多张经过篡改的图像。而这篇文章曾被引超过2300次,是阿尔茨海默症“淀粉样蛋白”假说领域的奠基性工作,全球各大公司一半的研发费用都放在这个方向上。
后果有多严重,还有争议,这不是本文要讨论的重点。我想说的是,在结论相对明确的自然科学界,又这么重要的奠基性文章都有问题,可想而知,在社会科学领域,有更多的我们深信不疑的理论,问题可能更严重。
特别是在心理学、经济学之类可以用统计数据和数学公式伪装成自然科学的领域,那些理论、假说,常常用于营销、服务等有经济利益的活动,更是值得我们警惕。
二
行为经济学的经典著作《思考,快与慢》一书中,曾经用“大数效应”为理论依据,批评很多研究成果样本数不足,但立刻就有人指出,本书中大量引用的社会心理学的“启发效应”,其实验同样存在样本数不足的问题。
“启发效应”可能是营销学家和大众媒体最喜欢引用的心理学研究,比如纽约大学心理学家约翰·巴赫的“热咖啡效应”,实验结果宣称,一个手里捧着一杯热咖啡的人,会增加别人对他的信任度。
果然,“启发效应”的大部分实验,最后都无法重复结果,让全世界的销售员浪费了大量咖啡。
甚至有很多大家耳熟能详的理论,根本就不是实验的结果,比如“啤酒与尿布”理论,说超市喜欢把啤酒放在尿布边上,方便下班回家的年轻爸爸在买尿布时,给自己带上一罐啤酒,超市因此可以增加啤酒的销量。
这个理论如此之有名,很多超市都做过这种尝试,但我们几乎看不到哪一个超市是这么陈列商品的,只能说明效果得不到销售数据的验证。
事实上,最早提出这个理论的人,根本就是营销专家,在某个课程中提到了自己曾经看到某超市这么做,这个效应听上去头头是道,却完全经不起任何实验的检验。
样本数效力不够是社会学实验的通病,这是因为,自然科学的要素之间的独立性比较强,只要符合统计要求的样本数就行了;但社会领域大部分事情之间,啤酒与尿布之间,咖啡与客户成交之间,必然存在忽高忽低的联系,小样本数下,任何结论都有可能得出。
一个可靠的社会学理论,需要非常大的样本数才有足够效力。
比如心理学上最著名的“旁观者效应”,即遇到紧急情况救助时,身边的人越多,得到救助的概率反而更小。为了证明这个效应,达利和拉丹这两位心理学家,前后十几年时间里,设计了各种各样的实验,单次试验的样本数也非常大,其中的电梯实验中,助手搭乘电梯的过程中故意丢下一些硬币或是铅笔,计算被对方捡起来的概率,研究团队安排了145名助手搭乘了1497次电梯,前后共有4813个人与他们共乘一部电梯。最后才得到结论:
当他们只与一个人搭乘电梯时,别人帮他捡起掉下的硬币与铅笔的概率是40%,而当他与多个人一起搭乘电梯的时候,被帮助的概率只有20%。
即使这样大的样本数,后来仍然有多个“旁观者效应”实验宣称得到相反的结论,所以“旁观者效应”的有效性也没有那么强。
说到这儿,还有一个问题,包括开头的“淀粉样蛋白”,这些都是非常著名的实验,事关全球几千万患者的健康,为什么这么低劣的造假手段,在长达16年的时间,没有被揭露呢?
这就是学术论文的“错误链式反应”。
三
有一天,某个学者(通常是社会科学领域)忽然产生了一个见识独到、似乎很有道理的想法。
于是他设计了一个实验去验证,但因为经费有限,或者说,社会科学领域太容易出想法了,平摊下来实验经费就有限了,他不得不缩减整个实验的时间,并虚报实验对象的样本数。
非常幸运的是,他得到了惊人的显著性统计效果,论文发表后,成为当年该领域的重大成果——事实上,这个想法早有人尝试,只是因为实验效果不明显而被搁置。
更多的研究者开始跟进研究,但不是重复这个实验,为了让自己的研究更有创新性,他们会改进这个实验的某些条件,以得到进一步的研究成果。
非常不幸的是,跟进的研究者大部分无法重复这个结果,他们怎么办呢?
如果实验结果完全无效,这些研究者会将之束之高阁,赶快进行下一项研究,而不是发表文章质疑这个结果;
如果实验结果有效但不明显,很多人会怀疑是自己设计或操作上的问题,要么修改结果,要么剔除一部分他认为不正确的结果,以增加显著性。
于是,越来越多的新实验,“证实”了这个假说,它也从学术领域进入大众视野。
直到有一天,某个认死理的研究者,为了搞清楚自己实验失败的原因,完全重复了数遍最初的实验……
四
总结这个“链式反应”,导致错误不能被及时纠正的三个原因出自人性的弱点:
1. 学者发论文压力大,实验必须要成功;
2. 习惯于修辞数据,以让结果看起来更有说服力;
3. 质疑权威的风险大,延续权威结论的收益更稳定。
所以,不能因为一个理论听上去很有道理,有一堆数据和专家背书,就认为它不可能出错。
曾经有读者批评我写文章,不给列出引用的参考文献。
我曾经一度也这么做过,可这让它看起来更像是一篇学术文章,暗示结论的科学性,但我本人并不确定这一点,我没有能力去重复那些实验的结果,它们只是看起来有道理,所以我希望它们以某一方面的观点而不是证据的形式呈现。
自媒体的文章不具有学术性,无论它的形式多么像一篇论文,它们的目的只是为了完成一篇文章,而不是一项研究。虽然有追求的作者总是尽量选择可靠的观点,但文章就是文章,追求的是阅读率、传播效果、而不是研究结果的可靠性。
所以,谨慎地对待你看到的任何权威文章,特别是那些看起来对你很有利的,引起你极度舒适的,并让你产生共鸣的观点。
本文来自微信公众号:人神共奋(ID:tongyipaocha),作者:人神共奋