万物皆可“贝叶斯”？ - 葱头胖友圈

本文来自微信公众号：经济观察网（ID：eeojjgcw），作者：苏婉，原文标题：《午间阅读｜万物皆可“贝叶斯”：不确定性时代的知识哲学》，头图来自：unsplash

你在黄昏的小区散步，突然看到草丛中有一个毛茸茸的东西在动。接近夜晚，光线不好，你凭借直觉判断，这大概率是那只你经常碰到的狸花猫。你继续观察，看到了它小而尖的耳朵，你加深了这就是那只花狸的信念。这时它条纹相间的尾巴露出并卷曲着晃动，你几乎可以肯定它就是那只猫了。最后这个毛茸茸的身影一闪而过，消失在灌木丛中。你回到家告诉家人：“我刚才很可能又碰到了前两天的那只大花狸！”

一个典型的贝叶斯主义者可能会告诉你，这个平常到不能再平常的观察和推测，反映了你了不起的大脑刚刚进行过一次复杂的贝叶斯计算：你从自己的直觉出发，基于依次出现的视觉信息，做出了一次对特定现象出现的原因的判断。

一

18世纪的英国哲学家休谟在自己的怀疑论中指出，“我们无从得知因果之间的关系，只能得知某些事物总是会关联在一起。”这种“相关非因果”的思想，体现在他在1748年写的一篇《论神迹》的文章中，他关于目击者的证词永远无法证明神迹（即基督复活）的论断，可能引起了当时作为加尔文宗教会牧师的托马斯·贝叶斯（Thomas Bayes）的注意：我们真的无法通过观察到的结果来推出引起它的真正原因吗？如果我们预先形成了某种信念，需要观察到多少证据才能确定这一信念的正确性？

贝叶斯在论文中想象自己背对着一张桌子，桌子上放有一个白球，随后让助手随机在桌面上放黑球，每放一个就问白球相对于黑球的方位。白球的位置就是引起黑球处在某个相对方位的原因，这个在已知黑球相对白球位置的情况下确定白球可能位置的过程，就是一个能够回应休谟之问的典型的逆概率推算过程。对贝叶斯而言，只要放置黑球的数目足够多，对于白球绝对位置的归纳性推测就能无限逼近准确，因此，由果推因的归纳思维模式，不但有用，且并不如休谟所说，并非是非理性的。

主业是神学的贝叶斯不会想到，他自己都没有信心高调发表的概率理论（虽然按理说，他的结论与他的信仰并不违背，即神迹可以通过足够多的证据逆向证明），在他身后的数学界经历了争论与沉寂，最终在两个世纪之后，计算机甫一出现就获得重生，在人类越来越依赖并擅长处理大量数据的年代，由他命名的定理被广泛地用于医学诊断、机器学习、认知神经科学等尖端领域当中。这个原本粗略的理论雏形，经过众多天才的修正和推广，如今被看做一种主义，一种知识哲学，乃至于能够概括人类大脑认知工作的抽象模型。

《贝叶斯的博弈：数学、思维与人工智能》就是一本诠释贝叶斯定理“宇宙通用性”的著作。这本书的法语原版书名为《知识的公式：基于贝叶斯定理的统一性知识哲学》（La Formule du savoir : Une philosophie unifiée du savoir fondée sur le théorème de Bayes），作者是年轻的亚裔法国数学家黄黎原（Lê Nguyên HOANG），他毕业于巴黎综合理工学院，现在是瑞士洛桑联邦理工学院的研究人员。

黄黎原长期关注人工智能伦理问题，同时也是一个活跃且受欢迎的科普视频博主，他开设的法语视频频道“Sci－ence4All”涉及数学、计算机科学和物理学等多个领域。他在书中充满激情地盛赞了贝叶斯公式的实际有效性和哲学启发性，将之称之为“智慧方程”。这本书告诉我们，从贝叶斯公式引申出的贝叶斯方法和贝叶斯知识哲学，就像能够游遍天下的思维通票，我们甚至可以说，万物皆可“贝叶斯”。

贝叶斯公式用以描述在已知条件下某事件的发生概率，它的表达式是P（A|B）=P（A）P（B|A）/P（B）。我们可以把贝叶斯公式理解为这是一种基于现有的可靠证据（比如一些观察、数据、信息），对所持信念（比如一些假设、主张或论点）的有效性进行计算的方法，简单来讲就是，原本的信念+新证据=改进后的新信念。其中P代表概率，A表示原本的信念，B代表新证据或新条件。P（A）是A为真的概率，也被称为先验概率，是贝叶斯主义者引以为优势的“主观偏见”，但也是贝叶斯主义反对者用来攻击贝叶斯统计科学性的“弱点”所在；P（B）则是B为真的概率，也称为边缘概率或配分函数，是公式中最难计算的一项，P（B|A）表示A为真时B的概率，也被称作似然度或“需要一些想象力”的思想实验项。这个公式实际上是由法国数学家皮埃尔-西蒙·拉普拉斯（Pierre-Simon Laplace）重新发掘贝叶斯的概率思想得到的，他被认为是贝叶斯主义之父。也许像微积分公式的全称是“牛顿-莱布尼茨公式”一样，贝叶斯公式至少应被称为“贝叶斯-拉普拉斯公式”。

二

贝叶斯公式如何应用？以医学领域为例。医学检测通常以检测结果是阳性或阴性来初步断定受试者是否患病。在现实世界中，测试很少是完全可靠的，会出现假阳性和假阴性的问题。假设一个75岁的人对某项癌症进行检测，而这种癌症在75岁的发病率为1%，这时他的检测结果呈阳性，那么这个人可能会非常绝望，觉得自己一定要写遗嘱了。但是测试往往并不完全可靠，假设准确率有99%，也就是说100名患有癌症的人中有99人的检测结果呈阳性，而健康的100人中有99人的检测结果呈阴性。如果测试呈阳性，癌症的真正可能性有多大？贝叶斯定理告诉你，如果只检测一次，得到的结果为阳性，那么他患癌的概率只有50%。

贝叶斯公式是如何计算出50%这个相对乐观的概率的呢？先验概率P（A）即75岁癌症的发病率1%；P（B|A）即患有癌症的情况下检测呈阳性的概率99%。所以 P（A）乘以 P（B|A）等于0.01乘以0.99，即0.0099。分母P（B）是无论是否患有癌症，其检测结果呈阳性的概率，包括真阳性和假阳性，运算稍复杂，结果为0.0198。那么最终P（A|B）=P（A）P（B|A）/P（B）的结果，即检测呈阳性的同时患癌的概率P（A|B）为0.5，也就是50%。但是如果二次接受检测结果仍为阳性，再一次应用贝叶斯公式进行运算，那么患癌症的概率就会从50%提高到99%。我们看到，第一次的检测结果会影响到第二次的检测结果，这就说明迭代贝叶斯定理可以逐渐产生更为精确的信息，这同时也提示我们，任何医学诊断的做出都需要经过多次检测，以防误诊。

然而，就是这样一个拥有无限潜力的公式，也曾经历过被学术权威冷落排挤的跌宕历史。在统计学界，频率主义者曾把贝叶斯主义当做劲敌。诞生于1920年代的频率主义，其实就是我们在数学课本里学到的最经典的统计学框架。频率主义假设概率就是对频率的测量，强调当样本数量变得足够大时，误差就会逐渐消失。频率主义的核心是用p值来对某个理论模型的可信度进行统计检验，只有经历过足够多的新数据的检验，这个理论模型才科学。

频率主义当时在遗传学研究方面表现出色，更加确信客观性为唯一的金科玉律，对带入先验概率的贝叶斯主义非常反感，因为这就相当于在未经检测之前就将某个理论赋予了主观的置信度。他们将这种主观性（在书中被作者称之为是“偏见”）视为洪水猛兽，认为包含主观性的统计方法根本就不算是科学。

在埃贡·皮尔逊、罗纳德·费希尔等频率主义统计学家主导的整个20世纪中期，“主观”、“先验”和“贝叶斯”等术语都被逐出了统计学系。曾有医学科学家用贝叶斯定理证明了烟草在导致肺癌方面的危害，但是接受了烟草行业资助的频率主义大佬费希尔，则指责这位科学家在研究中缺少频率主义方法要求的对照组和重复实验，继而颠倒因与果的顺序，提出潜在的肺癌会导致人倾向于吸烟。

然而频率主义也有无法回避的弱点。首先p值是可以通过大量实验来操控的，同时，对于很多小概率事件的预测，比如地震，我们能够获得的测量数据和实验机会是很少的。而贝叶斯统计的神奇之处，正是在于可以在数据稀少的情况下去靠近准确值。因此，在信息更难收集和处理的前计算机时代，贝叶斯仍然是人们试图把握稀有事件的不确定性时所能依赖的工具。除了通过对单词的使用偏好确定《联邦党人文集》匿名作者身份，以及在茫茫大西洋中寻找天蝎号核潜艇的位置这两个广为人知的事例之外，贝叶斯计算还用来估计过核电站发生重大事故的概率，预测火箭发射出现重大事故的概率等等。

贝叶斯主义是关于概率的哲学，它重新发问，概率是什么？频率主义认为的概率需要依靠事件重复发生的频率来计算。但是当重复量，也就是数据不足时，我们很难根据之前的规律准确预测未来。比如把之前事件的发生看做一组数列“1，2，4，8，16”，那么在简单的推理下，下一个出现的事件应该是32。但是当数字代表圆被圆周上2、3、4、5个点所连成的若干直线分成的份数时，当点数为6时，下一个出现的份数，也就是事件，应该是31，而不是32。

三

我们确信自己通晓的规律将在哪一点上的预测突然告败？大多数情况下人们不愿意面对这个问题。人类对确定性和可控性的渴望写在基因里。前科学时代的巫术就是对确定性追求的极致。比如按照阿赞德人前现代时期的生活逻辑，是把小概率发生的厄运归因于仇人故意施加的巫术，也就是一个可以追溯的确定性外因。而科学，尤其是概率认知，相对于巫术最大的不同，就是在接受不确定性存在的前提下，逐渐掌握一套与不确定性相处的动态方法。一个良好的预测，应能计算上述数列中下一项的所有候选数值的出现概率，而这里的概率应该是对这些可能性所赋予的置信度。这就是贝叶斯公式试图达成的效果。

书中强调，我们探索世界、积累知识的思维模式，很大程度上是可以被贝叶斯定理所概括的。比如看到的乌鸦都是黑的，便推论世界上所有乌鸦都是黑的，提出假设并根据观察结果修正这些假设，这种修正或者是提高这个推论正确的概率，或者是削减它。贝叶斯之父拉普拉斯曾说，概率论本质上不过是化为计算的常识。它以准确的方式评价那些正常的头脑通过某种直觉领会到东西，而这种直觉领会经常不被察觉。

说到底，贝叶斯公式指向了一种知识哲学，作者甚至认为：“理性”本质上可以归结于贝叶斯公式的应用，以至于可以将信奉这种哲学称为贝叶斯主义。贝叶斯主义就是假设“现实”的所有模型、理论或概念都只不过是某种信念、虚构或诗歌，尤其要指出的是，“所有模型都是错的”；然后，实际数据应该迫使我们调整赋予不同模型的重要性，即置信度；关键在于，调整这些置信度的方式应该尽可能严谨地遵循贝叶斯公式。贝叶斯比波普尔的可证伪理论，更能准确地定义科学。

贝叶斯在今天显得尤其重要，由于计算机性能的提高，数据收集及处理技术已经远远超过人脑，商业、政策等领域无不更加依赖大数据分析的结果，“技术的演变让我们重新审视贝叶斯公式以及它在知识大厦中的位置”。

贝叶斯计算特别有益于在对海量数据进行分析中的删繁就简，抓大放小。从天体物理学、航空航天，到基因组测序和蛋白质研究；从医学领域中的癌症溯因、病毒检测，到计算机科学中的图像识别、信息加密；从商业领域的保险、广告、物流，到社会政治领域的选举和资源分配等等。贝叶斯的应用无所不在。

在纯粹的数学框架和尖端科技的应用领域之外，贝叶斯哲学非常适合作为个人生活在当下这个快速更迭时代的思维指南。贝叶斯哲学反映了人类对不确定性的焦虑，也为应对不确性提供了一种方法，即接纳不确定性，在防止过度自信的前提下大胆进行直觉性假设，同时也不忘用新证据来对自己的假设进行不断更新，让自己处在追寻答案的过程中。正如诺贝尔物理学奖获得者费曼曾说：“我能带着疑问、不确定和无知活着……我有些近似的答案，对于各种问题也有些确定程度或高或低的合理信念，但我不会绝对确信任何事情。”

贝叶斯也并非绝无缺陷。它虽然给主观性一席之地，但如果主观的出发点是伪科学或谣言，那么后续则有可能引用可疑的证据来支持乃至强化这个可疑的信念。但是贝叶斯主义最强大的地方是在于它在哲学层面上的包容性，强调“互不相容的模型组成的森林比其中每一棵树都要睿智。”

书中提到，“根据贝叶斯定理，任何理论都不完美。取而代之的是一项未尽的工作，它永远处于推敲与测试之中。”贝叶斯状态就是一种平衡于确信与怀疑之间的状态，在这种状态下，人们不会轻易确信谣言，可以对坏运气感到释怀，也可以勇敢向不公正对待提出抗辩。贝叶斯公式也许并不完美，但贝叶斯主义，也许正是最适宜这个不确定性时代的知识哲学。

本文来自微信公众号：经济观察网（ID：eeojjgcw），作者：苏婉