本文来自微信公众号:普林斯顿读书汇(ID:PrincetonUP_CHINA),作者:PUP China,原文标题:《解码“暗数据”:大数据时代,如何用缺失的数据正确决策?》,头图来自:视觉中国


在大数据时代,一种常见的“傲慢”是,我们已经拥有了海量的数据,足以做出正确的决策。事实上,正如宇宙的大部分由“暗物质”组成,信息的宇宙也充满了“暗数据”陷阱:如果我们对缺失的信息视而不见,就可能陷入谬误而不自知。


那么,如何控制“暗数据”带来的影响?如何在信息缺失的世界中做出理性决策?英国皇家统计学会前主席 David J. Hand 在Dark Data: Why What You Don't Know Matters中研究了大量现实生活中的例子,从挑战者号航天飞机爆炸到复杂的金融欺诈,对暗数据的类型和可能出现的情况进行了分类,并给出了如何识别、控制、甚至利用暗数据的建议。



未知的数据


暗数据是人们缺失的数据,也可能是人们认为自己拥有、盼望拥有、或者但愿拥有的数据。但归根结底,不管人们是否意识到了暗数据,暗数据都是人们没有的数据。暗数据现象的存在——这些在我们尝试理解世界时缺失的数据,会导致我们误解现实,误判世界的运行方式,做出糟糕的预测,或是犯错,就像“挑战者”号的例子所揭示的一样。


医疗诊断是一个暗数据现象多发的领域。相关诊断标准以及阈值并非一以贯之,而是随着时间、以及人们对相关病理的理解加深而变化。这些变化可以揭示以往隐藏的、或者说并未发现的疾病机理。


例如,根据Huang等人的研究,全世界大约有三分之一的糖尿病病例未得到诊断,这项研究将之归因于传统血糖测试的缺陷。同样,自闭症最初于1980年被纳入《精神障碍诊断与统计手册》(Diagnostic andStatistical Manual of Mental Disorders),而自闭症的诊断定义在1987年和1994年发生了变化,更多的人被纳入自闭症的诊断范围。


当然,由于定义的改变导致病例数的增加或减少,这种现象并非医学界独有。在其他领域,比如市场中,对于“失业”的不同定义会导致不同的统计结果。再比如,在撰写此文时,全世界都在面对的新冠肺炎疫情,在这场疫情应对中,人们也面临着各种暗数据,比如有关无症状患者的数据。


统计学家非常熟悉一些特定种类的暗数据。一个典型的例子是,问卷调查的受访者拒绝回答某些问题。在这种情况下,不回应其实也暗含着特定的信息。这种现象较为普遍地出现在选举前的民意调查中,囿于社会压力(比如政治正确),人们可能不愿意袒露自己的真实想法。


不回应是一个全球性的问题,而这在英国劳动力调查(UK LabourForce Survey)中尤其明显。在过去十年中,该调查的整体回应率从55.5%下降到38.6%。从几十年前开始,人们就尝试用各种方法来解决不回应的问题,虽然统计学家们做出了许多尝试,但问题并没有得到根本性解决,统计学家无法创造奇迹。暗数据持续影响着人们进行推断,并影响着结论的准确性。


发现“暗数据”


和问卷调查中暗数据一样,其他地方的暗数据无处不在。


以数据缺失或者不可测量形式出现的暗数据尤其有害。设想一下,如果没有性别数据,测量歧视是多么困难。


数据收集方法上的隐蔽改变,也可能导致以前可见的数据变得不可见,或者以前不可见的数据可见。Moz,一家搜索引擎优化公司维护着一个网页。这个网页上记录了谷歌搜索算法多年来所有的更新和变化。根据Moz的说法,“在2018年,谷歌报告了3234次更新——平均每天近9次,这是2009年更新频次的8倍多。虽然这些变化的程度大多很小,但谷歌偶尔也会推出重大的算法更新……这会对搜索结果产生重大的影响。”


幸存者偏差(survivorbias)是一些领域中比较常见的暗数据现象。例如,投资基金业绩的直接排名,只包括那些在评估期间幸存下来的基金。而那些已经淘汰了的基金就成为了暗数据。因为一般来说,退出的那些是表现最差的基金。除非有意识地考虑到这一点,否则业绩的总体衡量结果将会向上偏移。这种现象可能会很明显。在投资管理公司Vanguard的一项研究中,只有超过一半的基金在15年的研究期内存活下来。而在临床试验中,类似的现象也可能出现。


即便人们认为自己的数据中不存在选择性偏误(selectiondistortions),暗数据也可能以其他的形式出现并掩盖真相。除开简单的计数,没有任何测量是完全精确的——即便是可以精确到小数点后无数位。这意味着人们的观察结果必然只是近似的;分析的数值并不是确定值,而只是估计值。而这种形式的暗数据——通过舍入(rounding)简化或估计数值——会导致错误的结论,因为它会使汇总的统计数据产生偏差,或者会导致错误的分类。


与舍入相关的一个现象是截断(truncation),代表着人们只知道真实值与某个阈值的相对大小(大于或小于)。例如,水银温度计不会记录低于水银冰点(freezingpoint)的数值;体重计不会记录高于其上限的数值。


我的书给出了15种类型的暗数据,包括上文描述的这些,以及其他的一些类型:比如整体变量的缺失(missingentire variables),以及由于时间变化造成的扭曲(distortions)。更有甚者,不同类型的暗数据并不互斥,而可以同时出现,甚至形成合力,干扰人们的观察和判断。我认为,这些你不知道的数据(暗数据),至少和你所知道的数据一样重要,如果你希望得出有效的结论的话。


处理暗数据的常见方法


我写这本书主要是为了提高人们对暗数据的危险的认识。人们在进行分析时,往往没有充分考虑到数据的来源和出处。比如,机器学习(MachineLearning)算法虽然总会给出一个输出,但输入数据很可能是片面的,或者带有误导性的。急于得出结论,可能反而适得其反:对数据的不严谨考量,会在之后浪费更多的时间。


但前景并不都是暗淡的,处理暗数据的工具已经开发出来了。


第一步是检测暗数据——或者说,检测显示出数据缺口的窗口。有时候这很容易,比如调查问卷中的空白回答,就是一个窗口。当然,有时候发现窗口很困难。


然后,一旦人们意识到可能存在数据的缺失,处理暗数据的关键策略,就是利用这种认知,即“你知道自己不知道”的认知(use what you do know about what you don’t know)


许多相关的简单方法已经被提出,甚至被集成到统计软件包中。它们包括完整的案例、记录于单个变量上的所有值,以及替换观测值的平均值。不幸的事,这些方法并不总是尽如人意。就暗数据而言,使用这些简单甚至不言自明的方法,甚至可能会让人们陷入更大的麻烦中参见“用平均值代替缺失值的问题” “The Problemwith Substituting Averages for Missing Values” 章节)


更有效的方法扎根于理解和假设——理解产生暗数据的机制的性质,用更复杂的方法,基于对观测值和暗数据之间的关系进行建模,从而产生诸如多重插补(multipleimputation)和期望值最大化算法(theexpectation-maximization algorithm)等工具。但正如我之前所言,统计学家无法创造奇迹。因此很多时候我们必须使用假设的方法,来理解为什么数据是黑暗的。


利用“暗数据”


文行至此,我已经描述了那些偶然出现(而非人为制造)的暗数据。但有时候,人们会故意制造暗数据(比如欺诈者)。而其他普通人、比如像此刻正在阅读的你一样,你也会使用暗数据,例如密码,来保护数据免受窥探。这代表了对暗数据的积极使用。


对暗数据更复杂的积极应用,也发生在我称之为“对无知的战略应用”中(the strategic application ofignorance)


比如在临床试验中设置实验组和对照组,向患者们隐藏真正的治疗情况。再比如用随机回应的方法(randomizedresponse methods)提取敏感信息。当我们进行模拟时,我们生成了可能是但不是的数据(datawhich might have been)。当我们在分类算法(classification algorithms)中使用提升方法(boosting)时,我们可以创建误分类案例(misclassifiedcases)的虚拟副本(imaginarycopies)。我们对数据添加了一个轻微的扰动来其正则化(regularize),这时我们也就生成了新的数据来使模型有更好的鲁棒性(robustness)。当我们写下贝叶斯先验(Bayesian prior)时,我们会联想到过去的可能数据……


回到本文开篇的故事,“挑战者”灾难。一个统计学家看到七个数据点的原始图表时,应该要产生怀疑。该图似乎表明,每次发射时,至少有一个密封存在问题:五个单密封问题,一个双密封问题,一个三密封问题。没有不存在问题的发射。这在本质上令人惊讶——如果密封问题是独立的,那么它们的出现也是偶然的,我们会期望存在没有密封问题的发射出现。带有这种意识的怀疑,至少会带来对航天飞机的进一步调查。然后人们会发现,以前没有问题的发射数据,都从图表中被删除了。而恰恰是这些被删除的数据,会揭示暗数据的存在。


本文来自微信公众号:普林斯顿读书汇(ID:PrincetonUP_CHINA),作者:PUP China