本文来自微信公众号:数据杂志(ID:DataMagazine),作者:数字观察员,题图来自:《老友记》剧照
Uber(优步,一家美国硅谷科技公司开发的打车APP,类似我们的“滴滴”),官网曾发布一篇名为“荣耀之旅(Rides of Glory,RoG)”的推文。
文中写到,“我们知道,我们(优步)不是你此生唯一的热爱,我们也知道,你们会在什么地方寻找“爱” (we know we're not the only ones in your life and we know that you sometimes look for love elsewhere)。”
什么意思呢?
简单说,就是Uber利用大数据分析,推算出用户经常在哪里一夜情。
他们筛选出在晚上10点到凌晨4点之间的用车服务,并且这些客户会在四到六小时之后,在距离上一次下车地点大约1/10英里(约160米)以内的地方再次叫车。
根据初筛数据描述性分析之后,Uber推断出那些发生一夜情的时间和地点,并将这些地点在纽约(NYC)、旧金山(SF)、波士顿(Boston)以及其它美国城市的地图上进行标注,得出一夜情频繁的高发区。
结果发现,波士顿位居美国“一夜情”榜首,而纽约人则显得相对“保守”,“一夜情”的发生率是波士顿的1/5。
在时间节点上,一夜情的高频发段是在周五和周六晚上;
如果伴侣频繁在这个时间段称自己工作忙在加班,那……
Uber此举确实引发了很多关注,但同时也因严重侵犯了用户隐私,遭到客户和媒体的斥责投诉及相关部门的审查严办。
抗议以后,Uber迅速删除了这篇博文。
“每个硬币都有两面”,大数据技术一方面不断地协助产品优化用户体验,另一方面却在网民的每一个指令间深挖用户习惯与隐私。
怎样观察数据的“两面”,而不是被其中一面左右,愚人节(今天),一起来看“数据”是如何“骗人”的。
一、选择误差,n≠ALL(所有)
波士顿市政府推荐市民使用一款手机应用软件:“颠簸的街道(Street Bump)”。
这个应用程序,可利用智能手机中内置的加速度传感器,来检查出街道上的坑洼之处。在路面平稳的地方,传感器加速度值小,而在坑坑洼洼的地方,传感器加速度值就大。
市民只要下载并打开应用程序,开着车、带着手机,人人皆是义务兼职的市政工作者,而真正的相关工作人员只需打开电脑端软件,就能一目了然的看到哪些道路损坏严重,哪里需要维修。
理想是丰满的,而现实是存在偏差的。
软件在设计之初遗漏了一些细节,造成了选择误差,比如:
用户年龄结构偏年轻化,因为使用智能手机的中青年较多,而拥有一辆车的年轻人却却较少
有多少人愿意为了标记城市坑洼地在开车前习惯性打开Street Bump软件
那些没有完善市政服务的偏僻之地反而是“颠簸的街道”最密集的地方,而那里的人们有多少同时拥有智能手机和私家车
样本n≠ALL(所有)。有些数据只是“有些”数据,更适合在限定条件下做分析,不适合以偏概全。
讲个笑话:
Facebook分析恐怖份子的网络行动数据,与所有美国人的网络行动数据做对比,想以此筛选定位出恐怖份子,结果发现美国遍地是恐怖份子。
二、偏差
二战时,英国发现从战场回来的飞机,机身上的弹孔比引擎和油箱上的弹孔要多得多。因此,很多人主张要在机身上加防护装甲。
事实上,能飞回来的都是“幸存者”,那些在引擎和油箱上中弹的飞机已经回不来了。
所以,更应该在引擎和油箱上装防护装甲。
像这样,眼中只有“幸存者”数据而产生的统计偏差,称为幸存者偏差。
“举个栗子”:
比尔·盖茨(微软创始人)、迈克尔·戴尔(戴尔创始人)、扎克伯格(Facebook创始人)、都是大学辍学创业,因此很多学生也吵着要辍学创业。
事实上,“他们”只是“幸存者”。而只看到了他们成功创业的案例样本即是幸存者偏差。
愚人节,数字观察员祝大家大智若愚……
本文来自微信公众号:数据杂志(ID:DataMagazine),作者:数字观察员