本文来自微信公众号:简写2019(ID:Refind18),作者:余子申,原文标题:《另类的数据》,题图来自:视觉中国


特斯拉的故事


想要知道特斯拉汽车的销量数据,在今天并不是一件难事,国内的汽车流通协会会定期发布各类车型的销售数据,特斯拉的财报上也会公布交付数据。


但是这些历史统计数据,对于千方百计争夺时间的金融机构来说,却过于滞后了。要知道,一些高频交易公司愿意花费大价钱搭建一条光纤专线,只是为了获得毫秒级的信息差优势。


一家名为Thasos的数据供应商另辟蹊径,他们“监控”了特斯拉位于Fremont的工厂。


公开资料显示:该工厂占地370英亩,约为1.5平方公里;2021年平均每周生产 8550 辆汽车,据称是全美汽车生产效率最高的工厂。


Thasos围绕Fremont厂区建立了一个电子围栏,采集工厂范围内智能手机发出的地理位置信号。通过信号数据量计算,2018年6月到10月,特斯拉工厂夜间加班时长增长了30%。



这些地理位置数据,据《华尔街日报》报道源自1000款左右的App,其中大部分都是需要准确获取地理位置信息的应用,如天气类、导航类的App。


在这篇Alternative Data Is Valued on Wall Street文章中,《华尔街日报》称Thasos是Alternative Data的“先锋”。


另类数据


Alternative Data中文译作“另类数据”。一家自称另类数据社区的网站,将“另类定义”成:不用传统数据源,对公司和投资进行评估的数据,可以提供更准确、更快速、更细粒度的评估和洞察。


按数据来源划分,另类数据包含:App使用、信用卡、电子账单、地理位置、公共数据、网络舆情和流量数据等。


因此,很多App监控平台都位列另类数据供应商之中,如国内同学熟悉的极光、Quest Mobile、App Annie等。


但是我无法认同这个定义。既然要对一类事物下定义,必须清晰、明确和排他,不能像做大杂烩一样,什么都往里面装。


“非传统数据源”,含义过于宽泛且模糊:什么样的数据叫“传统”?是按照数据收集方式出现的时间远近,还是按照普及程度的高低来界定呢?如果按前者,多久远的数据采集方式可以称为“传统”呢?


我更倾向于将其界定为:为达成某个目标,在其实现过程中生产出来的数据。


比如,为了达成汽车售卖,汽车生产(特斯拉工厂的地理围栏数据)、流通(货车/货轮的卫星图像数据)、终端售卖(4S店的客流量数据)等这些过程数据,都可以来监控、预测汽车销量。


以上这几个环节的数据生产和收集,贯穿在整个售卖过程中,可以实现更早、更及时的统计和分析。相比基于事后统计得来的汽车销量数据,过程数据在时效性和准确度上显然更有保证。


在这个意义上,alternative data也可以翻译作“可替代的数据”:以过程数据,替代结果数据。


思路的转变


过程数据,对于互联网人来说并不陌生。


用户转化漏斗分析,也是基于过程数据的分析一种。如果要了解电商网站上一件衣服的成交率为什么偏低,我们可以按网站UV、搜索率、点击率、加购物车率、支付率等用户路径节点,逐一找出转化率偏低的环节,定位可能的问题。


在电商的案例当中,最终的成交率偏低是一个结果,但是我们并不知道问题出在哪。很自然地,我们想到通过回溯用户从进入网址到购买的过程,因为这些过程是达成结果所必需的。


类似地,当结果无法被准确观测,或者因为数据迟滞无法及时获取,若我们可以找到能够影响结果的关键行为,观察这个(些)关键行为,可能是比等待结果数据更有效的替代。


最显著的,行为数据在时效性上有无可比拟的巨大优势:因为行为导致了结果,从时间先后看,行为数据可以更早地被观测到。


至少在数据采集层面而言,时间就是金钱,落后就要挨打的定律有效。越是及早掌握数据,就获取了决策和政策制定的主动权和先发优势。


譬如我国对农作物产量预估,就会使用卫星遥感+抽样调查+气象模型数据来进行预测,而不是等农作物收割后等待各地上报。若真发生自然灾害导致农作物减产,再制定相应的政策,可能饥荒、粮价暴涨早已经发生。


在一些场景下,过程数据可能比结果数据更好统计和观察。


经济发展水平数据价值重要性不言而喻:GDP、CPI、PPI这些反映经济运行状况的数据,一经发布都会引发市场主体的反应和预期,进而影响股市震荡和经济。但是这些结果向的指标,以抽样调查为主,耗费时间较长、成本高,有时难以反映全貌。


2019年中国CPI上涨,但是任泽平认为“拿掉猪以后都是通缩”,就是因为猪肉消费在CPI统计的一篮子商品和服务中,占比2.5~3.5%,权重较高;猪肉价格彼时又受非洲猪瘟和环保政策等影响被拉升,进而带动CPI指数上扬。


为了提升时效性,以及减少因统计口径、统计方式带来的误差,各种新的指标和数据采集方式被发明出来。


其中一类路径的基本思路和原理,即以经济发展过程数据,来补充和修正经济发展结果数据。


国泰君安在2020年4月份发布了针对建材行业的《空中调研长三角,需求领先或进一步强劲》系列报告,除了分析政策和重点基建项目之外,还使用了长三角重点工程项目卫星影像数据和二氧化氮浓度数据来佐证长三角基建和地产项目已经复工。


通过卫星遥感图像,发现“杭州城站地铁站、笕桥镇新城开发、亚运会项目均显示有较明显的施工进展;常熟机场候机楼等配套设施也已正处于建设当中。”



二氧化氮浓度数据则可以交叉验证,这里直接引用报告的原文:


大气中二氧化氮浓度是化石燃料和生物质燃烧排放的一个指标……它可以作为衡量工业和交通运输活动变化的替代指标,并且NO2在对流层存留时间较短、转化较快,一般仅为数小时至不超过一天,故NO2通常在其排放源附近表现为高浓度。 


(2020年)2月份受疫情影响,工业生产基本全部停滞,二氧化氮浓度大幅下降,疫情期间平均浓度仅为0.4037,相比疫情前的平均浓度,下滑51.35%;2020年3月18日后,随着企业逐步复工复产,二氧化氮浓度明显提升,截至2020年4月1日,二氧化氮浓度基本回到疫情前相当水平,最高浓度甚至超过疫情前的最高浓度水平,这代表目前的工业活动明显加强。


空中调研长三角,需求领先或进一步强劲——另类视角看需求专题之二


微众银行使用卫星图像,来分析特斯拉工厂和张江高新园区内停车场车辆数,以及主要港口的船舶活跃情况,来评估疫情之后经济恢复状况。


类似,招银理财用夜光数据,来监测工厂开工:


除厂区散发的灯光越强外,人员和物流状况也会随着开工活跃程度的提升而增加。该公司将143个工业园区卫星夜光数据汇总,构建了从2014年到现在的月度全国工业开工指数。


21世纪经济报道. “上天入地”找数据:大资管用卫星研究宏观经济,效果如何?


尽管卫星数据结合机器学习技术,在经济领域发挥愈加重要作用,但不要误解——另类数据不仅仅只有卫星图像数据。


大约10年以前,有很多讨论克强指数的文章,截取了《界面新闻》对该指数由来和内涵的解释。



显然,铁路货运、用电和贷款都是发展经济的要素,这些要素构成了发展经济的过程,而这3个数据又更容易被量化和获取。


过程数据何以反映结果


值得注意的是:过程指标并不必然能够量化结果指标。换句话说:有时测量过程指标,并不能直接获取结果指标。


显然,二氧化氮浓度,与GDP之间,并没有一个直接换算的公式;工厂灯光强度,与工业园区的总产值之间,也不能直接划上等号。


农作物单产依然需要使用农业气象模型,而非依靠遥感数据,直接复制一篇论文中的原文:


作物产量遥感预测模型的缺乏也正是遥感估产中最薄弱的环节。所需的遥感参数如反照率、植被指数与作物产量间的关系是间接的而不是直接的,有的遥感参数如叶面积指数(LAI)、吸收性光合有效辐射分量(FAPAR)虽然与作物产量有更直接的关系, 但由于地球表面的异质性,遥感提取时存在很大的不确定性,并受时间、区域特征、作物类型特征以及波段宽度、大气、土壤、地形等因素的影响。


吴炳方.中国农情遥感速报系统


考虑到这是一篇发表于2004年的论文,近20年过去了,期间卫星遥感技术、机器学习算法和算力都有了显著提升,遥感数据直接预测产量,是否可实现就不得而知了,懂行的朋友可以继续补充。


很多时候,通常以指数变化的形式,来对过程数据进行解读,特别是结果受到多个过程影响的场景下。我们可以通过过程数据的变化趋势和强度,来预测结果数据的变化趋势和强度。


当然,也有尝试拟合过程数据和结果数据的,如用夜光亮度来预测县域GDP;世界银行则用卫星图像中建筑密度、汽车数量等数据,来量化斯里兰卡的贫民比例。


知道了,然后呢?


当我第一次搜索alternative data的时候,我确实被震惊到了。


另类数据本身,可能确实无法影响我们现在的工作和生活,但是另类数据案例中所体现的思考方式,着实可以吸引我。


另类代表着一种灵活的思考方式。我们不用拘泥于传统的结果向统计数据,格局打开之后,一切难题迎刃而解。这种感觉,就如同看到一个武术高手,用了更加简洁的方式,将复杂的武术绝学娓娓道来,令自己豁然开朗。


Orbital Insights用卫星图像来监控中国的原油储备,借助的是影子:储油罐顶部有一个可以浮动的盖子,随着其中原油的多少而起伏。通过卫星图像测量盖子投射到油罐上的影子大小,可以得到储油罐中原油的高度,进而估算原油储备。



随着各种新技术的使用,相信还会有更多另类数据得到开发和使用,到时请不要惊讶于脑洞和创造力。


本文来自微信公众号:简写2019(ID:Refind18),作者:余子申