本文来自微信公众号:集智俱乐部(ID:swarma_org),作者:Leo,审校:刘培源、陈曦 ,原文标题:《如何用网络科学预测创业公司未来成败?》,头图来源:IC photo


科技革命引发创业浪潮,网络视角窥探汹涌暗流。对于企业发展预测,目前多数研究都基于历史商业活动数据,而创业公司因为历史短暂、商业模式不稳定,成为预测的难点。2020年一项发表在Scientific Reports的研究另辟蹊径,结合员工流动等数据构建初创企业网络,从中预判企业的发展潜力。该研究方法可以为风险投资提供补充性建议。


论文题目:Predicting success in the worldwide start-up network


论文地址:https://www.nature.com/articles/s41598-019-57209-w


随着近年经济增长,社会对创业公司的关注度也与日俱增:政策的决策者致力于如何为创业公司和创业者提供政策上的优惠,并且投资者也期望从独角兽类的明星创业公司中获得高额的回报。


创业公司能带来这样丰厚的回报,通常与商业变革和技术跨越式发展紧密相关。大型的公司也依靠创新型的创业企业,通过与中小企业的合作实现技术上的创新,使得自身的公司跟上新的步伐。毫无疑问的是,这种技术密集型的创新公司会对经济与社会带来极大的正面影响。


然而,创业公司也面临着极大的不确定性,投入的研发成本是极其巨大的沉没成本,并且也面临着新的社会责任。因此,预测创业公司的长期变现极为困难,在未来经济上的效益也难以估计。


事实上,传统的基于历史商业活动数据(销售额、生产能力、市场规模等)的分析模型并不适用于创业公司。主要原因就是,创业公司历史短暂,且商业模式并不稳定,无法提供有效的数据来进行分析。投资人和风投机构对初创公司的判断主要来自对创业者个人的能力、资历的判断。这也就是所谓的“投资就是投人”。这样的判断方式和评价标准也使得早期投资成为了一项极为主观的任务,也使得投资领域不可避免地充满了偏见和不确定性。


出于这些原因,伦敦大学玛丽皇后学院的Moreno Bonaventura、Vito Latora等人利用大规模的创业公司数据,提出了一个由数字驱动的全新框架——构建并分析了初创企业之间的时变全球职业关系网络。这使得投资人和政策制定者能够对创业公司的长期潜力进行更客观的评估并进行相应的干预措施。


全球创业公司网络


研究者利用了由 crunchbase提供的1990年~2015年(共26年)期间全世界的创业公司数据来开展他们的研究。研究者主要使用了公司和人员两方面的数据。其中人员包括:公司创始人、公司雇员、顾问、投资人、和董事会成员。


在一家公司成立时,会有其他公司、组织的人员加入新公司,为新的公司注入新的血液——知识通过员工的工作变动带入了新的公司。由此,如果把公司视为节点,人员的流动表示节点之间的连边。我们就能绘制出全世界范围内公司—人员的网络图像——World Wide Start-up (WWS)。(数据源:www.crunchbase.com)


爱彼迎WWS网络示例     
爱彼迎WWS网络示例     


以爱彼迎(Airbnb)为中心的网络示例


上图表示的是为房东和租客提供房屋租赁服务的初创公司,爱彼迎(Airbnb)的网络图像。爱彼迎在2013年聘请了Google原高级产品经理Thomas Arend博士。


从图中我们可以看到,他曾供职于Google、Twitter、Mozilla等公司也也就意味着他会把来自其他公司的知识、经验带入新的公司——在几家公司之间建立起了一条潜在的知识流动渠道。这样也会使得在WWS图像中,Airbnb缩短了与其他公司的距离,或者说,被其他公司所环绕、与其他公司的关系更为紧凑——更接近网络图像的“中心”。这样的位置变化,会加速初创公司获得新的知识、带来新的商业机会。


最大连通分量LCC


员工的工作变动,能拉进一家创业公司和其他公司的关系。当我们从时间变化的角度来看待这个问题就是:随着时间推移,一家公司在WWS网络中的位置从边缘,逐步走向网络的中心地位。


在该项研究中,研究者把连边最多的一家公司定义为最大连通分量(largest connected component,LCC)。在WWS网络中,LCC处于网络的中心位置。


随时间推移,全球范围内最大 LCC 的分布情况。(蓝色地区)
随时间推移,全球范围内最大 LCC 的分布情况。(蓝色地区)


创业公司(黑色)和连边(灰色)的增长数量;节点被包含进 LCC 的比例(蓝色)。
创业公司(黑色)和连边(灰色)的增长数量;节点被包含进 LCC 的比例(蓝色)。


在上面的统计图中我们能过发现,在过去的26年内,WWS网络的节点和连边成指数级增长。在该项研究中,WWS由分布在全球117个国家的41830家企业组成,共有 135099 条连边。并且LCC已经几乎可以包含80%的公司节点。


在人类的社交网络中有六度分割理论(Six Degrees of Separation):任何两个陌生人之间的间隔不会超过六个人。或者说,人和人之间的分离度(degrees of separation)是6,而在WWS网络中,公司之间的平均分离度是4.74。


在本研究中,研究者把公司按照中心性进行了排名,LCC 在这样的排名中,自然位于第一位。(中心性是指到其他节点的平均距离,平均距离越短说明其位于更加“中正”的位置。)


中心节点(公司)排名的变化图像
中心节点(公司)排名的变化图像


从上面的图像中,我们可以看出苹果公司整体排名都很好;微软层在早期呈现出了颓势;Facebook、Uber、Airbnb这些公司从创业初期就呈现出了迅猛的上升势态。这或许和近些年风投行业活动的增多相关。


初创公司早期评估


进一步的,研究者开始利用他们的模型去预测创业公司的长期表现。为了进行这方面的研究,研究者收集了融资、收购和IPO的数据,由此研究者评估的公司主要是那些进行公开交易且尚未完成融资、尚未被收购和未上市的公司。在这个涵盖了26年数据的数据集中,共有5305家公司进行了公开交易。同时,研究者保证自己的模型不会受到资本市场的影响。考虑到早期风投的平均成功率仅为 10%~15%。故此,预测这些未来的潜在交易是一件极有挑战性的工作。


为了评估一家公司的长期表现,研究者设定了一个时间跨度为7年的时间窗口,并利用WWS排名 Top20的公司,由此来比对这些公司的真实经济情况。


在本研究中,研究者设定了三种创业成功标准:收购其他公司;被其他公司收购;IPO。


评价模型预测效果的成功率就表示为:(Top 20 公司中真实成功的公司数)/(Top 榜单长度,即 20)。值得注意的是,这里的预测成功指的是这家公司进入了“Top 榜单”,这一点与上文的“创业成功标准”有所区别。并且,我们从后文的分析中也可看出,创业确实是“九死一生”。


榜单排名对企业的区分能力


为了能进一步对比成功企业和不成功企业在“Top 榜单”上的表现差异,研究者做了如下分析:首先,研究者按月份统计一次榜单排名,并分别累计统计成功企业和不成功企业落入各个排位的百分比,再经过左边放缩后,得到下图:


     

排名位置(向心程度)分布图象,横坐标是经过放缩的排名,越靠近左侧排名越靠前。为了绘制直方图,设置 bin = 0.005。纵坐标表示每个 bin 中公司数量的占比。


通过上图我们可以很明显的看到,在排名榜单的头部,成功的企业和不成功的企业存在明显的排位差异。由此我们就能利用“Top 榜单”筛选出可能成功的企业。预测哪些公司更有可能获得成功。


利用公司排名预测成功企业


预测排名(蓝色实线)的成功率和随机排位(黑色实线)的比对图像。其中上部的小图表示的是显著性指标 p 值。灰色阴影部分表示的是结果显著(p值<0.05)的部分。
预测排名(蓝色实线)的成功率和随机排位(黑色实线)的比对图像。其中上部的小图表示的是显著性指标 p 值。灰色阴影部分表示的是结果显著(p值<0.05)的部分。


通过上图结果表明,利用本文给出的方法进行分析,并挑选出的 Top 20 的初创公司总体表现要好于随机的选择。可以看出,从2001年年中到2004年年中,该模型的预测结果都好于随机结果,并且结果显著。不过从此后到金融危机发生时,模型的表现都在减退,且结果并不显著。在 2000 初期的互联网泡沫和 2008 年金融危机中,模型预测的结果仅以及其微弱的优势优于随机选择的结果。在金融危机过后,模型预测的能力得以恢复。


此外,研究者也对其他长度的公司排名名单(如Tpo 50)和其他长度的时间窗口(6~8 年)进行了对比分析,得出的结果与上图类似。


此外研究者也估计出了他们这个模型的总体性能。


模型对 Top 20、50、100 公司前景预测的总体表现,黑色误差线表示随机模型的预测能力。
模型对 Top 20、50、100 公司前景预测的总体表现,黑色误差线表示随机模型的预测能力。


从上图我们可以看到从 2000 年至 2009 的该模型对 Top 20 的预测成功率约为 30%。并且我们会发现,一个随机选择的模型的预测能力和传统的投资机构的投资成功率几乎是接近的。


模型评估能力的稳定性分析


为保障该研究模型的稳定性,研究者也比较了亲近中心性(Closeness Centrality)、中介中心性(Between's centrality)、度数中心性(Degree Centrality)三者的相关性,结果如下图所示:


中心性度量指标的相关性,从左到右表示了亲近中心性-中介中心性(CB, 图a)、中介中心性-度数中心性(BD,图b)、亲近中心性-度数中心性(CD,图c)的皮尔森相关系数。
中心性度量指标的相关性,从左到右表示了亲近中心性-中介中心性(CB, 图a)、中介中心性-度数中心性(BD,图b)、亲近中心性-度数中心性(CD,图c)的皮尔森相关系数。


从上图我们可以看出,不同度量指标之间存在着极强的相关性,这一点也表明不同的评价指标不会影响模型的稳定性。同样,在研究者控制了其他影响因素(风投、员工数量、公司地理位置);调整了不同的时间窗口(6~8 年)后确定该模型的预测效果是稳定的。


总结


由于缺乏足够的数据和主观判断的偏见,对创业公司的能力评估以及风险预测并非易事。但研究者能够通过构建全球的公司网络WWS,对公司的长期潜力进行无风险的评估。借此模型,投资人可以简单的通过公司的人员流动情况,来判断出公司的价值。创业者也应提高他们的社交能力、维持公司之间的合作网络,以保障创业公司的长期潜力。


尽管本文的研究模型并没有预测每一家公司的成功概率——仅仅是给公司做出了相对的排名——但研究者表示利用对几率回归预测每一家公司成功率的模型和本文提出的 WWS 模型“预测能力相同”。


本文来自微信公众号:集智俱乐部(ID:swarma_org),作者:Leo