怎么成为概率高手？ - 葱头胖友圈

本文来自微信公众号：王智远（ID：Z201440），作者：王智远，头图来自：《动物世界》剧照

有必要学下“概率”，为什么？

尽管提到这两个字会不自觉地把它往“赌博”上靠，可要知道，概率的知识能够帮助人们避开不确定的风险甚至保全财产，我们不妨来看几个场景：

如果你知道35岁会因失业难找工作，会做什么来应对那天的到来？这次创业失败得彻底，回到开始那天你会避免什么？打卡晚于规定5分钟会被罚款50元，今天早晨你肯定不会多睡那10分钟，是不是？

这种类型问题还有很多，如爬山前，天气预报说降雨概率只有1/3，结果你还是被“幸运”抽中......遇到这些问题该怎么办？

很多人会说怕失业赶紧积累、失败及时止损、迟到大不了下次不犯等。

其实这种成本很高，毕竟世界上没有“后悔药”。因此自身就要跟随发展做一件事的概率权。

从广义来说，概率是种机会或机遇，它是把“时间”发展当做固定线，以此作为横轴来研究某个随机现象的数量规律，采用不确定性推理或逻辑归纳的方法，增加未来自身成功的权重。

如果不懂它，很容易做出一些坏的决定，小事还能谅解，但那些人生大事就不是“原谅”那么简单了。

实际上，概率不仅是定义这么简单，偶然性和不确定性的概念像文明本身一样古老。

我们不得不应付天气、食物供应和环境或其他方面的不确定性带来的困扰，那就无解了吗？并不是。自身可以根据事件形成过程中的概率值来进行利弊衡量。

概率大类

谈论概率值之前，不妨先思考下什么时候需要用到“概率计算”或者说“概率思维”？其实它出现在各种“大小场合”，只是没有被人们所重视过。

比如：炒菜放多少盐，早晨几点起不会迟到，多久到达机场不会误机等，一旦被正式提起，就会让人有复杂化的感觉。一方面直观折射它不是“可确定性”的事件的变量，另一方面代表“成功或失败的几率”。

这背后其实阐述的人掌握的信息面不同，对确定性的预测也不同，因此会产生三门悖论（Monty Hall problem）的错觉。

也就是说，自身所接受的信息会习惯基于已知来融入对某个概念的理解，或融合加工后对别人阐述，最后就显得复杂化；反之假设你掌握全部信息，那一切都是确定的，自然也就很容易精准回答。

概率论的基础“概率空间”刚好回答此问题。

具体地说，概率的公式定义指定一个三元组（Ω，F，P）。一个总测度为1的空间是（Ω=1），其中Ω是样本空间，F是事件域，P是定义域为F、值域为“0,1”的一个集合函数，满足非负性、规范性、可列可加性三个条件。

总而言之，当你获得的信息改变了，概念空间的ó-代数F也随之改变，而概率测速P也变成了相对的概率测速，最终自身得到的概率也就变了。

举个例子：

告诉你某个同学的学号是23542，问他/她的性别多少？关于此人信息除学号外，其他完全不可知，那么你只能得到一个概率，Ta 50%可能是男生，50%可能是女生。

要是你知道的更多点，知晓第七次全国人口普查后男女比例分别是51.24%和48.76%，那么你能得到更精准点的答案，他是男的概率为51.24%。

如果我告诉你点额外信息，这个人叫王翠燕，并且你能知道中国名为（翠燕）的人中90%为女性，也许你可以得到一个更准确的答案，10%的概率为男。

可以看出随着你的信息量变多，我们对同样的问题给出的概率变化也是不同的，在大千世界中，不论创业投资还是日常工作，我们是怎么进行判断的呢？

根据研究主要分为两种类型：

1）基于信息（information-based），2）基于数据（Based on data）

先说前者：

假如现在掏出一枚硬币抛到空中，正面朝上的概率有多少？我想多半的人会说50%，对不对？真的是这样吗？未必。虽然结果偏差不大，但判断方式却有天壤区别。

不妨来看，这枚硬币把它抛到“空中”受力是不均的，因为你不知道抛出者使用多大力气在某一面；也就是说，你认为它虽然只有正反两面但实际得到的结果并不是均值。

因此可以得出，“我知道得到正面的概率是50%，但这好像不公平”，所以，依赖人的信息状态（经验）做出的认知决策，它被称为“基于信息”的判断，代表的是大体客观，但不会绝对准确。

现实的案例就是，日常工作中绝大多数决策也是依靠“信息客观性”来进行决策，有时概率为什么会很低呢？这源于信息本身的“准确性不高”或者“判断参考维度狭义”造成的，导致一听就懂，一做就错。

或者说，我们看到别人创业按照此方法论就能成功，为什么自己去尝试时发现问题如此之多呢？我们只关注了表现，而忽略内在动态因素。

再说后者：

你知道抛硬币居然也有不公平性存在，那有没有更好的方法来避免呢？或许测算是一种方法。

来，我们把它抛100次计算“正反面”出现的概率，然后取第100次~110次中间出现的概率做决策，但你还会发现它不公平，里面会出现偶然性状态，如连续出现“正面或反面”或居然有侧立的状况。

虽然你知道“正反代表决策或者依此为准”，想做到判断方式完全准确，还是无解。

根据我们所掌握的信息，没办法在两种可能的结果之间做出精准的选择，那是因为两种结果都同样的“鲜活”。我把这一切说成关于数据的事情，也称为“基于数据”的判断，它代表着偶然。

也许你对定义有些困扰，但世间万物本身就是这样的。事实上，在两类关于概率的讨论和解释之间存在着更多具体的差别。

此时全部信息已经掌握，我再问你，硬币得到“正反立三面”概率是多少？你可能会基于数据分析回答。

非常棒，你成功从某种经验中掌握了信息，下次玩该游戏时它会调取你的记忆，你会基于信息做出判断，依此循环。

由此我们得出结论：人所有的选择都是在基于“信息”和“数据”之间。通过这两种方式可以解释一切关于“概率”的讨论，或者说是关于数据的事情和依赖于人的信息状态的事情。

一方面代表经验认知储备度、准确率；另一方面代表数据测量分析带来的结果。在学术界哪个观点正确也是众所纷纭，如果用在判断某件事概率面前，也会出现相互辅助的作用。但这不代表自身所掌握的所有信息和数据都绝对准确，当中可能会出现逻辑、归因、盘算错误等情况。于是，学术界又将“基于信息”的解释分为逻辑的、主观的、群体的三种类型，也称为“哲学逻辑”。

在此之上，将基于“实践”的分为条件概率、先验后验、全概率、贝叶斯模型，即“数理逻辑”。

哲学概率

不论数理还是哲学，对于概率的区别一定离不开“逻辑”，这能避免别人在犯逻辑错误时正确指出其不合理之处，我们不妨参考下逻辑的组成部分。

首先，逻辑是由推理和论证构成。一个或多个信念被用来支持另一个信念，或说是多个论据用来支撑某个观点；推理是过程，逻辑是结果，两者相辅相成。

什么是逻辑概率？

你可以理解成，它关心的是以最基础的方式刻画，如推论、理性思维、真理和思维内容这样的概念，并尝试用现代形式逻辑建模它们，当中概念不乏论断、统一、否定、存在性、必然性、定义等。

举个例子：

最近周末经常和朋友玩狼人杀，以12人的标准局，除主持人外会分为狼人和好人两大阵营，一般有4个狼人和8个好人；好人中有4个村民和4个神民，他们的共同目标就是成功。游戏以昼夜交替方式进行，夜晚所有人闭眼狼人杀人；白天依次发言筛选谁是狼人，最后投票选出一个人；此人死后进入下一轮。

过程中就会运用到逻辑概率，通过别人面部、肢体语言表达来洞察出谁是狼人，在狭小的空间和局部信息内运用理性的判断去尝试建模完成一个狼人的虚拟形象，完成推导。

因此逻辑上的概率权它本身是种“归纳和演绎”，在经典意义上，一个论证A被演绎有效，那演绎的结果就相对保真而非绝对；换句话说，在有效的论证中，前提的真保证是具有高度可能性。

如：看到1000只天鹅后，结论是所有天鹅都是白色的。

将“逻辑”和“概率”结合的想法看似可能很奇怪，毕竟逻辑关注绝对正确，而概率关注不确定性，前者提倡定性结构的观点，而概率是定量数值的变化。

但几位杰出的理论家，如De Morgan (1847) ，Boole (1854)，都强调两者之间紧密的关系。

甚至它们觉得通过整合“定性逻辑”和“数值概率”论互补的视角，能够对推理（inference）提供高度表达性的描述。因此，它们被应用于所有研究推理机制的领域（如哲学、人工智能、认知科学和数学）。

什么是主观概率？

这个问题历史上比较复杂，它有两种答案：

其一：现实中，定义为“建立在已有信息和逻辑基础的客观判断”就是“主观概率”，俗称一个人自我的判断；通常指自身的个人经验会渗透到某件事的观察当中，进而造成整体概率的偏差。

其二：按照量子力学的观测理论来说，“观察者”是一个独立于理论之外的概念，它不被理论所描述；因而观察者本身就是一个物理事物，是一个独立存在的视角和问题。

它和美国哲学家汉森提出的“观点渗透理论”相似；在上述中我们提到“逻辑概率”的形成，按照此立场来说，科学知识的基础必定是观察，而一切理论的基础是根据观察结构的建构。

举个例子：

拿抛硬币来说，你第一次见硬币时，会有对它正面朝上概率的主观判断1/2，然后你看着硬币被一次一次抛，主导关于硬币的信息越来越多，于是自身就会不断修正你对这枚硬币朝上概率的判断。

这些就是主观概率，原因是没有人真正知道概率多少，但随着实验次数增加，多到让你厌烦，你才会相信它朝上的概率是1/3。

有没有发现，硬币谁抛呢？独立的个人就能决定概率的大小吗？并不能。但可以知道的是，人类的一切知识都奠基于、来自于存粹的经验，这种存粹的经验被称之为“the given”或“所予”。

真正能够作为一切知识基础的经验就是所希望获取的世界给予的东西，我们只是接受它而不会对它有任何意义上的改变和加工。

因此，作为the given的经验独立于任何人的情绪，主观判断和喜好，甚至思考与修正等造成的偏差，具有绝对的准确性和客观性。如果加上严格的逻辑推理和分析，也就保证了以此为基础的知识的精准和客观，这也是逻辑经验主义的最终目的。

总而言之，人们在面临不确定性时做出的决策多半是“主观概率”，在有些情况下，主观概率和客观概率的分布非常接近，但人们无法知道真实的概率。这时他们就根据自己掌握的信息和知识形成一个“主观的概率”分布，并去做决策。

群体概率是什么？

群体概率是依靠群体的正确率来判断概率的大小。这好比在工作中开会的场景，大家赞同与否举手按照投票标准来核算。

个人拥有信念，或者说每个人对自己的信念都有“确信程度”，这也是目前多半哲学家认可的观点。这背后其实代表一套规则，有三个维度：

1）主空间性，2）自然态度，3）二重构造

第一方面，唐纳德·吉列斯（DonaldGillies 1991）认为我们想参考某个群体的决策首先观察这解释背后的动机是什么？然后再转向群体层面。

比如：你是名管理者，首要目标是完成项目报告并保证质量；但现在距离下班还有30分钟；你把所有同事喊在一起商量此事，他们反馈是“抓紧行动”。由此可以看出，下班的决心在驱动大家抓紧完成。

第二方面，普通事物的客观性以及类型建立在“习以为常”和“本能反应”的基础上，这是因为每个人都有不同性格特征，背后实则反应的是“个人态度（想法）”

第三方面，如果没有经过“群体商议“的状态下，人在个人态度中所生成的主观意识的过程为第一重构，但经过语言或思维的碰撞就会产生“二次重构”。

也就是说：“这当中肯定有人想法不同，但大家发完言后也只能少数服从多数；因此，群体概率的反馈给我们的启发是：

在日常中，“我们强烈的相信、极有信心、我们确信”，这些惯用语可以听出群体对所断言的事情的“确信度”。

另外，抽样式沟通会挖掘出每个人不同的想法，因为理性的人的信念与置信度服从一套群体规则。

所以，我们能得到什么呢？以信息为基础的判断分为逻辑概率、主观概率和群体概率。我们只有通过经验、认知，来把握它们的存在以及“值”。

好比冯·米泽斯（RichardvonMises1928：18）所述：

首先考虑世界的事物群体决策，也就是经验合体似乎是明智的，这不仅包含聚集现象，还把重复性事件进行筛选，如果加上逻辑判断，概率也许会更大。

我把这一套总结是“文科的思维模式”，在理科视角则会运用各种各样的公式来计算事件概率，最普遍的是条件概率、先验后验、全概率和贝叶斯定理。

数理概率

当代，数学是理解世界的方式，也是科学的基础。

重大的科技进展无不与数字息息相关；没有数学就没有现在的“手机、电脑、人工智能、云计算”，我认为四种理科概率可以加入日常学习进度中，它对你的未来会有所帮助。

拥有数理逻辑思维，它能让自身清晰地算出做每件事成功的概率有多少？也可以在大脑中提前建立“认知框架”；最先需要认识的是“贝叶斯定理”。

它由英国数学家贝叶斯（ Thomas Bayes 1702~1761 ) 提出，主要用来描述两个条件之间的关系，先熟悉下它的公式：P(A|B）=P（B|A）.P（A）/P（B）。

我知道你一看公式就难受，但是蕴含了巨大能量。它能做什么呢？主要在信息和条件有限的情况下，基于过去的数据，通过动态调整的方法帮助我们一步一步测算出事件发生的真实概率。

我尽量用文科思维进行表述，它包含几个方面：1）先验概率，2）条件概率，3）全概率。

举两个例子：

1）我最近10天有2次迟到，请问我今天迟到的概率有多少？很显然，迟到事件发生的概率是2/10，也就是P（迟到）=1/5=20%，这就叫做先验概率。

2）今天早上堵车，今天我迟到的概率是多少？注意这里已经不同上述，“迟到”是一种事实结果，而造成迟到的原因可能是堵车。那么堵车就是影响结果的条件，这种情况下就属于“条件概率”，即P（A|B）；公式也比较简单，即P(A|B）=P（AB）/P（B）。

比如我近10天遭遇5次堵车，其中两次迟到，那么今天早上如果又堵车了，我迟到的概率就是40%，用公式计算是：P（迟到|堵车）=P（堵车且迟到）/P（堵车）=0.2/0.5

一般情况下，条件概率中的条件都是我们已知的，现实中经常出现“受到什么相关的事件影响，我们......”。

当根据数理思考时，我们必须留意什么是“给定”的，或者位于所讨论的条件概率中动态方面究竟要被理解成什么。

由因及果就是先验条件概率，也就是知道原因，求结果的概率；跟先验概率相反，我们由结果推导出原因的概率叫做“后验概率”。也就是，依据“结果信息”所计算出原因发生的概率，它是贝叶斯定理重要的基础。

比如：我中午拉肚子啦，是因为昨天吃火锅的概率有多大？我们公司虽然业务今年下滑，除市场竞争外，可能是高管团队人不行，这种概率可以用来做原因推理。

很多人会有疑问，我们求后验概率和先验概率的意义是什么？因为传统频率是无法解决实际问题，实际问题中一般是由多个条件组成的复杂事件（条件），那什么是复杂条件呢？

比如，拉肚子这件事，昨天吃火锅后晚上还喝了几杯凉水，睡觉时还喝了牛奶，这是复杂的事件对不对？

如果我们知道引起拉肚子的所有事件，且这些事件都是相互独立且互斥的，那么想求出拉肚子的概率，就可以将整个复杂事件拆分出几个条件概率，这就是全概率。

关于如何计算，这里不做详细追溯，相信你看后也会头疼。

这就是贝叶斯公式推导的过程，核心思想是“当你不能确定一个事物的本质时，你可以依靠与事物特定相关的事件出现的多少、频率去判断其本质属性的概率。

从这个角度出发，可以得到什么启发呢？

贝叶斯概率用在各种场景中，任何大事件形成的概率都是由各种“小事件”组成的，而事件代表信息，信息出现频率和准确度直接影响到“先验概率和后验概率”。就像公司做一场营销活动，当分析渠道拉新效果时，我们不能只针对结果做假设，还要思考前提条件；对这个前提条件的忽略可能最终影响自身对整个事情的判断。

可见，数理逻辑和哲学逻辑相似，都讲究“大前提”和“条件数”“准确率”，那么概率大就等同于“概率权”多吗？其实未必。前者表述现在状态，后者在推演未来。

要知道，我们所了解的每个概念都需要用在某个具体领域，这样才能核算出概率权，因此有必要了解一个概念，“局部和整体的关系”。

局部和整体

一个人和平台是一种关系、一个人和公司是种关系、甚至公司和平台也是某种链接关系；但在这些关系中我们发现很难抓住“有效变量”。

换句话说：“努力看不到尽头”不是努力的问题，而是没有把它精细化，想要形成关键变量离不开四个因素：

1）领域，2）团体，3）分布定律，4）发展状态

四者打包称之为“局部”，即我所在什么领域，它有多大规模、覆盖情况和发展是什么样、行业整体分布状态如何。

和它所对应的是整体，位于主导地位统率着部分甚至影响到部分性能状态的变化。

举个例子：

在微信APP中平均分配多个版块，如公众号、社群、通讯录、朋友圈等；看似无连接的功能基于用户量就会出现自组织涌现的状态。

如果你知道公众号总注册数量和自己所在行业数量，那么就可以清晰的计算出是否值得投入这门生意；或者分析完垂直领域内的内容营销方式就可以进行“创新”。

但这仅代表“局部”。按照统计学来说，一个行业的分布状态有：1）幂律分布，2）泊松分布，3）正态分布。

第一方面：幂律分布指行业整体中，极少的关键公司带来绝大多数的收益，其他大多数普通事物只能获取少量收益；平时经常说的马太效应，长尾理论，帕累托法则和此意思相似。

就像短视频平台的网红，只有极少数能够做到百万粉丝收入过亿，收入不超过五位数的却有几千万。

它能说明什么呢？行业中永远都有二八定律，如果想跑到前面，就要思考别人没有做过的领域或者“创新别人的事情”，千万不要与大玩家进行重合。

第二方面：泊松分布是法国数学家西莫恩·德尼·泊松 (1781~1840) 于1837年提出的，在实际生活领域有非常广泛的应用；主要描述在某个时段或空间内随机发生随机事件次数的概率。

简而概之，可以根据过去某个随机事件在某段时间或者“空间”内发生的平均次数，预测随机事件在未来同样长的“时间、空间”内发生K次的概率。

例如，某家医院在一定时间内到达的人数，超市收银台在某段时间内结账的人数等。

它告诉我们“留足冗余”和“效率平衡”的重要性；比如参加一次会议，平均走路时间是30分钟，这次最好准备45分钟以保证即使堵车也能赶到。

换句话说，冗余之后在整体中风险会显著降低，凡事留后路就是这意思。

第三方面：它也叫“常态分布”，基本上能描述所有常见的事物和现象，比如正常人群的身高、体重、考试成绩、家庭收入等等，这里的描述是什么意思呢？

就是说，这些指标背后的数据在整体中都会呈现一种“中间密集”，量变稀疏的特征。

以身高为例，服从正态分布意味着大多数人的身高都会在人群的平均身高上下波动，特别矮或特别高很少见。

了解其基本思想后，我们需要掌握什么要点呢？正态分布是“连续型随机变量分布”的一类，对于连续随机变量，我们不要关注“点概率”，而是要关注“区间概率”。

这如同饮料新品投放市场测试，10个人说不好喝不重要，重要的是看“海淀区”整个区域的分值。

通过这三种概率，我们可以得到什么？

在一个整体行业市场中，自身所从事的领域和团队代表“局部”，想要关键变量指数增长就要洞察行业分布状态。

追头部没有机会，那就在“正态”分布当中做创新；同时注重泊松分布，凡事给自身留后路，以便错过机会进行加速调头。

总而言之，整体是局部整合后的认知，我们也可以用理科概率中的“后验概率”来推导每一步的计划是否可行，足以建立高壁垒。

我们来总结下如何提高“概率权”（基于现在的计算，对未来的选择权），做好这些，可以解决个人70%关于发展的问题，甚至它可以让你不断增长。

三个方面

生活中，许多人有一个非常好的习惯就是“幻想”，但他们往往过于关注期望状态的本身，而忽略掉“期望和现在”实际差。

同时还有一部人总认为自己做的很对，但经过时间的验证发现是错的，均逃不过以下这三个方面。

1）前景思维选择，期望效用决策

我更喜欢把“前景理论”称为“行为预测理论”，它可以帮我在不确定性状态下做出选择，该理论由《思考快与慢》作者丹尼尔·卡尼曼提出。主要阐述什么呢？

在损失时因为反射效应，人会偏向风险愿意赌一把。比如你现在和朋友玩扑克已经损失300元，现在有两套方案，A方案150元会损失；B方案150元能赢得双倍，这时你会选择哪个呢？大概率会选B方案。

其次在收益时因为确定效应，人会变得厌恶风险而保守。该理论在很早以前“查理芒格”误判心理学中提到过，最重要的是“理性的决策者”对得失的判断不受任何参照物影响，普通人却很难做到。

总之，前景思维告诉我们，正常人在规避风险时大胆的投入也是一种不错的选择。那“效用”是什么呢？

该概率是丹尼尔·伯努利在解释圣德堡悖论时提出的，目的是挑战金额期望值作为决策的标准，证明期望收益并不是人们做决策时的唯一衡量标准。

这里有两个关键因素，分别是“边际效用”和“最大效用原理”。

也就是说，在一个整体的范围内，你的付出是不是随着时间递增出现财富（无形资产）增加，那就不可取，这也刚好和前景理论相媲美。

细节方面就包含自身对行业的理解，所做之事整体的市场评估，换言之，“你掌握的条件概率”越多，在判断方面依据也就越准。

2）放弃大多数定律，追求少数

如果要用统计学的定义来解释，可能就显得有些繁琐；我们用白话理解大多数定律也正是所谓的“很多人都在做的事情”。这当中有两种概率：

1）从事人多代表绝对正确，2）道路拥挤

举个例子，做自媒体坚持每日推送的在百万人，我想假设你是名新手，把频次和内容定位与“这类人群”媲美，相信不到半个月你就被打垮。

因此，大多数定律代表正确但未必“适合”。1909年纪德发表的《窄门》，它的扉页上有这么一句话“你们要努力进窄门，窄门很窄，进去的人也很少”。什么意思呢？

人总是习惯性选择宽门，可往后发现路越来越窄；而一开始选择窄门的人，道路却越发的宽广。

这如同，公司做产品前期就想着把品牌做好，一砖一瓦把根基打牢，后面壁垒越来越高。

做自媒体前期就专注把“内容做好”，后面自然也不用与几百万竞品同入洪流竞争。这也是“部分”和“整体”中的幂定律，少数不代表没有机会。

3）追求绝对优势，而非优势

优势都能理解，每个人或企业都有的能力或者产品；那绝对优势（Theory of Absolute Advantage）是什么呢？它也称为“绝对成本说”。

它是由英国古典经济学派代表人亚当·斯密提出，当时主要用在产业革命当中，它深刻指出各国之间根据各自优势的分工，通过国际贸易能使各国相互得力，本是分工提高生产效率的意义。

现在来说，我把它总结为“条件相加的概率”或是“极致的壁垒性”；一个角度代表壁垒，一方面也要代表成本或其他优势。

比如，短视频行业存量规模增长瓶颈，在各KOL，品牌方相互的博弈中，概率权对应的则是流量分配权，你想拿到更多筹码，靠“某个视频”是不长久的，怎么办？个人的IP和作品就是赌注。

再或者，统一竞争产品之间的QCDS（品质、成本、交期、服务）做的比较有竞争力，如果你能做到F（功能）QCDS，那就更有绝对优势。

因此，最好的商业模式其实是平台，它们掌握足够的概率分配权，也是设计者。

当然，绝对优势和少数定律两者并不冲突，除了前景思维选择和期望效用决策外，还有更多增加自身概率权的“选择”。

比如，你35岁怕失业，在很早的时候就意识到要练就一项技能，或借助某个机会让自己快速成为“领域”的专家，拿到更多筹码。

或者很早的时候就开始搭建自身的“副业之旅”，待年龄无法跨越时，第二曲线则刚好衔接上。

由此可见，所谓的提高概率权，不过是看向未来，决策现在，形成复利，沉淀资产的综合论述。

总结一下：

大多数人不知道自己还有其他可能性和可能性更大、结果更好的选择，而只是本能地选择了自己原来知道的可能性。

不妨把时间拉长去看，你会发现生活丰富多彩，有太多还不知道的事物等待着我们去探索，但始终记住两点：“这件事的概率会不会让我变得更好”“它对未来有什么帮助”。

本文来自微信公众号：王智远（ID：Z201440），作者：王智远