错误的奖励，正确的惩罚 - 葱头胖友圈

本文来自微信公众号：CxEric的读书与投资笔记（ID：cxericreading），作者：CxEric，题图来自：BC版《哈姆雷特》

一

激励与对错，是两组截然不同的概念，但人经过漫长训练后很容易混淆，误将奖励≈正确，而将惩罚≈错误。

这似乎是一种根植于进化过程的本能意识：得到好处的，一定是对的，重复它；得到坏处的，一定是错的，避开它。

生物本能很大程度就是这样运作的，就像芒格所说，大自然存在一种普遍的伟大算法——重复有效的行为。

但这显然存在一些误解，因为在逻辑上我们不难明白：奖励/惩罚、正确/错误，其实是两组概念，它们可以得到2X2=4种组合：

正确的奖励、正确的惩罚；错误的奖励，错误的惩罚。

这意味着，如果你得到了奖励，你可能是对的，也可能是错的；如果你得到了惩罚，你可能是错的，也可能是对的。

奖惩与对错之间，没有一对一的映射关系。

甚至有时候，它们彼此毫无关系。

这多少有点反直觉，但我们就是生活在这样一个世界。

如果你要求这个世界在给予奖励、惩罚时，必须在时机、方向、力道上都正确无误，那你就对这个世界的运行逻辑提出了过分要求。

毕竟，连人类自己设计的规章制度，都时常错漏百出，你又如何能要求大自然、命运之神运作的奖惩模式，能够遵从人类的理解方式呢？

不要忘记这个世界有多混乱。

二

什么叫错误的奖励？

就是你做错了事情，甚至什么都没做，却得到了很大的奖励。

它容易让你高估自己的能力、方法、价值观，让你在某条错误的道路上拔足狂奔，拒绝回头。

比如说，守株待兔。

什么叫错误的惩罚？

就是你明明做对了事情，却依然莫名地被胖揍一顿。

它容易让你质疑自己的能力、方法和价值观，驱使你放弃正确的做法，采纳错误方案，直到不久再被揍一次。

这多少会有点让人抓狂，毕竟我们都期待自己居住在一个有“逻辑”的世界。

就像在游戏中，如果做对了，我预期会得到奖励；就像在学校里，如果答对了，我预期会得到分数。

但生活的另一面，是复杂、无序、随机和多变量。

作弊是错的，但有人以此得到更高的分数，还没人告发他；诚信经营是对的，但你可能会承担更重的经营成本，客户还怪你卖太贵。

你能怎么说呢？

我当然不是鼓励作弊、否决诚信，只是我们都需要明白在生活中：

奖惩无法代替对错；奖惩难以揭示对错。

三

关于“错误的奖励”，我最喜欢的例子是“守株待兔”，故事出自《韩非子》：

宋人有耕者。
田中有株，兔走触株，折颈而死。
因释其耒而守株，冀复得兔。
兔不可复得，而身为宋国笑。

这个世界上是否真有蠢兔子，会奇怪地一头撞死在树桩上，然后让你白捡一次便宜？

我不敢说这个可能性是0.00%。

但如果被你遇到了，你最好不要误以为：这一切源自你的努力。

白捡一只兔子，是一种奖励，但你得到这个便宜，仰赖的是随机性、兔子的愚蠢和大自然的bug，而与你的体能、姿势、心态、技巧无关——事实上，你没有做任何可称得上“正确”的事情。

如果你无法理解这一点，你会将捡兔子归功于自己的能力、方法或人品，以此夸耀于乡里，传授方法于众人，然后写下网红文章《我如何0成本捕获一只兔子》，直到某天饿死或被门徒喷死。

这就叫贪天之功——明明就是随机性的功劳，你非要说是你能力过人。

那么，宋人偶然间捡到兔子，是好事还是坏事呢？

零成本的便宜，当然是好事吧——但如果宋人从此荒废劳作，整天眼巴巴等兔子呢？

一个错误的奖励引起错误的认知，一个错误的认知引发错误的行为。

接着，重复错误的行为又固化了某种错误的认知，乃至伤痕累累，不撞南墙终不悔。

这又好像是坏事了。

我想，宋人如果从未遇到过那只兔子，他也许会过上更好的生活。

所以这个故事告诉我们，如果某一天，你碰到傻乎乎的兔子，怀着感恩的心，吃了就吃了，但不要混淆这背后的缘由，不要贪天之功以为己有。

如果你无法保持这种清醒，或许最好的安排是：你永远不要碰到这种“好”事。

不然，你会成为守株待兔的人。

你会荒废你的田地，耽误你的时间，直到某天被人编成段子写进书里。

四

某个意义上，A股不缺“守株待兔”的人。

我说守株待兔的时候，不是夸他们具备足够的耐心，愿意静静地等待结果到来。

我说的是：

因为某一次偶然的收获，他们就认定自己的方法正确可持续，因而念念不忘地蹲在树桩边上，田也不耕了，活也不干了。

我遇到过一些20年+的老股民，虽然整体亏掉了很多钱，但他们依然对A股恋恋不舍，魂牵梦萦，最主要的心理因素是他们深刻地记得：自己曾在牛市里赚过大钱。

“爱过”算什么，“赚过”——才让人撕心裂肺，刻骨铭心。

于是多年过去，哪怕总体上亏得一塌糊涂，他们的眼睛依然闪烁着期待的光：

请再来一次牛市。

“狗无法忘记某次偶然作死获得的巨大奖励，以后会无数次作死，直到真把自己作死；人类无法忘记某次犯错而得到的巨大甜头，直到花光所有运气。

同样地，人会生物性地捍卫以前刻下的某条奖励反射回路，哪怕这个反射回路是随机性导致的，是错误的。

人会守株待兔，一定是因为捡过兔子。
没捡过兔子的人，不会没事找个树桩蹲一天。

同理，人会在赌场输到破产，是因为以前赢过大钱。”

宋人如果没有遇到兔子，老老实实地耕作，日子或许会过得更好一些；

老股民如果没遇到摄人心魂的牛市，踏踏实实工作/投资，或许他们的财务状况会更好一些。

事实上，牛市就是一些人输掉身家的原因。

“一见牛市误终身”。

五

芒格在《人类误判心理学》提到过两个类似“守株待兔”的例子：

1、“有个人愚蠢地去赌场赌博，竟然赢了钱。这种虚无缥缈的关联促使他反复去哪个赌场，结果自然是输得一塌糊涂。”

2、“也有些人把钱交给资质平庸的朋友去投资，碰巧赚了大钱。尝到甜头之后，他决定再次尝试这种曾经取得成功的方法——结果很糟糕。”

芒格举这两个例子，是为了说明人类会受简单联想的影响，过往成功案例会给人留下深刻印象，因而在下一次行动时会做出错误判断。

在心理上，他们受到了过往成功的激励，犯了简单联想的错误；在逻辑上，他们没有理清过往成功的因素，低估了偶然因素、不可复制因素的权重。

比如说，假设：

你请了Eric吃饭，然后你中了一只新股；你再次请Eric吃饭，然后你又中了一只新股。

也许你会默默地觉得，请Eric吃饭就是你中新股的原因，于是你连续一月每天都请他吃饭。

这就是简单联想、“错误激励”引发的一种“错误认知”，而你的错误认知又引发了一种错误的行为。

你连续请吃饭的行为会被称为“守株待兔”，而Eric连续吃一个月的行为会被统称为凑不要脸。

面对这种心里偏差，有没对策呢？

有。

芒格说，避免因为过去的成功而做蠢事的正确对策是：

（1）谨慎审视以往的每次成功，找出成功的偶然因素，以免受这些因素误导，进而夸大新计划成功的机率；
（2）看看新的行动计划中，将会遇到哪些在以往成功经验中没有出现的风险。

我对这两个建议深以为然。

这让我想起一个朋友，他作为一位价值投资者，在某只牛股上赚到不少钱，因而他坚定相信，自己赚的都是企业的钱，而非市场的钱。

直到某一天，他认真测算了一下，该企业最近几年的利润增长、估值变化，以及自己的盈利幅度，然后他略震惊地发现：他的的盈利主要来自估值提升。

这就是一种诚实。

如果他真的体会到了这一点，他就不应该预期，自己未来几年可以获得同样高的年化收益，因为过去那几年的收益幅度，主要来自市场观点的变化。

市场的想法，你最好不要猜。

不要贪天之功，不要贪市场之功。

六

要正确理解对错/奖惩错位的影响，就必须深刻地认识“激励”的威力——事实上，这个心理因素如此常见，又是如此容易被低估。

芒格说，“我觉得自己成年以来，在理解激励机制的威力方面，我比95%的同龄人要好，然而我总是低估那种威力。每年总会有些意想不到的事情，促使我对激励机制的超级威力有更深的体会。”

“激励”的威力之一，是它可以引导人的行动。

这很容易理解，人和动物都会重复做有好处的事情，避免做会挨揍的事情。

这个原理如此有效，以至于我们可以用来——预测人的行动。

如果欺骗客户能得到巨大奖励/很小惩罚，那么人就很难不去欺骗客户。

如果拖延工作可以获得奖励，我想大部分员工的动作会慢吞吞得堪比树懒。

这里说的激励，不仅仅是物质上的激励，还包括精神上的激励，比如安全感、满足感、社会声誉、自我形象等。

通过观察一个人身处的激励环境，我们就能预测什么样的行为是大概率会发生的，什么样的行为是很难出现的。

毕竟，人类是情境的动物。

这里举一个例子。

假如你真心信奉长期主义，希望坚持做符合长期主义的事情，那你是否真的能做到？

依我看，这主要不取决于你的决心，而主要取决于你的激励环境。

当你身处的环境，大力奖励短期领先，严厉惩罚短期落后，那不管你愿不愿意，你都必须优先追求短期主义。

——你可以在口号上、言语上说自己无视短期，但你的年终奖、岗位升迁、同侪同事压力最终会打醒你。

因而，我有一个略毒舌的看法：长期主义都在PPT里，短期主义都在KPI里。

是的，这个世界没有那么多长期主义者，

因为没有那么多支撑长期主义的激励机制。

你的激励机制，决定了你的行动难度；你的激励周期，决定了你的思维周期。

所以，如果你真的想做点什么事情，不妨先观察下自己身处的激励环境。

某个朋友说，他很想做长期投资，但她老婆每周都要查一次账户，如果遇到股价大跌，就会先跟他吵一架。

嗯，这也是一种激励机制。

七

错误的奖励会引发错误的认知，错误的认知会导致错误的行为。

如果你重复一种错误的行为，它本身又会固化背后的认知。

这就是“激励”的另一个威力：激励，除了会引导你的行为，还会不知不觉间塑造你的认知，芒格称之为“激励机制引起的偏见。”

芒格在《人类误判心理学》中说：

“激励机制的超级威力所造成的一个重要后果就是我所说的“激励机制引起的偏见”。

有的人因为受过教育而变得道德高尚，然而在激励机制的驱动之下，他可能会有意或无意地做出一些不道德的行为，以便得到他想要的东西，而且他还会为自己的糟糕行为寻找借口，就像施乐工作那些为了得到最高提成而不惜损害顾客利益的销售员。”

如果某个行为能让你得到好处，那你就会为这个行为寻找合理的借口。甚至久而久之，你会真心相信这个“借口”，“导致人们在做坏事的时候觉得自己是正当的。”

你可以理解为俗语说的“屁股决定脑袋”。

芒格举了一个极端例子。

有个外科医生，他年复一年地将大量的健康胆囊，送到该市最好医院的病理实验室，如此乱来多年后才被革职。

芒格问负责开除他的医生：“难道这名外科医生以为：“这么做能显示我的医术很高明”，或“藉由切掉健康的胆囊来谋害几个病人，能让我有好日子过？”

对方回答说，“不是这样子的，查理。”

“他认为胆囊是所有疾病的祸根，如果你真的爱护病人，就应该尽快把这个器官切除掉。”

八

这个世界上有没有无缘无故的爱，有没有无缘无故的恨？

我不知道。

但我知道，这个世界上有无缘无故的奖励，也有无缘无故的惩罚。

如上文所说，这个世界的奖惩与对错之间，是存在错位的，有时候你因为正确而得到奖励，有时候你因为错误而得到奖励；有时候你因为错误而遭受惩罚，有时候你因为正确而遭受惩罚。

更过分也更让人难以接受的是，这个世界上有种理由叫无缘无故。

饱经世故的人都会知道，某个人遭逢大难，但未必就是他做错了什么；某个人撞上大运，但真说不上他做对了什么。

如果一万只猩猩玩石头剪刀布，最后也会有一只猩猩连胜N把，但你很难说这只猩猩是天赋异禀，有独特的石头剪刀布技巧。

或许我们终其一生都在体悟，这个世界是一个概率分布的世界。

朋友涤纶说，在生命里概率的意思是：你就是碰上了，没有为什么。

也许是好事，也许是坏事，反正你就是碰上了。

没有为什么。

结尾

行文至此，我努力试图向你说明，对错与奖惩是很不一样的概念。

但你或许还是会追问一句：它们到底有什么区别？

我能够提供的一个参考角度是：对错关乎理性、原则和认知，而奖惩主要关乎利益。

那么是谁的利益？

很自然地，你就会带出一个概念：“我”。

人很多时候会看不清楚事情，不是事情有多复杂，而是内心被某种滤镜扭曲、渲染了视野，而一个常见的强大滤镜就是——“我”。

股价涨价，只有穿过人眼，才会变成贪婪、恐惧；对错得失，在透过自我滤网后，经常只剩下得失。

当我们问一件事是对是错时，我们关心的是事情本身的特质；当我们问一件事有利有害时，我们关心的是对“我”的影响如何。

当那个“我”过于强大，人就会不自觉地，或启动自我保护，或启动攻击模式，非常努力地干一件事情：趋利避害，乃至慌不择路。

因而，当我们认真地询问：这件事是对是错？这个做法是好是坏？这种方式是高质素的，还是低质素的？

这会引发一个微妙的心理引导：我们不再那么关心自我，开始就事物本身展开了思考。

芒格说，理性就是按照事物本身的样子去理解它。

这让我想起一件小事。

当我第一次看到段永平说，要做正确的事情，不要做错误的事情时，我深感困惑：

这不是废话吗？谁会做错误的事情？

后来我才想明白，他是对的。

因为对错与奖惩，是截然不同的概念。

现实中，大家真正热衷做的并是正确的事情，而是“有利”的事情。

就像在股市里，大家并不想买有价值的股票，大家只想买“会涨”的股票。

这么一点微妙的差异，就会导致我们走上不同的道路。

我后来明白，当段永平说要做正确的事情，他的意思其实是：你的思维重点应该是对错，而非利弊。

如果我们混淆了这里的区别，就会奔赴利益、奖励，而逐渐忘了自己原本要走的是什么道路。

最后，在过去一年里，我很喜欢《禅与摩托车维修的艺术》这本书，虽然看不太懂，但依然大受震撼。

它的扉页上写着这么一段话，不妨以此作为结尾。

And what is good， Phaedrus，
And what is not good—
Need we ask anyone to tell us these things?

什么是好的，斐德鲁斯；
什么是不好的——我们需要问谁来告诉我们这些事情吗？

本文来自微信公众号：CxEric的读书与投资笔记（ID：cxericreading），作者：CxEric