群体有智慧吗？大众评分落伍了 - 葱头胖友圈

导语：在线网络评价为人们提供了可以立即获得“群众智慧”的渠道。在亚马逊和Yelp的所有在线评价中，积极正面的评价占据了绝大部分，但是人们在这些项目中呈现出来的行为性质却存在着明显差异，那么如何才能从这些积极评价的“海洋”中辨别出真正具有价值、成功的项目？目前流行的“星级评价”是否可以作为预测成功的可靠依据？最近Nature human behavior一文中对于这些问题给出了答案。本文是对这篇论文的概述。本文来自微信公众号：集智俱乐部（ID：swarma_org），作者：熊宏晋，编辑：邓一雪，头图来自：视觉中国

从在线平台的“海量”评价中提取用户情感

目前随着互联网在线众包平台的发展，你能在平台上评价商品或线下服务，其中最普遍的是星级评价。再平台的潜在消费者选择商品或服务时提供成本最低的判断方式，让他们获得最直接的参考。但事实果真如此吗？

已有研究调查证明，这些在线的评级系统存在一定的局限性：绝大多数在线评价都是积极正面的^[1]。例如，在亚马逊网站上，平均星级评价约为4.2（满分5分），其中远超过一半的评论是5星级评价^[2]。近一半的Yelp评论是5星评价^[3]，而近90%的Uber评价可能是5星^[4]。

以上这种情况，会导致个人经常不得不面对众多星级相似的项目，人们甚至因此不再考虑选择低于3星级的选项。所以星级评价可能已经无法可靠地预测项目的成功与否，也并不能成为对项目真实价值的有效参考。

高度集中的积极性评价反而会变成无效信号，那么究竟如何才能从这些海量的积极性评价中获取有效信息呢？来自美国马萨诸塞大学管理学院的教授 Matthew D. Rocklage 和他的研究团队有好点子：他们试着在大量积极评价中辨别“成功的项目”，他们把这一挑战称为“海量的积极评价问题”。

他们首先证明了这种“海量”积极性问题存在的普遍性，并且提出具有情感性 (emotionality) 的评述性语言可以向个人提供更有意义的参考。他们将这一研究成果以《Mass-scale emotionality reveals human behaviour and marketplace success》为题目发表在了Nature Human Behaviour上。

他们分别挑出了四个值得研究的大规模在线评价案例：1. 电影票房收入，2. 亚马逊图书销量、美国超级碗体育联赛广告中品牌的新增粉丝，4. Yelp上的餐厅预订量。接着，他们证明了80%~100%的在线星级评价都是积极的，并且发现在线星级评分无法可靠地预测一个项目的行为和其成功性，即越来越多的积极评价通常不能预示着项目成功。

但是顾客评价文本的情绪化因素却可以用来预测一个项目的行为和其成功的可能性。这是因为情绪化语言为个人本身提供了一种迹象，表明发生了特别有影响的事情^[5][6]，因此它们可以作为一个特别明确的信号，让其他人了解评论者的态度。这种强烈的信号反而会导致读者更清晰地记住评论者的表态^[7]，这是一个预测态度的影响和持久性的因素。

下面将展示出他们所研究的四个案例：

情绪因素预测电影票房

研究者们从Metacritic.com获得了2005年到2018年这13年所有电影的在线评论，并使用为每部电影撰写的前30条用户评论，以此来衡量电影的星级（0~10星），分析在线评价文本的情绪化语言。他们发现一部电影的平均星级将会显著地影响电影的票房收入。但是当所有的电影都被包括在内时——即使加上了那些最初有负面评价的电影——星级评价对票房收入没有显著的预测作用。

之后他们在同一模型中加入了评论文本的平均情感性因素，以及平均文本效价 (valence) 作为对照。星级评分仍然是电影票房收入的一个重要的负面预测因素（见图1左）。最重要的是，评价文本中的情绪化因素是未来票房收入的一个重要的正向预测因素（见图1右）。

图1. (左) 预测电影票房收入与其电影星级评价的关系; (右)预测电影票房收入与其电影评价文本中的情绪化因素的关系

图书销量：文本情绪比评分更重要

在第二个研究案例中，研究者们预测了从1995年到2015年亚马逊网站上所有书籍的销量（20年的数据）。他们再次使用每本书的前30条评论来索引该书的星级（1~5星）、文本效价和文本中的情绪化因素。

平均星级评价的回归结果好坏参半。星级评价是预测购书数量的一个负面因素。当被评为负面的书籍也被包括在内时，正面的星级评价对购买量有显著的预测作用。然而，这里的总体证据好坏参半，因为在1/3的图书类型中，星级评价是不显著的或为负面的预测因素。

在分析积极评价的书籍时，他们根据该书的平均星级和文本的情感性来预测购买量。研究团队发现，平均星级是购买的一个负面预测因素，而文本的情绪化是一个重要的正面预测因素。除了这些影响之外，前30条评论中更多正面的情感性语言预示着更多的购买量，并且这一结论在93%的图书类型中都有体现。

广告中新品牌粉丝：评价预测粉丝增长

在研究案例3中，研究者们考察了针对电视广告的实时推文的情感性是否能预测成功和人类行为，即品牌的每日新粉丝数量。2016年和2017年的超级碗中，他们获得了发生在该超级碗当天的所有实时推文，其中提到了超级碗期间播放的广告。共有84家企业的94个广告，关于这些广告的推文总数为187206条。然后，他们使用评价词典来量化推文中对每个商业的平均效价和情绪化的表达。

他们发现公司在超级碗之前积累的粉丝数量，可以预测他们在超级碗之后积累的粉丝数量，但媒体《今日美国》上对于公司的星级评分对粉丝没有作用。

然后，他们增加了每个广告的推文的文本情感性因素作为主要预测因素，并增加了文本的平均效价作为控制变量。其发现《今日美国》的星级评分和推文的效价对新粉丝的数量没有预测作用。然而，关于商业推文的文本情感性语言的正面积极性程度越高，公司在接下来的两周内积累的Facebook粉丝就越多。

餐厅预订量：评分与情绪都有用

在研究案例4中，研究者们收集了伊利诺伊州芝加哥市存在的所有餐厅截至2017年的前30条Yelp.com评论，研究了餐厅的人气和预定量问题。他们用这些评论来索引每家餐厅的平均星级 (1~5星）、文本效价 (valence) 和文本情感性。

而这一次，他们的研究结果与先前的3个研究案例不同，在餐厅预定量的问题上，平均星级评价可以预测更多的餐桌预订量。他们接着将餐厅前30条评论的文本情绪化因素以及其文本效价添加到回归模型中去。平均星级评价变得不显著（见图2左），并且文本的效价却是一个积极的预测因素。除了这些影响之外，拥有更多积极情感评价的餐厅将会得到更多的预订（见图2右）。

图2. (左) 预测餐桌预定量与其电影星级评价的关系; (右) 预测餐桌预定量与其电影评价文本中的情绪化因素的关系

“海量”评价积极性问题的解决途径

现如今，在线评价信息中，积极性的评价越来越多，有时商家为了销售自家商品或者服务，也会多刷好评，这也会进一步造成大众消费者很难识别那些有效的评价。而基于情绪化的语言评价可以成为解决这个问题的正确途径。

这就需要呼吁相关第三方平台组织要更加关注个人态度的情绪倾向。平台管理者可以考虑汇总评论者的语言，并提供一个“情感星级”，以向个人提供更有意义的参考。

参考文献：

[1] Hu, N., Zhang, J. & Pavlou, P. A. Overcoming the J-shaped distribution of product reviews. Commun. ACM 52, 144–147 (2009).

[2] Woolf, M. Playing with 80 million Amazon product review ratings using Apache Spark. minimaxir http://minimaxir.com/2017/01/amazon-spark/ (2017).

[3] Yelp Factsheet (Yelp, 2017); https://www.yelp.com/factsheet

[4] Athey, S., Castillo, J. C. & Knoepfle, D. Service quality in the gig economy: empirical evidence about driving quality at Uber. White Paper. https://doi. org/10.2139/ssrn.3499781 (2019).

[5] Tooby, J. & Cosmides, L. The past explains the present. Ethol. Sociobiol. 11, 375–424 (1990).

[6] Ekman, P. E. & Davidson, R. J. The Nature of Emotion: Fundamental Questions (Oxford Univ. Press, 1994).

[7] Rocklage, M. D. & Fazio, R. H. Attitude accessibility as a function of emotionality. Pers. Soc. Psychol. Bull. 44, 508–520 (2018).

本文来自微信公众号：集智俱乐部（ID：swarma_org），作者：熊宏晋