本文来自微信公众号:王智远(ID:Z201440),作者:王智远,头图来自:视觉中国


早上好王先生:您的体温是38.3摄氏度,体温不正常建议去医院检查;昨天晚上您睡6个小时35分钟,当中醒来3次;其中深度睡眠时间2个小时30分钟,最近注意各项指标.......


上述声音来自我家智能管控系统和手环的反馈,好像把我的生活安排得明明白白,让我又窃喜又忧愁,为什么?


窃喜的是我可以随时知道身体数据,及时调整状态;忧愁的是“我对智能系统的依赖慢慢丧失了某些大脑能力”,事情只是如此简单吗?不是的。


如果我告诉你,我们的职业和人生选择都被塞进了可被预知的黑匣子中,你会相信吗?也许多数人都对这句话有些茫然,不妨来具体看下:


不仅是青年,现在的老人和孩子在闲暇时都喜欢抱着手机刷个不停,形容难听点是“像中毒了一样”。


大量的信息流平台正在通过算法偏好来迎合我们,向我们投喂相似的内容,它会造成什么呢?


一方面会让自身固定在某个信息圈子中难以逃出,它持续强化你对某些问题的看法,最后形成价值观。


另一方面信息堆积越多,注意力就难以集中在那些复杂的问题上,造成判断力下降


除此以外,身边的一切智能设备仿佛也都在尝试主动为你“提供服务”,这不是坏事;但有一些会让我们在不知不觉中陷入信息茧房。


一、信息茧房


我们先来看看它的由来。


2001年美国学者凯斯·桑斯坦(Cass R. Sunstein)在《信息乌托邦——众人如何生产知识》中提出此概念,并针对内容做出分析和讨论,具体指:


人们在信息领域会习惯地被自身的兴趣所引导,从而将生活桎梏于像蚕丝般一样的“茧房”中的现象。


这个词汇的源头可以追溯到一本新闻传播专业考研必读的书籍,美国计算机科学家、麻省理工学院教授,尼葛洛庞帝的《数字化生存》。


要知道,20世纪90年代中后期,中国开始兴起互联网创业大潮,年轻的互联网创业者们纷纷有感机遇来临,但对能否把握住这份机遇却心存忐忑,该书的出现犹如“盲人指路”,被奉为互联网时代的“指路圣经”。


令人惊讶的是:25年后的今天再打开这本书,会发现书中的多半描述已经成为现实,主要围绕三个阶段的预言:1)从原子到比特,2)代理人界面,3)后信息时代


第一阶段:


我想,上过初中三年级的人应该都熟悉,原子是化学变化中最小的微粒;如果你不懂也没关系,可以用文科的方式理解:


世界万物都是由原子构成,原子组合构成分子,分子就像瓦砖,堆成各种物质。


它也是人类最经典且使用最广泛的基础假设,用来精准地解释物理学中的力学、热力学、光学、量子学等多方面的问题,甚至还能解释自然科学中的生物学等等。


而尼葛洛庞帝看来,上世纪90年代,大多数信息都是以“原子”的形式呈现,例如录像带、杂志、报纸和书籍,长期以来大家对此也习以为常。


但随着计算机技术的发展,即时的电子数据传输就会成为主流的传播方式,我们进而进入比特(binary digit,简称BIT)组成的世界。


原因在于比特是信息的最小单位,它没有重量,能快速传播,拷贝无需成本,并且不会被区域所隔。


这种新的方式能帮助信息摆脱时空的限制,成为全球共享资源,为各个领域的发展带来便利,同时也能促进互联网和计算机的普及。


第二阶段:


在上世纪90年代美国计算机学界还是程序设计语言、操作系统和网络协议天下时,尼葛洛庞帝召集一帮各领域专家创立了一家名为“媒体实验室”的机构,聚焦研究人机互动。


当时人们把计算机研究重点放在“人如何使用它”,并没有关注“如何和计算机更好地相处”。


而基于此问题,他又提出一个新的概念:“计算机设计需要人性化界面、此界面应该是使用人代理模式”。


计算机界面必须像你的管家助手那样能够认识你,了解你的爱好、品位、倾向与需求;甚至还要知晓你的社交朋友圈、理解你的表达语言和肢体动作。


因此,尼葛洛庞帝认为触屏技术、眼球追踪、语言识别甚至互联网人格的相关研究会是大趋所势,目前看来这些在现在均已经实现。


第三阶段:


尼葛洛庞帝在上述基础上,进一步设想了智能计算机将为人类生活带来巨大改变。


他预言,互联网会进入“极端个人化的信息时代”,即算法推荐;在后信息时代里,电脑、手机APP会基于它对你的了解为你推荐定制化信息。


从前,大众媒体把一模一样的信息通过广播或电视无差别地推荐给每个人;而未来APP会主动对信息进行筛选,并通过界面为使用者制作独一无二的“个人摘要”。


那么,如果按照此指导手册发展,这意味着什么呢?


这不仅让我心中一喜,目前买的很多电子设备都不用看使用说明书就可以用“语言、行为”控制它,以后岂不是更方便么?


但尼葛洛庞帝认为,美好未来虽到来,但信息也会在不知不觉中侵蚀人们的智慧和知识;比如:工作机会的减少,导致更多互联网创业者借助线上平台创造更多知识来与企业协同。


这背后意味着复杂的工作交给机器解决,人类创作性工作将很难一步登上山顶,甚至非常优秀的创作也很难被发现,因此未来你可能更多的是和“机器”交流。


机器取代大部分人力的潮流必不可当,更加严重的是随着算法推荐带来的信息茧房和数字鸿沟,会加深一个人与另一个人的距离感。


比如:你习惯看历史知识,平台围绕历史中心化展开;若一个天天看娱乐的人被推送的都是八卦,甚至像我这种经常搜“学习内容”的人,试想下种种场景会带来什么后果呢?


我们很难逃出“习惯的周边三公里”。如果不经过主动思考判断或故意去搜寻,会陷入知识获取单一化,没有社会统一认识中,严重者还会造成与社会和企业脱节。


一个现实的案例是:


我看到很多离职3个月以上的人,与他们沟通就会发现他们已经陷入自身的“信息茧房”,对跨岗一丁点技能还能理解,对跨公司业务就直接出现“黑匣子状态”。


不可否认,我们正在经历尼葛洛庞帝教授第三阶段的预测;人们无法阻止数字化的变化,就像无法对抗大自然一样;但至少每个人应该了解它是如何形成的,如何一步一步吞噬着人们独有的思考模式。


当然,这一切背后离不开人们常说的“算法”或者“个性化推荐”,但它并不是罪魁祸首。


二、算法原理


从框架而言,推荐系统一般包含“召回”和“排序”两方面。


不论是信息还是消费类电商平台,多半以此类型来训练用户,而算法又基于“内容”和“用户行为”两大类别展开。


我们知道普通人的思维方式分为两种类型:


1)线性思维,2)非线性思维”。


前者是把认识停留在对事物的抽象而非本质上,并以这样的抽象为出发点,片面、直线地解释某件事;后者是把认识停留在对事物的抽象层并以此为基石,进而看到底层原理。


机器学习方式和人相似,也分为线性和多种思维(学习)模型,最主要区别是一方面偏向基础原理,一方面偏向多元化加工;从专业角度出发,一共有6种常用方式:


1)过滤算法,2)矩阵算法;3)因子分解机,4)逻辑回归;5)梯度提升决策树,6)深度神经网络。


它们用在什么位置呢?


要知道,人们看到的所有信息均展示在APP的首页或分类上,在推荐系统中它们属于最上层的展示层,算法属于中间层,数据是最底层;而算法的主要功能就是排序和召回,上述的六种模型均服务它们两者。


举个例子:


我们经常使用某款APP,它习惯性地抓取自己点击的每个图片或者下方的内容,然后用打标签的方式归类在后台中,该行为属于排序,进一步说平台可以收集一个账号的多个标签排序。


可当你许久没有打开该APP时,机器就基于你感兴趣的内容,通过push,短信的方式召回我们。


大部分大平台(小红书、抖音、快手)的推荐系统分人工干预和自动推荐两种,前者顾名思义人来操作,后者是给机器设定固定时间来循环使用。


自动推荐是什么呢?


若进一步展开解释,如监督学习算法Y= F(Xi ,Xu ,Xc),这三个函数包含三个维度的变量分别为:1)内容,2)用户特征,3)环境特征。


三者匹配起来是一个复杂的数学问题;市面常用模型有好几种,无非是把多模型混合使用,简单来说就是:你是谁、你在哪里、你爱看什么?基于这些给你推荐内容。


一般当推荐系统的自动化运作时,它就像山头巡视的小兵,不断从整个物品或者信息聚合中抽取当次需要查询的候选集;根据各种不同维度,如物品、年龄、性别、爱好,场景等种类以及规模的大小对候选集进行推送。


此场景犹如流水线工作的“抽样检查”,也同样用在大部分平台的召回手段上,具体策略是怎样的呢?


其一,内容过滤(Content Filtering)


其二,协同过滤(Collaborative Filtering)


资讯类产品的内容审核是不可缺失的一部分,主要目的是确保无低质庸俗,保持平台该有的调性;通常有“先发后审”和“先审后发”两个原则。内容抽检或过滤的基础是查敏感关键词、重复度、IP发布次数等权重指数。


协同过滤是基于已知部分用户或部分物品的偏好或评分,预测缺失偏好或评分的一种方法。


从切入点上,则可分为基于“去邻域”的方法(本地生活类平台使用居多)和隐语义模型(给每个分类中不同维度标签的人进行推送)


举个例子:


跟朋友聚餐时打开美食点评平台去搜索周边餐厅,过程中我们能看到按照公里排行的推荐、也有部分商家的竞价广告。


疑问的是,你会发现那些广告的美食是自己日常爱吃的,并且区域也不是太远,为什么会这么做?


因为可以基于“邻域”做精准的推荐,以此满足用户多频次的消费和深度洞察;如果把“邻域”比作数学的“2”,它左手链接“1”,右手链接数字“3”。


去邻域算法就是把“1”推荐给“3”,假设不做去中心化折中结果就是上述你看到场景,基于自己搜索习惯、爱好、距离做折中推荐。


对于人工干预比较容易理解,例如基于某类标签做手动推送,如:性别类型、兴趣爱好、话题、KOL量级等。


高维一点会融会贯通几项不同的数据综合考量。这种方式常见在中小型(百万级用户量)以上的平台,主要特征表现在技术的基础建设已经完成,属于发展中期还不能完全依靠自动化解决。


一方面防止有巨大漏洞出现,造成损失。


另一方面也能运用人工的方式灵活多维度地基于用户(商品)进行推送,比如以点击率作为推荐指标时,排序算法筛选后,我们会以预测结果为目标。


这些场景中就会用到因子分解,逻辑归因,梯度提升决策树,以及各种神经网络算法,因此称之为“混合模型”。


但不管怎么样始终都离不开那两大原则“基于用户行为”和“基于内容”。


企业招聘大量研发人员,利用理科的思维逻辑将人的行为特征“数据化”,对数据进行颗粒化,最终通过个性化的分析让平台更了解每个人,也就有了那句感同身受的话:“我还没有平台了解我自己”。


但真的是这样吗?这种理解是片面的。


你以为平台很了解自己?其实我们不过是把爱好,需求形成的特征进行标签化沉淀在平台上,造成推荐的内容都在自身的“认知圈内”。


简而言之,每个人在头部资讯(购物)平台看到的展示页均不同,每个展示页都代表不同人的视野和爱好,仿佛一面镜子疯狂地为你展现热爱的一面,它带来的利弊也是显而易见。


三、孰是孰非


信息茧房的影响有两个方面:


一是良好的认知能力,二是陷入回音室效应。


如果我们能够正确认知到信息茧房由何而来,或者算法如何基于自身的各种行为形成“虚拟人设”为你定做线上画像;加上我们能够辨别哪些信息是优质的,哪些是不能为我所用,那就不存在“茧房”。


这给我们最大的启示是,很多时候我们听到的未必都是正确的,只有深入并全面了解才会摆脱困境。


比如:很多人为摆脱算法的囚笼,在平台阅读内容时不点赞、不评论、不互动;这就能摆脱它吗?并不能。


算法反而会为你推荐一大堆乱八七糟的内容,让你眼花缭乱失去对关键信息的辨别的能力。


换句话说,“信息封闭环境”听起来是坏事,可实际上,这也是一种很常见的现象。


在没有互联网时,世界上的信息同等无穷尽,新的信息也在产生,旧的信息也从未消失,堆积依然很多;即便人用上一生的精力学习也是有限,真正有所造诣的人都是在冰山上抓住某个角。


何况很多时候,各种娱乐类、偏社交短内容平台的push大概率是琐碎事,真正重要的信息你一定会接收到。


假如我们不知道“信息茧房”的概念,可能会形成持续受害而毫无觉察的状态,这就容易陷入回音室效应中,它有四个关键因素:


1)隔离,2)观点极致化,3)观点同质化,4)同样信息重复传播。


你可以把它理解成在固有群体或“小圈子”内,几乎与外界不怎么交流。


由于没有外部或不同信息进来,内部观点会在重复传播中不停地在人们心中巩固,促使人们看到与内部观点不同的观点时尽可能否定,从而达到“极端共鸣”。


举个例子:


很多人热爱进不同的付费社群来学习,圈子中往往会强调一种东西叫“价值认同”或“主题认同”,假设某个行为(主题)触发大部人群友的爱好或行为底线,那你可能就会被移出群聊。


当所有人的观点都趋同,那同样的信息传播,不同的人去表达,其质量本身并不会提高,对个人的成长也并没有太大帮助。


这四个关键表现,很好地解释了信息与受众的思维关键;具体而言,回音室效应不但可以让一个人思维禁锢,还极有可能直接废掉理性思考能力。


根据调查,很多受害者是这两类人:一是不乏受过高等教育的专家学者,二是分辨力、自控力不高的人。


前者光学习理论而不实践,很容易陷入封闭状态中,这种原地踏步造成与现实社会脱节,而其还沉浸在固有的圈子中“津津有味”,殊不知外界已经发生了巨大的变化。


后者是那些经常以“这样学习就是对”“哪个专家说”作为标榜或处事依据的人,他们不习惯以理性的事实为基础,更容易陷入感性。


正是陷入自己编织的信息茧房之中,才会不停阅读内容高度重复却几乎毫无营养的资讯,这造成自己的认识很难提升到新的层级。


在我看来,所谓的相对封闭环境,即可以是被动也可以成为主动。


被动是由于别人提供,而主动在于自己,如改变你获取信息的渠道、屏蔽无效信息、把它们变成高质量信息。


因此我们所避免的信息茧房可能是错的,“摆脱”不是目的,如何有效的利用它为自身做增值才是最重要的;那如何做呢?有2个认知1个技巧是我在践行的。


四、三个锦囊


有句话叫做“人无法赚到自身认知之外的钱”,相对的是“人无法碰到自身认知水平之外的问题”,那么,现在碰到的问题就是自己现阶段的一个上限,具体改变上你可以进行参考:


1)微调认知基模


基模是人与生俱来的行为模式,会随着成长而变化。它是一种知识分类体系,呈层次化结构,类似于树状图;一般来说并不以某个具体事例为对象,而具有某种程度的一般化和抽象化的性质。


比如可以将方法论提炼成为规律,将规律用在不同领域,它们彼此间都是有关联的,只是我们从未发现。


1973年,美国学者罗伯特·阿克塞尔罗德在《认知与信息处理过程的基模理论》一文中,提出信息处理的过程模式的解释:


它认为“当我们接触到一个新的事物或者信息时,我们头脑中的相关基模就被激活,参与到信息处理的每个环节当中”。


进一步说:当信息的各项特征与我们的认知基模相吻合时,人们习惯用原有的解释和态度对待它;当不吻合时,才会对新旧信息进行比较,补充新信息确保新解释和态度。


如果你认识到就会发现,新信息处理结果对认知基模会产生两种影响,其一对旧行为认知的强化,假如有矛盾即修正形成新基模;其二新信息的处理,会自己做出分析、推理和判断。


从发展来看,只有不断接触新信息,认知基模才会发展出分支或做结构调整,这也符合神经心理学中“神经元集群(neural ensemble)的解释”。


2)改善偏食情况


很多人喜欢给自己贴标签,当然他们都有一套逻辑自洽的理论,我不反对也不赞成;我的心得是“年轻人不要随意贴标签”,为什么呢?


标签会植入到心智中,无形中影响你往哪个圈子发展、学习什么类型的内容等;这很容易造成“信息偏食”,它会局限自我定位。


有人说聚焦不好吗?正确的聚焦在我看来先有中长期目标,如结合3年~5年规划再看当下。


一方面,人与标签唯一不同在于前者是动态发展的,后者是静态呈现;今年认为对的,明年可能就会失效。


标签是手段,假设自身认为某个标签在短时间能够让自己有个质的提高,或通过此力量能带来外界优势,反而是不错的选择。


另一方面,即使通过标签或圈子渗透到某个领域中,自身也需要对领域的知识有全面的认知,不要盲目地跟随别人的意见和建议,这样,受社交媒体下“群体性孤独”的影响几率会不断减少。


那么,对于多元化信息的获取和构建“多元化”的圈子,都是摆脱信息茧房必要的手段。


3)多看多听多动手


这句话的意思是“尽可能删掉自己的历史浏览痕迹”,遇到喜欢的内容把它立马记录下来或转存在收藏中;这可确保自己看到的内容不是被推荐,而是相对随机的。


此方法的好处是可以立竿见影地起效,坏处是你始终还很难完全避免“被种草”,那怎么办呢?


多动手去各种平台获取信息,并非“多动手点赞”;这样可以避免单个平台的误导;就我个人而言,因为我有阅读习惯,所以经常通过RSS(信息聚合)阅读当天所有新闻。


古人云:兼听则明,偏信则暗。当自身做到多渠道、全方位地获取随机性的信息时,信息茧房就会失去存在的基础,自然就会不攻自破。


总而言之,信息茧房仍然是可破解和避免的,主要是积极主动行动起来,放弃固有习惯,这可能会让自身逃离舒适区,变得不那么愉快;我想,比起收益这点付出还算值得。


总结一下:


最厉害的并不是所谓平台方“算力”或“数据”有多牛,而是人;不信你想想,平台的技术会磨灭我们看世界的好奇心吗?


并不会,平台多元的分发口径,没有成为“茧”,反而织了一张“网”;而让自身看到的信息成为茧房,或许这件事只有自己能办到,不是吗?


本文来自微信公众号:王智远(ID:Z201440),作者:王智远