有了ChatGPT，读书还有用吗？ - 葱头胖友圈

上半年ChatGPT横空出世，人工智能的潜能展现，给许多职业带来了一场生存危机的探讨。它能够通过律师和工程师资格考试，写的大学论文能不挂科，甚至能够“理解”笑话。它能回答人们的疑问，组织生动的语言结构，模仿各式各样的语言风格；而大语言模型和图像生成AI结合的技术，例如Midjourney，能够让丝毫没有受过艺术训练的人，用只言片语“创造”出惊人的艺术图像。

ChatGPT的本质，实际上是大语言模型（Large Language Model，LLM）叠加生成式人工智能。大语言模型，顾名思义，就是大，用海量的语素，用机器学习的方法训练一个计算机模型。生成式，则是用预测的方式，在对话时把最有可能出现的语素联系展示出来。

对于知识“加工”和“消费”者而言，大语言模型加上生成式人工智能的能力是巨大的。海量语素数据、深度神经网络和极大的计算力，相当于把整个来自互联网的知识“压平”，再通过人机互动进行“整装”。

从计算逻辑上来讲，ChatGPT相当于一个更加强大的搜索引擎。普通的搜索引擎例如谷歌和百度通过爬虫的模式“扒”整个互联网的信息，并通过复杂的算法进行排序。而人工智能使用机器学习的方法，相当于把这些扒出来的信息，用预测的方式进行了符合语言逻辑的整理。知识加工变得更加便捷迅速，消费变得更加简明清晰——有的时候甚至过于简便，给了考试论文作弊以可乘之机。

针对这一点，技术乐观主义者认为，既然从今以后机器能够生成的内容，或许也不需要大多数的人类去动脑实现，就如同搜索引擎取代了图书馆的馆藏卡片、计算器取代珠算一般。的确，那些需要大量重复的文字类工作，或者机械地列举、整理工作，即使AI不介入最终决策，确实也能够提供相当程度的生产力，辅助人类进行知识的加工和消费。

那么，读书还有用吗？各大高校、研究机构的人员，是否也可以下班了？

机器能“学到”什么？

大语言模型和生成式人工智能，为将来的知识“生产者”带来了一个绕不过的课题：何为知识？如何生产多样、公正、真实的知识？

人工智能的“学习”能力是惊人的。现有的大语言模型和人工智能的应用，都脱不开机器学习作为其底色。“学习”二字，实质上是用大量的数据训练预测模型，并在预测的准确度，以及普适性上找到平衡。这种预测实际上是基于现有知识的，语言模型的预测，也是基于现有语言之间的联系。例如输入“红烧”，机器预测“肉”；然后根据更多的输入，例如地点，人，习惯等等，给出更加精确的预测，比如“外婆做的红烧牛肉”等等。

这种预测是怎么实现的呢？我们熟悉的坐标系是二维的。比如整个人群中，身高和体重有一个大致的对应关系，给出身高，机器预测一个平均体重，就是基于现有数据的预测。再加入另一个维度，比如性别，那么就成为了一个三维坐标，男女的预测会有所不同。如此下去，数据的维度可以是无限的，而机器学习的模型，就是在人脑所不能想象的多维空间中寻找此类联系，并不断调整各个维度之间的权重。比如，身高对体重的预测“有多重要”，可以在大量的数据输入之后进行调整。

因此，基于机器学习的人工智能，会把各种维度的数据，在更高维度的空间里联系起来，有发现数据之间潜在联系的能力，也会“学到”一些现实中不存在的，但很可能发生的联系。用在语言模型中，人工智能也能学习到不同的语言风格，挖掘现有文字中的“精髓”和“问题”。

数据越大，模型越成熟，其计算和挖掘能力也越高。类似于 BERT、GPT 这样诞生于大机构的 AI，被许多人认为走到了技术的“拐点”，量变产生质变也不无道理——这对于知识生产者来讲是好事。不过，大模型也有其内在的问题，模型越大，问题也越尖锐，特别是涉及到知识的多样、公正和真实方面。

怎样才能生产真实且公正的知识？

新的知识能从现有知识的连结和新模式中产生，这一点不管是从人还是机器的层面都是成立的。然而，现有的知识是否足够？是否充分？是否公平？如果现有知识的基础是不足的、甚至是有偏见的，那么在此基础上建立的新知识也会产生偏差。

自从机器学习的AI投入大规模应用以来，学者们就在不断地揭示出这些模型内在的偏见：性别歧视、种族歧视、有违伦理的输出等等。开发者们用各种补丁和纠偏的方式去弥补，但大部分问题都潜藏于数据生产和训练过程中，而AI的偏见，亦是对社会偏见的反映和放大。

另外一个问题则是数据的质量。机器学习不仅牵涉到训练模型的能力，还有数据的数量和质量。现有的开发过程，对模型的性能有着更多的强调甚至是迷信，反而会忽视更底层的数据来源问题。现在的大部分数据都要依赖人工来清洗和格式，为数据分类、打标签等等。很多时候，这个制作数据的过程是不透明的，甚至是潦草的。比如，大公司的AI开发背后，是大量“脏乱差”的人工被外包到欠发达地区的“AI工厂”。这种过程一方面存在着劳工伦理问题，另一方面也对数据质量提出了挑战。

到了大模型时代，这个问题可能会被隐藏得更深一些：不是每个研究者或者团队都有能力从0开始开发AI模型，尤其是大语言、大图像模型，大多都是在现有模型的基础上进行微调。而大模型本身的问题和偏差，会被迁移到更多的应用模型上。而越是底层的偏差，越是难以通过微调纠偏的方式进行处理。

现有语言模型的预测生成模式，甚至还会将数据现有的偏差放大，产生“过拟合”的效果：例如，某种疾病在某个族群中统计数据占比偏高，约有60%；但若让语言模型去生成一个病人的画像，那么有超过90%的可能，生成的病人描述会属于该族群。

现在一些AI的模型训练，采用的是一种“互搏”模式——所谓“生成对抗网络”（generative adversarial network），让两个模型不断互相生成、彼此纠正。这种方式的确是提高了模型训练的效率，然而任何小的偏差，都会在这种“互搏”中被放大。同样的原理，如果一个与机器紧密合作的知识生产者，其生产依赖于这类“生成”，那么一些来自于模型的偏见，就会被嵌入更多的新知识中，新知识再被吸收为数据，又进一步加强了模型的偏差。知识生产者在这个过程中必须保持警惕。

什么是新知识？AI的“生成”能代表新知识吗？

所谓的新知识，究竟是什么？如果要充分使用AI来生产知识，那么知识生产者就必须要从人机的结合点去思考这个问题。任何信息，以及人类从真实世界中获取的知识，都需要被“清洗”和“格式”成数据。除了上面提到的数据质量以外，数据生成的过程也很重要。简而言之，人们要研究的问题是什么？这个问题被翻译成为了怎样的数据？这些数据是怎么被生产出来的，又是否全面、公正地代表了知识生产者们想要研究的问题？

这个问题，对于“传统”的知识生产者而言也是成立的。以历史学为例，虽然历史研究的是过去的事情，但过去的事情没有百分百能够盖棺定论的。学者们通常会不断地寻找新的史料，去补充对于历史问题的理解，去不断地挖掘过去被忽略的视角和声音。有趣的是，当下的史学，也常常会求助于大量的数据，特别是过去的经济、人口、气候数据，甚至依靠机器学习，为历史带来的新认识、新观点。

同样的，依靠机器生成的认识和观点，也有可能放大了某一些数据来源的重要性。现在的知识生产者，过于依赖那些主流的、存在于互联网的、电子的信息，去在那些已经被别人“翻译”为数据的东西上进行创造。在AI时代，AI提供的便利和可延展性，也会潜在地让人们更容易忽视没有被数据化、电子化的，非主流的，经验性的知识，从而错过形成新观点、新视角的可能性。

往更深层次讲，新知识往往产生于对于新材料的挖掘，不同观点、不同视角之间的碰撞，对于现有知识的重新解构。大语言模型为知识的展现提供了许多可能性，然而其内在的逻辑和架构可能是和这种生产方式相悖的。

基于大语言模型的训练方式，和模型生成输出的特征，排序靠前的、概率更高的输出内容，权重会变得更大，特征会变得更单一。“AI生成的”几乎已经变成了一个形容词，去描述那些没有特征的、不断重复、说了像是没说的片汤话。诚然，对于知识消费者而言，那些“最有可能”出现的答案大大降低了理解门槛；但对于知识生产者而言，这些东西反而有可能成为阻碍。

新时代的知识生产者，该往哪里走？

可能很多和我一样的社科研究者，都在使用ChatGPT的时候遇到过这个问题：问它解释一个概念，说得头头是道；然而问起来源，就是“一本正经地胡说八道”了，比如列举出一个作者从来没写过的书、从来没发表过的论文。领域越是狭窄、专业，“胡说”的可能性越大。

退回到AI的原理，这种“创造”其实也是在海量的数据中，挖掘词句“有可能”的联系，但这些联系在现实中是不存在的，说白了只是“听起来很像”。这种新现象，在当下被称为“幻视”（hallucination）。对于知识生产者而言，如何活用人工智能去挖掘现有知识库中的模式和联系，但又对机器的“幻视”保持警惕，什么存在，什么存疑，是非常重要的技能。

与AI“对话”，也会变成一个新的技能。当下的AI对于大部分非技术人员而言（甚至技术人员），依然是一个神秘的“黑箱”。如何从技术的底层或者中层入手，去更有效地与机器对话，理解和对抗“幻视”，需要知识生产者和技术从业人员的合作。

而对于新知识、新视角、新材料的研究，各个领域独有的结构和诠释，在当下依然是十分关键的。大语言模型和生成式AI的预测模式，依然是倾向单一、重复的，越是训练材料少的领域，能力就越是有限。想要机器和人能力的结合，就必须从数据的生产根源上着手，去用准确的、多样的、公正的、新颖的数据训练AI模型，建立良性的人机互动模式。

大语言模型和生成式AI的问世对研究人员带来的挑战，仅仅是一个开始。与其探讨“取代”，不如在更加审慎的目光下，寻求磨合与发展的可能。

作者介绍：李子，技术社会学博士，哥伦比亚大学医学人文和伦理系博士后研究员

本文来自微信公众号：腾讯研究院（ID：cyberlawrc），作者：李子