本文来自微信公众号:八点三十五(ID:am8_35),作者:朱百宁,原文标题:《如何形象化地理解“AI、大模型、GPT”?》,题图来自:视觉中国
自从ChatGPT横空出世以来,AI领域再次引起了广泛关注。最近,有关AI的讨论络绎不绝,其中不可避免地涉及到一些诸如“样本、预训练、大模型”等概念和术语。
然而,要用浅显易懂的方式向非专业人士解释这些概念是相当具有挑战性的。
但这对于自己和他人,都很有价值。正如爱因斯坦所言:“If you can't explain it simply, you don't understand it well enough(如果你不能简单地解释,那就说明你理解不够)”。
之前我曾写了一篇名为《万万没想到,枯燥的“机器学习”还可以这样学!》的文章,受到了大家的欢迎。
今天,我尝试继续运用形象化解释的方法,把AI与人类学习和成长的类比,通过将AI与人们熟悉的事物进行比较的方式,简要介绍AI相关的原理、进展和意义。
“咿呀学语、蹒跚学步”vs“涌现”
带过小孩的家长都会有这样一个感觉:突然有一天发现孩子会说话了、会走路了。
这个过程并非像“0%、1%、2%……98%、99%、100%”这样逐个百分点缓慢提升,而是有一天突然发生了变化。
模型的“涌现”指的是在大量训练数据和复杂模型结构的支持下,模型突然表现出较高的性能和新的能力。
简单来说,就是“量变引起质变”的过程。
当训练样本足够大、算法迭代达到一定阶段时,模型的能力会突然提高。
能力“涌现”的前提,是大量不断的输入。
自孩子出生起,尽管他们听不懂、不会说,但家长要不断与孩子互动,跟他说话。在日积月累的过程中,有一天孩子的说话能力就会“涌现”出来。
模型的发展过程也类似。一开始可能什么都不会,即使“能说会道”,也可能表现出“智障”或者“一本正经地胡说八道”。
然而,在持续的大样本训练和算法不断迭代的过程中,有一天它就能达到像ChatGPT、GPT-4那样让人惊艳的理解能力、推理能力和表达能力。
“读万卷书、行万里路、与万人谈”vs“预训练(Pre-Train)、精调(Fine-Tuning)”
孩子们会说话、会走路之后,人的学习才正式开始。
一个人的学习成长,通常先经过基础教育、广泛的学习,再发展为专业的、深入某个领域的学习。
不仅要广泛涉猎,大量学习书本知识,还要进行实践和与人交流。
在这个过程中,应用所学知识,获取反馈,对大脑中的知识进行修正和提炼,即从“知识到智慧”,实现“知行合一”。
掌握了基本的知识和技能后,人们需要找到自己的专长领域。
在学校里,硕士生、博士生和教授需要选择一个细分领域进行深入研究。
每个人,也都需要找到自己的行业和职业。
对于GPT这样的大型模型,它们的发展也是通过类似的过程。
首先进行“大规模数据集”进行“预训练”,然后利用有标签的样本以及人类反馈,通过增强学习(Reinforcement Learning by Human Feedback,RLHF)进行微调和迭代。
模型的预训练,指的是在大量无标签数据上训练模型以学习基本知识。
这就像人在婴儿阶段以及从小学到高中阶段进行大量学习一样。不局限于某个领域,而是需要广泛且大量地输入信息。
精调指的是在特定任务上,利用有标签数据对模型进行微调,以便更好地适应特定任务。
这就像人在阅读了大量书籍后,还需要进行实践,从实践中获得反馈并成长。
许多伟人和名人,如毛泽东、列宁、马斯克、查理·芒格等,都非常热爱阅读,并乐于与人交流,在实际工作中大量实践。
只有这样,才能获得足够多的知识,才能塑造出过人的智慧。
“娇生惯养”vs“过拟合”
我们时常看到一些关于“孩子因为鸡毛蒜皮之类的琐事而做出傻事”的新闻,这通常是“娇生惯养”的结果,与模型中的“过拟合”现象有相似之处。
所谓机器学习,就是让机器从样本中学习,从而“拟合”出规律,进而掌握技能。
在训练模型时,如果样本过于单一或特征选择不当,就容易出现过拟合现象。
过拟合意味着模型将训练样本中的特殊情况误认为是普遍情况。
如此一来,在面对新的样本时,模型就无法做出正确的处理。
同样,娇生惯养(过拟合:over-fitting)导致的脆弱心智(模型)在面临现实世界中的各种挫折时,往往无法正确应对(预测不准确、泛化能力差),从而很容易导致不幸的结果。
因此,我们应该让孩子面对各种情况,并给予反馈,让他们了解并适应真实世界。
“职业教育/基础教育”vs“大模型、小模型”
人的教育有两种类型,一种是从小就教他一门手艺。比如“做菜、开车、做铁匠、木匠”等等,这样他就成为了一个专才。另外,就先是漫长的基础教育,再是高等、专业教育。先打好基础,再选择专业方向。模型跟人一样,你给他输入什么,他就有什么样的输出,他就有什么样的知识技能。在大模型之前,大家熟知的猫狗识别、指纹识别、人脸识别等等模型,就是做特定的事情,类似于职业教育。
这样的模型可以称为“小模型”,一方面是模型的size小,另外一方面是模型的能力范围比较窄。GPT这样的模型之所以称为大模型,既是因为训练数据集规模大、训练出的模型size大,也指的是模型有广泛的能力,好像是“上知天文、下知地理”。读万卷书,就是大模型,发展出通用智能。只读菜谱、只练厨技,就是小模型,发展特定技能。
“脑容量、字典、书籍”vs“大模型”
我们可以从以下三个方面,来形象化地理解大模型。
首先,以脑容量作为比喻。模型的大小就像动物的脑容量一样,较大的脑容量通常意味着更高的智慧。拥有更多神经元和神经元间连接的大脑,才能够储存更多知识。
其次,以字典作为比喻。如果一个语言的字典仅包含十个字,那么这个语言能表达的意义将非常有限。然而,如果字典中有数万个字,那么它就能表达更丰富的信息。
最后,以书籍进行类比。为什么大模型更具威力?
以GPT-3为例,其模型有40GB,相当于400亿个字节,粗略地估算相当于200亿个字。假设一本书有20万字,那么这就相当于10万本书。
可以说,10万本书基本上能够涵盖人类几乎所有的知识,且不重复。
(需要认识到的是,成千上万年来,人类知识的记录和传承基本上就是通过语言和书籍形式进行的。)
因此可见,足够大的模型,就能涵盖足够多的知识。
大模型,就有大智慧。
“作文能力的训练”vs“语言大模型”
常规的语言模型能力相对有限,比如进行分词、词性判断等,最多完成翻译等任务。
GPT作为“大语言模型(Large Language Model, LLM)”之所以如此强大,是因为一开始它并没有特定的目的性,不是预设让模型完成某一个任务,而是给模型广泛地输入和训练。
在学生作文能力的培养上,有两种方法。
一种是以提升作文能力为目标,让孩子阅读各种作文技巧的书籍、参加各种作文培训班。但这样急于求成的方法,效果其实并不理想。
另一方面,有些家长鼓励孩子从小养成阅读的习惯,博览群书。
这样一来,孩子的阅读能力、知识面、思维能力都会得到很大提升,作文能力自然随之提高。
而且,由于阅读速度、理解能力的增长,孩子在读题、审题方面的速度和准确率也会提高,从而提升其他学科如数学、物理、化学等的成绩。
更为重要的是,阅读不仅能提高成绩,还能塑造一个人的世界观、气质,并增强内心的力量。
可以说,对一个人的一生都会产生深远影响。
因此,我们不应急功近利,而应培养“大模型”。有了大模型,各种能力自然而然就会呈现。
“思维能力、写作能力”vs“字符预测”
人们常说,人如其文。一个人的文字能够体现出其思考能力、表达能力等综合素质。
模型也是如此,ChatGPT的能力体现在它的回答中,体现在一个个输出的字中。
首先要说明的是,ChatGPT在回答问题时,一个字一个字地慢慢往外蹦,并非因为网络速度的问题,而是因为模型就是以这种方式工作的:它根据当前的情境,不断地推理出下一个应该输出的字(将概率最高的字输出)。
因此,“准确预测下一个要输出的字符”是模型能力的关键。
为了让你更好地理解这个概念的重要性,我来举一个例子。
假设有一部推理小说,故事情节跌宕起伏、线索错综复杂。小说的最后,有一句话:“凶手是______。”如果AI在读到这里时能输出正确的字符,那么就证明这个模型非常强大。
表面上是字符,实际上是智能。
“变形金刚”与“transformer”
GPT是“Generative Pre-trained Transformer”的缩写,其中Transformer是一种深度学习架构,具体指的是一种基于自注意力(self-attention)机制的神经网络结构。
这个概念至关重要,但的确难以理解。下面,尝试解释一下。
你可以“顾名思义”,用“变形金刚”这部电影来做类比。变形金刚就是把一辆汽车零件打散,然后再变成一个人。这个过程就像Transformer中的“编码、解码”的过程。
将输入序列(比如汽车)解码成不同的部分(各个零件),并记忆部件之间的连接关系(通过自注意机制,self-attention),然后再根据相关信息组装成输出序列(如人型机器人)。
在这个过程中,Transformer可以捕捉输入序列中的长距离依赖关系,从而实现更高效且准确的序列处理。
“终身学习”vs“机器学习”
人与人的最大差别就是学习能力。
人要跟上社会发展,不仅要在学生时代好好学习,更重要的是在日常的工作和生活中不断学习、终身学习。机器之所以这么厉害、AI之所以这么强大,就是因为人家在不断学习啊。
更何况,机器的记忆力、学习速度,可是人的成百上千倍。
看看我们,一边在担忧“自己会不会被AI代替”,一边整天慵懒地握着手机在打游戏、刷视频。
懒惰的人类,要努力了啊!
“人脑、道”vs“可解释性”
科学技术发展到今天,人类对自己的大脑有了一定的了解,但完全谈不上深入、透彻。
同样,对于利用深度神经网络技术打造出的AI模型,也存在“可解释性”的问题。
尽管模型很强大,能识别出猫狗、能对答如流、能写代码、能画画,但即使是模型的开发者,也无法准确地说明,某个结果是如何具体产生的。
可以说,人类用原理不明的大脑,开发出原理不明的大模型。
老子说,道可道非常道。对于AI来说,也是如此。
太简单的模型,的确不会有强大的能力。
本文来自微信公众号:八点三十五(ID:am8_35),作者:朱百宁