长久以来,人类将创造力视为自己的特性,认为它是区分机器与生命的一条明显界线。然而,随着人工智能技术的迅猛发展,特别是大型语言模型如ChatGPT的出现,这条界线正在逐渐模糊。


在最近发表在Scientific Reports的一项研究中,来自阿肯色大学的科学家们将人类与AI在创造力方面进行了直接比较。他们利用了包括替代用途任务(AUT)、后果任务(CT)和发散性联想任务(DAT)在内的多项测验,旨在评估参与者在发散性思维上的表现。令人惊讶的是,结果显示,在控制AI与人类生成想法的数量相同时(即回应流畅性),AI在各项测试中显示出的创造性都超过了人类。


论文:Hubert, Kent F., Kim N. Awa, and Darya L. Zabelina. "The current state of artificial intelligence generative language models is more creative than humans on divergent thinking tasks." Scientific Reports 14.1 (2024): 3440.


这项研究通过Prolific在线平台招募了151名人类参与者,并利用ChatGPT-4创建了同等数量的AI参与者。研究采用了三种主要的创造力测量方法:替代用途任务、后果任务和发散性联想任务。


在替代用途任务中,参与者需观察一些日常物品(如“叉子”和“绳子”),并想出这些物品可能的创造性用途。答案将根据数量(流畅性)、独创性以及每个有效答案的详细程度来进行评分。后果预测任务要求参与者想象一个假设情景(例如,如果人类不再需要睡眠,会发生什么?),并在限定时间内尽可能多地预测其后果。而发散性思维任务则要求参与者列举出尽可能多的不同名词。这些测试共同目的在于从流畅性、独创性和详细程度三个维度评估参与者的开放式思维能力。


为了公平比较人类与AI的创造力,研究人员在发散性思维任务中控制了双方想法生成的数量。具体而言,研究人员首先设定了明确的任务要求,比如在替代用途任务中,参与者需要为特定物品(如“绳子”或“叉子”)想出尽可能多的创造性用途。


人类参与者完成任务后,研究人员记录了他们的流畅性得分,即每人产生的独特答案的数量。然后,当GPT-4执行相同任务时,研究人员确保AI生成的答案数量与人类参与者相匹配。这样,通过控制流畅性,研究人员能在相同基础上更准确地比较双方在独创性(每个回答的独特性)和详细程度(回答的详细程度)上的表现,进而评估其创造性潜力。


人类参与者通过Qualtrics在线问卷平台提交回答,而AI参与者的回答则是通过人工辅助生成的。最后,研究人员利用开放创造性评分工具(OCS)和语义距离评分工具,对所有有效回应进行了客观的评分和分析,从而评估了独创性和详细程度。


使用语义距离对人类和 GPT-4 样本的替代用途任务、后果任务和发散关联任务响应的原创性的描述性统计。


结果表明,在替代用途任务中,人类和GPT-4的流畅性得分分别为6.94(SD=3.80)和7.01(SD=3.81),差异不显著。但在原创性方面,GPT-4在“叉子”和“绳子”两个提示下的表现均优于人类。特别是在“叉子”提示下,GPT-4的原创性显著高于人类。


此外,GPT-4在回应的详细程度上显著超过人类,例如在替代用途任务中,GPT-4的详细得分为15.45(SD=6.74),远高于人类的3.38(SD=2.91)


在后果任务中,人类和GPT-4在流畅性上无显著差异,但GPT-4在“不再需要睡眠”和“用手行走”两个提示下的原创性更高。而回应的详细程度上,GPT-4(M=38.69)也显著高于人类(M=5.45)


在发散性联想任务中,尽管人类在独特单词的数量上领先(人类独特单词数为651,占比87.03%,而GPT-4为220,占比69.40%),但GPT-4在语义距离得分上更高,分别为84.56(SD=3.05)和76.95(SD=6.13)


可以说,AI在所有发散性思维的测量维度上会优于人类参与者。特别是在控制了回答流畅性之后,AI在原创性和详细程度上的表现尤为突出。比如,在替代用途任务中,AI在原创性和详细程度上的得分明显高于人类。在后果任务和发散性联想任务中,AI同样展现出更高的创造性,这一点通过语义距离得分的统计分析得到了证实。


尽管这项研究展现了AI在发散性思维任务上的显著潜力,但也存在一些问题和局限性。首先,全面评价创造力不仅需要考虑到原创性,还要考虑到想法或产品的实用性和适宜性。但评价适宜性时需要考虑到许多因素,如社会文化和历史背景。


然而,研究中使用的语义距离得分并未涉及这些因素,而是反映了看似相关(或无关)想法之间的相对距离。因此,这些结果仅反映了发散性思维的一面,并不能全面代表AI在创造力方面的优势。


此外,研究发现,相较于人类,GPT-4在回答中使用了更高频率的重复词汇,虽然人类回答的词汇范围更广,但这并未必导致更高的语义距离分数。这一发现强调了灵活思考可能是人类中心发散性思维的强项。


更值得注意的是,AI在词汇选择上虽然更集中,但这种集中可能更有助于提高原创性。例如,AI能够使用非具体物品的词汇(如“自由”“哲学”),而人类在生成具体可观察的想法时可能受到固定思维的限制。这种生成列表之间的差异可能会使AI表现出更多的原创性。


面对机器的出色表现,我们不禁反思,创造力到底是什么?它是心灵深处偶尔迸发的灵感之光,还是能够被算法和数据精确模拟的技术?


尽管这项研究向我们展示了AI在发散性思维方面的显著潜能,但真正的创造力远不止于产生创新思想那么简单。它还涉及将这些思想实现为有深远影响的创作,解决现实世界问题的实践能力。因此,AI与人类创造力的较量还远未尘埃落定。更可能的是,在未来,我们会看到更多由人工智能和人类共同创造的杰作,开启一个全新的协同创造的舞台。


本文来自微信公众号:追问nextquestion (ID:gh_2414d982daee),编辑:存源