DeepMind真的“发现220万种晶体”？ - 葱头胖友圈

去年11月，谷歌DeepMind在《自然》杂志上发布了一篇论文《扩展深度学习用于材料发现》。

DeepMind使用一个名为GNoME（材料探索图神经网络）的模型，预测出了220万种新的晶体，其中38万种具有稳定的结构。

过去的十年，世界各国的科学家用计算机模拟的方法发现了28000种新材料，加上人类利用传统实验的方法发现的大约20000种稳定性材料，人类发现的稳定晶体数量总共达到了48000个。无机晶体的发现在固态化学中具有基础科学和技术的重大意义。

乍看起来，DeepMind的方法，几乎把人类发现的稳定晶体结构数据扩展了一个数量级，而伯克利大学很快用一种AI智能代理的方法，在实验室中去自动合成这些晶体结构，同步发表了论文。

不出所料，DeepMind的论文引发了轰动。

“这些材料可能推动未来技术的发展”，谷歌在其新闻稿中写道，这相当于“近800年的知识积累”，并且是“人类已知稳定材料数量的一个数量级的扩展”。

另一篇同时发表的论文，由劳伦斯伯克利国家实验室的研究人员“与谷歌DeepMind合作……展示了我们的人工智能预测如何被用于自主材料合成”，谷歌写道。

在这个实验中，研究人员创建了一个“自主实验室”（A-Lab），使用“计算、文献中的历史数据、机器学习和主动学习来规划和解释使用机器人执行的实验的结果”。研究人员使用人工智能和机器人，将人类从实验室中移除，并且在17天后发现了并合成了新材料，研究人员写道，这“展示了人工智能驱动的自主材料发现平台的有效性”。

这两篇论文给人一种印象，科学智能（AI4Sceince）带来的范式革命，正在材料科技领域发生突破。

不过，来自化学和材料学术界质疑的声音开始出现。

包括普林斯顿、伦敦大学学院、加州大学圣芭芭拉分校的化学家和材料学家分析了DeepMind发现的一部分材料，他们认为，“我们尚未在那个子集中发现任何特别新颖的化合物”。用可信性、有用性、新颖性的尺度来衡量，还很难说DeepMind的研究是材料科学的突破。它的算法没有问题，但缺乏新颖性和有用性。

AI工具能如此快速地从海量数据中进行科学发现，但科学研究中最重要的一个环节，依然是同行评议。当化学及材料科学家对DeepMind的这项研究花时间进行深入分析后，他们发现，那些用各种算法算出来的东西，可能是非常肤浅地模拟了微观自然中一些表层的现象，它们经不起人类用科学实验进行检测。

一个更大的问题是，有多少假“科学智能”之名进行的研究，能否检验其科学性，有用性和新颖性。如果一个算法能完成人类数百年的研究工作，人类开始把大量的科学研究工作交给科研“智能体”，这样的科研成果一旦充斥于人类的知识库，我们是否将会被噪音彻底淹没？我们还有机会辨别吗？

科学智能有很大的潜力，但它依然是一种方法，依然要依据科学研究的方法和规范，依然要受到人类科学家的控制。而AI进行科学研究的自主性，可能是一个反复实验的过程，AI领域流行的打榜和对比方法，可能最终还是要经过学科领域内的科学家的评议，才能产生最终的结论。长期来看，科学智能还是需要human in the loop。

科技调查媒体404 Media联合创始人Jason Koebler采访了提出质疑的科学家和谷歌DeepMind，我们编译了其中的部分内容。如下：

上个月，两个研究小组分析了DeepMind和伯克利的论文，并发表了自己的分析，至少表明这项研究被过度推销了。

我在材料科学界交流的每个人都强调，人工智能在发现新型材料方面具有巨大的潜力。但他们表示，谷歌及其深度学习技术并没有在材料科学界取得真正的突破。

在本周发表在《化学材料》杂志上的一篇观点论文中，加州大学圣芭芭拉分校的Anthony Cheetham和Ram Seshadri随机选取了DeepMind发布的38万种提议结构的样本，并表示它们都不符合“可信”、“有用”和“新颖”的三部分测试。他们认为DeepMind发现的，应该描述为“晶体无机化合物”，而不应描述为更通用的“材料”，他们认为这个术语应该留给那些“展示出一些用途”的东西。

他们在分析中写道，“我们尚未在GNoME和稳定结构列表中发现任何特别新颖的化合物，尽管我们预计在384870种组合中肯定有一些。我们还注意到，虽然许多新组成物都是已知材料的无关紧要的改编，但计算方法整体上交付了可信的组成，这让我们感觉对基本方法还是靠谱的。”

在电话采访中，Cheetham告诉我“从对实验材料科学家有用的、实际的贡献方面来看，谷歌的论文还远远不够”。Seshadri说“我们实际上认为谷歌的这项研究并没有达到预期的效果”。

“如果我为某种特定的功能寻找一种新材料，我不会浏览谷歌提出的200多万种新组合”，Cheetham说。“我不认为这是进展的最佳方式。我认为一般的方法可能效果很好，但它需要更聚焦于特定需求，所以我们的生命中并没有时间去浏览220万种可能性，然后决定哪些可能更有用。我们花了很多时间在他们提出的一个非常小的子集上，我们意识到，尽管大多数可能是可信的，但不仅没有功能，而且它们并不新颖，因为它们只是已知事物的简单衍生品”。

谷歌DeepMind在一份声明中告诉我，“我们坚持谷歌DeepMind的GNoME论文中的所有结论”。

“我们的GNoME研究代表的，是比之前科学所知的材料多几个数量级的候选材料，我们已经预测的数百种材料已经被世界各地的科学家独立合成”，谷歌DeepMind补充说。

材料项目（Materials Project）是一个开放的材料属性数据库，它发现与其他机器学习模型相比，谷歌的GNoME数据库是顶级的。谷歌表示，《化学材料》文章中的一些批评，比如许多新材料虽然具有已知结构但使用了不同元素，实际上是DeepMind有意而为之。

与此同时，伯克利的论文声称，“自主实验室”（称为“A-Lab”）采用了另一个名为“材料项目”的项目提出的结构，并使用机器人在没有人类干预的情况下合成了它们，创造了43种“新颖化合物”。这篇论文中有一名DeepMind研究人员，谷歌在其新闻稿中推广了论文，但谷歌并没有主动参与实验。

分析这一发现研究人员发现，论文也有问题：“我们讨论了所有43种合成产品，并指出了分析中的四个常见不足。这些错误不幸地导致了这样的结论：在那项工作中没有发现新材料”，普林斯顿大学的Leslie Schoop和伦敦大学学院的Robert Palgrave在他们的分析中写道。

我再次强调，我所交谈的四位研究人员都表示，他们相信人工智能指导的寻找新材料的过程是有前途的，但他们分析的这篇论文并不一定是巨大的突破，也不应该被这样描述。

“在DeepMind论文中有很多预测材料的例子显然是荒谬的。不仅是对该领域专家来说，大多数高中生也会说H2O11（这是DeepMind的预测）这样的化合物看起来不对”，Palgrave告诉我。“还有很多明显错误的化合物的例子，Cheetham/Seshadri在这里比我更客气地揭穿了这个问题。对我来说，似乎连基本的质量控制都没有——机器学习预测输出这样的化合物，这是令人警觉的，对我来说某些事情出了问题。”

人工智能已经被用来在互联网上充斥着大量的内容，它们无法被人类轻易解析，反而让发现人类创造的高质量内容成为一个挑战。这是一个不完美的类比，但我所交谈的研究人员说，在材料科学中也可能发生类似的事情：巨大的潜在结构数据库并不一定创造对社会有积极影响的东西，甚至不一定会让它变得更容易。

“知道数百万种材料（如果准确的话）有一些好处，但你如何找到正确的方向，去寻找并制造有用材料？”Palgrave说。“知道一些具有特别有用属性的少数新化合物，要优于你有一万种化合物却一无所知哪个更好。”

Schoop说，已经有“50000种独特的晶体无机化合物，但我们只知道其中一小部分的性质。所以对我来说，如果我们还没有理解我们已经知道的所有化合物，为什么我们需要更多的化合物，这个道理并没有说清楚。预测材料的性质可能比仅仅预测新材料更有用。”

我想再次强调，谷歌DeepMind表示它坚持其论文的观点，并对这些（科学家的）评价提出异议，但公平地说，现在有很多争议：如何使用人工智能和机器学习来发现新材料，如何对这些发现进行情境化解释、测试和处理，如何和是否将大量潜在结构的数据库倾泻到世界上，以及实际上是导致对社会贡献了新颖的、实在的突破，还是它只会制造更多的噪音。

“我们不认为人工智能从根本上有问题”，Seshadri说。“我们认为这是如何使用它的问题。我们不是那些认为这些技术在我们的科学中没有位置的老派人士。”

参考链接：

https://pubs.acs.org/doi/epdf/10.1021/acs.chemmater.4c00643

https://journals.aps.org/prxenergy/pdf/10.1103/PRXEnergy.3.011002

https://www.nature.com/articles/s41586-023-06735-9

https://www.404media.co/google-says-it-discovered-millions-of-new-materials-with-ai-human-researchers/

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究