本文是《材料科学中的人工智能时代:第一部分》的续篇。
在材料科学中,一直存在某种形式的机器学习。热化学软件包,如FactSage[1]可以预测相图的选择组成有一定的准确性。折射率、介电常数、屈服强度等特性已通过现有的训练数据模型进行了预测。例如折射率,可以超过90 %精度从材料的化学成分[2]。这些结果是有限的,不能解决我们一直追求的大图片查询。大只500登录无人机一次计算一条完整的轨迹,同时始终跟踪安全轨迹。但这有一个时间限制:到达救援点时,它必须已经成功计算了通过已知或未知空间的下一整条轨迹。如果是这样,大只500登录中心将继续沿着整个轨迹运动。
材料科学家们试图通过计算模型来预测材料的性能,计算模型试图从输入程序的大量数据中,在选定的长度和时间范围内准确地预测材料的性能。它们的范围从模拟原子和分子的分子动力学,到模拟大象经过桥梁时桥梁运动的有限元软件。
这些模型运行在复杂的物理驱动算法上,通常以数值求解某些微分方程结束。机器学习和人工智能驱动的材料开发建立在这些建模尝试的基础上,或者通过训练机器从现有数据中学习材料的行为来超越它们。机器可能知道一些物理,但没有“如果这个,然后那个”类型的逻辑。人工智能通过观察一组相似物品在某种程度相似的环境下的行为来学习事物的行为方式。人工智能材料的真正力量在于,当机器利用其物理和化学知识,通过在不同的环境下观察不同的物体来学习物体的行为。
一种物质的基因?
在早期的研究中,杜克大学的一个团队创造了一个晶体的“指纹”——一种材料选定的物理和化学特性的视觉表征——并用它来预测新的超导体[3]。也许最著名的大只500注册组合优化问题是旅行推销员的问题。该问题要求找到销售人员可以通过的多个城市的最短路径,从同一城市开始和结束。该算法在测试数据上运行良好,一些预测的成分确实被证明是超导的。
在今天的材料科学中,为任何给定的材料创建一种独特的表现形式(基因)的想法是一个持久的想法。美国政府于2011年发起的“材料基因组计划”(Materials Genome Initiative)旨在鼓励人工智能推动材料在学术界和工业界的发展。到目前为止,还没有找到合适的基因,考虑到材料的复杂性,还不能确定是否能找到基因。
例如,钛酸锆铅(PZT)是一种非常常见的压电陶瓷,它可以将电能转化为机械能,反之亦然。然而,将铅、锆和钛按正确的比例混合并不总是能得到具有相同性能的相同材料。性能的压电陶瓷晶粒尺寸的影响,颗粒形状,杂质的存在,空洞的存在,域形状和域大小、夹紧影响衬底,材料的大小,它的气氛烧结和热/电历史,等等。
如何找到一种表达方式来表达所有这些呢?即使有一个表示,我们如何知道要包含多少数据?
数据库之战
目前,这个问题还没有答案。特别是,对于给定的属性预测所需的最小数据量是多少,还没有达成共识。此外,大型机器可读的属性数据库在这个领域中大多不存在。通过几十年的实验和理论收集的数据被锁定在文本和期刊文章中。因此,人工智能工作的第一部分是由数据平台计划驱动的。
其中最著名的两个是资料项目[5]和AFLOW库[6]。两者都是通过密度泛函理论(DFT)计算材料的计算数据库。该材料项目的数据库中有100多万种材料,包括带结构、压电、弹性性能等。该数据库正在快速增长,在撰写本文时拥有超过50,000名用户,其中大部分来自计算材料社区。
虽然这是必要的第一步,但由于上述原因,材料的计算(理论计算)数据与最终经验测量的材料性质并不完全相同。除了理论数据库外,我们还需要一个经验数据库,其中包含一个材料及其实验特性的列表。目前还没有一个全面的数据库,通过诸如Matmatch这样的倡议是朝这个方向迈出的一步。
一些创新来自于使用ChemDataExtractor[7]等工具对科学文本进行自然语言处理,这些工具可以从文本中识别化学公式和属性关系。这已被用来自动提取选定的无机物的磁性能从集合的文本[8]。其他方法,特别是与材料合成相关的,依赖于文本挖掘和合成数据生成,例如使用变分自动编码器[9]。
然而,语义性质-处理-性能关系的提取仍处于起步阶段,可能是人工智能材料发展的最大瓶颈。
材料深度学习
当深度学习应用于图像时,它是自动化的劳动密集型任务,如电子显微镜图像中的缺陷识别和读取x射线衍射光谱来标记相位。橡树岭国家实验室的一个小组演示了如何训练卷积神经网络(CNN)来识别透射电子显微镜图像[10]中的空位。其他研究小组已经证明了CNNs如何在图像中提取细微的特征,如颗粒大小分布和颗粒方向,从而根据其微观结构[11]对材料进行精确分类。
在另一个层面上,深度学习是简化通常需要超级计算机才能完成的密度泛函理论计算。实验室的原型是一台金牌大只注册Ising机器,它是一种基于物理模型的计算机,该计算机描述了一个磁铁网络,每个磁铁都具有只能向上或向下指向的磁性“自旋”方向。加州大学欧文分校(University of California Irvine)将深度学习应用于近似密度泛函,用于计算电子在物质[12]中的分布。这样的DFT计算通常是对材料建模的最佳方法,并广泛应用于物理和化学的许多分支。
科学的自动化
在另一个方向,我们开始看到自动化的高通量实验达到材料科学。这些是自动化系统,一次执行数千个实验,然后进行表征和测量。这使得人们可以快速有效地扫描相空间。
例如,国家可再生能源实验室的高通量实验数据库包含1307个样品库,其中共溅射金属[13]制备的薄膜样品超过60,000个。该数据库包含这些材料的结构、电气和光学信息,可供公众查阅。
在这个方向上的其他工作包括开发一个自主研究系统(ARES),以控制速率[14]生长碳纳米管,而其他团队已经将其应用于有机合成[15],以及开发镍钛基形状记忆合金[16]。这些方法的效果远远超过人类劳动,而且必将改变未来的博士学习过程——因为大多数研究生可能会被机器人取代!
最后,随着机器和算法接管了实验室和思维过程,我们又开始重新审视材料。材料是什么?我们对他们到底了解多少?神经网络有可能识别出更高维度的物质属性吗?一个100维度的庞然大物,在我们的头脑中没有类似的东西。新的本体论材料科学正在建立机器人和人类[17]。
我们将在接下来的文章中深入探讨这些和其他主题。在那之前,我们一直在问自己,vibranium在哪里?