11-02摘要数据

(上图)来源:皮克斯湾


在过去的10年里,越来越多的研究人员正在利用材料发现和设计的数据科学技术

数据科学是一个跨学科的领域,它使用科学的方法、过程、算法和系统从嘈杂的、结构化的和非结构化的数据中提取知识和见解。采用数据科学框架的研究人员使用机器学习等先进的计算机技术来快速识别值得进一步探索的新材料,而不是通过试错来缓慢识别新材料。

然而,在材料设计中使用机器学习的一个挑战是,需要一个测试数据集来训练算法。传统上,研究团队不与他人分享他们的数据,这使得获取大量数据进行训练变得困难。然而,即使数据是可用的,它也很少以一种可以用来训练算法的方式存储。

虽然有解决这些挑战的方法,比如数据增加在美国,研究人员正在努力解决当前机器学习方法的另一个局限性——检测材料结构中的对称性、周期性和长程顺序。

材料的结构在决定材料的性能和行为方面起着重要的作用。不幸的是,卷积神经网络cnn (machine learning)是一种常用来分析视觉图像的机器学习,但它不能轻易地检测出对称性、周期性和长程有序等结构特征。

在实践中,为了使cnn易于计算,通常会添加池化层,使用基于区域的汇总统计来降低数据的维数。由于池化层的存在,cnn通常是平移不变的,这意味着它们可以检测图像中是否存在某个特征,但不能确定其精确位置,”研究人员在最近的一篇文章中写道开放获取的纸

换句话说,cnn无法识别旋转后的图像,因此会将旋转后的图像分类为唯一对象,从而无法识别从不同角度拍摄的图像之间的相似性。

技术,如2 d-rotational等变化三维欧几里得神经网络可以纠正这个限制,但事实仍然是cnn并不天生就理解对称。因此,修正技术通常只允许有限的结论,如果一个新的例子位于训练数据分布的边缘,预测可能是无意义的。

目前,还不可能开发出一种内在理解对称性的神经网络。然而,在不依赖矫正技术的情况下提高神经网络近似对称的能力是一个可以实现的目标,这也是上面引用的开放获取论文的研究人员的目标。

研究人员来自利哈伊和斯坦福大学,他们是由约书亚琼脂他是利海大学材料科学与工程学院的助理教授。在这篇论文中,他们解释了他们是如何开发出具有改进对称性意识的神经网络的。

他们首先开发和训练了两种互补的基于神经网络的算法。一种神经网络可以对自然图像进行分类,另一种神经网络可以对墙纸群对称图像进行分类,即对二维重复模式进行数学分类。

在训练算法后,研究人员使用流形学习技术创建2D投影,这些投影基于图像的组成和结构,而不考虑图像的长度比例。反复的探索揭示了图像相似性的更多细微细节。

在证明了他们的神经网络在生成图像上的潜力之后,研究人员将他们的神经网络应用于压电反应力显微镜图像,这些图像是在加州大学伯克利分校历时5年收集的不同材料系统的图像。结果呢?该网络成功地将类似种类的材料组合在一起并观察到趋势,尽管它对材料系统、结构或潜在的对称性没有内在的理解。

在一封电子邮件中,Agar说这项研究的结果是令人兴奋的,不仅因为成功的近似,而且因为它提供了一个创新的新数据存储系统DataFed的第一个“用例”。

如前所述,缺乏健壮的数据存储库来训练机器学习算法。位于橡树岭国家实验室(Oak Ridge National Laboratory)的新DataFed系统旨在填补这一空白。

DataFed是一个联邦系统,用于管理“参与组织和设施网络中的数据存储、通信和安全基础设施”ORNL的网站.利哈伊大学的一个跨学科团队,叫做总统纳米人机界面计划,在DataFed的设计和开发中发挥了积极作用。

艾格是总统国家健康倡议团队的一员,他说,他们开发的新的对称算法将与DataFed系统集成,以解决他所认为的数据科学的双面问题。

“没有合适的数据存储库来收集、整理和搜索科学数据,也没有好的工具来简单地从科学数据库中提取知识。DataFed解决了前者,而手稿解决了后者,”他说。

琼脂说,在他们将对称模型与DataFed整合的过程中,他们继续改进模型,使其更易于使用。“所有软件都是在非限制性许可下开发的开源软件。我们希望建立一个用户社区,帮助开发新功能。”

这篇开放获取的论文发表在npj计算材料,是“材料显微镜的对称感知递归图像相似性探索”(DOI: 10.1038 / s41524 - 021 - 00637 - y)

共享/打印