機器學習在各領域的廣泛應用促生其在材料領域的應用,它提供了一種新型的工具,即能從高維數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)間的規(guī)律,有助于減少計算量從而加速對新材料的探索。特征提取(特征工程)是機器學習的關鍵組成部分,選擇合適的形式來表達將直接影響最終模型的效果。在材料科學領域必須要捕獲所有的相關信息,從而達到區(qū)分不同原子和不同晶體環(huán)境的作用。因此在材料領域中,特征可以是簡單的確定原子序數(shù),可能涉及復雜的轉換,比如徑向分布函數(shù)(RDFs)的擴展,也可能是聚合統(tǒng)計數(shù)據(jù)(例如求平均值、求最大值等)。
在數(shù)學中,拓撲可以用來處理空間中不同組件的連通性,并表征空間中獨立的實體,環(huán)和高維拓撲面。拓撲提供了最高級別的抽象因此可以作為一種處理高維結構數(shù)據(jù)的有效工具。其中,拓撲數(shù)學的持續(xù)同調(diào)(persistent homology)通過將多尺度幾何信息嵌入拓撲不變量從而將幾何分析和拓撲分析連接起來,它是一種在變化的尺度中分析拓撲結構的一種重要的方法?;舅枷胧请S著原子尺度的變化記錄結構的拓撲不變量(例如β0, β1 和 β2),從而得到拓撲指紋(如圖1所示)。
圖1 類苯環(huán)結構的拓撲指紋示意圖及碳硼烷結構的預測
在此過程中,利用持續(xù)時間較長的拓撲特征來表征系統(tǒng)的內(nèi)在特性,通過預先設定的閾值進行過濾。在三維空間中,獨立組成、環(huán)和腔是非常重要的拓撲特征。具有一定連接關系的結構會產(chǎn)生在內(nèi)在不變的拓撲特征。持續(xù)同調(diào)可以記錄原子尺寸變化過程中,系統(tǒng)拓撲不變量的開始和結束,通過條形碼(barcode)可以進一步將其可視化,也稱為拓撲指紋。
北京大學深圳研究生院新材料學院潘鋒課題組與美國密歇根州立大學數(shù)學系魏國衛(wèi)教授課題組合作首次將以持續(xù)同調(diào)為基礎的數(shù)學方法引入材料科學中,利用持久同源將高維空間中的材料結構映射到低維拓撲空間,從而更方便地研究結構與性能之間的關系。團隊將持續(xù)同調(diào)方法引入碳硼烷體系的分析,通過對這些結構的拓撲指紋的分析,建立起基于拓撲不變量及其持久長度的模型。利用拓撲不變量(β0, β1和β2)定量分析和預測了碳硼烷結構以及其對應BnHn2-的相對能量。通過利用拓撲不變量(β0, β1和β2)的平局長度特征,可以將該拓撲信息與BnHn2- (n = 5~20)的相對能量進行精確擬合,Pearson相關系數(shù)為0.977,而相應的碳硼烷結構C2Bn - 2Hn (n = 5~20)的Pearson相關系數(shù)為0.937,如圖1。該工作以令人滿意的精度證明了持續(xù)同調(diào)方法應用于多原子體系的的可行性,提供了一種新型的團簇結構描述符(Chinese J. Struct. Chem. 2020, 39(6), 999-1008)。在未來的工作中,我們可以利用更有效的機器學習方法,根據(jù)持續(xù)同源得到的拓撲信息,建立結構與性質(zhì)之間的關系,實現(xiàn)更大原子數(shù)量的碳硼烷結構的預測。
同時,團隊在鋰團簇能量預測方面,除了使用拓撲不變量來提取團簇結構的拓撲幾何信息,對于原子間的短程作用和長程作用等數(shù)據(jù)信息,還進一步提出了持續(xù)獨立原子對(PPI)來計算“生長”過程中每對原子(或點)的獨立性。最初,所有的原子都是不相連的,PPI條的數(shù)目等于獨立原子對的數(shù)目。隨著生長?參數(shù)的變大,一些原子對連接起來,它們的PPI合并。我們提出的PPI條碼比β0更具信息量。如圖2所示,它可以與拓撲不變量一起用于描述材料結構。隨后基于提取的拓撲特征,構建團簇能量預測機器學習模型。最終,僅僅利用小型團簇結構構成的數(shù)據(jù)集來訓練所得的模型即可對中型和大型團簇形成非常高的預測精度。該模型可用于團簇結構的快速篩選,加快最穩(wěn)定團簇結構搜索的速度。相關成果發(fā)表在隸屬Nature Index的知名雜志The journal of physical chemistry letters(2020, 11, 4392)上。
圖2 基于持續(xù)同調(diào)與持續(xù)獨立原子對的鋰團簇能量預測
在無機材料的能量預測方面,由于持續(xù)同調(diào)僅提供全局的拓撲結構信息,對于無機化合物包含大量不同元素和不同結構的體系沒法直接使用。因此,團隊提出了原子特殊的持續(xù)同調(diào)(ASPH),它考慮的是晶胞中每個原子周圍不同環(huán)境構成的持續(xù)同調(diào),在拓撲不變量中嵌入原子信息?;贏SPH方法表達的結晶化合物拓撲特征可以構建晶體能量預測模型,使用拓撲表達的結構特征配合元素特征可以實現(xiàn)MAE僅為61 meV/atom的結果(圖3)。此外基于預測結果,團隊還對預測偏差較大的結構進行了詳細的討論與分析,發(fā)現(xiàn)了異常通常存在于特殊的氧化態(tài)與畸變的結構之中,增加了此類異常的認識與理解。相關成果最近發(fā)表在Nature 集團旗下的知名雜志npj Computational Materials(2021,7, 1-8)上。
圖3 結晶化合物拓撲特征可以構建晶體能量預測模型
拓撲數(shù)學是一個強大的工具,可以通過變化的尺度定性分析數(shù)據(jù)結構,借助機器學習方法,便可以構造有高精度的材料預測機器學習模型用于團簇結構分析、團簇結構搜索以及晶體結構能量預測等諸多材料結構規(guī)律的科學研究中,有助于加速材料的發(fā)現(xiàn)與應用。
該些工作是在潘鋒教授和魏國衛(wèi)教授的共同指導下,第一作者分別是北京大學深圳研究生院新材料學院研究生陳冬、陳鑫和江毅,他們與團隊成員協(xié)作共同完成研究,該工作得到了國家材料基因組重點研發(fā)計劃和深圳市科技計劃項目的大力支持。
版權與免責聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構成其他建議。僅提供交流平臺,不為其版權負責。如涉及侵權,請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com