幾乎覆蓋元素週期表！Meta 發佈開源 OMat24 數據集，含 1.1 億 DFT 計算結果詳情 - meta,人工智能,深度學習,數據集,機器學習超神經HyperAI 博客

隨着全球對可再生能源需求的日益增長，儲能技術作為一種能夠將能量儲存起來並在需要時釋放的解決方案，正受到越來越多的關注。但許多再生能源存儲技術初期投資成本高，運維困難，目前仍處於研發或示範階段。

針對於此，彼時還未更名的 Facebook 人工智能研究實驗室 (FAIR) 聯合卡耐基梅隆大學，於 2020 年發起了 Open Catalyst Project 項目，其目標是利用 AI 探尋用於可再生能源存儲的新催化劑。伴隨該項目的發佈，研究團隊推出了催化劑模擬數據集 OC20。

OC20 數據集下載地址：
https://go.hyper.ai/dYeNS

2022 年，研究團隊在 OC20 數據集的基礎上，擴展推出了 Open Catalyst 2022 (OC22) Dataset，使得模型訓練更加精準。
OC22 數據集下載地址
https://go.hyper.ai/9FhFL

近日，Meta 在材料科學領域再次迎來新突破，發佈了 Open Materials 2024 (OMat24) 大規模開源數據集和一組配套的預訓練模型。OMat24 數據集包含超過 1.1 億次以結構和成分多樣性為重點的密度泛函理論 (DFT) 計算結果。預訓練模型使用 EquformerV2 (eqV2) 模型進行訓練，其中 eqV2-M 模型在 Matbench Discovery 排行榜上達到了最先進的水平，能夠預測基態穩定性和形成能，為預測材料穩定性設定了新的基準。

研究亮點：

OMat24 數據集在 MPtrj、Materials Project、Alexandria 等開源數據集的基礎上構建，數據集包含的元素幾乎覆蓋整個元素週期表
預訓練模型有 eqV2-S、eqV2-M、eqV2-L 三種模型規模，其中 eqV2-M 模型在 Matbench Discovery 排行榜上的 F1 得分為 0.916，平均絕對誤差僅為 20 meV/atom

在這裏插入圖片描述

論文地址：
https://arxiv.org/pdf/2410.12771

OMat24 數據集下載地址：
https://go.hyper.ai/gALHP

開源項目「awesome-ai4s」彙集了百餘篇 AI4S 論文解讀，並提供海量數據集與工具：

https://github.com/hyperai/awesome-ai4s

OMat24 數據集包含超 1.1 億 DFT 計算結果，涵蓋不同的原子構型

OMat24 數據集是目前用於材料訓練 DFT 替代模型的最大的開源數據集之一。該數據集由一系列無機體塊材料的 DFT 單點計算 (single-point calculations)、結構弛豫 (structural relaxations) 和分子動力學軌跡 (molecular dynamic trajectories) 組成。研究人員總共計算了約 1.18 億個標註有總能量、力 (forces norm) 和晶胞應力 (stress) 的結構，使用了超過 4 億核時的計算資源。

這些結構是通過玻爾茲曼採樣生成擾動結構 (sampling of rattled structures)、從頭算分子動力學 (ab initio molecular dynamics, AIMD)、以及擾動結構的弛豫 (relaxations of rattled structures) 3 種技術生成的。

在這裏插入圖片描述

OMat24 數據集生成、應用領域及採樣策略概覽

OMat24 數據集具有廣泛的能量、力和應力分佈。下圖展示了 OMat24 數據集、MPtrj 數據集以及 Alexandria 數據集的總能量 (total energy，單位用 eV/atom 表示)、力 (forces，單位用 eV/A 表示) 和應力 (stress，單位用 GPa 表示) 標籤的分佈情況。

MPtrj 數據集 (Materials Project Trajectory Dataset) 包含超過 150 萬個無機結構的 DFT 計算結果。因其大規模和多樣性，在材料科學和計算材料學領域具有重要的應用價值。
Alexandria 數據集是一個量子化學數據庫，為力場開發、密度泛函的開發和評估提供了大量的分子屬性數據。

在這裏插入圖片描述

橙色虛線代表 MPtrj 數據集、藍色虛線代表 Alexandria 數據集、綠色實線代表 OMat24 數據集

可以看到，OMat24 數據集的能量分佈略高於用作輸入結構的 Alexandria 數據集，並且顯著高於 MPtrj 數據集；OMat24 數據集的力以及晶胞應力分佈遠高於 MPtrj 和 Alexandria 數據集。

值得一提的是，OMat24 數據集所包含的元素也幾乎覆蓋了元素週期表。如下圖所示：

在這裏插入圖片描述

OMat24 數據集中的元素分佈

儘管 OMat24 數據集與其他數據集相比具有優越性，但研究人員同時也説明了該數據集還存在侷限性。該數據集是基於 PBE 和 PBE+U 級別的 DFT 計算得到的，它只包含週期性體相結構，未考慮點缺陷、表面、非化學計量比以及低維結構的重要影響，因此存在固有的近似誤差，但這些誤差在其他泛函中得到了一定程度的解決。

如下圖所示，研究人員將 WBM 數據集中的計算結果與採用 OMat24 DFT 設置的單點計算結果進行了比較，結果發現二者之間平均絕對誤差為 52.25 meV/atom。

WBM 數據集是一個大規模的計算材料數據庫，包含了使用 DFT 計算得到的大量材料的電子結構和熱力學性質數據，如形成能、熵變、比熱容等。

在這裏插入圖片描述

WBM 數據集計算結果與 OMat24 DFT 設置的單點計算結果比較示意圖

以 EquformerV2 為模型架構，基於三大數據集進行模型訓練

研究人員利用 OMat24 數據集以及 MPtrj 數據集和 Alexandria 數據集來訓練模型。由於 Alexandria 數據集和用於測試的 WBM 數據集中存在類似的結構，研究人員對 Alexandria 數據集進行了子採樣以進行訓練，確保訓練數據集和測試數據集之間沒有遺漏。

首先，研究人員刪除了所有與 WBM 初始結構和弛豫結構中相匹配的部分，創建了 Alexandria 的新子集 (sAlexandria)。為了縮小數據集，研究人員刪除了總能量 > 0 eV、力範數 > 50 eV/Å 和應力 > 80 GPa 的結構。最後，只對剩餘軌跡中能量差大於 10 meV/atom 的結構進行採樣。最終用於訓練和驗證的結果數據集分別有 1,000 萬和 50 萬個結構。

對於模型架構，研究人員選擇 EquiformerV2，它是目前在 OC20 、OC22 和 ODAC23 排行榜上表現最好的模型。

對於模型訓練，研究人員探索了 3 種策略：

僅在 OMat24 數據集上訓練 EquiformerV2 模型，帶有和不帶有去噪增強目標 (denoising augmentation objectives)。這些模型具有最強的物理意義，因為它們僅適合包含與舊版 Materials Project 設置相關的底層偽勢重要更新的數據集。
僅在 MPtrj 數據集上訓練 EquiformerV2 模型，帶有和不帶有去噪增強目標，可用於直接與 Matbench Discovery 排行榜進行比較（標記為 compliant 模型）。
在 MPtrj 或 sAlexandria 結合的數據集上進一步微調 OMat24 或 OC20，從而進行 EquiformerV2 模型訓練，使其成為 Matbench Discovery 排行榜上表現最好的模型（標記為 non-compliant 模型）。

下表展示了基於 EquiformerV2 架構訓練的模型以及不同規格模型分別對應的參數總數和推理吞吐量：

在這裏插入圖片描述

模型訓練的不同規格

基於 EquiformerV2 訓練的模型在 Matbench-Discovery 排行榜表現最優

研究人員使用 Matbench-Discovery 基準對 EquiformerV2 模型進行評估，結果顯示無論是在 compliant (僅使用 MPtrj 訓練) 還是 non-compliant (使用額外數據訓練) 的模型上，EquiformerV2 模型在排行榜上都達到了最優的表現 (F1 分數是主要評判指標)。

下圖展示了 Matbench-Discovery 排行榜上其他 non-compliant 模型的表現。

在這裏插入圖片描述

圖源 Matbench-Discovery 官網

結果顯示 eqV2-M 模型的 F1 得分為 0.916，平均絕對誤差 (MAE) 為 20 meV/atom，均方根誤差 (RMSE) 為 72 meV/atom，為材料穩定性的預測設立了新的基準。

此外，僅在 MPtraj 數據集上訓練的 EquiformerV2 模型也表現出色，這得益於有效的數據增強策略，如對非平衡結構進行去噪 (DeNS)。從上表可以看出，基於 OMat24 數據集預訓練的模型在精度方面優於傳統模型，特別是在處理非平衡配置時表現突出。

開源成為材料科學與 AI 融合的加速器

在當今這個由數據驅動的時代，AI 正以其前所未有的速度和精度，重塑着材料科學的研究範式。特別是圍繞材料科學開源的 AI 知識、工具和數據，讓更多研究人員、開發者甚至是愛好者有機會共同參與到創新的過程中，協力推進材料科學的發展。

對於此次 OMat24 開源數據集及其模型的發佈，機器學習大牛、微軟研究院首席科學家 Max Welling 在社交平台表示「我對 OMat24 這個新數據集感到特別興奮，它催生了一個新的 SOTA 級別的機器學習力場基礎模型。」

在這裏插入圖片描述

其實早在 2011 年，美國伯克利國家實驗室 (LBNL) 就發佈了 Materials Projec。該數據集包含了大量無機材料的計算數據，如晶體結構、電子結構和熱力學性質等，成為了當下材料科學研究的重要數據資源。
論文地址：
https://go.hyper.ai/KExvK

Materials Projec 數據集下載地址：

https://go.hyper.ai/BOQS0

又如美國西北大學 (Northwestern University) 在 2013 年發佈了開源量子材料數據集 OQMD，包含了 1,226,781 種材料的熱力學和結構性質的計算結果，被廣泛用於對多種材料應用進行高通量的 DFT 分析。
論文地址：
https://www.nature.com/articles/npjcompumats201510

OQMD 數據集下載地址：
https://go.hyper.ai/X4fE5

2018 年，麻省理工學院 (MIT) 發佈 CGCNN 模型。該模型在材料科學中應用廣泛，通過圖神經網絡實現對材料性質的預測，如預測晶體材料的帶隙、磁性和熱力學穩定性等性質。
論文地址：
https://arxiv.org/pdf/1710.10324

2020 年，美國國家標準與技術研究院 (NIST) 發佈 JARVIS 開源平台，專注於預測材料性質和電子結構。JARVIS-ML 是其機器學習模塊，提供了豐富的數據集和基於機器學習的材料篩選工具，支持 DFT、分子動力學模擬和機器學習，能夠幫助研究人員快速篩選和發現新材料。
論文地址：
https://arxiv.org/abs/2007.01831

2021 年，NIST 又發佈了 ALIGNN 模型。該模型通過引入線圖來捕獲原子間的複雜相互作用，可以有效提高材料性質預測的準確性。
論文地址：
https://www.nature.com/articles/s41524-021-00650-1

可以看出，從高通量篩選到自動化材料設計，開源已經成為推動材料科學與 AI 融合的重要加速器，正引領材料科學進入更智能、更高效的新紀元。

參考資料：

1.https://www.marktechpost.com/2024/10/20/meta-ai-releases-metas-open-materials-2024-omat24-inorganic-materials-dataset-and-models/

2.https://www.notebookcheck.net/Meta-unveils-OMat24-AI-powered-materials-discovery-goes-open-source.904139.0.htm

3.https://www.technologyreview.com/2024/10/18/1105880/the-race-to-find-new-materials-with-ai-needs-more-data-meta-is-giving-massive-amounts-away-for-free/

超神經HyperAI 博客

超神經HyperAI 博客

博客 / 詳情