움직이는 교과서 · Interactive Textbook

Machine Learning Potentials

Choung, Simulation Tutorials for Computational Materials Science, Chapter 5. 슬라이더를 움직이면 그래프가 실시간으로 반응합니다.

MACE MLP Benchmarking CatBench Catalyst Screening

Section 5.1

Machine Learning Potential이란

밀도범함수이론(DFT)은 높은 정확도를 제공하지만, 계산 비용이 원자 수의 세제곱($O(N^3)$)에 비례하여 큰 시스템에서는 비현실적으로 느려집니다. 반면 classical force field는 빠르지만 화학반응을 기술하지 못합니다. Machine Learning Potential(MLP)은 DFT의 정확도와 classical MD의 속도를 결합하는 새로운 접근법입니다.

MLP는 원자의 local environment를 descriptor로 변환하고, 이를 학습된 함수에 입력하여 원자별 에너지를 예측합니다. MACE(Multi-ACE)와 Open Catalyst Project(OCP)가 대표적인 모델이며, 촉매 연구에서 DFT를 대체할 수 있는 수준의 정확도를 보여주고 있습니다.

$$E_{\text{total}} = \sum_i E_i(\{r_j\}_{j \in \mathcal{N}(i)})$$

$E_i$는 원자 $i$의 local environment에 의해 결정되는 원자별 에너지입니다. 이웃 원자 $\mathcal{N}(i)$의 위치 정보만으로 계산합니다.
Local descriptor 기반이므로 계산 비용이 원자 수에 선형($O(N)$)으로 스케일링됩니다.
MACE는 equivariant message passing을 사용하여 원자 환경을 체계적으로 인코딩합니다.
DFT 데이터로 학습하므로, training data의 품질과 다양성이 MLP 성능을 결정합니다.

Figure 5.1 DFT vs MLP Speed-Accuracy Tradeoff

목표: 몇 개 원자부터 MLP가 DFT보다 1000배 빠른지 찾아보세요

System size 슬라이더를 조절하여 MACE-large의 speedup이 정확히 1000배 이상이 되는 N을 찾아보세요. DFT는 $O(N^3)$, MLP는 $O(N)$으로 스케일링됩니다.

현재: 슬라이더를 조작해보세요

System size N 50 atoms

DFT Time —

MACE-L Time —

Speedup —

Key Observation
MLP는 DFT 수준의 정확도를 fraction of cost로 제공합니다. 시스템이 커질수록 $O(N^3)$ vs $O(N)$ 스케일링 차이로 speedup이 극대화됩니다.

N=50에서 시작하여 각 method의 계산 시간을 확인하세요. DFT-PBE가 가장 느리고, EMT가 가장 빠릅니다.
N을 200으로 늘려보세요. DFT 시간이 급격히 증가하지만 MLP는 완만하게 증가합니다.
N=500 이상에서 speedup 값을 확인하세요. MLP의 선형 스케일링 장점이 극대화됩니다.
MAE 축(y축)을 보세요. MACE-large는 DFT에 가장 가까운 정확도를 보입니다.

Key Insight: 100 원자 이상의 시스템에서 MACE-large는 DFT 대비 100배 이상 빠르면서도 MAE 0.07 eV의 정확도를 유지합니다.

Section 5.2

MLP 학습 곡선

MLP 학습에서 training loss는 epoch이 진행됨에 따라 감소하고, 어느 시점에서 수렴합니다. 하지만 validation loss는 모델이 training data에 과적합(overfitting)되기 시작하면 다시 증가합니다. 이 두 곡선의 차이를 모니터링하여 최적의 학습 시점을 결정하는 것이 early stopping입니다.

Learning rate는 학습 속도를 제어하며, training set size는 모델이 볼 수 있는 데이터의 다양성을 결정합니다. 두 하이퍼파라미터 모두 overfitting과 underfitting의 균형에 영향을 줍니다.

$$L_{\text{train}}(\text{epoch}) = L_0 \cdot \exp\!\left(-\frac{\text{epoch}}{\tau}\right) + L_{\text{floor}}$$

Figure 5.2 Training Curve

Learning rate 0.001

Training set size 1000

L_floor 0.030

Train loss

Validation loss

Best Val Epoch —

Best Val Loss —

Train-Val Gap —

Learning rate를 0.001 (기본)로 두고 training/validation loss의 수렴을 관찰하세요.
Learning rate를 0.1로 높여보세요. 빠르게 수렴하지만 loss floor가 높아지고, 불안정해질 수 있습니다.
Training set size를 100으로 줄여보세요. 적은 데이터에서는 overfitting이 심해져 validation loss가 빠르게 증가합니다.
Training set size를 10000으로 늘리면 train-val gap이 줄어들고 모델이 더 안정적으로 학습합니다.

Key Insight: Overfitting은 validation loss가 증가하기 시작하는 시점에서 감지됩니다. Training data가 많을수록, learning rate가 적절할수록 overfitting이 늦게 시작됩니다.

Section 5.3

Parity Plot — DFT vs MLP

Parity plot은 MLP 예측값을 DFT 참값과 비교하여 모델의 정확도를 시각적으로 평가하는 가장 기본적인 도구입니다. 이상적인 MLP는 모든 점이 $y = x$ 직선 위에 놓이며, 직선에서 벗어난 정도가 prediction error입니다.

MAE(Mean Absolute Error)와 RMSE(Root Mean Square Error)가 대표적인 정확도 지표이며, systematic bias가 있는 경우 모든 예측이 한 방향으로 치우칩니다. 모델 크기(MACE small/medium/large)에 따라 noise 수준이 달라지는 것을 확인해보세요.

Figure 5.3 DFT vs MLP Parity

Model

Systematic bias 0.00 eV

MAE —

RMSE —

Max Error —

R² —

Key Observation
MACE-large는 MAE ~0.07 eV로 화학적 정확도(chemical accuracy ~0.04 eV)에 근접합니다. Systematic bias가 없다면 scatter가 $y=x$ 선을 중심으로 대칭적으로 분포합니다.

Section 5.4

벤치마킹 — 모델 크기와 정밀도

MACE는 모델 크기에 따라 small, medium, large 세 가지 버전을 제공합니다. 모델이 클수록 표현력이 높아 정확도가 향상되지만, 계산 비용도 함께 증가합니다. 또한 부동소수점 정밀도(float32 vs float64)도 결과에 영향을 줍니다.

float32는 float64보다 약 1.5배 빠르지만, 힘(force)의 미세한 차이가 중요한 NEB(Nudged Elastic Band)이나 phonon 계산에서는 float64가 필요할 수 있습니다. 대부분의 구조 최적화(geometry optimization)에서는 float32로 충분합니다.

Figure 5.4 Benchmark Comparison

Precision

Selected —

MAE —

Speed —

Efficiency —

float32 상태에서 MAE 막대를 비교하세요. MACE-large가 가장 낮은 MAE를 보입니다.
Speed(시간) 막대를 비교하세요. MACE-small이 가장 빠르고, MACE-large가 가장 느립니다.
float64로 전환하세요. MAE가 약간 개선되지만, 계산 시간은 1.5배 증가합니다.
Efficiency(MAE/시간 비율)를 비교하여 어떤 모델이 가성비가 좋은지 판단하세요.

Key Insight: MACE-medium은 정확도와 속도의 균형이 가장 좋아, 대부분의 촉매 스크리닝에 적합한 선택입니다.

Section 5.5

촉매 스크리닝 워크플로

CatBench와 Catalysis-Hub 데이터를 결합하면, MLP를 활용한 high-throughput 촉매 스크리닝 파이프라인을 구축할 수 있습니다. 수천 개의 후보 촉매를 단계별 필터링(funnel)을 통해 소수의 유망한 후보로 좁혀나갑니다.

각 필터링 단계에서 stability(안정성), activity(활성), selectivity(선택성) 기준을 순차적으로 적용합니다. Threshold 값을 조절하면 통과하는 후보 수가 변화하며, 너무 엄격하면 좋은 후보를 놓치고, 너무 느슨하면 불필요한 후보가 많아집니다.

Figure 5.5 Screening Funnel

목표: threshold를 조절하여 정확히 10개 후보가 남도록 해보세요

Stability threshold와 Activity window 슬라이더를 조합하여 최종 Stage 5의 Top candidates가 정확히 10개가 되는 조건을 찾아보세요.

현재: 슬라이더를 조작해보세요

Stability threshold −0.20 eV/atom

Activity window ±0.30 eV

Stage 1 —

Stage 2 —

Stage 3 —

Stage 4 —

Top —

Key Observation
MLP 덕분에 수천 개 촉매를 DFT 없이 빠르게 스크리닝할 수 있습니다. 각 단계의 threshold를 적절히 설정하는 것이 효과적인 스크리닝의 핵심입니다.

유도 과정 보기: MACE Message Passing

각 원자 $i$에 대해 이웃 원자들의 위치와 원소 정보를 수집합니다: $\mathcal{N}(i) = \{j : |r_j - r_i| < r_{\text{cut}}\}$

cutoff 반경 내의 이웃 원자만 고려하여 계산 비용을 선형으로 유지합니다.

이웃 원자 쌍 $(i,j)$에 대해 edge feature를 생성합니다: $m_{ij} = \phi(r_{ij}) \otimes Y_l^m(\hat{r}_{ij})$

Radial basis function과 spherical harmonics의 tensor product로 방향 정보를 인코딩합니다.

Message passing으로 이웃 정보를 집약합니다: $h_i^{(t+1)} = \sigma\!\left(\sum_{j \in \mathcal{N}(i)} W \cdot m_{ij} \cdot h_j^{(t)}\right)$

여러 번의 message passing을 거치면 multi-body interaction을 효과적으로 포착할 수 있습니다.

최종 node feature에서 원자별 에너지를 예측합니다: $E_i = \text{MLP}(h_i^{(T)})$

전체 에너지는 원자별 에너지의 합: $E_{\text{total}} = \sum_i E_i$. Equivariance가 보장되어 회전/병진 불변성을 만족합니다.

만약 training data에 특정 원소가 빠져있으면?

MLP는 학습하지 않은 원소에 대해 extrapolation하게 되어 결과를 신뢰할 수 없습니다. Universal MLP(예: MACE-MP-0)는 주기율표 전체를 포괄하는 학습 데이터로 이 문제를 완화합니다.

클릭해서 확인 →

만약 MLP를 학습 온도 범위 밖에서 사용하면?

고온에서 원자 배열이 training data에 없는 구조가 되어 에너지/힘 예측이 불안정해집니다. Active learning으로 부족한 영역의 데이터를 점진적으로 보강할 수 있습니다.

클릭해서 확인 →

만약 float32로 충분하다면 왜 float64를 쓰나요?

대부분의 구조 최적화에는 float32면 충분하지만, 힘의 미세한 차이가 중요한 NEB이나 phonon 계산에는 float64가 필요합니다. float64는 약 1.5배 느리지만 수치적 안정성이 보장됩니다.

클릭해서 확인 →

Q: MLP의 계산 비용 스케일링은?

MLP는 local atomic environment 기반이라 각 원자의 이웃만 참조합니다. cutoff 반경이 고정되어 있으므로 전체 계산 비용은 원자 수에 선형적으로 비례합니다.

Q: DFT 대비 MACE-large의 speedup이 가장 큰 경우는?

DFT는 $O(N^3)$이므로 원자 수가 증가할수록 계산 시간이 급격히 증가합니다. 반면 MLP는 $O(N)$이므로, 큰 시스템에서 DFT와의 속도 차이가 극대화됩니다.

Key Takeaways

Chapter 5 핵심 메시지

MLP 혁명

DFT 정확도를 유지하면서 100-1000배 빠른 계산이 가능합니다. $O(N)$ 스케일링으로 수백, 수천 원자 시스템도 다룰 수 있습니다.

모델 선택

정확도-속도 tradeoff에 따라 MACE small/medium/large를 적절히 선택해야 합니다. 대부분의 스크리닝에는 medium, 최종 검증에는 large가 적합합니다.

스크리닝 파이프라인

MLP + CatBench로 수천 개 촉매를 체계적으로 탐색할 수 있습니다. 단계별 필터링으로 효율적인 후보 선별이 가능합니다.