움직이는 교과서 · Interactive Textbook
Choung, Simulation Tutorials for Computational Materials Science, Chapter 5. 슬라이더를 움직이면 그래프가 실시간으로 반응합니다.
Section 5.1
밀도범함수이론(DFT)은 높은 정확도를 제공하지만, 계산 비용이 원자 수의 세제곱($O(N^3)$)에 비례하여 큰 시스템에서는 비현실적으로 느려집니다. 반면 classical force field는 빠르지만 화학반응을 기술하지 못합니다. Machine Learning Potential(MLP)은 DFT의 정확도와 classical MD의 속도를 결합하는 새로운 접근법입니다.
MLP는 원자의 local environment를 descriptor로 변환하고, 이를 학습된 함수에 입력하여 원자별 에너지를 예측합니다. MACE(Multi-ACE)와 Open Catalyst Project(OCP)가 대표적인 모델이며, 촉매 연구에서 DFT를 대체할 수 있는 수준의 정확도를 보여주고 있습니다.
Section 5.2
MLP 학습에서 training loss는 epoch이 진행됨에 따라 감소하고, 어느 시점에서 수렴합니다. 하지만 validation loss는 모델이 training data에 과적합(overfitting)되기 시작하면 다시 증가합니다. 이 두 곡선의 차이를 모니터링하여 최적의 학습 시점을 결정하는 것이 early stopping입니다.
Learning rate는 학습 속도를 제어하며, training set size는 모델이 볼 수 있는 데이터의 다양성을 결정합니다. 두 하이퍼파라미터 모두 overfitting과 underfitting의 균형에 영향을 줍니다.
Section 5.3
Parity plot은 MLP 예측값을 DFT 참값과 비교하여 모델의 정확도를 시각적으로 평가하는 가장 기본적인 도구입니다. 이상적인 MLP는 모든 점이 $y = x$ 직선 위에 놓이며, 직선에서 벗어난 정도가 prediction error입니다.
MAE(Mean Absolute Error)와 RMSE(Root Mean Square Error)가 대표적인 정확도 지표이며, systematic bias가 있는 경우 모든 예측이 한 방향으로 치우칩니다. 모델 크기(MACE small/medium/large)에 따라 noise 수준이 달라지는 것을 확인해보세요.
Section 5.4
MACE는 모델 크기에 따라 small, medium, large 세 가지 버전을 제공합니다. 모델이 클수록 표현력이 높아 정확도가 향상되지만, 계산 비용도 함께 증가합니다. 또한 부동소수점 정밀도(float32 vs float64)도 결과에 영향을 줍니다.
float32는 float64보다 약 1.5배 빠르지만, 힘(force)의 미세한 차이가 중요한 NEB(Nudged Elastic Band)이나 phonon 계산에서는 float64가 필요할 수 있습니다. 대부분의 구조 최적화(geometry optimization)에서는 float32로 충분합니다.
Section 5.5
CatBench와 Catalysis-Hub 데이터를 결합하면, MLP를 활용한 high-throughput 촉매 스크리닝 파이프라인을 구축할 수 있습니다. 수천 개의 후보 촉매를 단계별 필터링(funnel)을 통해 소수의 유망한 후보로 좁혀나갑니다.
각 필터링 단계에서 stability(안정성), activity(활성), selectivity(선택성) 기준을 순차적으로 적용합니다. Threshold 값을 조절하면 통과하는 후보 수가 변화하며, 너무 엄격하면 좋은 후보를 놓치고, 너무 느슨하면 불필요한 후보가 많아집니다.
Key Takeaways