움직이는 교과서 · Interactive Textbook
Choung, Simulation Tutorials for Computational Materials Science, Chapter 4. 슬라이더를 움직이면 그래프가 실시간으로 반응합니다.
Section 4.1
선형 회귀(linear regression)는 머신러닝의 가장 기본적인 방법입니다. 독립변수 $x$와 종속변수 $y$ 사이의 선형 관계 $\hat{y} = mx + b$를 찾아내는 것이 목표입니다.
최소자승법(OLS)은 잔차(residual) $y_i - \hat{y}_i$의 제곱합을 최소화하여 최적의 기울기 $m$과 절편 $b$를 결정합니다. 결정계수 $R^2$는 모델이 데이터 분산을 얼마나 설명하는지를 나타냅니다.
촉매 과학에서는 d-band center, electronegativity 같은 descriptor가 CO 흡착 에너지와 선형 관계를 보이는 경우가 많습니다. 이런 물리적 descriptor를 feature로 사용하면 해석 가능한 모델을 만들 수 있습니다.
Section 4.2
모델 복잡도(model complexity)를 높이면 training data에 더 잘 맞출 수 있지만, 새로운 데이터에 대한 예측력은 오히려 떨어질 수 있습니다. 이것이 과적합(overfitting) 문제입니다.
Bias-variance tradeoff는 머신러닝의 핵심 개념입니다. 단순한 모델은 bias가 크고(underfitting), 복잡한 모델은 variance가 큽니다(overfitting). 최적의 모델은 이 둘 사이의 균형점에 있습니다.
다항 회귀에서 degree를 높이면 training error는 계속 줄어들지만, test error는 U-자 곡선을 그립니다. 이 U-자 곡선의 최솟값이 최적의 모델 복잡도입니다.
Section 4.3
Feature engineering은 ML 모델의 성능을 좌우하는 가장 중요한 단계입니다. CO2RR(이산화탄소 환원 반응) 촉매 연구에서는 다양한 물리/화학적 descriptor를 feature로 사용합니다.
d-band center는 전이금속 촉매의 CO 흡착 에너지를 예측하는 가장 강력한 descriptor입니다. Hammer-Nørskov d-band model에 따르면 d-band center가 Fermi level에 가까울수록 흡착이 강해집니다.
좋은 feature를 선택하면 적은 수의 descriptor로도 높은 예측력을 얻을 수 있습니다. 반대로 물리적 의미가 없는 feature는 noise만 학습하게 됩니다.
Section 4.4
k-fold cross-validation은 데이터를 k개의 fold로 나누어 각각을 test set으로 사용하는 방법입니다. 매 fold에서 나머지 k-1개 fold를 training에 사용하므로, 모든 데이터가 한 번씩 test에 사용됩니다.
Cross-validation의 장점은 data를 낭비하지 않으면서도 모델의 일반화 성능을 추정할 수 있다는 점입니다. k가 클수록 training data가 많아지지만 fold 간 상관관계가 높아집니다.
모델 선택에서 가장 중요한 것은 mean R²뿐 아니라 R²의 표준편차(std)도 확인하는 것입니다. std가 크면 모델이 데이터 분할에 민감하다는 의미입니다.
Section 4.5
Parity plot은 모델의 예측값($\hat{y}$)을 실제값($y$)에 대해 그린 산점도입니다. 완벽한 모델이라면 모든 점이 $y = x$ 직선 위에 위치합니다.
잔차(residual) 분석을 통해 모델의 체계적 오차(systematic bias)를 파악할 수 있습니다. bias가 있으면 점들이 $y = x$ 직선에서 한쪽으로 치우칩니다.
촉매 연구에서는 ±0.2 eV 이내의 예측 오차를 "화학적 정확도"(chemical accuracy)로 봅니다. Parity plot에서 이 범위를 시각적으로 표시하면 모델의 실용성을 빠르게 판단할 수 있습니다.
Key Takeaways