움직이는 교과서 · Interactive Textbook

Computational Screening

Norskov, Fundamental Concepts in Heterogeneous Catalysis, Chapter 10. 슬라이더를 움직이면 그래프가 실시간으로 반응합니다.

High-Throughput DFT Descriptor Space Pareto Front Stability Filter Catalyst Discovery

The Screening Workflow

Computational catalyst screening은 수천에서 수만 개의 후보 물질을 체계적으로 걸러내는 과정입니다. 각 후보에 대해 descriptor를 계산하고, activity filter, stability filter, selectivity filter를 순차적으로 적용하여 최종 실험 대상을 선별합니다.

이 접근법의 핵심은 모든 후보를 실험하는 것이 아니라, 물리 기반 필터로 탐색 공간을 극적으로 줄이는 것입니다. 전체 계산 비용은 후보 수와 DFT 계산당 소요 시간의 곱에 비례합니다.

$$\text{Cost} \propto N_{\text{candidates}} \times t_{\text{DFT/candidate}}$$
Figure 10.1 Screening Funnel
Pass rate per filter 10%
Total DFT calcs 11,111
Compute time 111,110 CPU-hr
Final candidates 1
Overall pass 0.01%
Funnel Power
10% pass rate x 4 filters = 0.01% overall. 10,000 후보 중 1개만 살아남습니다. 이것이 high-throughput screening의 힘입니다.
만약 pass rate가 50%라면?
최종 후보 625개 - 실험이 불가능한 숫자입니다. 엄격한 물리 기반 필터가 screening을 실용적으로 만듭니다. 슬라이더를 50%로 올려서 직접 확인해보세요.
클릭해서 확인 →
만약 DFT 대신 ML surrogate를 쓴다면?
계산당 시간이 10 CPU-hr에서 0.001초로 줄어듭니다. 후보 수를 10만 개 이상으로 늘릴 수 있고, 더 넓은 조성 공간을 탐색할 수 있습니다.
클릭해서 확인 →
  1. Pass rate를 10%로 설정하세요. 10,000개 초기 후보가 각 단계를 거치며 급격히 줄어드는 것을 관찰합니다.
  2. Pass rate를 30%로 올려보세요. 최종 후보가 81개로 늘어나며, 여전히 실험 가능한 범위입니다.
  3. Pass rate를 50%까지 올리면 625개가 됩니다. 필터가 느슨하면 screening의 의미가 사라집니다.
Key Insight: 필터 하나의 pass rate를 10%에서 20%로 바꾸면, 최종 후보는 1개에서 16개로 16배 증가합니다. 각 필터의 엄격도가 결과에 기하급수적 영향을 미칩니다.

Descriptor Space & Constraints

촉매 screening의 핵심 아이디어는 1-2개의 descriptor만으로 촉매의 활성을 예측할 수 있다는 것입니다. Scaling relation 덕분에 수십 개의 에너지 값이 서로 선형적으로 연결되어 있으므로, 독립적인 descriptor는 소수에 불과합니다.

2D descriptor space에서 activity constraint와 stability constraint를 동시에 적용하면, 두 조건을 모두 만족하는 좁은 영역만 남습니다. 이 영역 안에 위치한 물질만이 유망한 후보입니다.

$$\text{Activity constraint: } |\Delta E - \Delta E^*| < \delta$$
Figure 10.2 2D Descriptor Space with Constraints
목표: 정확히 5개 후보만 남도록 activity window를 조절하세요
Activity window (delta)를 조절하여 activity + stability 조건을 모두 통과하는 후보가 정확히 5개가 되게 만들어보세요.
현재: 슬라이더를 조작해보세요
Activity window δ 0.20 eV
Stability threshold -0.50 eV
Total candidates 50
Passed activity
Passed both
% Passed
Passed both
Failed activity
Failed stability
  1. delta = 0.50 eV (wide window): 많은 후보가 activity 조건을 통과합니다. 하지만 너무 느슨한 기준입니다.
  2. delta = 0.10 eV (narrow window): 극소수만 통과합니다. Volcano 정상 근처의 정밀한 binding energy를 가진 물질만 선별됩니다.
  3. Stability threshold를 변경해보세요. 안정성 조건을 추가하면 후보가 더 줄어듭니다.
Key Insight: 좋은 descriptor window는 충분히 좁아서 noise를 제거하면서도, 충분히 넓어서 유망한 후보를 놓치지 않아야 합니다. 이 균형이 screening 성공의 핵심입니다.

Pareto Front — Activity vs Stability

실제 촉매 screening은 multi-objective optimization 문제입니다. 활성이 높은 촉매가 반드시 안정하지는 않으며, 안정한 촉매가 반드시 활성이 높지도 않습니다. 두 목적함수를 동시에 최적화해야 합니다.

Pareto front는 이 tradeoff의 경계를 정의합니다. Front 위의 점은 다른 어떤 점에 의해서도 동시에 지배되지 않는 non-dominated solution입니다. Front 안쪽의 점은 반드시 두 목적 모두에서 더 나은 대안이 존재합니다.

$$\text{Pareto optimal if } \nexists\, x': f_1(x') > f_1(x) \text{ AND } f_2(x') > f_2(x)$$
Figure 10.3 Pareto Front Scatter
Noise level 0.30
On Pareto front
Best activity
Best stability
Knee point
Pareto Dominance
Pareto front 위의 점들만이 의미 있는 후보입니다. Front 안쪽(dominated) 영역의 촉매는 반드시 더 나은 대안이 존재합니다.
만약 activity와 stability가 완전히 반비례하면?
Pareto front가 직선이 됩니다. 둘 다 좋은 촉매는 원리적으로 불가능하며, 이것이 fundamental tradeoff입니다. 실제로는 scaling relation이 이 tradeoff를 부과합니다.
클릭해서 확인 →
만약 noise가 매우 크면?
Pareto front가 불안정해지고, 어떤 물질이 진짜 최적인지 판단하기 어려워집니다. DFT 정확도와 실험 재현성이 screening 신뢰도의 한계를 결정합니다. 슬라이더를 1.0으로 올려 확인하세요.
클릭해서 확인 →
  1. Noise = 0.10: 깔끔한 Pareto front가 형성됩니다. 비교적 적은 수의 점이 front 위에 있습니다.
  2. Noise = 0.50: scatter가 넓어지면서 Pareto front에 더 많은 점이 올라갑니다.
  3. Noise = 1.00: 거의 모든 점이 Pareto front 근처에 있어, 실질적인 구별이 어렵습니다.
Key Insight: 실험적 불확실성이 클수록 Pareto front가 의미를 잃습니다. 정확한 DFT 계산과 신뢰할 수 있는 descriptor가 screening 성공의 전제조건입니다.
Q: Pareto front 위의 점이란?
Pareto optimal이란 두 목적함수 모두에서 동시에 더 나은 대안이 존재하지 않는다는 뜻입니다. 한 목적에서 최고일 필요는 없으며, 평균과도 무관합니다.

Success Stories

Computational screening의 실제 성공 사례들은 이 방법론이 단순한 이론이 아닌 실험적으로 검증된 도구임을 보여줍니다. 각 사례에서 핵심 descriptor를 정의하고, DFT 계산으로 후보를 선별한 뒤, 실험으로 검증하는 과정을 거쳤습니다.

주목할 점은 computation에서 실험 검증까지의 사이클이 점점 짧아지고 있다는 것입니다. 초기에는 10년 가까이 걸렸지만, 최근에는 3-5년으로 단축되었습니다.

Figure 10.4 Screening Timeline — Discovery to Application
Accelerating Discovery
Computation에서 experiment 사이클이 점점 짧아지고 있습니다. 2000년대 초 10년에서 최근 3-5년으로 단축되었으며, 머신러닝이 이 시간을 더 줄일 것입니다.
Q: Descriptor-based screening의 가장 큰 가정은?
Descriptor-based screening은 scaling relation이 성립한다고 가정합니다. 즉, 수십 개의 에너지 값이 1-2개의 독립 변수에 의해 결정된다는 것입니다. DFT 정확도는 별개의 문제이고, 실험 검증은 항상 필요합니다.

Chapter 10 핵심 메시지

104
후보에서 시작
수만 개의 가능한 조합에서 출발하여 체계적으로 걸러냅니다. 직관이 아닌 물리 기반 필터가 탐색 공간을 1000배 줄입니다.
Pareto가 답이다
활성과 안정성이 동시에 최적인 촉매는 없을 수 있습니다. Pareto front가 실현 가능한 최선의 tradeoff를 보여줍니다.
3yr
Computation → Experiment
계산 예측에서 실험 검증까지의 시간이 10년에서 3년으로 줄고 있습니다. 머신러닝이 이 시간을 더 줄일 것입니다.