93
Incertitudes en Chimie Computationnelle Sources et Solutions Pascal PERNOT Laboratoire de Chimie Physique, UMR8000, CNRS/Univ. Paris-Sud Label CT (2015-01-30) Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 1 / 93

Incertitudes en Chimie Computationnelle - Sources et …pagesperso.lcp.u-psud.fr/pernot/Downloads/2015_Cours_Label.pdf · IncertitudesenChimieComputationnelle SourcesetSolutions PascalPERNOT

  • Upload
    doantu

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Incertitudes en Chimie ComputationnelleSources et Solutions

Pascal PERNOT

Laboratoire de Chimie Physique,UMR8000, CNRS/Univ. Paris-Sud

Label CT (2015-01-30)

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 1 / 93

1 Définitions

2 Méthodes d’estimation des incertitudes

3 Incertitudes en modélisation physico-chimique

4 Calibration interne des modèles

5 Conclusions

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 2 / 93

Définitions

Définitions

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 3 / 93

Définitions

Mesures et incertitudes

“Mesurer, c’est comparer une grandeur physique inconnue avec une grandeurde même nature prise comme référence, à l’aide d’une chaîne instrumentalecomportant un ou plusieurs capteurs.

C’est exprimer le résultat de cette comparaison à l’aide d’une valeurnumérique, associée à une unité qui rappelle la nature de la référence, etassortie d’une incertitude qui dépend à la fois des qualités del’expérience effectuée, des outils employés et de la connaissancequ’on a de la référence et de ses conditions d’utilisation.“1

1M. Himbert (1993) Bulletin du Bureau National de Métrologie 93:1Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 4 / 93

Définitions

L’incertitude, pour quoi faire ?

Comparer un résultat à une limite ou à une consigne

Consigne Resultat

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 5 / 93

Définitions

L’incertitude, pour quoi faire ?

Comparer deux valeurs

Resultat 1 Resultat 2

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 6 / 93

Définitions

L’incertitude, pour quoi faire ?

Quantifier la fidélité de mesure / choisir une méthode

Resultat

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 7 / 93

Définitions

Le concept de Mesure Virtuelle

“A value for the measurand determined from a computational model isfrequently referred to as a virtual measurement to distinguish it from aphysical measurement, which is determined from a laboratory experiment.Any measurement, physical or virtual, is incomplete without aquantitative statement of its associated uncertainty.”2

“The proposed approach is based on the Guide to the Expression ofUncertainty in Measurement, published by the InternationalOrganization for Standardization”

2Irikura, K.; Johnson III, R. & Kacker, R. (2004) Uncertainty associated with virtual measurements from computationalquantum chemistry models. Metrologia 41:369.

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 8 / 93

Définitions

Le GUM et ses suppléments_http://www.bipm.org/fr/publications/guides/gum.html_

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 9 / 93

Définitions

L’incertitude selon le GUM

Pour estimer l’incertitude associée à un résultat de mesure3 :

“3.2.4 On suppose que le résultat d’un mesurage a été corrigé pour tous leseffets systématiques reconnus comme significatifs et qu’on a fait tous lesefforts pour leur identification.”

“3.3.1 L’incertitude du résultat d’un mesurage reflète l’impossibilité deconnaître exactement la valeur du mesurande. Le résultat d’un mesurageaprès correction des effets systématiques reconnus reste encore seulementune estimation de la valeur du mesurande en raison de l’incertitudeprovenant des effets aléatoires et de la correction imparfaite du résultatpour les effets systématiques.”

3Évaluation des données de mesure – Guide pour l’expression de l’incertitude de mesure (GUM), JCGM 100:2008Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 10 / 93

Définitions

Erreur et Incertitude: définitions4

erreur de mesure différence entre la valeur mesurée d’une grandeur et unevaleur de référence.

erreur systématique composante de l’erreur de mesure qui, dans desmesurages répétés, demeure constante ou varie de façonprévisible.

erreur aléatoire composante de l’erreur de mesure qui, dans desmesurages répétés, varie de façon imprévisible.

incertitude paramètre non négatif qui caractérise la dispersion desvaleurs attribuées à un mesurande.

4Vocabulaire international de métrologie – Concepts fondamentaux et généraux et termes associés (VIM, 3e édition), JCGM200:2012.

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 11 / 93

Méthodes d’estimation des incertitudes

Méthodes d’estimation des incertitudes

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 12 / 93

Méthodes d’estimation des incertitudes

Estimation des incertitudes: les bases du GUMEquation de Markov

p(f (X) = η) =∫

dξξξ δ(f (X)− η) p(X = ξξξ)

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 13 / 93

Méthodes d’estimation des incertitudes

Propagation des incertitudes: théorie probabiliste

Etape 1: Formulationidentification des variables d’entrée incertaines X = {X1, ...,Xn}définition du modèle Y = f (X)définition de la densité de probabilité jointe des variables d’entréegX1,...,Xn (ξ1, . . . , ξn)

Etape 2: Propagation des distributions (Équation de Markov)

gY (η) =∫

dξ1 . . . dξn δ (η − f (ξ1, . . . , ξn)) gX1,...,Xn (ξ1, . . . , ξn)

Etape 3: Résumés statistiques de gY (η)p. ex. espérance statistique de Y et son écart typeE (Y ) =

∫∞−∞ dη η gY (η),

u(y) =√V (Y ) ; V (Y ) =

∫∞−∞ dη (η − E (Y ))2 gY (η)

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 14 / 93

Méthodes d’estimation des incertitudes

Calcul des résumés statistiques de gYPour obtenir des statistiques de Y , il n’est pas nécessaire de calculerexplicitement gY . Ainsi, pour l’espérance statistique, on a

E (Y ) =∫ ∞−∞

dη η gY (η)

=∫

dη η∫

dξξξ δ (η − f (ξξξ)) gX (ξξξ)

=∫

dξξξ∫

dη η δ (η − f (ξξξ)) gX (ξξξ)

=∫

dξξξ f (ξξξ) gX (ξξξ)

où on applique la relation de translation de la distribution δ de Dirac:∫+∞−∞ dx f (x) δ (x0 − x) = f (x0).

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 15 / 93

Méthodes d’estimation des incertitudes

Calcul des résumés statistiques de gY

Pour la variance, on applique le même type de développement

V (Y ) =∫ ∞−∞

dη (η − E (Y ))2 gY (η)

=∫

dη (η − E (Y ))2∫

dξξξ δ (η − f (ξξξ)) gX (ξξξ)

=∫

dξξξ∫

dη (η − E (Y ))2 δ (η − f (ξξξ)) gX (ξξξ)

=∫

dξξξ (f (ξξξ)− E (Y ))2 gX (ξξξ)

On est donc ramené à des intégrales (multiples) sur les variablesincertaines du modèle.

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 16 / 93

Méthodes d’estimation des incertitudes

Le cas des modèles linéaires

Pour un modèle linéaire, ou le développement de Taylor au premier ordred’un modèle quelconque autour d’un point xxx0, on peut écriref (ξξξ) = f (xxx0) + JJJT .(ξξξ − xxx0),

avec les coefficients de sensibilité Ji = ∂f (ξξξ)∂ξi

∣∣∣ξξξ=xxx0

.

E (Y ) =∫

dξξξ[F (xxx0) + JJJT .(ξξξ − xxx0)

]gX (ξξξ)

= F (xxx0)∫

dξξξ gX (ξξξ) +∑iJi∫

dξξξ (ξi − x0,i) gX (ξξξ)

= F (xxx0) +∑iJi (E (Xi)− x0,i)

Si on choisit xxx0 = E (XXX ), on obtient E (Y ) = f (E (X)).Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 17 / 93

Méthodes d’estimation des incertitudes

Le cas des modèles linéairesOn peut alors dériver la variance

V (Y ) =∫

dξξξ[f (E (X)) + JJJT .(ξξξ − E (X))− f (E (X))

]2gX (ξξξ)

=∫

dξξξ[JJJT .(ξξξ − E (X))

]2gX (ξξξ)

=∑i ,j

JiJj∫

dξξξ (ξi − E (Xi)) (ξj − E (Xj)) gX (ξξξ)

=∑i ,j

Ji u(Xi ,Xj) Jj

= JJJT .Σ.JJJ

où Σ est la matrice de variance-covariance des variables d’entrée, telle queΣi ,j = u(Xi ,Xj).Ce résultat est la notation matricielle de l’équation de combinaison desvariances.

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 18 / 93

Méthodes d’estimation des incertitudes

La méthode de combinaison des variancesProcédure normalisée pour gérer les incertitudes associées à une mesure5.

1 Identifier les sources d’incertitude et définir le modèle2 Estimer les valeurs moyennes et incertitudes-type de chacune des

sources.Type A: incertitudes obtenues par analyse statistique d’un ensemble demesurages répétés d’un même mesurandeType B: tout le reste

3 Propager/combiner les incertitudes

y = f (x1, ..., xk)

u2Y =∑i

(∂Y∂Xi

)2

xu2Xi +

∑i 6=j

(∂Y∂Xi

)x

(∂Y∂Xj

)x

cov(Xi ,Xj)

5Évaluation des données de mesure – Guide pour l’expression de l’incertitude de mesure. JCGM 100:2008Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 19 / 93

Méthodes d’estimation des incertitudes

Application: Distance de freinage

L’évaluation de la distance d’arrêt d’une voiture roulant à la vitesse V estcaractérisée par la formule

Da = TR ∗ V + V 2

2 ∗ a ∗ c

TR temps de réaction, de l’ordre de 1sV vitesse en m.s−1

a décélération, de l’ordre de 5 m.s−2

c coefficient sans dimension tenant compte de l’état de la route' 0.7 sur bitume sec

On roule à 130 km/h sur route sèche. Un obstacle surgitbrutalement, quelle distance parcourt-on avant l’arrêt complet ?

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 20 / 93

Méthodes d’estimation des incertitudes

Application: Distance de freinage

Le temps de réaction TR a été estimé lors d’une étude sur denombreux cas d’accidents : le temps minimum est de 0.5 s, mais quece temps peut aller jusque 1.5 s pour une personne normalementvigilante. On ne dispose pas d’un ensemble de valeurs analysables.Le coefficient c peut être compris entre 0.3 et 0.8 selon la nature durevêtement et les circonstances: sur route sèche et propre, c estcompris entre 0.6 et 0.8. Modéliser c sous la forme d’une loi de densitéde probabilité gaussienne.V est caractérisée par une incertitude-type de 4 km/h pour tenircompte à la fois de l’indicateur de vitesse et de la vigilance à maintenirla vitesse constante.a est caractérisée par une incertitude-type de 0.5 m.s−2, pour tenircompte de l’efficacité du système de freinage et donc de l’étatd’entretien du véhicule.

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 21 / 93

Méthodes d’estimation des incertitudes

Application: Distance de freinage

fExpr = expression( T*V + V^2/(2*a*c) )

# Valeurs moyennes et incertitudes-typeV = 130 / 3.6 ; V.u = 4 / 3.6 # (m/s) dist. gauss.T = 1 ; T.de = 0.5; T.u = T.de / 3^0.5 # dist. rect.a = 5 ; a.u = 0.5 # dist. gauss.c = 0.7 ; c.u = 0.2/6 # dist. gauss. : u = (6*sigma)/6

## dY/dT= V## dY/dV= +T2 * V/(2 * a * c)## dY/da= -V^2 * (2 * c)/(2 * a * c)^2## dY/dc= -V^2 * (2 * a)/(2 * a * c)^2

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 22 / 93

Méthodes d’estimation des incertitudes

Application: Distance de freinage

Variable Valeur Inc_Std. J J2.U2 AnovaT 1.000e+00 2.89e-01 3.61e+01 1.09e+02 0.16V 3.611e+01 1.11e+00 1.13e+01 1.58e+02 0.23a 5.000e+00 5.00e-01 -3.73e+01 3.47e+02 0.50c 7.000e-01 3.33e-02 -2.66e+02 7.87e+01 0.11Y 2.224e+02 2.63e+01 <– 6.93e+02

#### Y = 222 +/- 26

#### Incertitude élargie, facteur=1.96

#### Y = 222 +/- 52

#### 95 percent C.I. = [171,274]

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 23 / 93

Méthodes d’estimation des incertitudes

Modèles non-linéaires

Si les hypothèses pour appliquer la propagation des variances ne sont pasvérifiées, on a recours à la propagation des distributions par MonteCarlo.6

1 Définir les densités de probabilité pour toutes les variables incertaines(plus de distinction entre type A et type B) gX (ξξξ)

2 Générer un échantillon représentatif de chacune des variables ougroupes de variables corrélées (à l’aide de générateurs de nombresaléatoires)

3 Calculer le résultat du modèle pour chaque point de l’échantillony (i) = f (ξξξ(i)); i = 1,N

4 Produire les résumés statistiques à partir de cet échantillon: E (Y ),u(Y ). . .

6Évaluation des données de mesure – Supplément 1 du “Guide pour l’expression de l’incertitude de mesure” – Propagation dedistributions par une méthode de Monte Carlo. JCGM 101:2008.

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 24 / 93

Méthodes d’estimation des incertitudes

Application: Distance de freinage Monte Carlo

# Génération des échantillonsN=10000

T = runif(N,min=T-T.de,max=T+T.de)V = rnorm(N,mean=V,sd=V.u)a = rnorm(N,mean=a,sd=a.u)c = rnorm(N,mean=c,sd=c.u)

# Application du modèleY = T*V + V^2/(2*a*c)

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 25 / 93

Méthodes d’estimation des incertitudes

Application: Distance de freinage Monte Carlo

## Quelques lignes du tableau(X,Y)

## V T a c Y## 1 35.07093 1.2696965 5.656386 0.6739594 205.8508## 2 35.55551 0.6701576 5.181010 0.7017780 197.6758## 3 35.31108 0.8497572 5.752738 0.6830976 188.6538## 4 37.82988 0.8271479 5.642205 0.6855274 216.2885

## Statistiques##

#### Y = 225 +/- 27

## 95 percent C.I. = [177,281]##

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 26 / 93

Méthodes d’estimation des incertitudes

Application: Distance de freinage Monte Carlo

Histogramme de Y vs. GUM

Den

sity

150 200 250 300 350

0.00

00.

005

0.01

00.

015

0.02

0

Y

Norm(222,26)

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 27 / 93

Méthodes d’estimation des incertitudes

Application: Distance de freinage Monte Carlo

V

0.6 1.2 0.60 0.75

3236

40

0.450.

61.

2 T0.39

a

46

−0.69

0.60

0.75

c−0.32

32 36 40 4 6 150 250 350

150

250

350

Y

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 28 / 93

Incertitudes en modélisation physico-chimique

Incertitudes en modélisation physico-chimique

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 29 / 93

Incertitudes en modélisation physico-chimique

Erreurs et Incertitudes en modélisation

1 Formulation (mathématique) du modèle: approximations, erreursstructurales

2 Implémentation numérique du modèle: précision des algorithmes,seuils de convergence, modèles stochastiques

3 Incertitudes paramétriques: valeurs incertaines des paramètresdéfinissant un modèle (p.ex. champs de forces, DFT empirique. . . )

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 30 / 93

Incertitudes en modélisation physico-chimique

Formulation du modèle

approximations: Born-Oppenheimer, Hartree-Fock, Coupled Clusters. . .

en chimie quantique ab initio, typiquement le choix d’un couplethéorie/base

principalement une erreur systématique sur la mesure virtuelle

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 31 / 93

Incertitudes en modélisation physico-chimique

Erreurs liées au choix d’un modèle

Comparaison des bandes interdites calculées par deux méthodes DFTapprochées, comparées aux valeurs expérimentales.7 Erreur systématiquevs. aléatoire ???

7Civalleri et al. (2012) doi:10.1039/9781849734790-00168Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 32 / 93

Incertitudes en modélisation physico-chimique

Erreurs numériques - précision finie

accumulation des erreurs de troncature/arrondi lors de la sommationd’un grand nombre de petites contributions

intégrales biélectroniquescontributions inter-atomiquespas d’intégration dans les simulations moléculairesestimateurs statistiques sur des gros échantillons. . .

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 33 / 93

Incertitudes en modélisation physico-chimique

Erreurs numériques - précision finie

8

8Janes and Rendell (2011) Placing rigorous bounds on numerical errors in Hartree-Fock energy computations. J. Chem.Theory Comput. 7:1631-1639.

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 34 / 93

Incertitudes en modélisation physico-chimique

Erreurs numériques - précision finie

EH2O ' −75 u.a. −→ EH2O10000 ' −750000.00 u.a. (8 digits)

1 kcal/mol ' 0.002 u.a.

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 35 / 93

Incertitudes en modélisation physico-chimique

Erreurs numériques - conversions d’unités

conversion d’unités (ua –> SI)Eh a une incertitude relative de 2.2× 10−8 [CODATA 2010]la valeur des constantes fondamentales est réévaluée tous les 4 ans

attention en comparant des énergies absolues si elles ont été converties

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 36 / 93

Incertitudes en modélisation physico-chimique

Erreurs numériques - effets de seuils

les critères d’arrêt d’un algorithme itératif influent sur la précision durésultat, mais l’impact est souvent négligeable:

l’énergie minimale de C3H8 au niveau HF/6-31G(d) avec 500 géométriesde départs différentes est obtenue avec une incertitude relative de7× 10−9 ∼ 10−4 kcal/moll’effet du seuil de convergence sur l’optimisation des orbitales est 100fois plus faible

attention pour les systèmes complexes !!! (cf. next)

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 37 / 93

Incertitudes en modélisation physico-chimique

Erreurs numériques - conditions initiales

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 38 / 93

Incertitudes en modélisation physico-chimique

Erreurs numériques - conditions initiales

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 39 / 93

Incertitudes en modélisation physico-chimique

Erreurs numériques - conditions initialesGradients obtenus avec des permutations de l’ordre des atomes dans lefichier input

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 40 / 93

Incertitudes en modélisation physico-chimique

Erreurs numériques - conditions initiales

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 41 / 93

Incertitudes en modélisation physico-chimique

Erreurs numériques - conditions initiales

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 42 / 93

Incertitudes en modélisation physico-chimique

Erreurs numériques - conditions initiales

Références

Williams and Feher (2008) The effect of numerical error on thereproducibility of molecular geometry optimizations. J Comput AidedMol Des. 22:39-51.Feher and Williams (2012) Numerical errors and chaotic behavior indocking simulations. J Chem Inf Model. 52:724-38.Feher and Williams (2012) Numerical errors in minimization basedbinding energy calculations. J Chem Inf Model. 52:3200-12.

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 43 / 93

Incertitudes en modélisation physico-chimique

Erreurs numériques - non-reproductibilité

observation: le même calcul relancé plusieurs fois sur le même jeu deCPUs donne des résultats différents9 (Pb. en calcul parallèle)10

génant en dynamique moléculaire si on fait un restart pour “ zoomer ”sur un événement rare, et que celui-ci disparait. . .p. ex. “ Feher and Williams (2012) ” ont observé que 75% desrépétitions aboutissaient à des différences d’énergie de liaison inférieuresà 0.05 kcal/mol, mais pour 10% des cas, la différence dépassait 1kcal/mol !!!dans Amber, la fréquence de sauvegarde des snapshots influe sur latrajectoire. . .une des causes: l’ordre des réponses des différents CPUs influe sur lerésultat numérique (l’accumulation des erreurs numériques dépend del’ordre des opérations)

9Diethelm (2012) The Limits of Reproducibility in Numerical Simulation. Comput. Sci. Eng. 14:64-7210Blackford et al. (1997) Practical experience in the numerical dangers of heterogeneous computing. ACM Trans. Math.

Softw. 23:133-147Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 44 / 93

Incertitudes en modélisation physico-chimique

Estimation des incertitudes liées à un choix demodèle

Valeur calculéecm,s ± um,s

pour un système s par la méthode mValeur de réference

os ± us(expérimentale ou calculée)

Erreurem,s = cm,s − os

Jeu d’erreursEm = {em,s ; s = 1,Ns}

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 45 / 93

Incertitudes en modélisation physico-chimique

A propos des “benchmarks”Ex.: A. Karton et al. (2011) W4-11: A high-confidence benchmarkdataset. . . Chem. Phys. Letters 510:165.

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 46 / 93

Incertitudes en modélisation physico-chimique

Décodage

Mean Absolute Error (MAE, a.k.a. [MA][AU][ED] )

MAE = 1Ns

Ns∑s=1|em,s |

Warning: en Stats, MAD correspond à (mesure de dispersion)

MAD = 1Ns

Ns∑s=1

∣∣em,s − Em∣∣

MAD = med |Em −med(Em)|

Mean Signed Error (mesure de position)

MSE = Em = 1Ns

Ns∑s=1

em,s

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 47 / 93

Incertitudes en modélisation physico-chimique

Location vs. dispersion

Root Mean Squared Error

RMSE =

√√√√ 1NS

Ns∑s=1

e2m,s

Root Mean Squared Deviation (mesure de dispersion)

RMSD =

√√√√ 1NS

Ns∑s=1

(em,s − Em)2

l’identitéRMSE 2 = RMSD2 + MSE 2

nous montre que la RMSE (et la MAE) sont des mélanges de positionet de dispersion, donc inadaptées pour estimer une incertitude.

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 48 / 93

Incertitudes en modélisation physico-chimique

Exemple 1 : fréquences harmoniques

Set of 2738 vibrational frequencies vs. HF/6-31G* combination oftheory/basis-set (downloaded from the NIST/CCCBDB in 2008; P.Pernot and F. Cailliez (2011) J. Chem. Phys. 134:167101.)

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 49 / 93

Incertitudes en modélisation physico-chimique

Exemple 1 : fréquences harmoniques

Erreur / cm−1

Fre

quen

cy

−200 0 200 400 600 800

020

040

060

080

010

00

MSE = 161MAE = 163RMSE = 195RMSD = 110

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 50 / 93

Incertitudes en modélisation physico-chimique

Exemple 1 : fréquences harmoniques

1000 2000 3000 4000

1000

2000

3000

4000

Freq. harmonique calc / cm−1

Fre

q. m

esur

ée /

cm−

1

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 51 / 93

Incertitudes en modélisation physico-chimique

Exemple 1 : fréquences harmoniques

1000 2000 3000 4000

1000

2000

3000

4000

Freq. harmonique calc / cm−1

Fre

q. m

esur

ée /

cm−

1

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 52 / 93

Incertitudes en modélisation physico-chimique

Exemple 1 : fréquences harmoniques

1000 2000 3000 4000

−20

00

200

400

600

Freq. harmonique calc / cm−1

Err

eur

/ cm

−1

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 53 / 93

Incertitudes en modélisation physico-chimique

Exemple 1 : fréquences harmoniques

1000 2000 3000 4000

−20

00

200

400

Freq. harmonique calc / cm−1

Err

eur

− M

SE

/ cm

−1

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 54 / 93

Incertitudes en modélisation physico-chimique

Exemple 1 : fréquences harmoniques

1000 2000 3000 4000

−20

00

200

400

Freq. harmonique calc / cm−1

Err

eur

− M

SE

/ cm

−1

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 55 / 93

Incertitudes en modélisation physico-chimique

Exemple 1 : fréquences harmoniques

1000 2000 3000 4000

−20

00

200

400

Freq. harmonique calc / cm−1

Err

eur

calib

rée

/ cm

−1

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 56 / 93

Incertitudes en modélisation physico-chimique

Exemple 1 : fréquences harmoniques

Erreur / cm−1

Fre

quen

cy

−200 0 200 400 600 800

020

040

060

080

010

00

MSE = 161MAE = 163RMSE = 195RMSD = 110

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 57 / 93

Incertitudes en modélisation physico-chimique

Exemple 1 : fréquences harmoniques

Erreur / cm−1

Fre

quen

cy

−200 0 200 400 600 800

020

040

060

080

010

00

MSE = 161MAE = 163RMSE = 195RMSD = 110

MSE = −2MAE = 31RMSE = 45RMSD = 45

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 58 / 93

Incertitudes en modélisation physico-chimique

Exemple 2 : solides à symétrie cubiqueEvaluation des performances et des incertitudes de prédiction de 18méthodes sur 3 propriétés (Band Gap, Bulk Modulus et Lattice Constant)de 27 systèmes11:

## Méthodes: HF LDA PBE PBEsol B97 B3LYP PBE0## PBEsol0 HSE06 HSEsol HISS RSHXLDA wB97 wB97X## LC-wPBE LC-wPBEsol M06-L M06

## Systèmes de Référence: C Si Ge SiC BN BP BAs## AlP AlAs AlSb GaN GaP GaAs GaSb InP InAs InSb ZnS## ZnSe ZnTe CdTe MgS LiF LiCl NaF NaCl MgO SrTiO3

## Systèmes de Validation: AlN CdS CdSe MgSe MgTe## BaS BaSe BaTe LiH

11P. Pernot, B. Civallieri, D. Presti and A. Savin (2014) soumisPascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 59 / 93

Incertitudes en modélisation physico-chimique

Exemple 2 : band gaps

−5

05

10

Err

eur

/ eV

HF

LDA

PB

E

PB

Eso

l

B97

B3L

YP

PB

E0

PB

Eso

l0

HS

E06

HS

Eso

l

HIS

S

RS

HX

LDA

wB

97

wB

97X

LC−

wP

BE

LC−

wP

BE

sol

M06

−L

M06

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 60 / 93

Incertitudes en modélisation physico-chimique

Exemple 2 : band gaps by HF

0 5 10 15 20

05

1015

20

Calcul / eV

Réf

éren

ce /

eV

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 61 / 93

Incertitudes en modélisation physico-chimique

Exemple 2 : band gaps by HF

5 10 15 20

−2

02

46

810

Calcul / eV

Err

eur

/ eV

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 62 / 93

Incertitudes en modélisation physico-chimique

Exemple 2 : band gaps by HF

5 10 15 20

−2

02

46

810

Calcul / eV

Err

eur

calib

rée

/ eV

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 63 / 93

Incertitudes en modélisation physico-chimique

Exemple 2 : band gaps avant correction

−5

05

10

Err

eur

/ eV

HF

LDA

PB

E

PB

Eso

l

B97

B3L

YP

PB

E0

PB

Eso

l0

HS

E06

HS

Eso

l

HIS

S

RS

HX

LDA

wB

97

wB

97X

LC−

wP

BE

LC−

wP

BE

sol

M06

−L

M06

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 64 / 93

Incertitudes en modélisation physico-chimique

Exemple 2 : band gaps après correction

−5

05

10

Err

eur

calib

rée

/ eV

HF

LDA

PB

E

PB

Eso

l

B97

B3L

YP

PB

E0

PB

Eso

l0

HS

E06

HS

Eso

l

HIS

S

RS

HX

LDA

wB

97

wB

97X

LC−

wP

BE

LC−

wP

BE

sol

M06

−L

M06

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 65 / 93

Incertitudes en modélisation physico-chimique

Modèle statistique de calibration/prédiction

Modèle standard12os = cm,s + εs (s = 1, Ns)

εs : variable aléatoire de moyenne 0et d’écart type connu us

Validité du modèle ?χ2 =

∑s=1,Ns

(em,sus

)2 ?' Ns

12on suppose par la suite que les erreurs numériques sont négligeablesPascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 66 / 93

Incertitudes en modélisation physico-chimique

Modèle statistique de calibration/prédiction

Modèle avec correction de tendance

os = fm(cm,s ;ϑm) + εs

Validité du modèle ?

∑s=1,Ns

(os − fm(cm,s ; ϑm)

us

)2?' Ns − Nϑ

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 67 / 93

Incertitudes en modélisation physico-chimique

Modèle statistique de calibration/prédiction

Correction des écarts résiduels

os = fm(cm,s ;ϑm) + εs + δm

δm: variable aléatoire de moyenne 0et d’écart type inconnu dm

Validité du modèle dm choisi pour assurer

∑s=1,Ns

(os − fm(cm,s ; ϑm)

u2s + d2m

)2

= Ns − Nϑ

Résultatsϑm, Σϑ, dm

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 68 / 93

Incertitudes en modélisation physico-chimique

Modèle statistique de calibration/prédiction

Propagation des variances

p(c) = fm(c; ϑm) + δm

u2p(c) = u2f (c; ϑm) + d2m

Le cas linéairep(c) = am + bm × cu2p(c) = u2f (c) + d2

m

u2f (c) = u2(am) + c2u2(bm) + 2cu(am, bm)

Rq: incertitude paramétrique uf (c)↘ N−0.5s

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 69 / 93

Incertitudes en modélisation physico-chimique

Exemple 1 : fréquences harmoniques

1000 2000 3000 4000

−30

0−

200

−10

00

100

200

300

Freq. harmonique calc / cm−1

Err

eur

calib

rée

/ cm

−1

ufup

CCCBDB

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 70 / 93

Incertitudes en modélisation physico-chimique

Exemple 2 : band gaps by HF

10 15 20

−2

−1

01

2

Calcul / eV

Err

eur

calib

rée

/ eV

uf

dup

Calib. setValid. set

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 71 / 93

Incertitudes en modélisation physico-chimique

Exemple 2 : solides à symétrie cubique

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 72 / 93

Incertitudes en modélisation physico-chimique

Exemple 3 : configurations des protéines

13

13Faver et al. (2011) The Energy Computation Paradox and ab initio Protein Folding. PLoS ONE 6:e18868Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 73 / 93

Incertitudes en modélisation physico-chimique

Exemple 3 : configurations des protéines

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 74 / 93

Incertitudes en modélisation physico-chimique

Exemple 3 : configurations des protéines

Modèle additif des interactions

∆Gfold = ∆Eint + ∆Hcorr − T∆Sfold + ∆∆Gsolv

∆Eint + ∆Hcorr ' ∆Hint,1 + ∆Hint,2 + . . .+ ∆Hint,N

chacun des ∆Hint,i est évalué par une méthode approchéesi une protéine a N=100 contacts indépendants, et que chaque ∆Hint,iest connu avec la “ précision chimique ”, 1 kcal/mol, la loi decombinaison des variances pour les erreurs aléatoires résulte en uneincertitude totale de 10 kcal/mol, insuffisante pour localiser leminimum global.

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 75 / 93

Incertitudes en modélisation physico-chimique

Exemple 3 : configurations des protéines

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 76 / 93

Incertitudes en modélisation physico-chimique

Exemple 3 : configurations des protéinesModèle additif des interactions

l’erreur sur chacun des ∆Hint,i contient probablement une partimportante d’erreur systématiquedéterminer pour chaque type d’interaction i les composantessystématiques µi et aléatoires σi de l’erreur et les combiner

Errorsyst =∑

Niµi

Errorrand =(∑

iNiσ

2i

)1/2

Errorsyst est un facteur de correction (biais) à retrancher à ∆HintErrorrand est l’incertitude sur ∆Hint corrigé

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 77 / 93

Incertitudes en modélisation physico-chimique

Exemple 3 : configurations des protéines

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 78 / 93

Incertitudes en modélisation physico-chimique

Exemple 3 : configurations des protéines

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 79 / 93

Incertitudes en modélisation physico-chimique

Exemple 3 : configurations des protéines

Conclusion

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 80 / 93

Incertitudes en modélisation physico-chimique

Exemple 3: Références

Merz (2010) Limits of Free Energy Computation for Protein-LigandInteractions. J. Chem. Theory Comput. 6:1769-1776.Faver et al. (2011) Formal Estimation of Errors in Computed AbsoluteInteraction Energies of Protein-Ligand Complexes. J. Chem. TheoryComput. 7:790-797.Faver et al. (2011) The Energy Computation Paradox and ab initioProtein Folding. PLoS ONE 6:e18868.; Faver et al. (2014)Fragment-based error estimation in biomolecular modeling. DrugDiscovery Today. doi:10.1016/j.drudis.2013.08.016.Faver et al. (2012) The Effects of Computational Modeling Errors onthe Estimation of Statistical Mechanical Variables. J. Chem.TheoryComput. doi:10.1021/ct300024z

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 81 / 93

Calibration interne des modèles

Calibration interne des modèles

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 82 / 93

Calibration interne des modèles

Exemple: Calibration d’une DFT

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 83 / 93

Calibration interne des modèles

Exemple: Calibration d’une DFT

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 84 / 93

Calibration interne des modèles

Exemple: Calibration d’une DFT

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 85 / 93

Calibration interne des modèles

Exemple: Calibration d’une DFT

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 86 / 93

Calibration interne des modèles

Exemple: Calibration d’une DFT

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 87 / 93

Calibration interne des modèles

Modèle statistique de calibration/prédiction

Ajustement des paramètres du modèle

os = f (s;ϑ) + εs

Validité du modèle ∑s=1,Ns

(os − f (s; ϑ)

us

)2?' Ns − Nϑ

Si non, ajustement de l’incertitude t.q.

∑s=1,Ns

(os − f (s; ϑ)

d

)2

= Ns − Nϑ

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 88 / 93

Calibration interne des modèles

Modèle statistique de calibration/prédiction

Propagation des variancesp(s ′) = f (s ′; ϑ)u2p(s ′) = u2f (s ′; ϑ)

Problèmeuf (s ′)↘ N−αs

Forte sous-estimation probable des incertitudes deprédiction.

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 89 / 93

Calibration interne des modèles

Calibration de modèles empiriques: références

Mortensen et al. (2005) Bayesian Error Estimation inDensity-Functional Theory. Phys. Rev. Lett. 95:216401.Wellendorff et al. (2012) Density functionals for surface science:Exchange-correlation model development with Bayesian errorestimation. Phys. Rev. B 85:235149.Petzold et al. (2012) Construction of New Electronic DensityFunctionals with Error Estimation Through Fitting. Topics in Catalysis55:402.Medford et al. (2014) Assessing the reliability of calculated catalyticammonia synthesis rates. Science 197.Cailliez et Pernot (2011) Statistical approaches to forcefield calibrationand prediction uncertainty in molecular simulation. J. Chem. Phys.134:054124.Angelikopoulos et al. (2012) Bayesian uncertainty quantification andpropagation in molecular dynamics simulations: A high performancecomputing framework. J. Chem. Phys. 137:144103.

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 90 / 93

Conclusions

Conclusions

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 91 / 93

Conclusions

Conclusions

dans tous les domaines de la chimie théorique on doit faire face à desincertitudes plus ou moins bien controlées;souvent, l’incertitude majeure provient de l’incapacité d’un modèle àreprésenter des données expérimentales;il est essentiel d’expliciter toutes les sources d’incertitude et de lestraiter de manière cohérente (théorie des probabilités: approchebayésienne);la propagation des incertitudes du niveau moléculaire aux niveauxsupérieurs (méso ou macro) dans les simulations multi-échelles estencore pratiquement inexplorée. . . 14

14Vlachos (2012) Multiscale modeling for emergent behavior, complexity, and combinatorial explosion. AIChE 58:1314–1325;Ulissi et al. (2011) Effect of multiscale model uncertainty on identification of optimal catalyst properties. J. Catal. 281:339–344;Salciccioli et al. (2011) A review of multiscale modeling of catalytic reactions: Mechanism development for complexity andemergent behavior. Chem. Eng. Sci. 66:4319–4355.

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 92 / 93

Conclusions

Conclusions

l’incertitude de prediction en chimie computationnelleun critère rationnel de sélection de méthodeindispensable pour la propagation des erreurs(p.ex. méthodes multi-échelles séquentielles)

pour estimer une incertitude, il faut corriger au mieux leserreurs systématiques

nécessite le recours à une correction a posteriori (linéaire)pour chaque type de propriété (non transférable)l’incertitude de prédiction résulte majoritairement dela dispersion des erreurs résiduelles après correctionpas toujours possible d’estimer des intervalles de confiance(sans hypothèse de distribution des erreurs)forte sensibilité à la base de données de référence(idem pour les benchmarks. . . sauf qu’ici on gère us)

Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 93 / 93