Upload
doantu
View
215
Download
0
Embed Size (px)
Citation preview
Incertitudes en Chimie ComputationnelleSources et Solutions
Pascal PERNOT
Laboratoire de Chimie Physique,UMR8000, CNRS/Univ. Paris-Sud
Label CT (2015-01-30)
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 1 / 93
1 Définitions
2 Méthodes d’estimation des incertitudes
3 Incertitudes en modélisation physico-chimique
4 Calibration interne des modèles
5 Conclusions
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 2 / 93
Définitions
Définitions
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 3 / 93
Définitions
Mesures et incertitudes
“Mesurer, c’est comparer une grandeur physique inconnue avec une grandeurde même nature prise comme référence, à l’aide d’une chaîne instrumentalecomportant un ou plusieurs capteurs.
C’est exprimer le résultat de cette comparaison à l’aide d’une valeurnumérique, associée à une unité qui rappelle la nature de la référence, etassortie d’une incertitude qui dépend à la fois des qualités del’expérience effectuée, des outils employés et de la connaissancequ’on a de la référence et de ses conditions d’utilisation.“1
1M. Himbert (1993) Bulletin du Bureau National de Métrologie 93:1Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 4 / 93
Définitions
L’incertitude, pour quoi faire ?
Comparer un résultat à une limite ou à une consigne
Consigne Resultat
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 5 / 93
Définitions
L’incertitude, pour quoi faire ?
Comparer deux valeurs
Resultat 1 Resultat 2
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 6 / 93
Définitions
L’incertitude, pour quoi faire ?
Quantifier la fidélité de mesure / choisir une méthode
Resultat
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 7 / 93
Définitions
Le concept de Mesure Virtuelle
“A value for the measurand determined from a computational model isfrequently referred to as a virtual measurement to distinguish it from aphysical measurement, which is determined from a laboratory experiment.Any measurement, physical or virtual, is incomplete without aquantitative statement of its associated uncertainty.”2
“The proposed approach is based on the Guide to the Expression ofUncertainty in Measurement, published by the InternationalOrganization for Standardization”
2Irikura, K.; Johnson III, R. & Kacker, R. (2004) Uncertainty associated with virtual measurements from computationalquantum chemistry models. Metrologia 41:369.
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 8 / 93
Définitions
Le GUM et ses suppléments_http://www.bipm.org/fr/publications/guides/gum.html_
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 9 / 93
Définitions
L’incertitude selon le GUM
Pour estimer l’incertitude associée à un résultat de mesure3 :
“3.2.4 On suppose que le résultat d’un mesurage a été corrigé pour tous leseffets systématiques reconnus comme significatifs et qu’on a fait tous lesefforts pour leur identification.”
“3.3.1 L’incertitude du résultat d’un mesurage reflète l’impossibilité deconnaître exactement la valeur du mesurande. Le résultat d’un mesurageaprès correction des effets systématiques reconnus reste encore seulementune estimation de la valeur du mesurande en raison de l’incertitudeprovenant des effets aléatoires et de la correction imparfaite du résultatpour les effets systématiques.”
3Évaluation des données de mesure – Guide pour l’expression de l’incertitude de mesure (GUM), JCGM 100:2008Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 10 / 93
Définitions
Erreur et Incertitude: définitions4
erreur de mesure différence entre la valeur mesurée d’une grandeur et unevaleur de référence.
erreur systématique composante de l’erreur de mesure qui, dans desmesurages répétés, demeure constante ou varie de façonprévisible.
erreur aléatoire composante de l’erreur de mesure qui, dans desmesurages répétés, varie de façon imprévisible.
incertitude paramètre non négatif qui caractérise la dispersion desvaleurs attribuées à un mesurande.
4Vocabulaire international de métrologie – Concepts fondamentaux et généraux et termes associés (VIM, 3e édition), JCGM200:2012.
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 11 / 93
Méthodes d’estimation des incertitudes
Méthodes d’estimation des incertitudes
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 12 / 93
Méthodes d’estimation des incertitudes
Estimation des incertitudes: les bases du GUMEquation de Markov
p(f (X) = η) =∫
dξξξ δ(f (X)− η) p(X = ξξξ)
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 13 / 93
Méthodes d’estimation des incertitudes
Propagation des incertitudes: théorie probabiliste
Etape 1: Formulationidentification des variables d’entrée incertaines X = {X1, ...,Xn}définition du modèle Y = f (X)définition de la densité de probabilité jointe des variables d’entréegX1,...,Xn (ξ1, . . . , ξn)
Etape 2: Propagation des distributions (Équation de Markov)
gY (η) =∫
dξ1 . . . dξn δ (η − f (ξ1, . . . , ξn)) gX1,...,Xn (ξ1, . . . , ξn)
Etape 3: Résumés statistiques de gY (η)p. ex. espérance statistique de Y et son écart typeE (Y ) =
∫∞−∞ dη η gY (η),
u(y) =√V (Y ) ; V (Y ) =
∫∞−∞ dη (η − E (Y ))2 gY (η)
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 14 / 93
Méthodes d’estimation des incertitudes
Calcul des résumés statistiques de gYPour obtenir des statistiques de Y , il n’est pas nécessaire de calculerexplicitement gY . Ainsi, pour l’espérance statistique, on a
E (Y ) =∫ ∞−∞
dη η gY (η)
=∫
dη η∫
dξξξ δ (η − f (ξξξ)) gX (ξξξ)
=∫
dξξξ∫
dη η δ (η − f (ξξξ)) gX (ξξξ)
=∫
dξξξ f (ξξξ) gX (ξξξ)
où on applique la relation de translation de la distribution δ de Dirac:∫+∞−∞ dx f (x) δ (x0 − x) = f (x0).
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 15 / 93
Méthodes d’estimation des incertitudes
Calcul des résumés statistiques de gY
Pour la variance, on applique le même type de développement
V (Y ) =∫ ∞−∞
dη (η − E (Y ))2 gY (η)
=∫
dη (η − E (Y ))2∫
dξξξ δ (η − f (ξξξ)) gX (ξξξ)
=∫
dξξξ∫
dη (η − E (Y ))2 δ (η − f (ξξξ)) gX (ξξξ)
=∫
dξξξ (f (ξξξ)− E (Y ))2 gX (ξξξ)
On est donc ramené à des intégrales (multiples) sur les variablesincertaines du modèle.
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 16 / 93
Méthodes d’estimation des incertitudes
Le cas des modèles linéaires
Pour un modèle linéaire, ou le développement de Taylor au premier ordred’un modèle quelconque autour d’un point xxx0, on peut écriref (ξξξ) = f (xxx0) + JJJT .(ξξξ − xxx0),
avec les coefficients de sensibilité Ji = ∂f (ξξξ)∂ξi
∣∣∣ξξξ=xxx0
.
E (Y ) =∫
dξξξ[F (xxx0) + JJJT .(ξξξ − xxx0)
]gX (ξξξ)
= F (xxx0)∫
dξξξ gX (ξξξ) +∑iJi∫
dξξξ (ξi − x0,i) gX (ξξξ)
= F (xxx0) +∑iJi (E (Xi)− x0,i)
Si on choisit xxx0 = E (XXX ), on obtient E (Y ) = f (E (X)).Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 17 / 93
Méthodes d’estimation des incertitudes
Le cas des modèles linéairesOn peut alors dériver la variance
V (Y ) =∫
dξξξ[f (E (X)) + JJJT .(ξξξ − E (X))− f (E (X))
]2gX (ξξξ)
=∫
dξξξ[JJJT .(ξξξ − E (X))
]2gX (ξξξ)
=∑i ,j
JiJj∫
dξξξ (ξi − E (Xi)) (ξj − E (Xj)) gX (ξξξ)
=∑i ,j
Ji u(Xi ,Xj) Jj
= JJJT .Σ.JJJ
où Σ est la matrice de variance-covariance des variables d’entrée, telle queΣi ,j = u(Xi ,Xj).Ce résultat est la notation matricielle de l’équation de combinaison desvariances.
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 18 / 93
Méthodes d’estimation des incertitudes
La méthode de combinaison des variancesProcédure normalisée pour gérer les incertitudes associées à une mesure5.
1 Identifier les sources d’incertitude et définir le modèle2 Estimer les valeurs moyennes et incertitudes-type de chacune des
sources.Type A: incertitudes obtenues par analyse statistique d’un ensemble demesurages répétés d’un même mesurandeType B: tout le reste
3 Propager/combiner les incertitudes
y = f (x1, ..., xk)
u2Y =∑i
(∂Y∂Xi
)2
xu2Xi +
∑i 6=j
(∂Y∂Xi
)x
(∂Y∂Xj
)x
cov(Xi ,Xj)
5Évaluation des données de mesure – Guide pour l’expression de l’incertitude de mesure. JCGM 100:2008Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 19 / 93
Méthodes d’estimation des incertitudes
Application: Distance de freinage
L’évaluation de la distance d’arrêt d’une voiture roulant à la vitesse V estcaractérisée par la formule
Da = TR ∗ V + V 2
2 ∗ a ∗ c
TR temps de réaction, de l’ordre de 1sV vitesse en m.s−1
a décélération, de l’ordre de 5 m.s−2
c coefficient sans dimension tenant compte de l’état de la route' 0.7 sur bitume sec
On roule à 130 km/h sur route sèche. Un obstacle surgitbrutalement, quelle distance parcourt-on avant l’arrêt complet ?
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 20 / 93
Méthodes d’estimation des incertitudes
Application: Distance de freinage
Le temps de réaction TR a été estimé lors d’une étude sur denombreux cas d’accidents : le temps minimum est de 0.5 s, mais quece temps peut aller jusque 1.5 s pour une personne normalementvigilante. On ne dispose pas d’un ensemble de valeurs analysables.Le coefficient c peut être compris entre 0.3 et 0.8 selon la nature durevêtement et les circonstances: sur route sèche et propre, c estcompris entre 0.6 et 0.8. Modéliser c sous la forme d’une loi de densitéde probabilité gaussienne.V est caractérisée par une incertitude-type de 4 km/h pour tenircompte à la fois de l’indicateur de vitesse et de la vigilance à maintenirla vitesse constante.a est caractérisée par une incertitude-type de 0.5 m.s−2, pour tenircompte de l’efficacité du système de freinage et donc de l’étatd’entretien du véhicule.
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 21 / 93
Méthodes d’estimation des incertitudes
Application: Distance de freinage
fExpr = expression( T*V + V^2/(2*a*c) )
# Valeurs moyennes et incertitudes-typeV = 130 / 3.6 ; V.u = 4 / 3.6 # (m/s) dist. gauss.T = 1 ; T.de = 0.5; T.u = T.de / 3^0.5 # dist. rect.a = 5 ; a.u = 0.5 # dist. gauss.c = 0.7 ; c.u = 0.2/6 # dist. gauss. : u = (6*sigma)/6
## dY/dT= V## dY/dV= +T2 * V/(2 * a * c)## dY/da= -V^2 * (2 * c)/(2 * a * c)^2## dY/dc= -V^2 * (2 * a)/(2 * a * c)^2
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 22 / 93
Méthodes d’estimation des incertitudes
Application: Distance de freinage
Variable Valeur Inc_Std. J J2.U2 AnovaT 1.000e+00 2.89e-01 3.61e+01 1.09e+02 0.16V 3.611e+01 1.11e+00 1.13e+01 1.58e+02 0.23a 5.000e+00 5.00e-01 -3.73e+01 3.47e+02 0.50c 7.000e-01 3.33e-02 -2.66e+02 7.87e+01 0.11Y 2.224e+02 2.63e+01 <– 6.93e+02
#### Y = 222 +/- 26
#### Incertitude élargie, facteur=1.96
#### Y = 222 +/- 52
#### 95 percent C.I. = [171,274]
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 23 / 93
Méthodes d’estimation des incertitudes
Modèles non-linéaires
Si les hypothèses pour appliquer la propagation des variances ne sont pasvérifiées, on a recours à la propagation des distributions par MonteCarlo.6
1 Définir les densités de probabilité pour toutes les variables incertaines(plus de distinction entre type A et type B) gX (ξξξ)
2 Générer un échantillon représentatif de chacune des variables ougroupes de variables corrélées (à l’aide de générateurs de nombresaléatoires)
3 Calculer le résultat du modèle pour chaque point de l’échantillony (i) = f (ξξξ(i)); i = 1,N
4 Produire les résumés statistiques à partir de cet échantillon: E (Y ),u(Y ). . .
6Évaluation des données de mesure – Supplément 1 du “Guide pour l’expression de l’incertitude de mesure” – Propagation dedistributions par une méthode de Monte Carlo. JCGM 101:2008.
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 24 / 93
Méthodes d’estimation des incertitudes
Application: Distance de freinage Monte Carlo
# Génération des échantillonsN=10000
T = runif(N,min=T-T.de,max=T+T.de)V = rnorm(N,mean=V,sd=V.u)a = rnorm(N,mean=a,sd=a.u)c = rnorm(N,mean=c,sd=c.u)
# Application du modèleY = T*V + V^2/(2*a*c)
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 25 / 93
Méthodes d’estimation des incertitudes
Application: Distance de freinage Monte Carlo
## Quelques lignes du tableau(X,Y)
## V T a c Y## 1 35.07093 1.2696965 5.656386 0.6739594 205.8508## 2 35.55551 0.6701576 5.181010 0.7017780 197.6758## 3 35.31108 0.8497572 5.752738 0.6830976 188.6538## 4 37.82988 0.8271479 5.642205 0.6855274 216.2885
## Statistiques##
#### Y = 225 +/- 27
## 95 percent C.I. = [177,281]##
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 26 / 93
Méthodes d’estimation des incertitudes
Application: Distance de freinage Monte Carlo
Histogramme de Y vs. GUM
Den
sity
150 200 250 300 350
0.00
00.
005
0.01
00.
015
0.02
0
Y
Norm(222,26)
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 27 / 93
Méthodes d’estimation des incertitudes
Application: Distance de freinage Monte Carlo
V
0.6 1.2 0.60 0.75
3236
40
0.450.
61.
2 T0.39
a
46
−0.69
0.60
0.75
c−0.32
32 36 40 4 6 150 250 350
150
250
350
Y
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 28 / 93
Incertitudes en modélisation physico-chimique
Incertitudes en modélisation physico-chimique
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 29 / 93
Incertitudes en modélisation physico-chimique
Erreurs et Incertitudes en modélisation
1 Formulation (mathématique) du modèle: approximations, erreursstructurales
2 Implémentation numérique du modèle: précision des algorithmes,seuils de convergence, modèles stochastiques
3 Incertitudes paramétriques: valeurs incertaines des paramètresdéfinissant un modèle (p.ex. champs de forces, DFT empirique. . . )
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 30 / 93
Incertitudes en modélisation physico-chimique
Formulation du modèle
approximations: Born-Oppenheimer, Hartree-Fock, Coupled Clusters. . .
en chimie quantique ab initio, typiquement le choix d’un couplethéorie/base
principalement une erreur systématique sur la mesure virtuelle
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 31 / 93
Incertitudes en modélisation physico-chimique
Erreurs liées au choix d’un modèle
Comparaison des bandes interdites calculées par deux méthodes DFTapprochées, comparées aux valeurs expérimentales.7 Erreur systématiquevs. aléatoire ???
7Civalleri et al. (2012) doi:10.1039/9781849734790-00168Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 32 / 93
Incertitudes en modélisation physico-chimique
Erreurs numériques - précision finie
accumulation des erreurs de troncature/arrondi lors de la sommationd’un grand nombre de petites contributions
intégrales biélectroniquescontributions inter-atomiquespas d’intégration dans les simulations moléculairesestimateurs statistiques sur des gros échantillons. . .
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 33 / 93
Incertitudes en modélisation physico-chimique
Erreurs numériques - précision finie
8
8Janes and Rendell (2011) Placing rigorous bounds on numerical errors in Hartree-Fock energy computations. J. Chem.Theory Comput. 7:1631-1639.
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 34 / 93
Incertitudes en modélisation physico-chimique
Erreurs numériques - précision finie
EH2O ' −75 u.a. −→ EH2O10000 ' −750000.00 u.a. (8 digits)
1 kcal/mol ' 0.002 u.a.
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 35 / 93
Incertitudes en modélisation physico-chimique
Erreurs numériques - conversions d’unités
conversion d’unités (ua –> SI)Eh a une incertitude relative de 2.2× 10−8 [CODATA 2010]la valeur des constantes fondamentales est réévaluée tous les 4 ans
attention en comparant des énergies absolues si elles ont été converties
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 36 / 93
Incertitudes en modélisation physico-chimique
Erreurs numériques - effets de seuils
les critères d’arrêt d’un algorithme itératif influent sur la précision durésultat, mais l’impact est souvent négligeable:
l’énergie minimale de C3H8 au niveau HF/6-31G(d) avec 500 géométriesde départs différentes est obtenue avec une incertitude relative de7× 10−9 ∼ 10−4 kcal/moll’effet du seuil de convergence sur l’optimisation des orbitales est 100fois plus faible
attention pour les systèmes complexes !!! (cf. next)
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 37 / 93
Incertitudes en modélisation physico-chimique
Erreurs numériques - conditions initiales
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 38 / 93
Incertitudes en modélisation physico-chimique
Erreurs numériques - conditions initiales
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 39 / 93
Incertitudes en modélisation physico-chimique
Erreurs numériques - conditions initialesGradients obtenus avec des permutations de l’ordre des atomes dans lefichier input
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 40 / 93
Incertitudes en modélisation physico-chimique
Erreurs numériques - conditions initiales
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 41 / 93
Incertitudes en modélisation physico-chimique
Erreurs numériques - conditions initiales
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 42 / 93
Incertitudes en modélisation physico-chimique
Erreurs numériques - conditions initiales
Références
Williams and Feher (2008) The effect of numerical error on thereproducibility of molecular geometry optimizations. J Comput AidedMol Des. 22:39-51.Feher and Williams (2012) Numerical errors and chaotic behavior indocking simulations. J Chem Inf Model. 52:724-38.Feher and Williams (2012) Numerical errors in minimization basedbinding energy calculations. J Chem Inf Model. 52:3200-12.
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 43 / 93
Incertitudes en modélisation physico-chimique
Erreurs numériques - non-reproductibilité
observation: le même calcul relancé plusieurs fois sur le même jeu deCPUs donne des résultats différents9 (Pb. en calcul parallèle)10
génant en dynamique moléculaire si on fait un restart pour “ zoomer ”sur un événement rare, et que celui-ci disparait. . .p. ex. “ Feher and Williams (2012) ” ont observé que 75% desrépétitions aboutissaient à des différences d’énergie de liaison inférieuresà 0.05 kcal/mol, mais pour 10% des cas, la différence dépassait 1kcal/mol !!!dans Amber, la fréquence de sauvegarde des snapshots influe sur latrajectoire. . .une des causes: l’ordre des réponses des différents CPUs influe sur lerésultat numérique (l’accumulation des erreurs numériques dépend del’ordre des opérations)
9Diethelm (2012) The Limits of Reproducibility in Numerical Simulation. Comput. Sci. Eng. 14:64-7210Blackford et al. (1997) Practical experience in the numerical dangers of heterogeneous computing. ACM Trans. Math.
Softw. 23:133-147Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 44 / 93
Incertitudes en modélisation physico-chimique
Estimation des incertitudes liées à un choix demodèle
Valeur calculéecm,s ± um,s
pour un système s par la méthode mValeur de réference
os ± us(expérimentale ou calculée)
Erreurem,s = cm,s − os
Jeu d’erreursEm = {em,s ; s = 1,Ns}
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 45 / 93
Incertitudes en modélisation physico-chimique
A propos des “benchmarks”Ex.: A. Karton et al. (2011) W4-11: A high-confidence benchmarkdataset. . . Chem. Phys. Letters 510:165.
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 46 / 93
Incertitudes en modélisation physico-chimique
Décodage
Mean Absolute Error (MAE, a.k.a. [MA][AU][ED] )
MAE = 1Ns
Ns∑s=1|em,s |
Warning: en Stats, MAD correspond à (mesure de dispersion)
MAD = 1Ns
Ns∑s=1
∣∣em,s − Em∣∣
MAD = med |Em −med(Em)|
Mean Signed Error (mesure de position)
MSE = Em = 1Ns
Ns∑s=1
em,s
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 47 / 93
Incertitudes en modélisation physico-chimique
Location vs. dispersion
Root Mean Squared Error
RMSE =
√√√√ 1NS
Ns∑s=1
e2m,s
Root Mean Squared Deviation (mesure de dispersion)
RMSD =
√√√√ 1NS
Ns∑s=1
(em,s − Em)2
l’identitéRMSE 2 = RMSD2 + MSE 2
nous montre que la RMSE (et la MAE) sont des mélanges de positionet de dispersion, donc inadaptées pour estimer une incertitude.
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 48 / 93
Incertitudes en modélisation physico-chimique
Exemple 1 : fréquences harmoniques
Set of 2738 vibrational frequencies vs. HF/6-31G* combination oftheory/basis-set (downloaded from the NIST/CCCBDB in 2008; P.Pernot and F. Cailliez (2011) J. Chem. Phys. 134:167101.)
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 49 / 93
Incertitudes en modélisation physico-chimique
Exemple 1 : fréquences harmoniques
Erreur / cm−1
Fre
quen
cy
−200 0 200 400 600 800
020
040
060
080
010
00
MSE = 161MAE = 163RMSE = 195RMSD = 110
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 50 / 93
Incertitudes en modélisation physico-chimique
Exemple 1 : fréquences harmoniques
1000 2000 3000 4000
1000
2000
3000
4000
Freq. harmonique calc / cm−1
Fre
q. m
esur
ée /
cm−
1
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 51 / 93
Incertitudes en modélisation physico-chimique
Exemple 1 : fréquences harmoniques
1000 2000 3000 4000
1000
2000
3000
4000
Freq. harmonique calc / cm−1
Fre
q. m
esur
ée /
cm−
1
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 52 / 93
Incertitudes en modélisation physico-chimique
Exemple 1 : fréquences harmoniques
1000 2000 3000 4000
−20
00
200
400
600
Freq. harmonique calc / cm−1
Err
eur
/ cm
−1
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 53 / 93
Incertitudes en modélisation physico-chimique
Exemple 1 : fréquences harmoniques
1000 2000 3000 4000
−20
00
200
400
Freq. harmonique calc / cm−1
Err
eur
− M
SE
/ cm
−1
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 54 / 93
Incertitudes en modélisation physico-chimique
Exemple 1 : fréquences harmoniques
1000 2000 3000 4000
−20
00
200
400
Freq. harmonique calc / cm−1
Err
eur
− M
SE
/ cm
−1
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 55 / 93
Incertitudes en modélisation physico-chimique
Exemple 1 : fréquences harmoniques
1000 2000 3000 4000
−20
00
200
400
Freq. harmonique calc / cm−1
Err
eur
calib
rée
/ cm
−1
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 56 / 93
Incertitudes en modélisation physico-chimique
Exemple 1 : fréquences harmoniques
Erreur / cm−1
Fre
quen
cy
−200 0 200 400 600 800
020
040
060
080
010
00
MSE = 161MAE = 163RMSE = 195RMSD = 110
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 57 / 93
Incertitudes en modélisation physico-chimique
Exemple 1 : fréquences harmoniques
Erreur / cm−1
Fre
quen
cy
−200 0 200 400 600 800
020
040
060
080
010
00
MSE = 161MAE = 163RMSE = 195RMSD = 110
MSE = −2MAE = 31RMSE = 45RMSD = 45
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 58 / 93
Incertitudes en modélisation physico-chimique
Exemple 2 : solides à symétrie cubiqueEvaluation des performances et des incertitudes de prédiction de 18méthodes sur 3 propriétés (Band Gap, Bulk Modulus et Lattice Constant)de 27 systèmes11:
## Méthodes: HF LDA PBE PBEsol B97 B3LYP PBE0## PBEsol0 HSE06 HSEsol HISS RSHXLDA wB97 wB97X## LC-wPBE LC-wPBEsol M06-L M06
## Systèmes de Référence: C Si Ge SiC BN BP BAs## AlP AlAs AlSb GaN GaP GaAs GaSb InP InAs InSb ZnS## ZnSe ZnTe CdTe MgS LiF LiCl NaF NaCl MgO SrTiO3
## Systèmes de Validation: AlN CdS CdSe MgSe MgTe## BaS BaSe BaTe LiH
11P. Pernot, B. Civallieri, D. Presti and A. Savin (2014) soumisPascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 59 / 93
Incertitudes en modélisation physico-chimique
Exemple 2 : band gaps
−5
05
10
Err
eur
/ eV
HF
LDA
PB
E
PB
Eso
l
B97
B3L
YP
PB
E0
PB
Eso
l0
HS
E06
HS
Eso
l
HIS
S
RS
HX
LDA
wB
97
wB
97X
LC−
wP
BE
LC−
wP
BE
sol
M06
−L
M06
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 60 / 93
Incertitudes en modélisation physico-chimique
Exemple 2 : band gaps by HF
0 5 10 15 20
05
1015
20
Calcul / eV
Réf
éren
ce /
eV
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 61 / 93
Incertitudes en modélisation physico-chimique
Exemple 2 : band gaps by HF
5 10 15 20
−2
02
46
810
Calcul / eV
Err
eur
/ eV
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 62 / 93
Incertitudes en modélisation physico-chimique
Exemple 2 : band gaps by HF
5 10 15 20
−2
02
46
810
Calcul / eV
Err
eur
calib
rée
/ eV
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 63 / 93
Incertitudes en modélisation physico-chimique
Exemple 2 : band gaps avant correction
−5
05
10
Err
eur
/ eV
HF
LDA
PB
E
PB
Eso
l
B97
B3L
YP
PB
E0
PB
Eso
l0
HS
E06
HS
Eso
l
HIS
S
RS
HX
LDA
wB
97
wB
97X
LC−
wP
BE
LC−
wP
BE
sol
M06
−L
M06
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 64 / 93
Incertitudes en modélisation physico-chimique
Exemple 2 : band gaps après correction
−5
05
10
Err
eur
calib
rée
/ eV
HF
LDA
PB
E
PB
Eso
l
B97
B3L
YP
PB
E0
PB
Eso
l0
HS
E06
HS
Eso
l
HIS
S
RS
HX
LDA
wB
97
wB
97X
LC−
wP
BE
LC−
wP
BE
sol
M06
−L
M06
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 65 / 93
Incertitudes en modélisation physico-chimique
Modèle statistique de calibration/prédiction
Modèle standard12os = cm,s + εs (s = 1, Ns)
εs : variable aléatoire de moyenne 0et d’écart type connu us
Validité du modèle ?χ2 =
∑s=1,Ns
(em,sus
)2 ?' Ns
12on suppose par la suite que les erreurs numériques sont négligeablesPascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 66 / 93
Incertitudes en modélisation physico-chimique
Modèle statistique de calibration/prédiction
Modèle avec correction de tendance
os = fm(cm,s ;ϑm) + εs
Validité du modèle ?
∑s=1,Ns
(os − fm(cm,s ; ϑm)
us
)2?' Ns − Nϑ
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 67 / 93
Incertitudes en modélisation physico-chimique
Modèle statistique de calibration/prédiction
Correction des écarts résiduels
os = fm(cm,s ;ϑm) + εs + δm
δm: variable aléatoire de moyenne 0et d’écart type inconnu dm
Validité du modèle dm choisi pour assurer
∑s=1,Ns
(os − fm(cm,s ; ϑm)
u2s + d2m
)2
= Ns − Nϑ
Résultatsϑm, Σϑ, dm
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 68 / 93
Incertitudes en modélisation physico-chimique
Modèle statistique de calibration/prédiction
Propagation des variances
p(c) = fm(c; ϑm) + δm
u2p(c) = u2f (c; ϑm) + d2m
Le cas linéairep(c) = am + bm × cu2p(c) = u2f (c) + d2
m
u2f (c) = u2(am) + c2u2(bm) + 2cu(am, bm)
Rq: incertitude paramétrique uf (c)↘ N−0.5s
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 69 / 93
Incertitudes en modélisation physico-chimique
Exemple 1 : fréquences harmoniques
1000 2000 3000 4000
−30
0−
200
−10
00
100
200
300
Freq. harmonique calc / cm−1
Err
eur
calib
rée
/ cm
−1
ufup
CCCBDB
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 70 / 93
Incertitudes en modélisation physico-chimique
Exemple 2 : band gaps by HF
10 15 20
−2
−1
01
2
Calcul / eV
Err
eur
calib
rée
/ eV
uf
dup
Calib. setValid. set
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 71 / 93
Incertitudes en modélisation physico-chimique
Exemple 2 : solides à symétrie cubique
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 72 / 93
Incertitudes en modélisation physico-chimique
Exemple 3 : configurations des protéines
13
13Faver et al. (2011) The Energy Computation Paradox and ab initio Protein Folding. PLoS ONE 6:e18868Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 73 / 93
Incertitudes en modélisation physico-chimique
Exemple 3 : configurations des protéines
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 74 / 93
Incertitudes en modélisation physico-chimique
Exemple 3 : configurations des protéines
Modèle additif des interactions
∆Gfold = ∆Eint + ∆Hcorr − T∆Sfold + ∆∆Gsolv
∆Eint + ∆Hcorr ' ∆Hint,1 + ∆Hint,2 + . . .+ ∆Hint,N
chacun des ∆Hint,i est évalué par une méthode approchéesi une protéine a N=100 contacts indépendants, et que chaque ∆Hint,iest connu avec la “ précision chimique ”, 1 kcal/mol, la loi decombinaison des variances pour les erreurs aléatoires résulte en uneincertitude totale de 10 kcal/mol, insuffisante pour localiser leminimum global.
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 75 / 93
Incertitudes en modélisation physico-chimique
Exemple 3 : configurations des protéines
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 76 / 93
Incertitudes en modélisation physico-chimique
Exemple 3 : configurations des protéinesModèle additif des interactions
l’erreur sur chacun des ∆Hint,i contient probablement une partimportante d’erreur systématiquedéterminer pour chaque type d’interaction i les composantessystématiques µi et aléatoires σi de l’erreur et les combiner
Errorsyst =∑
Niµi
Errorrand =(∑
iNiσ
2i
)1/2
Errorsyst est un facteur de correction (biais) à retrancher à ∆HintErrorrand est l’incertitude sur ∆Hint corrigé
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 77 / 93
Incertitudes en modélisation physico-chimique
Exemple 3 : configurations des protéines
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 78 / 93
Incertitudes en modélisation physico-chimique
Exemple 3 : configurations des protéines
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 79 / 93
Incertitudes en modélisation physico-chimique
Exemple 3 : configurations des protéines
Conclusion
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 80 / 93
Incertitudes en modélisation physico-chimique
Exemple 3: Références
Merz (2010) Limits of Free Energy Computation for Protein-LigandInteractions. J. Chem. Theory Comput. 6:1769-1776.Faver et al. (2011) Formal Estimation of Errors in Computed AbsoluteInteraction Energies of Protein-Ligand Complexes. J. Chem. TheoryComput. 7:790-797.Faver et al. (2011) The Energy Computation Paradox and ab initioProtein Folding. PLoS ONE 6:e18868.; Faver et al. (2014)Fragment-based error estimation in biomolecular modeling. DrugDiscovery Today. doi:10.1016/j.drudis.2013.08.016.Faver et al. (2012) The Effects of Computational Modeling Errors onthe Estimation of Statistical Mechanical Variables. J. Chem.TheoryComput. doi:10.1021/ct300024z
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 81 / 93
Calibration interne des modèles
Calibration interne des modèles
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 82 / 93
Calibration interne des modèles
Exemple: Calibration d’une DFT
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 83 / 93
Calibration interne des modèles
Exemple: Calibration d’une DFT
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 84 / 93
Calibration interne des modèles
Exemple: Calibration d’une DFT
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 85 / 93
Calibration interne des modèles
Exemple: Calibration d’une DFT
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 86 / 93
Calibration interne des modèles
Exemple: Calibration d’une DFT
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 87 / 93
Calibration interne des modèles
Modèle statistique de calibration/prédiction
Ajustement des paramètres du modèle
os = f (s;ϑ) + εs
Validité du modèle ∑s=1,Ns
(os − f (s; ϑ)
us
)2?' Ns − Nϑ
Si non, ajustement de l’incertitude t.q.
∑s=1,Ns
(os − f (s; ϑ)
d
)2
= Ns − Nϑ
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 88 / 93
Calibration interne des modèles
Modèle statistique de calibration/prédiction
Propagation des variancesp(s ′) = f (s ′; ϑ)u2p(s ′) = u2f (s ′; ϑ)
Problèmeuf (s ′)↘ N−αs
Forte sous-estimation probable des incertitudes deprédiction.
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 89 / 93
Calibration interne des modèles
Calibration de modèles empiriques: références
Mortensen et al. (2005) Bayesian Error Estimation inDensity-Functional Theory. Phys. Rev. Lett. 95:216401.Wellendorff et al. (2012) Density functionals for surface science:Exchange-correlation model development with Bayesian errorestimation. Phys. Rev. B 85:235149.Petzold et al. (2012) Construction of New Electronic DensityFunctionals with Error Estimation Through Fitting. Topics in Catalysis55:402.Medford et al. (2014) Assessing the reliability of calculated catalyticammonia synthesis rates. Science 197.Cailliez et Pernot (2011) Statistical approaches to forcefield calibrationand prediction uncertainty in molecular simulation. J. Chem. Phys.134:054124.Angelikopoulos et al. (2012) Bayesian uncertainty quantification andpropagation in molecular dynamics simulations: A high performancecomputing framework. J. Chem. Phys. 137:144103.
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 90 / 93
Conclusions
Conclusions
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 91 / 93
Conclusions
Conclusions
dans tous les domaines de la chimie théorique on doit faire face à desincertitudes plus ou moins bien controlées;souvent, l’incertitude majeure provient de l’incapacité d’un modèle àreprésenter des données expérimentales;il est essentiel d’expliciter toutes les sources d’incertitude et de lestraiter de manière cohérente (théorie des probabilités: approchebayésienne);la propagation des incertitudes du niveau moléculaire aux niveauxsupérieurs (méso ou macro) dans les simulations multi-échelles estencore pratiquement inexplorée. . . 14
14Vlachos (2012) Multiscale modeling for emergent behavior, complexity, and combinatorial explosion. AIChE 58:1314–1325;Ulissi et al. (2011) Effect of multiscale model uncertainty on identification of optimal catalyst properties. J. Catal. 281:339–344;Salciccioli et al. (2011) A review of multiscale modeling of catalytic reactions: Mechanism development for complexity andemergent behavior. Chem. Eng. Sci. 66:4319–4355.
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 92 / 93
Conclusions
Conclusions
l’incertitude de prediction en chimie computationnelleun critère rationnel de sélection de méthodeindispensable pour la propagation des erreurs(p.ex. méthodes multi-échelles séquentielles)
pour estimer une incertitude, il faut corriger au mieux leserreurs systématiques
nécessite le recours à une correction a posteriori (linéaire)pour chaque type de propriété (non transférable)l’incertitude de prédiction résulte majoritairement dela dispersion des erreurs résiduelles après correctionpas toujours possible d’estimer des intervalles de confiance(sans hypothèse de distribution des erreurs)forte sensibilité à la base de données de référence(idem pour les benchmarks. . . sauf qu’ici on gère us)
Pascal PERNOT (LCP) Incertitudes en Chimie Computationnelle Label CT (2015-01-30) 93 / 93