Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
Geostatistique
M. Ribatet
Master Biostat — Universite de Montpellier
1. Processus stochastiques 6Quelques rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7Processus gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9Processus d’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12Stationnarite stricte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13Stationnarite faible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14Isotropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18Continuite de K(·) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21Continuite de Z(·). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22Derivabilite de Z(·) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24Correlation parametrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25Stationnarite intrinseque. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27Variogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28Proprietes de γ(·) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29Variogrammes parametriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2. Modelisation statistique 33Donnees de calcium. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34Variogramme empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39Ajustement d’un variogramme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47Krigeage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50Modelisation par processus gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61DM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3. Simulations de processus gaussiens 67Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68Simulations non conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69Simulations conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
1
Qu’est ce que la geostatique ?
La geostatistique est une branche des statistiques visant a donner une description de quantitesdistribuees spatialement ou encore spatio–temporellement.
Voici quelques quantites d’interet :
– la temperature, precipitation, neige, . . .– concentration d’un polluant, ozone, . . .– teneur d’un minerai d’un gisement, . . .
Geostatistique Mathieu Ribatet – 2 / 70
Objectifs
L’objectif d’une analyse geostatistique sera bien souvent la prediction, e.g.,
– Temperature a Carnon sachant celles de Palavas, du Grau du roi et de la Grande Motte ?– Quel est l’endroit ayant la plus forte concentration d’un polluant ?
Toutefois elle permettra bien egalement de repondre a d’autres questions :
– les temperatures a Montepllier et Nımes sont elles fortement liees ?– Quelles variables semblent influencer la pollution ?
Geostatistique Mathieu Ribatet – 3 / 70
2
Quelques references
Chiles, J.-P. and Delfiner, P. (1999). Geostatistics: Modelling Spatial Uncertainty. Wiley, New York.
Cressie, N. A. C. (1993). Statistics for Spatial Data. Wiley Series in Probability and Statistics. JohnWiley & Sons inc., New York.
Diggle, P., Ribeiro, P., and Justiniano, P. (2007). Model-based Geostatistics. Springer Series inStatistics. Springer.
Stein, M. L. (1999). Interpolation for spatial data: Some theory for kriging. Springer, New York.
Wackernagel, H. (2003). Multivariate geostatistics: An introduction with applications. Springer,New York, third edition edition.
Geostatistique Mathieu Ribatet – 4 / 70
Ce que nous ne verrons pas :-(
Les donnees sur reseaux // grille, e.g.,
– analyse d’une image via un champ de Markov ;– nombre de malades de la grippe sur l’agglomeration Montpellieraine.
Theorie ergodique ; Cadre multivarie, e.g., modelisation jointe de la temperature et l’humidite. Theorie spectrale des processus (Bochner, Stein, Schoenberg, . . . )
Geostatistique Mathieu Ribatet – 5 / 70
3
1. Processus stochastiques 6 / 70
Quelques rappels
Definition 1 (Rappel). Un processus stochastique defini sur X et a valeur dans E est une famille devariables aleatoires indexees par X et a valeur dans E toutes definies sur un meme espace deprobabilite (Ω,F , P ).
Exemple 1 (Marche aleatoire). Soient ε1, ε2, . . .iid∼ N(0, σ2) et posons
Z0 = ε0, Zt+1 = Zt + εt+1, t ≥ 0.
Ceci definit un processus stochastique sur X = N et a valeur dans E = R.
Geostatistique Mathieu Ribatet – 7 / 70
Lois fini–dimensionnelles
Proposition 1. Un processus stochastique est totalement caracterise‡ par ses loisfini–dimensionnelles, i.e., pour tout n ≥ 1 et (s1, . . . , sn) ∈ X n,
PrZ(s1) ∈ B1, . . . , Z(xn) ∈ Bn, B1, . . . , Bn boreliens de E.
Ces dernieres doivent cependant satisfaire les hypotheses du theoreme d’extension de Kolmogorov,i.e., pour toute permutation σ de 1, . . . , n,
νs1,...,sn(B1,...,Bn)=νσ(s1),...,σ(sn)Bσ(1),...,Bσ(n)
etνs1,...,sn−1(B1, . . . , Bn−1) = νs1,...,sn(B1, . . . , Bn−1, E).
Remarque. Le theoreme d’extension de Kolmogorov permet d’assurer l’existence d’un processusstochastique ayant des lois fini–dimensionnelles donnees ν.
Geostatistique Mathieu Ribatet – 8 / 70
4
Processus gaussiens
Definition 2. Un processus Z(s) : s ∈ X est un processus gaussien si ses lois fini–dimensionnellessont Gaussiennes.
Exemple 2. L’exemple precedent de la marche aleatoire
Zt+1 = Zt + εt+1, εtiid∼ N(0, σ2),
definit un processus Gaussien sur N.
Remarque. Certaines personnes utilisent le terme “processus Gaussien” lorsque X = R ou N et“champs Gaussien” lorsque X = R
d, d ≥ 2. Personnelement je ne fais aucune distinction et parleraitoujours de processus stochastique (Gaussien ou non d’ailleurs).
Geostatistique Mathieu Ribatet – 9 / 70
Illustration
0 2 4 6 8 10
−2
−1
01
s
Z(s
)
Z(2.5)
Den
sity
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
Z(7.5)
Den
sity
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
Figure 1: Illustration pedagogique d’un processus Gaussien sur X = [0, 10].
0 2 4 6 8 10
02
46
810
s
s
−3
−2
−1
0
1
2
3
0 2 4 6 8 10
02
46
810
s
s
−3
−2
−1
0
1
2
3
0 2 4 6 8 10
02
46
810
s
s
−3
−2
−1
0
1
2
3
Figure 2: Trois realisations d’un processus Gaussien sur X = [0, 10]2.
Geostatistique Mathieu Ribatet – 10 / 70
5
Cadre geostatistique
Puisque la geostatistique vise, par exemple, a donner une description d’une quantite distribueespatialement ou spatio–temporellement, nous nous restreindrons au cas ou X = R
2 voire X = R3.
Par exemple pour la modelisation de la pluie, nous definirons donc un processus stochastiquedefini sur R2 et a valeur dans R+.
Dans la suite, nous noterons indifferemment le processus stochastique par Z(s) : s ∈ X, Z(s),Z(·) ou tout simplement Z.
Geostatistique Mathieu Ribatet – 11 / 70
Processus d’ordre 2
Definition 3. Un processus Z(s) : s ∈ X est dit d’ordre 2 si pour tout s ∈ X
VarZ(s) <∞ (et donc a fortiori EZ(s) <∞)
Ceci nous permet alors de considerer la tendance (trend // drift)
µ : X −→ E
s 7−→ µ(s) = EZ(s),
et la fonction de covariance
K : X × X −→ R
(s1, s2) 7−→ K(s1, s2) = CovZ(s1), Z(s2).
Geostatistique Mathieu Ribatet – 12 / 70
6
Stationnarite stricte
Definition 4. Un processus Z(s) : s ∈ X est dit strictement stationnaire si pour tout n ≥ 1 et(s1, . . . , sn) ∈ X n
PrZ(s1) ∈ B1, . . . , Z(sn) ∈ Bn = PrZ(s1 + h) ∈ B1, . . . , Z(sn + h) ∈ Bn,
h ∈ X et Boreliens B1, . . . , Bn.
C’est generalement une propriete bien trop forte (et impossible a verifier en pratique) qui font quel’on considere souvent une version assouplie.
Geostatistique Mathieu Ribatet – 13 / 70
Stationnarite faible
Definition 5. Un processus d’ordre 2 Z(s) : s ∈ X est dit faiblement stationnaire si pour touts, s1, s2, h ∈ X
EZ(s) = EZ(s+ h)
CovZ(s1), Z(s2) = CovZ(s1 + h), Z(s2 + h),
i.e.,µ(s) = µ, K(s1, s2) = K(s1 + h, s2 + h).
Proposition 2. Si Z(s) : s ∈ X est faiblement stationnaire alors
µ(s) = µ, K(s1, s2) = K(o, s2 − s1)not.= K(s2 − s1),
ou o est une origine arbitraire de X .
Geostatistique Mathieu Ribatet – 14 / 70
7
Question pour vous. . .
Avantage de la stationnarite ? Inconvenient de la stationnarite ?
Geostatistique Mathieu Ribatet – 15 / 70
Proprietes de la fonction de covariance (DM)
Soit Z(s) : s ∈ X un processus faiblement stationnaire. Sa fonction de covariance K(·) verifie alors
K(o) = VarZ(s) ≥ 0 pour tout s ∈ X ; K(h) = K(−h) ; K(h) ≤ K(o) ; Pour tout n ≥ 1 et λ1, . . . , λn ∈ R et s1, . . . , sn ∈ X ,
n∑
i,j=1
λiλjK(si − sj) ≥ 0.
Remarque. Cette derniere propriete revient a dire que K(·) est (semi) definie positive.
Geostatistique Mathieu Ribatet – 16 / 70
8
Proprietes sur les fonctions definies positives
Si K1(·) et K2(·) sont def. pos. alors a1K1(·) + a2K2(·) l’est aussi pour a1, a2 ≥ 0 ; Soient Kn(·)n≥1 une suite de fonctions def. pos. telle que Kn(s) → K(s) lorsque n→ ∞ pour
tout s ∈ X . Alors K(·) est def. pos. ; Si K1(·) et K2(·) sont def. pos. alors alors K(s) = K1(s)K2(s) est def. pos.
Geostatistique Mathieu Ribatet – 17 / 70
Isotropie
Dans un esprit de modelisation, il sera souvent “agreable” de supposer l’isotropie
Definition 6. Un processus Z(s) : s ∈ X est dit isotrope si pour tout matrice de rotationa R
Z(s) : s ∈ Xd= Z(Rs) : s ∈ X.
Remarque. Si Z(s) : s ∈ X est faiblement stationnaire, alors cela revient a dire
K(h) = K(‖h‖), h ∈ X .
Remarque. Un processus non isotrope est anisotrope.
aUne matrice A est une matrice de rotation si A−1= A
⊤ et |A| = 1
Geostatistique Mathieu Ribatet – 18 / 70
9
Question pour vous. . .
Avantage de l’isotropie ? Inconvenient de l’isotropie ?
Geostatistique Mathieu Ribatet – 19 / 70
Allure generale de K(·)
0 2 4 6 8 10 12 14
01
23
45
h
K(h
)
0 2 4 6 8 10 12 14
0.0
0.5
1.0
1.5
2.0
2.5
3.0
h
K(h
)
0 2 4 6 8 10 12 14
0.0
0.1
0.2
0.3
0.4
0.5
h
K(h
)
Figure 3: Quelques fonctions de covariance isotropes.
En profiter pour definir :
portee (practical range) variance partielle (partial sill) effet pepite (nugget) derivabilite en l’origine
Geostatistique Mathieu Ribatet – 20 / 70
10
Continuite de K(·)
Proposition 3. Soit un processus faiblement stationnaire Z(s) : s ∈ X de fonction de covarianceK(·). Si K(·) est continu a l’origine alors elle est continue partout.
Corollaire 1. La fonction de covariance K(·) d’un processus faiblement stationnaire ne peut etrediscontinue qu’en son origine (effet pepite) et si tel est le cas alors
K(h) = cδo(h) +Kc(h), h ∈ X ,
ou c > 0 (la pepite) et Kc(·) est une fonction de covariance continue.
Geostatistique Mathieu Ribatet – 21 / 70
Continuite en moyenne quadratique
Definition 7. Un processus faiblement stationnaire Z(s) : s ∈ X est dit continu en moyennequadratique si
E[
Z(o)− Z(h)2]
−→ 0, ‖h‖ → 0.
Theoreme 1. Un processus faiblement stationnaire Z(s) : s ∈ X est continu en moyennequadratique si et seulement si K(·) est continue a l’origine.
Remarque (DM). Que devient ce theoreme lorsque le processus est seulement d’ordre 2 et de moyenneconstante ?
Geostatistique Mathieu Ribatet – 22 / 70
11
Trajectoires continues p.s. et continuite en moyenne quadratique
0 5 10 15 20 25 30
0.0
0.2
0.4
0.6
0.8
1.0
s
Z(s
)
Figure 4: Realisation d’un processus L2–continu et mais a trajctoires non continues.
Z(s) = XI(s), I(s) = infi ≥ 1: ξi ≥ s,
avec ξi : i ≥ 1 ∼ PPP (1) et Xiiid∼ Ber(p).
Geostatistique Mathieu Ribatet – 23 / 70
Derivabilite en moyenne quadratique
Definition 8. Un processus faiblement stationnaire Z(s) : s ∈ X est derivable s’il existe unprocessus d’ordre 2 D(s) : s ∈ X tel que
E
[
Z(s+ h)− Z(s)
‖h‖−D(s)
2]
−→ 0, ‖h‖ → 0.
Le processus D(s) : s ∈ X est appele processus derive (en moyenne quadratique) de Z(s) : s ∈ Xet sera note naturellement Z ′(s) : s ∈ X.
Proposition 4 (Bartlett, 1955). Un processus faiblement stationnaire est derivable en moyennequadratique si et seulement si K(·) admet une derivee seconde en son origine.
Geostatistique Mathieu Ribatet – 24 / 70
12
Quelques familles de fonctions de correlation isotropesExponentielρ(h) = exp
(
−h
λ
)
, λ > 0
Gaussien
ρ(h) = exp
−
(
h
λ
)2
, λ > 0
Stable // Exponentiel puissance
ρ(h) = exp
−
(
h
λ
)κ
, 0 < κ ≤ 2, λ > 0
Whittle–Matern
ρ(h) =21−κ
Γ(κ)
(u
λ
)κ
Kκ
(u
λ
)
, κ > 0, λ > 0.
Geostatistique Mathieu Ribatet – 25 / 70
0.0 0.5 1.0 1.5 2.0
0.0
0.2
0.4
0.6
0.8
1.0
h
γ(h)
Stable
κ = 2κ = 1.5κ = 1κ = 0.5
0.0 0.5 1.0 1.5 2.0
0.0
0.2
0.4
0.6
0.8
1.0
h
γ(h)
Whittle−Matern
κ = 20κ = 1κ = 0.5κ = 0.25
Figure 5: Fonctions de correlation isotrope du type “Stable” et “Whittle-Matern”.
Geostatistique Mathieu Ribatet – 26 / 70
13
Stationnarite intrinseque
Parfois il peut etre necessaire de relacher (un peu) l’hypothese de stationnarite faible
Definition 9. Un processus Z(s) : s ∈ X est dit intrinsequement stationnaire ou a accroissementsstationnaires si
EZ(s)− Z(s+ h) = 0,
VarZ(s)− Z(s+ h) = 2γ(h) (ne depend que de h)
Stationnarite intrinseque 6⇒ Stationnarite faible Stationnarite faible ⇒ Stationnarite intrinseque Stationnarite intrinseque suppose l’existence des 2 premiers moments de
Z(s+ h)− Z(s) : s ∈ X mais aucunement ceux de Z(s) : s ∈ X.
Geostatistique Mathieu Ribatet – 27 / 70
Variogramme
Definition 10. Soit Z(s) : s ∈ X un processus (au moins!) a accroissements stationnaires. Onappelle (semi) variogramme la fonction
γ : X −→ R+
h 7−→ γ(h) =1
2E[
Z(s+ h)− Z(s)2]
.
Remarque. Si Z(s) : s ∈ X est faiblement stationnaire alors clairement
γ(h) = K(o)−K(h).
En revanche l’existance d’un variogramme n’assure pas celle de la fonction de covariance !!!
Geostatistique Mathieu Ribatet – 28 / 70
14
Proprietes du variogramme (DM)
Proposition 5. Soient Z(s) : s ∈ X un processus a accroissements stationnaires et λ1, . . . , λn ∈ R
tels que∑n
j=1 λj = 0. Alors
E
n∑
j=1
λjZ(sj)
= 0, Var
n∑
j=1
λjZ(sj)
= −
n∑
i,j=1
λiλjγ(si − sj) ≥ 0
La proposition precedente indique que sous l’hypothese d’accroissement stationnaires, toutes lescombinaisons lineaires de Z(sj) ne sont pas valides !
Remarque. Attention pour votre DM, on travaille ici sous les hypotheses d’accroissementsstationnaires on ne peut donc pas ecrire EZ(s) ou VarZ(s) !!!
Geostatistique Mathieu Ribatet – 29 / 70
Proprietes du variogramme
γ(o) = 0 ; γ(h) ≥ 0 pour tout h ∈ X ; γ(−h) = γ(h) pour tout h ∈ X ; ‖h‖−2γ(h) −→ 0 lorsque ‖h‖ → ∞ (admis) ; La fonction h 7→ exp−cγ(h), c > 0, est une fonction de covariance (admis).
Geostatistique Mathieu Ribatet – 30 / 70
15
Variogrammes parametriques
Il existe deux types de variogrammes : bornes ou non. Dans le cas bornes, alors on reprend les familles parametriques donnees pour les covariances
puisqueγ(h) = K(o)−K(h)
Si le variogramme est borne alors γ(·) herite des proprietes deja vues pour K(·). Un modele parametrique non borne frequemment rencontre est le modele puissance
γ(h) =
(
h
λ
)κ
, 0 < κ < 2.a
aCombine avec un proc. gauss. on tombe sur un mouvement brownien fractionnaire (brownien classique pour κ = 1).
Geostatistique Mathieu Ribatet – 31 / 70
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.0
0.2
0.4
0.6
0.8
1.0
h
γ(h)
Stableκ = 2κ = 1.5κ = 1κ = 0.5
0.0 0.5 1.0 1.5 2.0 2.5 3.0
02
46
810
h
γ(h)
Puissanceκ = 0.5κ = 1κ = 1.5κ = 2
Figure 6: Variogrammes isotropes du type “Stable” et “puissance”.
Geostatistique Mathieu Ribatet – 32 / 70
16
2. Modelisation statistique 33 / 70
Donnees de calcium
Donnees de teneur en calcium (et magnesium) du sol (entre 0 et 20cm de profondeur) La region d’etude a ete divisee en 3 sous–regions
– HG : parcelle pouvant etre consideree comme naturelle ;– Bas: culture de riz (traitement au Ca le plus recent) ;– HD: A recu des engrais dans le passe.
Objectif : Modeliser spatialement la teneur de Ca encore presente qui a ete utilisee par le passepour neutraliser l’impact de l’aluminium present dans le sol.
Geostatistique Mathieu Ribatet – 34 / 70
Format des donnees
east north altitude area ca20
1 5710 4829 6.10 3 52
2 5727 4875 6.05 3 57
3 5745 4922 6.30 3 72
4 5764 4969 6.60 3 74
5 5781 5015 6.60 3 68
6 5799 5062 5.75 3 45
7 5817 5109 5.35 3 47
8 5837 5161 5.10 3 49
9 5873 5254 5.00 2 38
10 5907 5347 5.20 2 53
11 5925 5394 5.05 2 60
12 5943 5441 4.65 2 47
13 5961 5487 4.40 2 34
...
Geostatistique Mathieu Ribatet – 35 / 70
17
Question pour vous. . .
En tant que statisticien, que feriez vous si vous deviez travailler sur ces donnees ?
Geostatistique Mathieu Ribatet – 36 / 70
5000 5200 5400 5600 5800 6000
4800
5000
5200
5400
5600
5800
Longitude
Latit
ude
52
57
72
74
68
45
47
49
38
53
60
47
34
56
66
53
43
42
49
45
53
38
47
35
60
45
60
61
58
44
50
47
49
46
43
56
43
50
61
57
57
42
41
54
46
50
43
72
56
38
64
56
68
61
50
47
58
53
47
36
41
71
44
68
67
58
52
64
54
52
46
40
39
62
58
66
50
50
61
61
58
40
44
33
28
59
66
65
54
66
71
69
59
43
41
29
72
49
53
58
55
54
56
47
43
48
47
38
58
53
52
56
53
50
47
43
40
38
58
55
65
53
58
42
46
35
27
58
56
56
66
58
45
40
48
52
31
25
40
47
42
63
63
52
39
47
42
29
37
40
52
60
50
57
68
58
43
30
28
33
21
39
36
48
58
66
51
47
46
44
35
32
64
54
62
63
78
52
Figure 7: Donnees de teneur en Calcium dans le sol. (symbol plot)
Geostatistique Mathieu Ribatet – 37 / 70
18
5000 5400 5800
2030
4050
6070
80
Longitude
Ca
4800 5000 5200 5400 560020
3040
5060
7080
Latitude
Ca
3.5 4.0 4.5 5.0 5.5 6.0 6.5
2030
4050
6070
80
Altitude
Ca
1 2 3
2030
4050
6070
80
Sous−region
Ca
Figure 8: Evolution de la teneur en Calcium en fonction des covariables disponibles.
Geostatistique Mathieu Ribatet – 38 / 70
Variogramme empirique
Comme
γ(h) =1
2E[
Z(o)− Z(h)2]
,
un estimateur tres naturel est
γ(h) =1
2n
n∑
ℓ=1
Zℓ(si)− Zℓ(sj)2, h = ‖si − sj‖,
ou encore sa version agregee (binned)
γ(h) =1
2nN(h, ε)
n∑
ℓ=1
k∑
i,j=1
Zℓ(si)− Zℓ(sj)21|‖si−sj‖−h|≤ε,
avec
N(h, ε) =
k∑
i,j=1
1|‖si−sj‖−h|≤ε.
Geostatistique Mathieu Ribatet – 39 / 70
19
Variogramme empirique sur les donnees de Calcium
0 200 400 600 800 1000
050
100
150
200
h
γ(h)
Figure 9: Variogramme empirique sur les donnees de Calcium.
Geostatistique Mathieu Ribatet – 40 / 70
20
Variogramme empirique sur les donnees de Calcium
0 200 400 600 800 1000
050
100
150
200
h
γ(h)
Figure 10: Variogramme empirique sur les donnees de Calcium (tendance longitude).
Geostatistique Mathieu Ribatet – 41 / 70
21
Variogramme empirique sur les donnees de Calcium
0 200 400 600 800 1000
050
100
150
200
h
γ(h)
Figure 11: Variogramme empirique sur les donnees de Calcium (tendance latitude).
Geostatistique Mathieu Ribatet – 42 / 70
22
Variogramme empirique sur les donnees de Calcium
0 200 400 600 800 1000
050
100
150
200
h
γ(h)
Figure 12: Variogramme empirique sur les donnees de Calcium (tendance altitude).
Geostatistique Mathieu Ribatet – 43 / 70
23
Variogramme empirique sur les donnees de Calcium
0 200 400 600 800 1000
050
100
150
200
h
γ(h)
Figure 13: Variogramme empirique sur les donnees de Calcium (tendance sous-region).
Geostatistique Mathieu Ribatet – 44 / 70
24
Variogramme empirique sur les donnees de Calcium
0 200 400 600 800 1000
050
100
150
200
h
γ(h)
Figure 14: Variogramme empirique sur les donnees de Calcium (tendance sous-region + latitude).
Geostatistique Mathieu Ribatet – 45 / 70
25
Message a retenir
Attention a l’effet des covariables explicatives sur le variogramme. Ces dernieres “reduisent” lastructure de dependance et diminuent la variance.
Pensez aZ(s) = X(s)⊤β + ε(s), s ∈ X ,
ou ε(s) : s ∈ X est un processus faiblement stationnaire de fonction de covariance Kε(·). Alorsclairement
E[
Z(s1)− Z(s2)2]
= E[
Z(s1)− µ(s1)− Z(s2) + µ(s2) + µ(s1)− µ(s2)2]
= 2Kε(o) + µ(s1)− µ(s2)2 + 2Kε(s1 − s2)
≥ 2Kε(o)− 2Kε(s1 − s2)
= 2γε(s1 − s2).
Geostatistique Mathieu Ribatet – 46 / 70
Ajustement d’un variogramme
Le principe n’est pas vraiment nouveaux : utilisons les moindres carres, i.e.,
1. Choix d’une famille parametrique de variogramme γ(·;ψ)2. Resolution du probleme de minimisation
ψ = argminψ∈Ψ
∑
j
γ(hj)− γ(hj ;ψ)2
Remarque. Il sera souvent preferable d’utiliser les moindres carres ponderes, i.e.,
ψ = argminψ∈Ψ
∑
j
N(hj , ε)
γ(hj , ψ)2γ(hj)− γ(hj ;ψ)
2.
Geostatistique Mathieu Ribatet – 47 / 70
26
Application
0 200 400 600 800 1000
050
100
150
h
γ(h)
OLSGLS
Figure 15: Ajustement par moindre carres d’un variogramme lie a la covariance exponentielle pour les donnees de teneur en Ca.(tendance sous–region)
Geostatistique Mathieu Ribatet – 48 / 70
Message a retenir
Le probleme d’optimisation n’est pas tres “aimable” et il sera donc souvent utile de tester lesestimations en partant de differentes valeurs initiales ;
Il est d’usage lorsqu’on suppose une famille de covariance de type Whittle–Matern de fixer leparametre de forme aux valeurs κ = 0.25, 0.5, . . . , 2. Ce parametre etant particulierement difficilea estimer.
Il est toujours important de se demander si un effet de pepite est reellement souhaitable.
Geostatistique Mathieu Ribatet – 49 / 70
27
Krigeage: Objectif
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
1.0
Longitude
Latit
ude
χ
s0
Predire Z(s0) sachant Z(s1), . . . , Z(sk).
Geostatistique Mathieu Ribatet – 50 / 70
Predicteurs lineaires
Infinite de possibilites pour estimer Z(s0) ⇒ restriction au cadre des estimateurs lineaires sansbiais, i.e.,
Z(s0) =
k∑
j=1
λjZ(sj), EZ(s0) = µ(s0).
Parmi la classe de ces estimateurs, on essaiera de determiner le “meilleur” au sens de l’erreurquadratique
Z(s0) = argminT∈Est.Lin.
E[
T − Z(s0)2]
.
Remarque. On sait que le meilleur estimateur au sens erreur quadratique est toujoursT = EZ(s0) | Z(s1), . . . , Z(sk). Cela dit (sauf cas gaussien par ex.), ce n’est pas toujours unestimateur lineaire. . .
Geostatistique Mathieu Ribatet – 51 / 70
28
Krigeage ordinaire
Supposons que Z(s) : s ∈ X est faiblement stationnaire de moyenne inconnue µ(s) ≡ µ et decovariance (connue) K(·).
Pour que l’estimateur soit sans biais il faut
EZ(s0) =
k∑
j=1
λjEZ(sj) = µ⇒
k∑
j=1
λj = 1.
Et l’on souhaite donc minimiser
VarZ(s0)− Z(s0) =k
∑
i,j=1
λiλjK(si − sj) +K(o)− 2k
∑
i=1
λiK(si − s0)
= λ⊤K(s)λ+K(o)− 2λ⊤K(s− s0),
sous la contrainte λ⊤1 = 1 avec λ = (λ1, . . . , λk) et s = (s1, . . . , sk),K(s) = K(si − sj)i,j=1,...,k.
Geostatistique Mathieu Ribatet – 52 / 70
Krigeage ordinaire
Proposition 6 (DM). L’estimateur du krigeage ordinaire est donne par
Z(s0) = K(s− s0)⊤K(s)−1Z(s) +
1⊤K(s)−1Z(s)
1⊤K(s)−11
1− 1⊤K(s)−1K(s− s0)
,
ou Z(s) = Z(s1), . . . , Z(sk).De plus la variance de l’erreur est donnee par
VarZ(s0)− Z(s0) = K(o)−K(s− s0)⊤K(s)−1K(s− s0) +
1− 1⊤K(s)−1K(s− s0)2
1⊤K(s)−11
Geostatistique Mathieu Ribatet – 53 / 70
29
Le krigeage ordinaire en pratique
1. Calcul du variogramme empirique ;2. Ajustement d’un variogramme parametrique ;3. Calculez K(s) ainsi que son inverse ;4. Pour chaque point s0 d’un grille de X
(a) Calcul de K(s− s0) ;(b) Calcul de Z(s0) et de la variance de l’erreur;
5. Faire de jolies cartes ;
Geostatistique Mathieu Ribatet – 54 / 70
Quantite de Calcium contenu dans le sol
5000 5200 5400 5600 5800 6000
4800
5000
5200
5400
5600
5800
X Coord
Y C
oord
20 30 40 50 60 7052
57
72
74
68
45
47
49
38
53
60
47
34
56
66
53
43
42
49
45
53
38
47
35
60
45
60
61
58
44
50
47
49
46
43
56
43
50
61
57
57
42
41
54
46
50
43
72
56
38
64
56
68
61
50
47
58
53
47
36
41
71
44
68
67
58
52
64
54
52
46
40
39
62
58
66
50
50
61
61
58
40
44
33
28
59
66
65
54
66
71
69
59
43
41
29
72
49
53
58
55
54
56
47
43
48
47
38
58
53
52
56
53
50
47
43
40
38
58
55
65
53
58
42
46
35
27
58
56
56
66
58
45
40
48
52
31
25
40
47
42
63
63
52
39
47
42
29
37
40
52
60
50
57
68
58
43
30
28
33
21
39
36
48
58
66
51
47
46
44
35
32
64
54
62
63
78
52
5000 5200 5400 5600 5800 6000
4800
5000
5200
5400
5600
5800
X Coord
Y C
oord
2 4 6 8 10 12
Figure 16: Krigeage ordinaire et erreur de prediction pour les donnees de teneur en Ca.
Geostatistique Mathieu Ribatet – 55 / 70
30
Question pour vous. . .
Que pensez vous de ce que nous venons de faire ?
Geostatistique Mathieu Ribatet – 56 / 70
Krigeage universel
Nous supposons desormais que
Z(s) = X(s)⊤β + ε(s), s ∈ X ,
ou ε(s) : s ∈ X est un processus faib. stat. de moyenne nulle et de covariance (connue) K(·), βvecteur de parametre a estimer et X(s) vecteur de covariables au point s ∈ X .
Z(s0) =∑k
j=1 λjZ(sj) est sans biais :
EZ(s0)− Z(s0) =k
∑
j=1
λjX(sj)⊤β −X(s0)
⊤β
=
k∑
j=1
λjX(sj)−X(s0)
⊤
β
= 0, pour tout β.
Geostatistique Mathieu Ribatet – 57 / 70
31
Krigeage universel
L’equation precedente impose donc les p contraintes suivantes
k∑
j=1
λjXℓ(sj)−Xℓ(s0), ℓ = 1, . . . , p,
ou X(s) = X1(s), . . . ,Xp(s)—i.e., p covariables. On souhaite alors minimiser
VarZ(s0)− Z(s0)
avec les p contraintes precedentes.
Geostatistique Mathieu Ribatet – 58 / 70
Krigeage universel
Apres quelques calculs penibles mais simples, on trouve alors pour λ = (λ1, . . . , λk)
λ = K(s)−1K(s− s0)−K(s)−1X(s)X(s)⊤K(s)−1X(s)−1X(s)⊤K(s)−1K(s− s0)−X(s0).
La variance de l’erreur de l’estimateur VarZ(s0)− Z(s0) est donnee par
K(o)−K(s− s0)⊤K(s)−1K(s− s0)+
X(s)⊤K(s)−1K(s− s0)−X(s0)⊤X(s)⊤K(s)−1
X(s)−1X(s)⊤K(s)−1K(s− s0) −X(s0).
Remarque. On retombe sur le krigeage ordinaire en posant X(s) ≡ 1.
Geostatistique Mathieu Ribatet – 59 / 70
32
Krigeage ordinaire // universel
5000 5200 5400 5600 5800 6000
4800
5000
5200
5400
5600
5800
X Coord
Y C
oord
20 30 40 50 60 7052
57
72
74
68
45
47
49
38
53
60
47
34
56
66
53
43
42
49
45
53
38
47
35
60
45
60
61
58
44
50
47
49
46
43
56
43
50
61
57
57
42
41
54
46
50
43
72
56
38
64
56
68
61
50
47
58
53
47
36
41
71
44
68
67
58
52
64
54
52
46
40
39
62
58
66
50
50
61
61
58
40
44
33
28
59
66
65
54
66
71
69
59
43
41
29
72
49
53
58
55
54
56
47
43
48
47
38
58
53
52
56
53
50
47
43
40
38
58
55
65
53
58
42
46
35
27
58
56
56
66
58
45
40
48
52
31
25
40
47
42
63
63
52
39
47
42
29
37
40
52
60
50
57
68
58
43
30
28
33
21
39
36
48
58
66
51
47
46
44
35
32
64
54
62
63
78
52
5000 5200 5400 5600 5800 6000
4800
5000
5200
5400
5600
5800
X Coord
Y C
oord
2 4 6 8 10 12
5000 5200 5400 5600 5800 6000
4800
5000
5200
5400
5600
5800
X Coord
Y C
oord
20 30 40 50 60 7052
57
72
74
68
45
47
49
38
53
60
47
34
56
66
53
43
42
49
45
53
38
47
35
60
45
60
61
58
44
50
47
49
46
43
56
43
50
61
57
57
42
41
54
46
50
43
72
56
38
64
56
68
61
50
47
58
53
47
36
41
71
44
68
67
58
52
64
54
52
46
40
39
62
58
66
50
50
61
61
58
40
44
33
28
59
66
65
54
66
71
69
59
43
41
29
72
49
53
58
55
54
56
47
43
48
47
38
58
53
52
56
53
50
47
43
40
38
58
55
65
53
58
42
46
35
27
58
56
56
66
58
45
40
48
52
31
25
40
47
42
63
63
52
39
47
42
29
37
40
52
60
50
57
68
58
43
30
28
33
21
39
36
48
58
66
51
47
46
44
35
32
64
54
62
63
78
52
5000 5200 5400 5600 5800 6000
4800
5000
5200
5400
5600
5800
X Coord
Y C
oord
2 4 6 8 10 12
Geostatistique Mathieu Ribatet – 60 / 70
Modelisation par processus gaussiens
Ce que nous avons vu precedemment est la vision Ecole des Mines de Paris. L’approche anglo–saxonne consiste a poser un modele et non pas seulement supposer une
stationnarite faible ou intrinseque. Le plus souvent on supposera que
ΦZ(s) = f(s;β) + ε(s), s ∈ X ,
ou Φ(·) est une fonction lien supposee connue (comme pour les GLM), ε(s) : s ∈ X unprocessus Gaussien centre de covariance K(·) et f(·;β) une fonction parametree par un vecteurde parametre β.
Nous nous restreindrons au cas ou Φ: z 7→ z et f(s;β) = X(s)β.
Geostatistique Mathieu Ribatet – 61 / 70
33
Vraisemblance
La log–vraisemblance est donnee par
ℓ(ψ) = −nk
2log 2π −
n
2log |K(s)| −
1
2
n∑
ℓ=1
zℓ(s)−X(s)β⊤K(s)−1zℓ(s)−X(s)β
Remarque. Numeriquement il sera plus efficace de calculer les formes quadratiques plus haut par laformule
y⊤K(s)−1y = y⊤C(s)C(s)⊤−1y
= y⊤C(s)−⊤C(s)−1y
= x(s)⊤x(s),
ou C(s) est la decomposition de Cholesky de K(s) et x(s) la solution du systeme triangulaireC(s)x(s) = y. De plus |K(s)| = |C(s)|2 =
∏kj=1C(s)2jj.
Geostatistique Mathieu Ribatet – 62 / 70
DM
Ecrivez une fonction R calculant l’estimateur du maximum de vraisemblance d’un processus Gaussiendefini plus haut.
Geostatistique Mathieu Ribatet – 63 / 70
34
Rappel : Lois gaussiennes conditionnelles
Proposition 7. Soit Z(s, s0) un vecteur Gaussien de Rk×k0 d’esperance µ(s, s0) et matrice de
covariance K(s, s0). Alors
Z(s0) | Z(s) = z(s) ∼ N
µ(s0), K(s0)
,
avec
µ(s0) = µ(s0) +K(s0, s)K(s)−1z(s) − µ(s)
K(s0) = K(s0)−K(s0, s)K(s)−1K(s0, s)⊤,
ou nous avons utilise la decomposition suivante
K(s0, s) =
[
K(s0) K(s0, s)K(s0, s)
⊤ K(s)
]
.
Geostatistique Mathieu Ribatet – 64 / 70
Lien avec le Krigeage
L’estimateur Z(s0) = EZ(s0) | Z(s) minimise l’erreur quadratique moyenne. Ainsi dans le casgaussien faib. stat.,
Z(s0) = µ(s0) = µ(s0) +K(s− s0)⊤K(s)−1Z(s) − µ(s).
Pour µ(s) = X(s)⊤β, et a covariance connue, on sait que
β = X(s)⊤K(s)−1X(s)−1
X(s)⊤K(s)−1Z(s),
Z(s0) = X(s0)⊤X(s)⊤K(s)−1
X(s)−1X(s)⊤K(s)−1Z(s)+
K(s− s0)⊤K(s)−1
[
Z(s)−X(s)⊤X(s)⊤K(s)−1X(s)−1
X(s)⊤K(s)−1Z(s)]
=(
X(s0)⊤X(s)⊤K(s)−1
X(s)−1X(s)⊤K(s)−1+
K(s− s0)⊤K(s)−1
[
1−X(s)⊤X(s)⊤K(s)−1X(s)−1
X(s)⊤K(s)−1])
Z(s)
=(
X(s0)⊤ −K(s− s0)K(s)−1
X(s)⊤
X(s)⊤K(s)−1X(s)−1
X(s)⊤K(s)−1+
K(s− s0)⊤K(s)−1
)
Z(s).
On retombe sur l’estimateur du krigeage universel !
Geostatistique Mathieu Ribatet – 65 / 70
35
Limitation de la vraisemblance
La vraisemblance fait intervenir une decomposition de Cholesky—cout algorithmique O(k3). Ceci restreint son utilisation au cas ou k ≤ 3000. D’autres approches sont possibles lorsque k > 3000 :
– Processus Gaussien avec K(s) creuse ;– Utilisation de vraisemblances composites.
Geostatistique Mathieu Ribatet – 66 / 70
3. Simulations de processus gaussiens 67 / 70
Motivations
Les simulations sont souvent utiles afin d’estimer par ex.
Ψ = T [E Z(·) | Z(s) = z] ,
ou T est une fonctionnelle supposee connue. Puisque le krigeage Z(·) est un estimateur sans biais de EZ(·) | Z(s), si T est lineaire alors
l’estimateur Ψ = TZ(·) verifie
E
(
Ψ)
= T[
EZ(·)]
= T [EZ(·) | Z(s) = z] = Ψ.
Ce n’est plus vrai si T n’est pas lineaire ! Une solution consiste donc a estimer Ψ par desmethodes de type Monte–Carlo.
Geostatistique Mathieu Ribatet – 68 / 70
36
Simulations non conditionnelles
Il s’agit ici de simuler selon la loi de Z(s) : s ∈ X. Trois grandes approches :
– Approche directe via une decomposition de Cholesky ;– Approche par matrices circulantes et FFT ;– Approche par bandes tournantes.
Nous allons
Geostatistique Mathieu Ribatet – 69 / 70
Simulations conditionnelles
Geostatistique Mathieu Ribatet – 70 / 70
37