29 - Octobre 2004Université Paris Sud - Soudani K. Modèles statistiques et modélisation de processus stochastiques 1- Modèles statistiques 1.1- Statistiques

29 - Octobre 2004 Université Paris Sud - Soudani K.

Modèles statistiques et modélisation de processus stochastiques

1- Modèles statistiques

1.1- Statistiques corrélationnelles - Modèles de régressions linéaire simple et multiple- Modèles non linéaires- Quelques infos sur les distributions théoriques de

probabilités

1.2- Modélisation Black-Box : modélisation par réseaux neuronaux

2- Modélisation des processus stochastiques

2.1- Automates cellulaires

2.2- Chaînes de Markov

Introduction aux modèles empiriques

Objectif: établir des relations statistiques entre une variable qu’on souhaite prédire et des variables potentiellement capables d’expliquer cette variable. Souvent, le problème revient à étudier l’effet de la variabilité des variables explicatives sur la variabilité de la variable à expliquer (Analyse de variance).

On peut diviser les problèmes de prédiction en deux catégories:

Régression : prédire la valeur d’une variable à partir d’une ou plusieurs variables quantitatives continues (ou supposées l’être).

Classification : déterminer à quelle classe une ou plusieurs variables quantitatives peuvent appartenir. Les variables d’entée sont quantitatives et la variable de sortie est nominale (classe).

Modèle linéaire simple : régression linéaire donnant une équation fonctionnelle de prévision entre deux variables :

Y = + x + Où x est la variable indépendante (explicative ou prédictive)

et Y est la variable dépendante (réponse ou prédite). est l’erreur de prédiction de Yi en Xi

Principe d’estimation des constantes (paramètres de l’équation de prédiction) par la méthode des moindres carrés:

Si n est le nombre d’observations et xi et yi sont les quantités mesurées et si f est le modèle à établir (modèle de prédiction) : y = f(x)

Alors la méthode de moindres carrés s’applique à toutes les fonctions f(x) et cherche à déterminer les paramètres de la fonction f en minimisant la somme des carrés des écarts (i) entre la variable prédite par le modèle et la valeur mesurée: 2

1

2 ))(( i

n

i i yxf

Analyse de régression

Modèle linéaire multiple : régression linéaire donnant une équation fonctionnelle de prévision entre une variable à expliquer et plusieurs variables explicatives :

Y = + 1x1 + 2x2+…+ pxp+

Où xi sont les variables indépendantes (explicatives ou prédictives) et Y est la variable dépendante (réponse ou prédite).

Exemple : la croissance végétale peut être potentiellement expliquée par la quantité de pluie et le rayonnement.

Pour deux variables Pour p variables >2

1. Y = + 1x1 + 2x2 + 2. Y = + 1x1 + 2x2+…+ pxp+

Y définit un plan Y définit un hyperplan1 : est la pente du plan en x1 i: est la pente selon la dim.

xi 2 : est la pente du plan en x2

n

k

n

k

npnqnn

kpkqkk

pq

pq

pq

n

k

a

a

a

a

a

x

xxxx

kxxx

xxxx

xxxx

xxxx

y

y

y

y

y

3

2

1

3

2

1

21

21

333231

222221

111211

3

2

1

1

1

1

1

1

Modèle multilinéaire Y = X * A +

Y X A

Le modèle comporte deux composantes :- Une composante déterministe (explicable) : A*X

- Une composante stochastique (aléatoire):

Hyp. 1: E(Y) = A*E(X) en supposant que les erreurs s’annulent mutuellement.Hyp. 2: E() = 0 Dans l’ensemble le système est stable mais individuellement, le même xi n’implique pas obligatoirement le même yi.Hyp. 3: Les erreurs suivent la même loi statistique (loi normale).Hyp. 4: Les erreurs ne sont pas autocorrelées.Hyp. 5: Les variables X (1 à p) sont indépendantes.

Modélisation de distributions de données expérimentales:Quelques infos sur les fonctions de densité de probabilités

15 20 25 30 35 40 45 50 55 60 65 70 75 80

Chlorophylle foliaire (/cm²)

0

2

4

6

8

10

12

14

16

18

20

Nbr

e d'

obs.

ixdxxf )(

Si X est une variable quantitative aléatoire et si n est la taille de l’échantillon d’observations xi, la distribution des fréquences donne :Pour X=xi : f(xi) est la fréquence relative.Est la fréquence cumulée

X≥xi

Si la variable X est continue, alors la distribution des fréquences correspond à une distribution de probabilités.

Pr(X>xi) =F(xi)=

n

xi

i

xfr )(

f(x) est la fonction de densité de probabilité.F(x) est la fonction de répartition

Quelques fonctions théoriques de densité de probabilités

Fonction de Densité de Probabilité

Loi normale centrée réduite

-3 -2 -1 0 1 2 30.0

0.1

0.2

0.3

0.4

0.5

0.6

Fonction de Distribution de Probabilité

-3 -2 -1 0 1 2 30.0

0.2

0.4

0.6

0.8

1.0

La loi normale (loi de Gauss-Laplace)Signification:Une variable X suit une loi normale lorsque plusieurs causes sont à l’origine de sa variation, ayant des effets additifs et qu’aucune n’est prépondérante.

μ et σ sont respectivement la moyenne et l’écart-type.

La loi de Poisson

Particularité : la moyenne est égale à la variance

La loi de Poisson simulée (lamda = 50, k=1:100

Application en Ecologie : (Ex.) - Mesure de la répartition spatiale d’une variable aléatoire.Si :Variance/Moyenne =1 La variable est géographiquement répartie d’une manière aléatoire.

Variance/Moyenne >>1 La répartition est agrégative

Variance/Moyenne <<1La répartition est regulière

Simulation de distributions foliaires dans un volume végétal pour un modèle de lancée de rayons

Extrait :Walter J-MN, Fournier R., Soudani K. and Meyer E. (2003) : Integrating clumping effects in forest canopy structure : an assessment through hemispherical photographs. Canadian Journal of Remote Sensing (CJRS)- 29,3, 388-410


Loi Gamma (facteur de forme 1)

0 2 4 6 8 100.0

0.2

0.4

0.6

0.8

1.0



0 2 4 6 8 100.0

0.2

0.4

0.6

0.8

1.0


Loi Gamma (Facteur de forme=2)

0 2 4 6 8 100.0

0.2

0.4

0.6

0.8

1.0


Loi Gamme (facteur de forme 2)

0 2 4 6 8 100.0

0.2

0.4

0.6

0.8

1.0



0 2 4 6 8 100.0

0.2

0.4

0.6

0.8

1.0



0 2 4 6 8 100.0

0.2

0.4

0.6

0.8

1.0

Loi Gamma

k > 0 est le paramètre de forme et θ > 0 est le paramètre d échelle .

Signification : La durée de vie d'un appareil ou d'un organisme suit sous l’effet d’un vieillissement une loi Gamma avec k>1.


Loi de weibullFacteur d'échelle = 1Facteur de forme =2

0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.00.0

0.2

0.4

0.6

0.8

1.0

1.2


p=iweibull(x;1;2;0)

0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.00.0

0.2

0.4

0.6

0.8

1.0


y=weibull(x;1;6;0)

0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.00.0

0.2

0.4

0.6

0.8

1.0

1.2


p=iweibull(x;1;6;0)

0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.00.0

0.2

0.4

0.6

0.8

1.0

Loi de Weibull

Exemples :

La distribution des diamètres de tronc dans une parcelle forestière gérée suit une loi de Weibull.

La distribution des indices foliaires locaux dans une parcelle forestière suit également une loi de Weibull.

Relations entre les variabilités spatiales LAI et NDVI dans des couverts forestiers

0

0,05

0,1

0,15

0,2

0,25

0,3

0,6

3

0,6

8

0,7

3

0,7

8

0,8

3

0,8

8

NDVI simulated

Fre

quenci

es

Low LAI High LAI

0

0,05

0,1

0,15

0,2

0,25

0,3

0,2

5

1,2

5

2,2

5

3,2

5

4,2

5

5,2

5

6,2

5

7,2

5

8,2

5

9,2

5

10,2

5

LAI simulated

Fre

quenci

es

Low LAI High LAI

Conclusions :• Pour un indice foliaire moyen de la parcelle correspond une distribution particulière des LAIs locaux.• Pour un indice foliaire moyen de la parcelle correspond une distribution particulière des NDVI locaux. Plus l’indice foliaire moyen est élevé plus la variance du NDVI intaparcelle diminue.

LAI C21 1995

0

0.05

0.1

0.15

0.2

0.25

0.3

0.5

1.5

2.5

3.5

4.5

5.5

6.5

7.5

8.5

LAI classes

freq

uen

cies

LAI C3 1995

0

0.05

0.1

0.15

0.2

0.25

0.3

0.5

1.5

2.5

3.5

4.5

5.5

6.5

7.5

8.5

LAI classesfr

eq

uen

cie

s

NDVI C21 1995

0

0.05

0.1

0.15

0.2

0.25

0.62

0.66 0.

7

0.74

0.78

0.82

0.86 0.

9

0.94

0.98

NDVI classes

freq

uen

cies

NDVI C3 1995

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.62

0.66 0.7

0.74

0.78

0.82

0.86 0.9

0.94

0.98

NDVI classes

freq

uen

cies

LAI in situ-NDVI LAI-NDVI simulés

Davi et al.2004

Modélisation Boîte noire par réseaux de neurones

Variables d’entrée

Variable (s) de sortie

Modélisation "boîte noire". On ne s'intéresse pas aux mécanismes et aux processus expliquant le lien entre les entrées et les sorties mais seulement à leurs relations au sens statistique.

Principe de la modélisation par réseaux de neurones

Analogie aux neurones biologiques

Principe : chaque neurone reçoit des signaux (impulsions électriques) des autres neurones par l’intermédiaire des dendrites. Si le signal dépasse un seuil, le neurone transmet un signal aux autres par l’intermédiaire de son axone.Finalement, la tâche d’un neurone est simple mais c’est l’ensemble qui fait qu’on est pas bête

Analogie mathématique : un neurone correspond à une entité fonctionnelle recevant des informations, faisant leur somme et émet un signal si la somme dépasse un seuil

Chez l’homme : 10 milliards de neurones. Chaque neurone est connecté à environ 10000 autres.

Extraits:Frédéric Perez http://www.techno-science.net

0.5

2

0.6

inputs

Poids attribués aux inputs

Somme pondérée

Fonction d’activation

Output

p1 p2

X1 X2

10 15

-1

1

12

1

sSeuil

Principe de fonctionnement d’un réseau d’un seul neurone

0.5

2

0.6

p1 p2

X1 X2

10 15

-112

sSeuil

Différentes fonctionsd’activation

Pas unitaire Sigmoïde Linéaire à seuil Gaussienne Identité

01

00)(

xsi

xsixf

xexf

1

1)(

max

minmax

min

1

0

)(

xxsi

xxxsibax

xxsi

xf 2

2

2

)(

2

1)(

x

exf xxf )(

1 0.9999 1 0 12

Si xi sont les entrées, alorsLa sortie y est donnée par :

)(1

sxpfyn

i ii

f étant la fonction d’activation

Variables d'entrée

Couche de neurones

Variable de sortie

Principe :1 - Des entrées : Quantitatives ou non2 - >> Une couche de neurone :

Chaque neurone calcule une somme pondérée des entrées. De cette somme, on soustrait souvent un biais (constante).3- A la sortie du neurone, le résultat est traité par une fonction d’activation (une sorte de filtre). 4- Le résultat de l’application de la fonction d’activation est la participation du neurone considéré dans la sortie y.

L’étape primordiale est la détermination des poids : nécessité d’un apprentissage.

Principe de fonctionnement d’un réseau de plusieurs neurones

Automates cellulairesHistoriqueLes automates cellulaires ont été inventés par Stanislaw Ulam (1909-1984- aussi inventeur de la méthode Monte Carlo) et John von Neumann (1903-1957) à la fin des années 40

Les règles sont :Dans un espace de n cellules :1. Les cellules peuvent se trouver dans deux états : vivant / mort.2. Au départ, l’espace cellulaire est composé de cellules dans l’état mort, sauf pour quelques unes. 3. L’évolution de chaque cellule est déterminée en fonction du nombre de cellules (Nv pour vivantes) vivantes se trouvant autour d’elle. Les règles sont :Une cellule vivante meurt (devient vide) pour Nv ≤ 1 : état d’isolement de cellule.Une cellule vivante meurt pour Nv ≥ 4 : un état de surpeuplement autour de la cellule.Une cellule morte peut devenir vivante pour Nv = 3 : cela correspond à une reproduction « trisexuée ».

Jeu de la vie (Game of life)

Propriétés des automates cellulaires

Voisinage : l’état d’une cellule dépend des états de ses voisinesParallélisme : les modifications des états de toutes les cellules sont synchrones.

Déterminisme et stochasticitéAutomates déterministes

L’état d’une cellule est déterminé avec certitude par les états de ses voisines.

Automates stochastiquesL’état d’une cellule est stochastiquement déterminé par les

états de ses voisines selon des probabilités de transition. Autrement dit, une même configuration peut donner des situations différentes.

Homogénéité: les mêmes règles s’appliquent à toutes les cellulesDiscrétisation:l’évolution de l’ensemble du système se fait selon un pas de temps discret.

Quelques domaines d’application des automates cellulaires :

1. Simulation de la propagation des feux de forêts;2. Modélisation et simulation de la dynamique des

écosystèmes forestiers;3. Application en Urbanisation;4. Application en physique (Turbulence dans un fluide);5. Informatique (Cryptographie),Electronique, etc.

Exemple d’application : diffusion d’un feu de forêt

Paysage initial (50 * 50 cellules): 1 - Occupation en surfaceEau = 5%Feuillues = 25%Pin = 50%Sols nus= 10%Cultures =10%

2- Inflammabilité (Probabilité)

Eau : 0Sol nu : 0Feuillues : 0.80Pin : 0.95Cultures :0.5

Etat possibles: - Occupation- Feu- Cendre

Modélisation des processus stochastiques par les chaînes de Markov

Un processus est appelé chaîne de Markov lorsque l’état d’un phénomène aléatoire ou le résultat d’une expérience aléatoire peut influencer l’état suivant ou le résultat de l’expérience suivante.

Soit un système quelconque composés de trois états A, B et C tels que les probabilités de passage d’un état à un autre sont les suivantes:

Etat A

Etat A Etat B Etat C

PAAPAB

PAC

Etat B

Etat A Etat B Etat C

PBAPBB

PBC

Etat C

Etat C Etat B

PCCPCB

Etat B

Etat A

Etat C

PAA

PABPAC

PBB PBA

PB

C

PCB

PCC

Etat B

Etat A

Etat C

PAA

PABPAC

PBB PBA

PB

C

PCB

PCC

Les probabilités (P) correspondent à des probabilités de transition entre états: On a PAA+PAB+PAC = 1, PBB+PBA+PBC =1, PCC+PCB=1

Entre les temps t et t+1, on a:(Etat A)t+1 = PAA*(Etat A)t + PBA*(Etat B)t

(Etat B)t+1 = PAB*(Etat A)t + PBB*(Etat B)t + PCB*(Etat C)t

(Etat C)t+1 = PAc*(Etat A)t + PBc*(Etat B)t PCC*(Etat C)t

Autrement :

tCBBCAC

CBBBAB

BAAA

tC

B

A

PPP

PPP

PP

C

B

A

*

0

1

Etat B

Etat A

Etat C

PAA

PABPAC

PBB PBA

PB

C

PCB

PCC

Etats initiaux (temps t)

Etats finaux (temps t+1)

A B C

A PAA PAB PAC

B PBC PBB PBC

C PCA PCB PCC

Les matrices ETAT s’écrivent :(ETAT)t+1 = (ETAT)t [T]

La matrice [T] est la matrice de transition dont les éléments sont donnés dans le tableau ci-dessus.

∑P = 1

Exemple tiré de :Coquillard et Hill- Modélisation et simulation d’écosystème

t

Pi

Ga

Pe

V

C

PiGaPeVC

ttV

65.0025.001.0

8.02.0000

06.04.000

003.07.00

0002.08.0

0)35.015.01.02.02.0(

Etat Initial (t=0) :V0

Chênes = 20%Vignes = 20%Pelouse = 10%Garrigue = 15%Pinède = 35%

L’état à un instant t quelconque est donné par:

0 10 20 30 40 50 60

0.09

0.13

0.17

0.21

0.25

0.29

0.33

0.37

Dynamique temporelle de la succéssion

Temps

Proportions moyennes

Chênaie

Vignes et Vergers

Pelouse

Garrigue

Pinèdes

MERCI

Documents

29 - Octobre 2004Université Paris Sud - Soudani K. Modèles statistiques et modélisation de processus stochastiques 1- Modèles statistiques 1.1- Statistiques