Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Irstea Unité de Recherches sur les écosystèmes forestiers
(Unit Research on Forest Ecosystems) Domaine des Barres
F-45290 Nogent -sur-Vernisson France
www.irstea.fr
Rapport de stage Master 2 Ingénierie-Mathématiques
Modèle d'Equations Structurelles sous
l'Approche Bayésienne
Auteur : Jad Abou-Ghantous
Responsable de stage : Frédéric Archaux, Frédéric Gosselin, Philippe Balandier
Responsables du master : Fabienne Comte
Année : 2012/2013
Remerciements :
Je tiens tout d’abord à remercier mes maîtres de stage Frédéric ARCHAUX, Frédéric
GOSSELIN, Philippe BALANDIER pour m’avoir fait confiance et m’avoir donné l’opportunité
d’effectuer ce stage. Je les remercie pour leur patience, pour leur grande disponibilité et leur
attention à mon égard, leur bonne humeur et tout ce qu’ils ont pu m’apporter, en termes de
connaissances statistiques, d’écologies et de rédaction.
Enfin, je remercie l’ensemble des stagiaires présents qui m’ont rendu ce stage très agréable. Il
faut dire que l’ambiance chaleureuse et paisible était au rendez-vous !
Merci à Donatien FRANCOIS, mon collègue de bureau devenu un ami. Merci à Etienne MANSA
pour ses belles discussions qu’on a pu partager, ainsi que pour ses expressions sympathiques !
Merci à tous ceux qui se sont portés volontaires pour le ramassage à la gare en particulier à
Donatien FRANCOIS, Aurélie LALLERONI, Lisa LAURENT, Valéne TUILLERAS. Merci les
filles pour les bons petits plats! et à Ines-café MESSAOUDI pour ses champignon-Mario. Merci
aussi à Sylvain DELABYE et au jeune papa David TELLEZ pour avoir tous les deux de la classe
ainsi que pour de la bonne humeur en soirée de même qu’à Morghan GOVINDOORAZOO…
Merci à Karima HADJ-BOUSSADA malgré sa discrétion et sa timidité.
SOMMAIRE
Présentation d’IRSTEA
Résumé
Introduction
I: Principe du SEM_________________________________________________
– Cas classique SEM fréquentiste
– La méthode LISREL standard ou fréquentiste
II : Typologie des modèles SEM ________________________________________
– Analyse exploratoire ou confirmatoire ?
– Variables observées, relations réflexive ou relation formatives ?
– Variables latente, endogènes ou exogènes ?
– Schéma
– Théorème de Bayes
Approche Bayésienne
III : Généralité sur l’approche Bayésienne _____________________________________
Modèle statistique paramétrique bayésien
Raisonnement proportionnel de la loi a posteriori
L’estimation bayésienne : le cas multidimensionnel
Le risque de Bayes
Intervalles de crédibilité bayésiens
Avantages et inconvénients de l’approche bayésienne comparé à l’approche fréquentiste
En quoi consistent les approches fréquentiste et bayésienne au niveau philosophique ?
L’une a-t-elle plus la faveur des statisticiens que l’autre ?
IV : SEM Non Linéaire à deux niveaux de structure hiérarchique avec des variables de types
mixtes sous l’approche Bayésienne.
V : SEM Non Linéaire à deux niveaux de structure hiérarchique à effets sur deux niveaux croisés
VI : Application sur le jeu de données________________________________________________
Interprétation_______________________________________________________________
Conclusion __________________________________________________________________
Références _________________________________________________________________
Annexes___________________________________________________________________
P 1
P 2
p 3–4
P 5-6
P 5
P6
P 7 - 8
P 7 P 7 P 7 P 8 P 8
P 8
P 9 – 12
P 9
P 9
P 10
P 10
P 11
P 11
P 12
P 12
P 13 - 18
P 19-22
P 23-39
P 40
P 41
P 42
P 43-51
1
Présentation d’IRSTEA :
IRSTEA - Institut national de Recherche en Sciences et Technologies pour
l’Environnement et l’Agriculture - regroupe 9 centres et compte près de 1750 personnes,
statutaires et contractuelles, dont 950 ingénieurs et chercheurs, 250 doctorants et 40 post-
doctorants. L’institut est organisé en trois départements scientifiques :
« Eaux » abordant les questions de la disponibilité de la ressource en eau, pollution,
écosystèmes aquatiques, risques naturels, irrigation, pêche, aménagements…
« Ecotechnologies » visant à concilier productivité et respect de l’environnement, à
travers une approche globale (de leur conception à leur fin de vie) et multicritère
(composantes environnementales, économiques et sociales) autour de l’agriculture et
l’agroalimentaire, gestion et le stockage des déchets, l’épuration.
« Territoires » visant le développement durable des territoires dans ses diverses
dimensions en associant écologie, télédétection et sciences humaines.
Le centre de Nogent-sur-Vernisson appartient à ce dernier département scientifique basé
sur le site forestier du Domaine des Barres, il se trouve à proximité immédiate de l’inventaire
forestier national, du lycée agricole du Chesnoy et de l’Arboretum national des Barres. Cette
identité forte dans le domaine forestier est accentuée par sa participation en région au groupe
Resonat, en train de se structurer en groupement d’intérêts scientifique dédié aux sols, à la forêt
et à la biodiversité. Le centre entend renforcer son positionnement européen et ses missions au
service des politiques publiques et des négociations internationales sur l’environnement. Il anime
aussi un module d’enseignement sur la biodiversité à l’Université d’Orléans et développe de
nombreuses activités avec l’Office National des Forêts (ONF), notamment par ses travaux sur les
forêts mélangées.
Le centre est entièrement dédié à la forêt et ne comporte qu’une seule unité de recherche,
l’unité EFNO, Ecosystèmes Forestiers. Cette dernière compte une cinquantaine de permanents
dont 24 ingénieurs-chercheurs. Il accueille aussi des thésards, des post-doctorants, des
contractuels, ainsi que des stagiaires.
Cette unité s’intéresse à la modélisation de la croissance des peuplements forestiers aux
ressources génétiques, aux impacts des grands herbivores sur la flore du sous-bois et de la gestion
forestière et la biodiversité.
Pour ma part j’ai réalisé mon stage au sein de l’équipe « Biodiversité » et j’ai plus
particulièrement travaillé sur le projet de recherche IMPREBIO où ma mission principale
a été de développer un modèle bayésien à équations structurelles (SEM) prenant en compte
la complexité des variables écologiques (notamment la structure hiérarchique).
2
Résumé :
Le projet Imprebio piloté par IRSTEA cherche à mettre en évidence les conséquences de
l'intensification des prélèvements de bois en forêt sur différents compartiments de la biodiversité
en futaie régulière de chêne et d'en modéliser la réponse en fonction des caractéristiques du
peuplement, du climat lumineux, de la disponibilité en eau et de la température, afin d'en
généraliser les résultats.
La modélisation par équations structurelles (SEM) est très répandue dans des domaines
très variés tels que la médecine, la finance, le marketing et de manière plus récente en écologie.
On profite des développements récents réalisés, en particulier, dans l’approche bayésienne des
SEM pour comprendre, grâce à deux réseaux de sites expérimentaux, les relations écologiques
qui lient les caractéristiques des peuplements forestiers, la flore, la faune du sol et l’entomofaune.
Les SEM à variables latentes, c’est-à-dire à variables non observées sont des modèles
multi-variés utilisés pour modéliser des relations de causalité entre des variables observées (les
données). Le modèle s'applique dans le cas où les données peuvent être regroupées dans des blocs
disjoints où chaque bloc définit un concept modélisé par une variable latente. La structure de
corrélation des variables observées est ainsi résumée dans la structure de corrélation des variables
latentes. Une approche bayésienne des modèles à équations structurelles (SEMs) à deux niveaux
de structures hiérarchiques non linéaire sera proposée.
3
Introduction :
Les modèles SEM à équations structurelles (SEM) sont des modèles à variables latentes
multi-variées utilisés pour représenter des structures de causalité dans les données. Les variables
observées sont associées à des variables dans le modèle externe (modèle de mesure) et interne
(modèle structurel) où des relations de causalité entre les variables latentes sont représentées.
C’est une méthodologie générale pour spécifier, estimer, comparer et évaluer des modèles
de relations entre variables. On va chercher à confirmer une théorie.
La procédure comporte plusieurs étapes dont la construction du modèle par les experts, la
collection des données pour tester le modèle, l'application du modèle SEM sur le jeu de données,
l'analyse et interprétation puis les conclusions.
Pour le SEM classique, la matrice de covariance du vecteur aléatoire y des observations
contient tous les paramètres inconnus du modèle. De là, les méthodes classiques pour analyser le
SEM classique se sont concentrées sur l’échantillon de la matrice de covariance S et non pas sur
les vecteurs aléatoires individuels bruts .
Ceci implique la formulation de la structure de covariance c’est-à-dire la matrice (ℴ),
qui est une fonction matricielle du vecteur de paramètres inconnu ℴ ; l’évaluation de ℴ en
minimisant (ou maximisant) quelques fonctions objectives qui mesurent la divergence entre S et
(ℴ), comme le maximum de vraisemblance ou la régression des moindres carrés partiels (GLS)
(inventée en 1983 par Svante Wold et son père Herman Wold) ou encore la méthode de M.Borey
avec la dérivation asymptotique pour évaluer si (ℴ) est adaptée à S. Tout comme l’analyse de
population de la matrice de covariance et l’échantillon de matrice de covariance, elle est souvent
appelée l’analyse de structure de covariance.
Aujourd’hui, plus d’une douzaine de « packages » SEM connus des statisticiens ont été
développés sur la base de l’approche d’analyse de structure de covariance avec l’échantillon de la
matrice de covariance. Des exemples typiques sont LISREL, EQS6 et AMOS. L’approche de la
structure de covariance d’analyse dépend lourdement de la normalité asymptotique de S, dans la
définition de la fonction objective ou dans l’action de tirer des propriétés asymptotiques pour des
inférences statistiques. Quand la distribution du vecteur aléatoire est normal multivarié et la
taille des données est raisonnablement grande, la distribution asymptotique de S se rapproche
précisément à la distribution normale multivariée revendiquée et en conséquence cette approche
fonctionne bien. Cependant, dans des situations plus complexes qui sont communes dans la
recherche, l’approche d’analyse de structure de covariance sur la base de S n’est pas efficace et
peut rencontrer des problèmes théoriques et informatiques. Il est bien reconnu qu’évaluer des
termes non linéaires plus particulièrement les termes d’interactions entre les variables latentes
dans l’équation structurelle est une question importante en sciences sociales comme écologique…
(voir Kenny et Judd, 1984, Bagozzi, Baumgartner et Yi, 1992). En raison de la présence des
termes non linéaires de variables latentes, ces variables endogènes ainsi que les variables
observées liées dans ne sont pas distribués selon une loi normale. De ce fait, l’échantillon de la
matrice de covariance des observations types brutes est inadéquat pour modéliser les relations
non linéaires.
4
Pour les données dichotomiques ou les données catégorielles, l’échantillon de la matrice
de covariance des données types brutes ne peut être utilisé.
Les procédures d’évaluation dans LISREL ou EQS ont produit des évaluations qui sont
moins optimales que des évaluations de maximum de vraisemblance et ne peuvent pas être
appliquées pour analyser les termes non linéaires de variables latentes.
Pour les données manquantes qui sont un petit nombre d’observations dans quelques
modèles (en raison d'une déficience quelconque des capteurs situés sur le terrain), l’approche
d’analyse de structure de matrice de covariance rencontrerait aussi des difficultés sérieuses parce
que l’échantillon de la matrice correspondant à ces modèles peut être singulier. Dans le cas de
données hiérarchiques, telles que des mesures répétées dans l’espace ou le temps, les
observations individuelles sont corrélées, ce qui pose un problème pour l’analyse de structure de
covariance avec l’échantillon de la matrice de covariance.
Ainsi, la structure de covariance fonctionne pour le SEM classique ou fréquentiste
conformément à la supposition de la normalité des variables. Il ne peut être appliqué aux modèles
plus complexes comme les données à structure non linéaire, hiérarchique... généralement
rencontrées en écologie où les relations sont rarement linéaires. Il est nécessaire d’appliquer des
méthodes statistiques adaptées (prenant en compte la complexité des variables), basées sur les
observations individuelles et aussi sur leur modèle de base, plutôt que sur l’échantillon de la
matrice de covariance.
Il existe une approche différente du SEM qui est celle de la méthode de Bill SHIPLEY
(« Confirmatory path analysis in a generalized multilevel context »). C'est une méthode qui
n’admet pas de variables latentes mais par comparaison au SEM classique, elle permet de
s’adapter aux spécificités des données et des relations entre variables (relations non linéaires,
structure hiérarchique des données, variables catégorielles, variable dichotomique,..) en utilisant
des méthodes de régressions statistiques classiques (glm, lm, lme, ppm,..). Plus le nombre de
variables incluses dans le modèle conceptuel est important, plus le temps de calcul est important.
D’où l’idée d’appliquer un modèle SEM sous l’approche Bayésienne pour garder l’intérêt
conceptuel des variables latentes tout en prenant en compte les contraintes statistiques propres au
jeu de données.
Le jeu de données est constitué de 9 variables regroupés en 3 groupes provenant du
protocole de mise en œuvre des relevés de diversité et des mesures physiques dans le cadre du
projet IMPREBIO. L’ensemble sera décrit dans l’application du jeu de données.
5
I. Principe du SEM :
L’intérêt pour les variables latentes trouve son origine dans l’hétérogénéité de variables
observées qui prises ensemble acquièrent un sens précis définissant une entité spécifique. Plus
généralement, un ensemble de variables latentes peut être utilisé pour extraire une structure de
données observées contribuant à la réduction de la dimension des données pourvu que celles ci
soient corrélées.
La matrice de corrélation des variables observées est alors résumée en la matrice de
corrélation des variables latentes. Le modèle à variables latentes ainsi caractérisé est un modèle à
équations structurelles à variables latentes dit (SEM) qui vient de l’anglais Structural Equation
Modeling (Lee, 2007).
Cas classique SEM fréquentiste :
L’estimation des paramètres de ce modèle peut se faire soit :
Par l’approche LISREL (Linear Structural Relationships)
Par l’approche PLS (Least Squares Path modeling)
L’approche PLS ne sera pas abordée dans cette analyse puisque c’est un modèle de prédiction et
non d'estimation.
La méthode LISREL standard ou fréquentiste
La méthode LISREL est une approche statistique qui permet de tester des hypothèses sur
les relations entre variables observées et latentes (Hoyle, 1995). Le fondement statistique de la
méthode LISREL est la covariance.
= * + (1)
= * + (2)
= * + * + (3)
(1) et (2) sont les équations du modèle externe et (3) l’équation du modèle interne.
6
Quelques notations :
p + q = Nombre de variables observées
n = Nombre d’observations
𝚺 = Matrice de covariance au niveau de la population
S = Matrice des covariances observées
C = Matrice des covariances obtenues grâce au modèle
𝛟 = Matrice de covariance de 𝛏 𝛙 = Matrice de covariance de 𝛇
A partir de ce modèle, une matrice de covariance tentera d’être obtenue. Elle aura la forme
suivante :
C = (
) = (
)
La méthode LISREL consiste à minimiser l’écart entre la matrice C covariance calculée à partir
du modèle et la matrice de covariance observée S.
L’approche LISREL impose que les données soient normales multi-variées et utilisent
l’estimateur du maximum de vraisemblance (ML) pour minimiser l’écart entre C et S.
Cet estimateur est calculé de la façon suivante :
= ln(|C|) + tr( ) – ln(|S|) – (p +q)
Admettons que le modèle étudié soit « exact », alors cette équation serait vérifiée :
(n-1)F = (DF)
Le degré de liberté (DF) = nombre de covariances – nombre de paramètres
Le modèle est accepté si
⪯ 3 et la valeur de probabilité P(F<chi
2(DF)) ⪯ 0.05
Cependant il existe d’autres indices de validation qui sont plus performants tels que le RMSEA
(Root Mean Square Error of Approximation, Steiger et Lind,1980):
Le RMSEA calcule la différence entre la matrice de covariance obtenue et celle de la population
globale :
RMSEA = √
Où = ln(|C|) + tr(𝚺 ) – ln(|𝚺|) – (p+q)
Ce résultat est accepté en dessous de 0.008, un intervalle de confiance pourrait être obtenu.
Des exemples détaillés sont expliqués dans l'article scientifique de Fox (2006).
7
II. Typologie des modèles SEM selon la thèse de Demeyer (2011)
Analyse exploratoire ou confirmatoire ?
Les modèles SEM reposent sur des hypothèses structurelles. Elles peuvent être déduites
au cours d’une analyse dite exploratoire de données ayant pour but d'identifier des blocs de
variables corrélées ainsi que de donner la dimension qui les résume. En écologie, par exemple,
les variables observées relatives à la biodiversité sont des indicateurs d’autres facteurs.
A contrario, les hypothèses peuvent se baser sur des fondements théoriques provenant par
d’un consensus d’experts, par exemple. L'objectif est de confirmer ou d'infirmer la théorie via les
données. Ainsi, dans son ouvrage, Lee (2007) montre que l’intérêt des S.E.M réside dans la
quantification de relations de causalité données.
Les conclusions s’interprètent en termes d’indicateurs de la qualité de la politique de
gestion forestière globale donnant les leviers d’action. Ces données sont à mettre en corrélation
avec les constats de l’intervention de l'Homme sur la forêt, dans le but de prendre des décisions
les plus rationnelles possible concernant les actions futures (déforestation…). Une gestion
durable entend concilier production de bois et maintien des autres fonctions de la forêt dont la
préservation de la biodiversité.
Variables observées: relation réflexive ou relation formative ?
Les relations entre les variables latentes et les variables observées peuvent également être
de nature différente.
Le type réflectif correspond au cas où les variables observées du modèle externe sont le
reflet de la variable latente à laquelle elles sont liées.
Pour le type formatif, à l’inverse c’est la variable latente qui est le reflet des variables
observées.
Variables latente: Endogène ou Exogène ?
Le modèle interne est formé exclusivement des relations entre les variables latentes. Ces
dernières peuvent avoir des relations de natures différentes:
Les variables latentes exogènes sont celles qui sont influencées par au moins une autre
variable latente
Les variables latentes endogènes sont celles qui ne dépendent d’aucune autre variable
latente
L’intérêt particulier à distinguer les variables exo et endogène résident dans l’équation interne.
8
Schéma du SEM:
Fig(1)
Le modèle interne est représenté par le cercle rouge.
Le modèle externe est représenté par les cercles jaunes.
Les variables observées ont pour symboles ,…, , , , ,…, .
Les variables latentes ont pour symbole :
La seule variable latente endogène est
Les variables latentes exogènes ont pour symboles ,
Théorème de Bayes :
Le théorème de Bayes est le fondement de la théorie des probabilités. Si l'on prend deux
variables A et B, il est possible de trouver la probabilité de A sachant B si l’on connait la
probabilité de A, celle B et de B sachant A. La formule est la suivante:
P(A|B) =
.
L’Approche Bayésienne :
Ce modèle fut créé par le mathématicien Thomas Bayes en se basant sur son théorème
précédemment expliqué. L'utilisation du théorème de Bayes dans sa forme la plus simple, densité
a priori et a posteriori permettra de commencer l'explication.
9
III. Généralité sur l’approche Bayésienne :
Modèle statistique paramétrique bayésien :
Soit l’ensemble des observations noté x, avec x autrement dit, on
dispose d’un échantillon de taille n. On se trouve dans un cadre de statistique inférentielle. Les
observations sont donc considérées comme des réalisations de variables aléatoires qu’on note
.
Quelques définitions :
L’information a priori sur le paramètre Ѳ concerne toute l’information disponible sur les
paramètres en dehors des informations apportées par les observations (comme le fait
d’imposer une seconde loi de probabilité comme cela est le cas dans l’exemple de « la
pièce »)
L’information a priori sur Ѳ est sujette à des incertitudes. Il est donc nécessaire de
l’estimer. Elle sera donc modélisée au travers d’une loi de probabilité, appelée loi a priori.
Sa densité est notée f(Ѳ).
Le modèle statistique paramétrique bayésien repose sur la combinaison de la loi a priori et
de la loi des observations :
o La loi des observations est la loi conditionnelle de Χ sachant Ѳ. Sa densité est
notée d(x| Ѳ). La variable Χ peut être discrète ou ne pas l’être. Si Χ s’avère
discrète, alors d(x|Ѳ) représente la probabilité P(Χ = x| Ѳ). L’hypothèse
systématiquement supposée sera que sachant Ѳ, les variables aléatoires sont
indépendante soit mathématiquement :
d(x| Ѳ) = ∏
D’autres lois de probabilité interviennent en statistique bayésienne.
La loi a posteriori est la loi conditionnelle de Ѳ sachant x. Sa densité est notée f(Ѳ|x).
Bayes formule cette loi comme suit :
f(Ѳ|x) =
∮ .
Dans cette formule, la loi du couple de (Ѳ, Χ) a une densité notée h(Ѳ,x).
Ainsi : h(Ѳ,x) = d(x|Ѳ)f(Ѳ) et la loi marginale de Χ a une densité notée m(x) = ∮
Raisonnement proportionnel de la loi a posteriori :
En raisonnant proportionnellement, il est parfois possible d’éviter le calcul de l’intégrale
∮
10
Notation et définition :
Soient deux fonctions réelles f et g définies sur le même espace 𝛺. On dit que f et g sont
proportionnelles, ce qu’on note f ≌ g, s’il existe une constance 𝜶 tel que f(y) = 𝜶g(y) pour tout y
⋲ 𝛺. La relation ≌ représente une relation d’équivalence. En particulier : f ≌ g et g ≌ h
entrainent f ≌ h.
Remarque :
Soit f(y) est la densité d’une variable aléatoire Y de loi inconnue.
Si f ≌ …. ≌ g, …. désignent des fonctions réelles et g(y) est la densité d’une
loi de probabilité P, alors Y ~ P.
Dans le contexte bayésien on a f(Ѳ|x) ≌ L(x|Ѳ) f(Ѳ). L(x|Ѳ) désigne la vraisemblance
par définition.
L’estimation Bayésienne : Le cas multidimensionnel.
Dans le contexte multidimensionnel où Ѳ = ( la moyenne a posteriori est
E[ |x] = ∮ f( |x)d .
f( |x) est obtenu en intégrant f(Ѳ |x) sur toutes les composantes de Ѳ autres que .
En règle générale, les estimateurs de Bayes des ne peuvent pas être calculés de façon
explicite. L’utilisation des méthodes de simulation de la chaîne de Monte Carlo est donc
nécessaire.
Ainsi, dans la partie application sur le jeu de données, on pourra observer que l’estimation
Bayésienne n’apparaîtra pas explicitement. On devra donc être déduire à la fois par de la lecture
des graphiques, concernant la convergence ou non et par les estimations des paramètres.
Le risque de Bayes
La recherche d’estimateurs de Bayes est réalisable dans le cadre de la théorie de la
décision également appelé analyse du risque.
La démarche consiste à choisir l’estimateur préférentiel grâce une règle de préférence et à
utiliser un estimateur optimal au sens de cette règle
Il convient de rappeler qu’en statistique fréquentiste la règle de préférence repose le plus
souvent sur le risque quadratique, noté R(Ӫ), et défini comme suit :
R(Ӫ) = Var[Ӫ] + .
L’approche Bayésienne fait reposer la règle de préférence sur le risque de Bayes.
11
La densité a priori f(Ѳ) étant fixée, le risque de Bayes de Ӫ est noté R(Ӫ). Il est défini comme suit :
R(Ӫ) = E[R(Ӫ)] = ∮ .
On dira que est meilleur que au sens du risque de Bayes, si :
R( ) < R( ) .
Intervalles de crédibilité bayésiens
Soit un modèle bayésien et supposons que Ѳ est un paramètre réel.
D’après la définition suivante : Soit 𝜶 ⋲ ]0,1[ fixer un intervalle I de tel façon qu’on ait :
P(Ѳ ⋲ I|x) = ∮ = 1- 𝜶.
Cette équation est appelée intervalle de confiance a posteriori. Ou encore un intervalle Q si Ѳ ⋲
Q sera :
P(Ѳ ⋲ Q) = ∮ = 1- 𝜶.
Cette dernière sera un intervalle de confiance a priori de niveau 1- 𝜶.
Avantages et inconvénients de l’approche bayésienne comparé à l’approche fréquentiste :
Les avantages :
Certaines caractéristiques peuvent être à la fois un avantage comme un inconvénient.
o L’ajout des distributions de probabilités sont également faites sur les paramètres du
modèle.
Exemple : la moyenne est la variance d’une loi normale. La distribution de probabilité
des paramètres change quand on observe des données, avant de les observer, on a affaire
à la distribution a priori des paramètres. Après les avoir observées, elle devient la
distribution a posteriori des paramètres. Cette mise à jour obtenue des distributions de
probabilité des paramètres est mis en lumière par le fameux théorème de Bayes.
L’intervalle de crédibilité correspond à l’intervalle de confiance en fréquentiste. Elle a
une interprétation plus directe et moins compliquée que celle classique. En d’autres termes
un intervalle à 95% d’un paramètre est un intervalle qui contient 95% de la distribution a
posteriori du paramètre.
Les méthodes Bayésiennes respectent le principe de vraisemblance, c’est-à-dire que toute
l’information provenant d’un jeu de données est contenue dans la fonction de vraisemblance.
Les chaînes de Markov de Monte Carlo permettent de prendre en compte des modèles
beaucoup plus complexes que ce que l’on peut faire sous l’approche fréquentiste. Les outils
Bayésiens permettent de décomposer des modèles complexes en morceaux de modèles
simples en utilisant des conditionnements probabilistes. Cela permet de prendre en compte
de nombreuses sources d’incertitude y compris en ce qui concerne les mesures des variables
explicatives.
12
L’estimation des paramètres ne repose pas sur des résultats asymptotiques mais sur les
distributions des estimateurs.
Les inconvénients :
Le fait d’ajouter dans l’analyse des paramètres supplémentaires aux données, les
distributions a priori, (Gosselin, 2011).
Concernant la p-valeur et le test d’ajustement (Uriate et Yackulic, 2009), l’outil classique
de critique du modèle Bayésien c’est-à-dire la p-valeur postérieur prédictive est moins adapté que
l’outil utilisant le maximum de vraisemblance de l’approche fréquentiste. Les outils de
substitution sont complexes.
En quoi consistent les approches fréquentiste et bayésienne au niveau philosophique ?
Ces deux approchent permettent de retrouver une loi de probabilité inconnue à partir d’un
ensemble de réalisations de cette loi pour résoudre un problème donné. C’est ce qu'on appelle
l’inférence statistique.
Exemple : Sur le lancer d’une pièce de monnaie.
Approche fréquentiste : il existe une vraie valeur p, qui caractérise la pièce
et qui définit la probabilité d’obtenir pile. On l’estime en calculant des moyennes.
Exemple : on lance la pièce cent fois et on estime la probabilité d’obtenir pile à partir des
résultats obtenus, 55% si l’on compte cinquante-cinq fois pile.
Dans l’approche bayésienne : on imagine qu’il existe plusieurs pièces,
chacune avec sa propre valeur de p. On impose une seconde loi de probabilités, la loi a priori sur
les pièces elles-mêmes. Elle rend compte de notre croyance quant aux valeurs de p. Ici, on estime
donc pas p mais sa loi de probabilité ou fonction de répartition (loi continue ou discrète), par
exemple la moyenne et la variance d’une loi normale (continue) après avoir observé les
réalisations. C’est pour cela que les modèles bayésien sont qualifiés de complètement
probabiliste. La distribution de probabilité des paramètres change quand on observe des données.
L’une a-t-elle plus la faveur des statisticiens que l’autre ?
Les deux méthodes ont leurs adeptes, tout dépend des besoins. La différence principale
porte sur les a priori fondamentaux pour poser la modélisation aléatoire.
La vision fréquentiste s’est imposée avec le développement des statistiques, à la fin du
XIXe siècle. La communauté bayésienne s’est développée, elle, avec l’essor de l’informatique.
13
IV. SEM non linéaire à deux niveaux de structure hiérarchique avec des variables
de types mixtes sous l’approche Bayésienne
Le plan d’échantillonnage comprend deux niveaux de structure hiérarchique, à savoir des
placettes (1er
niveau) réparties dans différents massifs forestiers (2ème
niveau).
Partons de l’hypothèse que l’estimation bayésienne proposée ici concerne les modèles
SEM confirmatoire dont la structure est fixée.
Les variables latentes sont des concepts nommés, porteurs d’un sens intrinsèque, reflétés par les
variables observées dans des relations réflexives.
Le Modèle :
On considère un ensemble de vecteurs aléatoires de p variables aléatoires , i = 1,….,
dans des groupes g = 1,…..,G. L’échantillon des tailles peut être différent de groupe en
groupe. Par conséquent, avoir un jeu de données non équilibré.
Pour le premier niveau, on suppose que conditionnel sur le groupe signifie et des
observations aléatoires dans chaque groupe satisferont l’équation de mesure suivante :
= + * + avec g = 1,…..,G, et i = 1,……., , (1.1)
Où :
* est une matrice de données de dimension p * ,
est un vecteur aléatoire de facteur latent de dimension *1
* est un p*1 vecteur aléatoire d’erreur de mesure qui est indépendant de et qui suit une
loi N(0, ), où est une matrice diagonale.
Du fait de l’existence de , et , ne sont pas indépendants.
De ce fait, dans le modèle à deux niveaux hiérarchiques, l’hypothèse d’indépendance des
observations est violée. Ceci implique quelques difficultés pour l’analyse. Pour représenter la
structure entre groupes, on suppose que le groupe veut dire que satisfait le modèle de facteur
suivant :
= 𝝁 + * + , avec g = 1,…..,G, (1.2)
Où : *𝝁 est le vecteur d’intercepts commun à tous les groupes
* est une matrice de données de dimension p *
* est un vecteur de variables latentes de dimension * 1
* est un p*1 vecteur aléatoire d’erreur de mesure qui est indépendant de et est distribué
selon une loi N(0, ), où est une matrice diagonal.
14
De plus le premier et le deuxième niveau d’erreur de mesure sont supposés indépendants. Il
découle des équations (1.1) et (1.2) que :
= 𝝁 + * + + * + . (1.3)
Pour évaluer les interrelations entre les variables latentes, les vecteurs de ces dernières
sont partitionnés en et qui eux aussi le sont comme suit :
=
et =
( * 1), ( * 1), ( * 1) et ( * 1) sont des vecteurs de variables latentes
avec + = q, pour j = 1,2. Les distributions de et sont respectivement des lois
gaussiennes N(0, ) et N(0, ). Les équations structurelles non linéaires sont incorporées dans
les modèles entre-groupes et intra-groupes du modèle proposé à deux niveaux :
= * + * ( ) + , (1.4)
Et
= * + * ( ) + , (1.5)
où ( ) = et ( ) =
sont des
vecteurs de fonctions différentiables connues, et mais qui ne s’annulent pas, c'est-à-dire
une fonction f est différentiable au point x0 si au voisinage de ce point elle est convenablement
approchée par une fonction affine ayant pour forme A(x) = y0 +T(x), où T est une application
linéaire et y0 est une constante. La forme linéaire ne s'annule pas.
Habituellement a ≽ et b ≽ , de dimension ( * ), de dimension (
* ), de dimension ( * a) et de dimension ( * b) sont des paramètres inconnus
de matrices.
et sont respectivement des erreurs de mesures distribuées respectivement selon
une loi N(0, ) et N(0, ), avec et des matrices diagonales. Du fait de la non
linéarité, impliquée par et la distribution de ne suit pas une loi normale.
Dans l’équation structurelle « intra-groupes », on supposera que :
et sont indépendants.
L’équation structurelle l’« entre-groupes », et sont indépendants.
Les vecteurs « intra-groupe » de variables latentes et sont indépendants
des vecteurs de variables latentes « entre-groupe » et .
De là, il s’en suit de l’équation (15.4) que est indépendant de et
15
Ce modèle à deux niveaux ne satisfait pas les effets des vecteurs latents dans le niveau
« entre-groupes » sur les vecteurs latents dans le niveau « intra-groupe». Néanmoins dans le
modèle de niveau « intra-groupe » ou dans celui du « entre-groupes », l’effet non linéaire entre
des variables latentes exogènes et endogènes peut être évalué à partir des équations (1.4) et (1.5)
en sachant que la structure hiérarchique des données est prise en compte.
Du fait que les fonctions dans ( ) et dans ( ) sont plutôt générales,
l’interaction commune et les effets quadratiques sont des cas spéciaux.
En pratique, cela permet ce genre de relations non linéaires comme une interaction des
termes quadratiques entre les variables latentes qui mènent à des modèles plus représentatifs de la
réalité.
A fortiori, on suppose que - et - sont non singuliers et leurs déterminants sont
respectivement indépendants de leurs éléments dans et . Avec et représentent les
matrices identités.
Le SEM proposé à deux niveaux hiérarchiques ne peut être identifié si l’on n’impose pas
l’identification des paramètres. La méthode d’identification consiste à fixer des paramètres
appropriés dans , , , , , pour avoir un modèle identifié.
De même, par la méthode du SEM non linéaire les choix de ( ) et ( ) ne sont
pas arbitraire. Ces fonctions peuvent être n’importe quelles fonctions différentiables, de là, il est
suffisant d’utiliser les fonctions polynomiales comme relation entre les variables latentes.
Par définition, une fonction polynomiale est de la forme suivante :
f(x) = +
+……+ +
où n est un entier naturel et , ,. …, , sont des éléments de R.
Le choix de ces fonctions n’est pas complètement arbitraire. Pour exemple, les cas
suivants sont à éviter (𝛏) = ( , , ,
) ou encore (𝛏) = ( , , * ,0).
(𝛏) et (𝛏) doivent être modifiés comme suit : ( , , ) et ( , , * ).
Pour mieux comprendre, voici un exemple concret:
( ) = (
) ( ) + (
) (
) + (
). (1.6)
Pour le modèle mixte (variables continues et catégorielles) sans perte de généralité, on
suppose que =
, où =
est un vecteur continu et observable et
= ( , … , ) est un vecteur continu et non observable.
16
Une spécification de seuil est posée pour les variables observables catégorielles définies
par le vecteur z = avec les variables continues définies par le vecteur y =
comme suit :
z = si < < (1.7)
< < (1.8)
où est une valeur entière dans {0,1, … , }. En général, on garde = , = .
Pour la kième variable, il y a + 1 catégories qui sont définies par des seuils non connus .
Les variables dichotomiques sont traitées de la même manière que les variables
catégorielles avec un seuil unique fixé à zéro. Le lien entre les variables dichotomiques et leurs
variables continues y est donné par :
d = 1 si y > 0 , et d = 0 si y 0. (1.9)
Soit Ѳ le vecteur paramètre qui contient tous les paramètres inconnus dans , ,
, , , , , , , et et soit 𝜶 le vecteur qui contient tous les paramètres
des seuils inconnus.
Le nombre total de paramètres inconnus dans Ѳ et 𝜶 est normalement élevé. Par la suite,
on suppose que le modèle non linéaire à structure hiérarchique défini par Ѳ et 𝜶 est identifié.
Simulation a posteriori et estimation Bayésienne :
Soient = ( , … , ) et X= ( … , ) les variables observées et continues, et
= ( , … , ) et Z= ( … , ) les variables observées catégorielles.
Soient = ( , … , ) et Y= ( … , ) les variables continues latentes associées
respectivement à et Z. Les variables observées seront augmentées avec Y dans l’analyse a
posteriori. Une fois qu’Y est donné, toutes les variables sont continues et le problème est
simplifié. Soit V = ( , ..., ) la matrice des variables latentes qui représente le niveau
hiérarchique « entre-groupe ».
Si V est observée, le modèle est réduit à un seul niveau. Soient 𝛺 = ( , ..., ),
𝛺 = ( 𝛺 , … , 𝛺 ) et 𝛺 = ( 𝛺 , … , 𝛺 ) les matrices des variables latentes des niveaux
hiérarchiques « intra-groupe » et « entre-groupe ». Si les matrices sont observées, les équations
(1.4) et (1.5) réduisent simultanément les modèles de régressions.
La difficulté provient de la relation non linéaire entre les variables latentes ainsi que les
problèmes associés avec les éléments du modèle. Comme par exemple les structures corrélées des
observations qui impliquent les deux niveaux d’échelle ou encore la nature discrète des variables
catégorielles ainsi que la non linéarité des variables latentes aux niveaux des deux échelles.
17
Ces derniers peuvent être résolus avec l’augmentation du jeu de données. Dans l’analyse
a posteriori les données observées (X,Z) seront augmentées avec (Y,V, 𝛺 , 𝛺 ), les matrices de
données hypothétiquement manquantes de mesures latentes et variables.
Plus spécifiquement, on considère les distributions a posteriori jointes [Ѳ,Y,V,𝝮, 𝛺 , 𝛺 |
X,Z]. L’algorithme de l’échantillon de Gibbs sera utilisé pour générer une séquence
d’observations de cette distribution a posteriori jointes.
Alors la solution Bayésienne est obtenue par l’inférence standard sur la base de
l’échantillon produit d’observations. Dans l’application de Gibbs, on échantillonne itérativement
des distributions conditionnelles suivantes : [V | Ѳ,𝜶,Y, , , X,Z], [ | Ѳ,𝜶,Y, V, , X, Z],
[[ | Ѳ,𝜶,Y, V, , X, Z], [𝜶,Y | Ѳ,V, , , X,Z] et [Ѳ | 𝜶,Y, , , X,Z].
Pour le modèle à deux niveaux proposé, la distribution conditionnelle [Ѳ | 𝜶, Y, V, ,
, X, Z] est décomposée en composants et impliquant divers paramètres structurels dans les
modèles d’ « entre-groupes » . Les composants sont différents et relatent différents cas spéciaux
de modèles. Suivant les cas, la structure de Ѳ peut prendre différentes formes :
a) Les modèles avec différents paramètres dans l’ « intra-groupe » au travers des niveaux :
dans ce cas, les paramètres structurels « intra-groupes » = { , , , ,
, } et les paramètres seuils associés avec le gième groupe sont différents de
ceux qui sont associés avec le kième groupe, pour g k. En pratique G et ne doivent
pas être très petits pour pouvoir dessiner des conclusions graphiques statistiques valides
pour le modèle de l’ « entre-groupe » et le modèle du gième « intra-groupe ».
b) Les modèles avec quelques paramètres invariants dans l’ « intra-groupe », dans ce cas les
paramètres et qui sont associés avec le gième groupe sont égaux à ceux qui sont
associés avec les autres groupes.
c) Les modèles avec tous les paramètres invariants dans l’ « intra-groupe » sous cette
condition, = … = , et = … = .
Les distributions conditionnelles dans des cas spéciaux sont similaires mais différents.
En outre, les distributions a priori des paramètres sont aussi impliquées. La distribution non-
informative est utilisée pour les distributions a priori des seuils.
Les distributions conditionnelles des composantes dans [Ѳ | 𝜶, Y, V, 𝛺 , 𝛺 , X, Z] aussi
bien que dans d’autres distributions conditionnelles nécessitant l’algorithme de Gibbs sont
discutés dans le livre de Lee (Appendix 9.1).
Les distributions conditionnelles sont des généralisations des modèles qui sont associés
avec un modèle à un seul niveau et la plupart suivent des distributions standard telles que la loi
normale, gamma et l’inverse Wishart.
Simuler des observations sous ces distributions demande un effort considérable en
programmation. L’algorithme Metropolis-Hasting est utilisé pour simuler en particulier les trois
distributions conditionnelles les plus complexes:
[ 𝛺 | Ѳ, 𝜶,Y, V, 𝛺 , X, Z], [ 𝛺 | Ѳ,𝜶,Y, V, 𝛺 , X, Z] et [𝜶,Y | Ѳ,V, 𝛺 , 𝛺 , X, Z].
18
Les estimations Bayésiennes de Ѳ, 𝜶 et des variables latentes et sur les deux
niveaux peuvent être obtenues facilement via la moyenne des observations générées. Plus
spécifiquement, soient { , , 𝛺 , 𝛺 ) ; t =1 ,.., } et soient des observations
aléatoires générées par la distribution a posteriori jointe p( Ѳ, 𝜶, Y, V, 𝛺 , 𝛺 | X, Z ), les
estimations jointes de Bayes de Ѳ, 𝜶, , seront obtenues comme suit :
Ӧ =
∑
, ᾶ =
∑
, =
∑
, =
∑
(1.10)
Où et proviennent de 𝛺 et 𝛺 , .
Ces estimations Bayésiennes jointe convergent à leur moyenne a posteriori quand T tend
vers l’infini. Du fait que l’on possède un large échantillon de Ѳ de par sa distribution a posteriori,
une estimation de la variable Ѳ peut être obtenue à partir de la matrice de covariance.
De plus, une estimation des résidus , , , peut être obtenue par la moyenne des
paramètres estimés.
19
V. SEM non linéaire à deux niveaux de structure hiérarchique avec effets croisés
sous l’approche Bayésienne
En plus de la non linéarité à deux niveaux de structure hiérarchique, nous avons également utilisé
l’effet croisé au niveau des variables latentes. D’après le modèle de Lee (2007), on considère
l’équation de mesure qui relie les variables observables et les variables latentes dans « l’intra-
groupe » et « l’entre-groupe » Lee et Tang (2007)
= 𝝁 + * + + * + . (1.11)
Avec g = 1 , … , G, et i = 1, … ,
Où est un vecteur aleatoire ( *1) de variables latentes qui suit une loi N(0, ), est un
vecteur aléatoire (p*1) avec comme distribution N(0, ) , où est une matrice diagonale et où
et et sont indépendants. Les définitions des autres quantités sont les mêmes que
précédemment. Pour le modèle « intra-groupe » on définit =
comme une
partition de . Pour simplifier la notation, on omettra la souscription de 1 dans et . On
considère l’équation structurelle suivante :
= 𝝘H( , ) + , (1.12)
Où ( *1) et ( *1) sont des sous vecteurs latents de et
H( , ) = .Ce dernier est un (m*1) vecteur avec des valeurs
non nulles et des fonctions différentiables connues , …, , de plus m max{ , },
𝝘( *m) est la matrice des coefficients inconnus, et sont respectivement distribués
comme N(0, ) et N(0, ), où est une diagonale et est indépendant de .
La généralité de la fonction H( , ) estimée de vecteur satisfait les termes non-
linéaires des variables latentes exogènes dans et pour prévoir les variables latentes
endogènes dans . Un exemple concret est associé avec = ( ), = et =
( , , ) est donné par :
= + + + + + + + , (1.13)
Où 𝝘 = ( , …, ) , H( , ) = .
La linéarité et l’interaction des termes des variables latentes exogènes dans « l’intra-
groupes » et dans « l’entre-groupes » sont prises en compte dans l’équation (1.13). Si nécessaire
on peut facilement ajouter des termes non-linéaires. Soient 𝝠 = ( , ) et = ( ,
)T
alors l’équation (1.11) peut être écrite comme suit :
= 𝝁 + 𝝠 * + . (1.14)
20
On suppose que pour g h, et sont indépendants, pour tout i et j. Cependant, en
raison de la présence de , les mesures observées et sont corrélées.
De plus, en raison de dans l’ « intra-groupe » d’équations structurelles (1.12), pour i
j, et sont dépendants et de là, , sont dépendants.
Similairement, l’ « intra-groupes » du vecteur latent dépend de l’ « entre-groupes »
du vecteur latent . De ce fait l'hypothèse usuelle sur les deux niveaux du SEM (Ansari and
Jedidi, 2000 ; Lee and Shi, 2001 ; Song and Lee, 2004) à propos de l’indépendance de et
est violée.
Les covariances entre les variables observées et les variables latentes deviennent de plus
en plus compliquées à cause des différentes variations de dépendance, pas seulement parmi,
et , mais aussi parmi les , , et .
Par exemple en raison de la complexité de H( , ) dans l’équation (1.12), la matrice
de covariance de peut être compliquée ; du fait de la corrélation structurelle de et
, leur covariance est compliqué et la matrice de covariance de peut-être aussi très
compliquée.
Plus encore, comme la covariance de et de peut être très compliquée, la matrice
de covariance de = ( ,…,
)T peut être très compliquée.
Pour une certaine accommodation de l’ « entre-groupes » des variables latentes et de
l’effet de l’ « intra-groupes » des variables latentes endogènes étend à une difficulté d’analyse
du modèle à deux structures hiérarchique, non-linéaire en SEM.
Comme on peut le constater, la difficulté peut être réglée par la technique de
l’augmentation du jeu de données. Dans ce qui suit, on suppose que le modèle est identifié, c’est-
à-dire que l’on a fixé des paramètres.
21
L’analyse Bayésienne :
Soit U= ( , …, ), les données observées globales, n = + … + , et soient 𝛺 , 𝛺 , 𝛺
les matrices définies comme précédemment. Soit Ѳ, le paramètre vecteur qui contient tous les
paramètres inconnus dans 𝛍, , , 𝝘, , , , .
En utilisant l’idée clé de l’augmentation du jeu de données (Tanner et Wong, 1987), la
distribution a posteriori jointe est [Ѳ , 𝛺 , 𝛺 | U ].
L’estimation Bayésienne des paramètres, des variables latentes et de la p-value peut être
obtenue grâce à un grand nombre d'itérations qui sera simulée par [Ѳ , 𝛺 , 𝛺 | U ].
La tâche majeure est de simuler des observations de la simulation a posteriori commune
par l’échantillonnage de Gibbs couplée avec l’algorithme de Metropolis-Hasting. L’algorithme de
Gibbs est implémenté comme suit : à la (j+1)ième itération avec les valeurs ( , 𝛺
,𝛺
),
itérativement on génère :
a) 𝛺
de [𝛺 | ,𝛺
, U].
b) 𝛺
de [𝛺 | ,𝛺
, U].
c) de P(Ѳ |𝛺
, 𝛺
, U).
Simuler les distributions des paramètres d’une loi gamma, normal et de Wishart est assez
directe et assez rapide. Néanmoins, les distributions conditionnelles p(𝛺 |.), p(𝛺 |.) et p(𝜶,Y|.)
sont complexes et il est nécessaire d’implémenter avec l’algorithme de Metropolis-Hasting pour
simuler efficacement les distributions conditionnelles.
L’algorithme de Metropolis-Hasting est implémenté comme suit : à la (j+1)ième itération
avec les valeurs de , un nouveau candidat est généré par la distribution proposée
N( , ), où
=
+ 𝝨 avec
𝝨 = (
) ,
Où 𝝙 = 𝞉 H( , ) /𝞉 / et est adapté tel que le taux d’acceptation moyen est
environ 0.25 ou plus (voir Gelman, Roberts and Gilks, 1995).
La probabilité d’acceptation est :
Min[1,
22
De même, l’algorithme de Metropolis-Hasting pour l’échantillonnage de de la
p( |𝛺 , , ) est comme suit : au (j+1)ième itération avec les valeurs de , un
nouveau candidat est généré par la distribution proposée N( , ), où
𝝨 =
+
+ ∑
𝝘 avec = 𝞉 H( , ) /𝞉 /
et est choisi comme précédemment. La probabilité d’acceptation est :
Min[1,
La convergence de l’algorithme est établie par l’ « estimated potential scale reduction
(EPSR), ce sont des valeurs suggérées par (Gelman et Rubin, 1992) ou par les graphiques
parallèles des séquences des observations simulées sous différentes paramètres de
commencement.
Voici un exemple de convergence graphique :
Voici un exemple de divergence graphique :
S’il y a non convergence, la question doit être posée concernant l’utilisation des paramètres les
plus pertinents ainsi que le choix de la bonne distribution.
23
VI. Application sur le jeu de données
L'objectif du Plan Forestier National et du Grenelle de l'Environnement est de produire
plus tout en préservant au mieux la biodiversité. A l'échelle européenne, l'augmentation des
prélèvements de bois en forêt est souhaitée, pour accroître à la fois la production de bois,
ressource renouvelable, et la résistance des peuplements à la sécheresse ; en effet, avec les
changements climatiques, de nombreux experts recommandent de réduire le nombre d'arbres sur
pied des peuplements avec comme double but la réduction de la consommation en eau et savoir
affronter les sécheresses récurrentes que subissent nos écosystèmes de manière plus efficace.
Nous allons prendre ce postulat de base à notre réflexion dans le but de savoir si cette
augmentation de prélèvements impacte la biodiversité et d’identifier des effets en cascades entre
compartiments de cette biodiversité.
A ce jour, aucune recherche approfondie au niveau national ou international n'a été menée
pour démontrer les conséquences de ces changements d’intensité de prélèvements en termes de
biodiversité. Les recherches entamées sont tout au mieux fragmentaires et n'étudient souvent
qu'une seule variable latente de la diversité (la flore) et sur des dispositifs peu ou mal contrôlés.
De façon mécanique, en réduisant le nombre d'arbres, le forestier augmente certaines
ressources clés pour les végétaux du sous-bois, notamment en eau et lumière, ce qui se traduit par
une augmentation de la biomasse végétale du sous-bois, avec des réactions possibles sur les
autres compartiments de l'écosystème, insectes, gastéropodes, faune du sol. Le réel enjeu est de
démontrer scientifiquement comment et en quoi ces changements ont des répercussions sur la
diversité de l'ensemble.
Pour répondre à ce postulat, notre groupe de recherche à décider d’expérimenter dans le
but d’en tirer des conclusions. Pour se faire l’objectif initial est de faire varier au sein des
placettes, la densité dans le but d’expliquer les conséquences que peut avoir cette dernière sur la
biodiversité.
En sachant que, la densité est de prendre en considération une surface terrestre forestière
ainsi que de mesurer le nombre d’arbres par rapport à cette dernière pour estimer le nombre
d’arbre. Et que, La qualité d’un arbre se définit par sa grandeur ainsi que sa circonférence.
Les placettes ne sont pas très éloignées géographiquement les unes des autres pour garder
l’homogénéité du sol ainsi que d’autres facteurs comme la lumière, l’eau et la biodiversité.
Ainsi, les forestiers peuvent faire varier uniquement la densité en arbre dans les
différentes placettes appelées dispositifs et mesurer les différences puisqu’une aucunes autres
variables n’ont changés (lumière, eau, biodiversité…)
Dans une forêt, il y a donc plusieurs placettes et chacune varient en densité relative (rdi
qui est le nombre d’arbre par unité de surface. Ce dispositif-là est utilisé dans un objectif
d’observer l’impact du changement de densité sur la biodiversité, c’est-à-dire la flore, la faune du
sol, les champignons, les mammifères, la pluie, la lumière, les espèces, etc.
24
Les deux variables qui décrivent en partie la biodiversité (prises en compte dans notre
étude) sont la flore et la faune du sol. On pense que seuls ses deux groupes devraient fluctuer
positivement ou négativement aux variations de la densité du peuplement puisque par définition
les autres facteurs de biodiversité restent quant à eux homogènes. Ainsi, s’il y a une variation
conséquente vis-à-vis de la biodiversité, nous pourrons affirmer que la densité en arbres y est
pour quelque chose.
Le contexte expérimental étant homogène dans tous les sens du terme, le fait que la liste
des variables ne soit exhaustive n'influence en aucun cas notre analyse et les estimations ne s’en
trouvent pas biaisées.
Par ailleurs, nous pouvons constater qu’une partie de la forêt française risque d'être
modifiée notamment à cause de la densité en arbres. Cela engendrera des bouleversements
notamment en termes de biodiversité.
Il faut savoir que les forestiers doivent aussi limiter la densité du peuplement à cause de la
sécheresse puisque les arbres puisent par leurs racines profondes l’eau de la terre.
Il y a deux réseaux expérimentaux, GIS et LERFOB qui sont eux-mêmes divisés en trois
catégories de site. Dans notre étude, nous retiendrons le premier réseau cité. Le dispositif est
uniforme, il se compose dans la placette où se trouvent neuf placeaux repartis selon le plan ci-
dessous, tout en contrôlant la densité des peuplements "chêne".
Ce dispositif permet l'exploration des relations de causalité au travers de différents
facteurs.
Ce cadre rend le modèle SEM pertinent par contre la structure des placettes impose la structure
spatiale des dispositifs.
NB : Les données ont été en grande partie récoltées avant la période de mon stage.
Mon travail fut à développer le SEM bayésien, un modèle conceptuel, ainsi que de lever un
certain nombre de réticences des écologistes car cet outil statistique récent et difficile à
manipuler.
25
Le Modèle conceptuel.
Fig(2)
Dans ce modèle, le peuplement est caractérisé par l’âge des arbres, la densité du
peuplement (nha), la surface terrière (gha), la circonférence des arbres (cg) et le nombre relatif
d’arbre par unité de surface (rdi).
La flore est définie par le recouvrement total de l’ensemble des espèces végétales du sous-
étage (ce dernier réfère à tout ce qui se trouve en bas des arbres) et le nombre d'espèces végétales
du sous-étage.
La faune du sol est caractérisée par le nombre d’espèces de collemboles, petits
arthropodes pan crustacés, ainsi que par le nombre d’espèces de vers de terre collectés sur la
placette.
Les flèches indiquent les relations de causalités d'influence entre les variables latentes
elles-mêmes ainsi que entre les variables observées et les variables latentes.
Le Massif représente le deuxième niveau de la structure spatiale hiérarchique.
Le rectangle bleu représente l'effet croisé des deux variables latentes peuplement et faune
du sol sur la flore.
26
Définitions des variables observées : Recouvrement_Total : recouvrement (en %) de l’ensemble des espèces végétales du sous-étage
(entre 0 et 2 m de hauteur ; placette de 40 m²)
Rs Plantes = Nbr-espèces : nombre d’espèces végétales du sous-étage
Age : Age moyen des arbres de la placette
Nha : nombre d’arbres de l’étage principal (la canopée) vivant à l’hectare
Gha : surface terrière par hectare (m²/ha). Cet indice correspond, pour un arbre donné, à la
surface de la section d'un arbre mesurée à 1,30 mètre du sol. Dans notre cas, il s’agit plus
précisément de la surface terrière totale ou moyenne, calculée par la somme des surfaces terrières
de tous les arbres de la placette et ramenée à l’échelle d’un ha.
Cg : circonférence moyenne des arbres de l’étage principal de la placette, « moyenne » en unité
de cm
Rdi : indice de densité relative, comprise entre entre 0 et 1. Mesure la densité du peuplement
(nombre d’arbres par unité de surface) par rapport à la densité maximale théorique (la densité des
arbres ne peut pas être infinie). Cet indice mesure l’intensité de la gestion forestière : une valeur
proche de 0 signifie qu’il n’y a pratiquement plus d’arbres dans la placette ; une valeur proche de
1, que la densité est proche de la valeur maximale théorique.
Rs_Collemboles : nombre d’espèces de collemboles, petits arthropodes pancrustacés, collectées
sur la placette (77 espèces différentes inventoriées par l’Université de Rouen)
Rs_Lombriciens : nombre d’espèces de vers de terre collectées sur la placette (5 espèces
inventoriées par l’Université de Rouen) Définitions des variables latentes :
Peuplement : ensemble des arbres de la placette
Flore : ensemble des espèces végétales
Faune du sol : ensemble des espèces animales
27
Sc éma e l’équation e mesure :
Fig(3)
Sur ce schéma, les estimations d'influences que peuvent avoir le premier et le deuxième
niveau qui sont respectivement les variables latentes niveau placette et le Massif représenté par
les p sont représentées.
28
Sc éma e l’équation structurelle :
Fig(4)
La Fig(4) traduit l'équation structurelle de notre modélisation.
représente la variable latente exogène (flore).
représente la variable latente (peuplement).
représente la variable latente (faune du sol).
représentent l'effet croisé du peuplement et de la faune du sol sur la flore.
Les p et p représentent l'influence du niveau deux (Massif) sur la flore.
Il était pertinent d'ajouter dans la modélisation une relation causale supplémentaire qui est celle
entre le peuplement et la faune du sol.
Cet ajout est important au point de vue écologique puisque selon les experts, il y a une relation
causale entre ces deux variables latentes qu’on ne peut négliger.
29
ésultat e l’application sur le jeu de données. display(log) check(C:/Users/jad.abou-ghantous/Desktop/model.txt) model is syntactically correct data(C:/Users/jad.abou-ghantous/Desktop/data.txt) data loaded compile(3) model compiled inits(1,C:/Users/jad.abou-ghantous/Desktop/inits1.txt) expected collection operator c inits(2,C:/Users/jad.abou-ghantous/Desktop/inits2.txt) inits(3,C:/Users/jad.abou-ghantous/Desktop/inits3.txt) gen.inits() initial values generated, model initialized thin.updater(4) update(1) set(lb) set(lw) set(mu) set(psi) set(gam) set(lam) set(deviance) dic.set() update(2500) coda(*,C:/Users/jad.abou-ghantous/Desktop/coda) stats(*) Node statistics node mean sd MC error 2.5% median 97.5% start sample deviance 2746.0 88.05 6.725 2663.0 2719.0 3010.0 2 7500 gam[1] -1.818 7.07 0.5693 -9.93 -5.416 11.14 2 7500 gam[2] 3.114 2.523 0.1062 -2.522 3.272 7.773 2 7500 gam[3] 0.8534 2.814 0.2199 -7.14 1.908 4.365 2 7500 gam[4] -1.795 0.8102 0.05186 -3.599 -1.724 -0.4015 2 7500 gam[5] 4.445 1.067 0.07357 0.396 4.486 6.234 2 7500 lam[6] 0.08655 0.4207 0.03318 -0.9793 0.269 0.5984 2 7500 lb[1] 1.054 2.96 0.2363 -4.129 2.382 4.888 2 7500 lb[2] 2.18 3.043 0.1084 -2.053 1.751 10.53 2 7500 lb[3] 0.7971 0.7091 0.0518 0.5207 0.6392 2.413 2 7500 lb[4] 2.183 2.025 0.1473 1.431 1.745 6.558 2 7500 lb[5] 0.01504 0.025 0.001225 -0.0058 0.01253 0.05091 2 7500 lb[6] 0.1145 0.04932 0.001986 0.04573 0.1121 0.1843 2 7500 lw[1] 0.226 0.2443 0.0189 0.138 0.1895 0.5476 2 7500 lw[2] 0.8942 2.871 0.07503 -4.154 0.8488 6.836 2 7500 lw[3] 0.7817 2.931 0.2404 -6.663 2.447 3.508 2 7500 lw[4] -0.8562 5.515 0.4515 -5.919 -3.933 13.68 2 7500 lw[5] 0.02952 0.1227 0.009944 -0.292 0.09222 0.1541 2 7500 lw[6] -0.1714 0.2043 0.01147 -0.4889 -0.1823 0.1693 2 7500 mu[1] 4.267 0.5198 0.01219 3.23 4.265 5.284 2 7500 mu[2] 4.769 0.5091 0.009636 3.767 4.762 5.762 2 7500 mu[3] 4.957 0.5821 0.02955 3.909 4.919 6.232 2 7500 mu[4] 2.392 0.4962 0.005649 1.415 2.402 3.334 2 7500 mu[5] 3.017 0.5274 0.02217 1.911 3.033 4.031 2 7500 mu[6] 3.369 0.4983 0.009918 2.376 3.373 4.333 2 7500 mu[7] 0.3674 0.2082 0.006849 -0.04046 0.3683 0.7853 2 7500 mu[8] 0.4718 0.5135 0.01407 -0.5111 0.4644 1.475 2 7500 mu[9] 0.5885 0.4973 0.01215 -0.3595 0.5953 1.539 2 7500 psi[1] 0.02071 0.005774 2.69E-4 0.002783 0.02078 0.03137 2 7500 psi[2] 0.07086 0.01516 5.714E-4 0.04669 0.0694 0.1042 2 7500 psi[3] 0.1527 0.3119 0.02461 0.0039 0.08582 1.381 2 7500 psi[4] 1.362E-7 2.303E-8 2.719E-10 9.558E-8 1.349E-7 1.843E-7 2 7500 psi[5] 1.763 1.386 0.1063 0.1015 1.93 4.569 2 7500 psi[6] 0.2242 0.3557 0.02802 0.01927 0.04553 1.273 2 7500 psi[7] 8.166 1.436 0.03238 5.608 8.071 11.25 2 7500 psi[8] 0.3187 0.07145 0.00232 0.1902 0.3149 0.468 2 7500 psi[9] 0.7731 0.1381 0.002311 0.5298 0.7653 1.068 2 7500 dic.stats() DIC Dbar = post.mean of -2logL; Dhat = -2LogL at post.mean of stochastic nodes Dbar Dhat pD DIC
y 2745.900 11815.000 -9069.070 -6323.170 total 2745.900 11815.000 -9069.070 -6323.170 history(*,C:/Users/jad.abou-ghantous/Desktop/history.odc)
30
Les graphiques qui suivent montrent la convergence ou la divergence des estimateurs causaux.
31
32
33
34
35
36
37
38
39
40
L’interprétation :
On prend en compte les estimations significatives c'est-à-dire celles pour lesquelles les
estimations ont correctement convergées. Ne peuvent être interprétées les variables suivantes
faute de convergence :
gam[1]= l’estimation de l’influence de la variable latente peuplement sur la
variable latente flore
gam[3]= l’estimation de l’influence de l’effet croisé (peuplement/faune du sol) sur
la variable latente flore.
lam[6]= l’effet causal entre le peuplement et la faune du sol.
lb[1]= l’estimation entre le massif et la variable « richesse spécifique de la flore »
lw[3]= l’estimation de l’influence du niveau hiérarchique 1 (placette) sur les
variables observées « la surface terrière » (gha).
lw[4]= l’estimation de l’influence du niveau hiérarchique 1 (placette) sur les
variables observées « la circonférence moyenne des arbres (cg).
lw[5]= l’estimation de l’influence du niveau hiérarchique 1 (placette) sur les
variables observées « indice de densité relative » (rdi).
Finalement, l'interprétation sera faite sur les variables suivantes :
gam[2]= l’estimation de l’influence de la variable latente faune du sol sur la
variable latente flore
gam[4]= l’estimation de l’influence du niveau hiérarchique 2 (massif) sur la
variable latente peuplement
gam[5]= l’estimation de l’influence du niveau hiérarchique 2 (massif) sur la
variable latente la faune du sol
lb[2],lb[3],lb[4],lb[5],lb[6]= l’estimation de l’influence du niveau hiérarchique 2
(massif) sur les variables observées respectivement richesse spécifique de la fore, densité du
peuplement, surface terrière, circonférence moyenne, rdi et la richesse spécifique des
lombriciens.
lw[1],lw[2],lw[6]= l’estimation de l’influence du niveau hiérarchique 1 (placette)
sur les variables observées respectivement richesse spécifique de la flore, densité du
peuplement et riches spécifique des lombriciens.
.
La flore et la faune du sol (gam[2]) sont corrélées positivement (3,11) ; en d'autres termes
à de fortes diversités floristiques sont associées de fortes diversités faunistiques. Tout comme à
l’échelle de la placette, la corrélation positive qui lie la diversité floristique à celle de la faune du
sol.
Il y a une influence positive du recouvrement total et RS collemboles, c’est à dire que
lorsque le nombre de plantes augmentent, il y a une prolifération des verres de terre dans le sol.
Il y a une influence positive au deuxième niveau hiérarchique (massif) sur l’ensemble des
variables observées. La forêt étant prise dans sa globalité (l’ensemble des facteurs écologiques
existants), l’influence sur les variables observées est décuplée.
A noter, tout comme à l’échelle de la placette, la corrélation positive qui lie la diversité
floristique à celle de la faune du sol est positif.
41
Conclusion:
L'enjeu de la gestion durable des forêts est d’optimiser la production forestière à diverses
fins tout en préservant la capacité future de production et la biodiversité qu’elle abrite.
Au vu de l’analyse et des estimations, trois points sont mis en exergues :
L'association positive entre la faune du sol et la flore au niveau massif et
placette. Le rapport de causalité et les mécanismes restent néanmoins à
démontrer.
La richesse liée entre les variables "recouvrement _total" et
"RS_Collemboles."
Les variations entre massif sont plus fortes que les variations entre
placettes.
L’analyse ne permet malheureusement pas de conclure sur l'impact (nul, positif ou
négatif) de l'intensité forestière sur la biodiversité.
Au vu de la complexité du système écologique, il faudrait :
Considérer des relations plus complexes entre variables latentes (par exemple
quadratique)
prendre en compte d’autres variables tels que la lumière, l'eau, les grands
herbivores, le sol, l'entomofaune, etc… et considérer d’autres variables latentes et
structures de modèles SEM pour pouvoir émettre une analyse satisfaisante qui se
rapprocherait de la vérité.
Ce travail constitue un test pour estimer si l'approche bayésienne pourrait être un outil
approprié pour mettre en évidence l'effet causal entre des variables complexes en écologie.
A ce stade de l'expérimentation, il est impossible d'affirmer ou d'infirmer que l'approche
bayésienne puisse répondre à la problématique dans le cadre du jeu de données analysé.
42
Références Bibliographiques.
B.Grace James (2008), Journal of Wildlife Management, 72(1) : Structural Equation for
Observational Studies.
B.Reich Peter (2012), Journal of Ecology, 100, 539-545 : Understorey diversity in southern
boreal forests is regulated by productivity and its indirect impacts on resource availability and
heterogeity.
Demeyer Severine (2011), Conservatoire national des arts et Métiers : Approche bayésienne de
l'evaluation de l'incertitude de mesure.
Fox John (2006) de l’Université de McMaster : Structural Equation Modeling With the SEM
package in R.
Gosselin Frédéric (HDR, 2011) de l'Université Pierre et Marie Curie : Propositions pour
améliorer l'équipement biométrique du détective écologique, Application à la modélisation de la
relation entre gestion forestière et biodiversité.
Lee Sik-Yum (2007) de l’Université de Chine de Hong Hong : Structural Equation Modeling.
Shipley Bill (2009), l'Université de Sherbrooke, Quebec: Confirmatory path analysis in a
generalized multilevel context in Ecology.
43
Annexes: Code WinBUGS sous R.
rm(list=ls()) library(R2WinBUGS) environment.bugs<-environment(bugs) #modification of bugs to create temporate files in working.directory (to avoid long names) bugs<-function (data, inits, parameters.to.save, model.file = "model.bug", n.chains = 3, n.iter = 2000, n.burnin = floor(n.iter/2), n.thin = max(1, floor(n.chains * (n.iter - n.burnin)/n.sims)), n.sims = 1000, bin = (n.iter - n.burnin)/n.thin, debug = FALSE, DIC = TRUE, digits = 5, codaPkg = FALSE, bugs.directory = "c:/Program Files/WinBUGS14/", program = c("WinBUGS", "OpenBUGS", "winbugs", "openbugs"), working.directory = NULL, clearWD = FALSE, useWINE = .Platform$OS.type != "windows", WINE = NULL, newWINE = TRUE, WINEPATH = NULL, bugs.seed = NULL, summary.only = FALSE, save.history = !summary.only, over.relax = FALSE) { if (!is.null(working.directory)) { working.directory <- path.expand(working.directory) savedWD <- getwd() setwd(working.directory) on.exit(setwd(savedWD)) } program <- match.arg(program) if (missing(bugs.directory) && !is.null(bugs.dir <- getOption("R2WinBUGS.bugs.directory"))) { bugs.directory <- bugs.dir } if (program %in% c("openbugs", "OpenBUGS", "OpenBugs")) { if (!is.R()) stop("OpenBUGS is not yet available in S-PLUS") return(openbugs(data, inits, parameters.to.save, model.file, n.chains, n.iter, n.burnin, n.thin, n.sims, DIC = DIC, bugs.directory, working.directory, digits, over.relax = over.relax, seed = bugs.seed)) } if (!missing(inits) && !is.function(inits) && !is.null(inits) && (length(inits) != n.chains)) stop("Number of initialized chains (length(inits)) != n.chains") if (useWINE) { if (!is.R()) stop("Non-Windows platforms not yet supported in R2WinBUGS for S-PLUS") if (is.null(WINE)) WINE <- findUnixBinary(x = "wine") if (is.null(WINEPATH)) WINEPATH <- findUnixBinary(x = "winepath") }
44
inTempDir <- FALSE if (is.null(working.directory)) { working.directory <- tempdir() if (useWINE) { working.directory <- gsub("//", "/", working.directory) Sys.chmod(working.directory, mode = "770") on.exit(Sys.chmod(working.directory, mode = "700"), add = TRUE) } savedWD <- getwd() setwd(working.directory) on.exit(setwd(savedWD), add = TRUE) inTempDir <- TRUE } if (is.function(model.file)) { # temp <- tempfile("model",tmpdir =working.directory) temp <- paste(working.directory,"model",sep="\\") temp <- if (is.R() || .Platform$OS.type != "windows") { paste(temp, "txt", sep = ".") } else { gsub("\\.tmp$", ".txt", temp) } write.model(model.file, con = temp, digits = digits) model.file <- gsub("\\\\", "/", temp) if (!is.R()) on.exit(file.remove(model.file), add = TRUE) } if (inTempDir && basename(model.file) == model.file) try(file.copy(file.path(savedWD, model.file), model.file, overwrite = TRUE)) if (!file.exists(model.file)) stop(paste(model.file, "does not exist.")) if (file.info(model.file)$isdir) stop(paste(model.file, "is a directory, but a file is required.")) if (!(length(data) == 1 && is.vector(data) && is.character(data) && (regexpr("\\.txt$", data) > 0))) { bugs.data.file <- bugs.data(data, dir = getwd(), digits) } else { if (inTempDir && all(basename(data) == data)) try(file.copy(file.path(savedWD, data), data, overwrite = TRUE)) if (!file.exists(data)) stop("File", data, "does not exist.") bugs.data.file <- data } if (is.character(inits)) { if (inTempDir && all(basename(inits) == inits)) try(file.copy(file.path(savedWD, inits), inits, overwrite = TRUE)) if (!all(file.exists(inits))) {
45
stop("One or more inits files are missing") } if (length(inits) != n.chains) { stop("Need one inits file for each chain") } bugs.inits.files <- inits } else { if (!is.function(inits) && !is.null(inits) && (length(inits) != n.chains)) { stop("Number of initialized chains (length(inits)) != n.chains") } bugs.inits.files <- bugs.inits(inits, n.chains, digits) } if (DIC) parameters.to.save <- c(parameters.to.save, "deviance") if (!length(grep("\\.txt$", tolower(model.file)))) { new.model.file <- paste(basename(model.file), ".txt", sep = "") if (!is.null(working.directory)) new.model.file <- file.path(working.directory, new.model.file) file.copy(model.file, new.model.file, overwrite = TRUE) on.exit(try(file.remove(new.model.file)), add = TRUE) } else { new.model.file <- model.file } if (useWINE) { new.model.file <- gsub("//", "/", new.model.file) } bugs.script(parameters.to.save, n.chains, n.iter, n.burnin, n.thin, new.model.file, debug = debug, is.inits = !is.null(inits), bin = bin, DIC = DIC, useWINE = useWINE, newWINE = newWINE, WINEPATH = WINEPATH, bugs.seed = bugs.seed, summary.only = summary.only, save.history = save.history, bugs.data.file = bugs.data.file, bugs.inits.files = bugs.inits.files, over.relax = over.relax) bugs.run(n.burnin, bugs.directory, WINE = WINE, useWINE = useWINE, newWINE = newWINE, WINEPATH = WINEPATH) if (codaPkg) return(file.path(getwd(), paste("coda", 1:n.chains, ".txt", sep = ""))) if (summary.only) { return(bugs.log("log.txt")) } sims <- c(bugs.sims(parameters.to.save, n.chains, n.iter, n.burnin, n.thin, DIC), model.file = model.file, program = program) if (clearWD) { file.remove(c(bugs.data.file, "log.odc", "log.txt", "codaIndex.txt", bugs.inits.files, "script.txt", paste("coda", 1:n.chains, ".txt", sep = "")))
46
} class(sims) <- "bugs" sims } environment(bugs) <- environment.bugs data<-read.table("TB.csv", h=T, sep=";") data data$nom_placette<-paste(data$id_dispo,data$id_placette) #id_dispo = Massif = forêts Ng<-length(unique(data$id_dispo)) #Ng=nbr de Masssif N<-tapply(data$nom_placette,as.integer(as.factor(data$id_dispo)),function(x){length(unique(x))}) #N=nbr de placette dans chaque massif MP<-tapply(as.integer(as.factor(data$id_dispo)),data$nom_placette,function(x){unique(x)}) MPchar=as.integer(as.character(MP)) Pp<-tapply(data$nom_general,as.integer(as.factor(data$nom_placette)),function(x){length(unique(x))}) Ppchar=as.integer(as.character(Pp)) pl<-length(unique(data$nom_placette)) idpl<-seq(1:pl) Np<-rbind(MPchar,idpl,Ppchar) #NP<-tapply(data$nom_placette,list(#as.integer(as.factor(data$id_dispo)),function(x){length(unique(x))}) #Np=nbr de placeau dans la placette i du Massif g kk<-cumsum(c(0,N)) #kk=la somme cumule du nbr de placette dans chaque Massif kkp<-cumsum(c(0,Np[3,])) #kkp= nbr de placeau de la massif g qui sont dans la placette i et des precedents # g =identite du Massif data<-read.table("TB.csv", h=T, sep=";") summary(data) newdata=data[,-1] newdata1=newdata[,-1] summary(newdata1) newdata2=newdata1[,-2] newdata3=newdata2[,-3] summary(newdata3) newdata4=newdata3[,-3] summary(newdata4) Data=newdata4 head(Data) dim(Data) #DData=scale(Data,center=TRUE, scale=TRUE) Data
47
head(Data) model=function() { for(g in 1:Ng){ for(i in 1:N[g]){ for(k in 1: Np[3,kk[g]+i]) { for(j in 1:9){ y[kkp[kk[g]+i]+k,j]~dnorm(u[kk[g]+i,j],psi[j]) ephat[kkp[kk[g]+i]+k,j]<-y[kkp[kk[g]+i]+k,j]-u[kk[g]+i,j] } } #Equation de mesure u[kk[g]+i,1]<- mu[1]+pi[g,1]+eta[g,i] #recouvrement_total u[kk[g]+i,2]<- mu[2]+lb[1]*pi[g,1]+lw[1]* eta[g,i] #nb_despece u[kk[g]+i,3]<- mu[3]+pi[g,2]+xi[g,i,1] #age u[kk[g]+i,4]<- mu[4]+lb[2]*pi[g,2]+lw[2]*xi[g,i,1] #nha u[kk[g]+i,5]<- mu[5]+lb[3]*pi[g,2]+lw[3]*xi[g,i,1] #gha u[kk[g]+i,6]<- mu[6]+lb[4]*pi[g,2]+lw[4]*xi[g,i,1] #cg u[kk[g]+i,7]<- mu[7]+lb[5]*pi[g,2]+lw[5]*xi[g,i,1] #rdi u[kk[g]+i,8]<- mu[8]+pi[g,3]+xi[g,i,2] #RS_collemboles u[kk[g]+i,9]<- mu[9]+lb[6]*pi[g,3]+lw[6]*xi[g,i,2] #RS_lombriciens #xi[g,i,1:2]~dmnorm(ux[1:2],phi[1:2,1:2]) #ux=[0 0]^T is fixed constant xi[g,i,1]~dnorm(ux[1,1,1],phi[1]) xi[g,i,2]~dnorm(ux[g,i,2],phi[2])
48
eta[g,i]~dnorm(nu[g,i], psd) #Equations structurelles nu[g,i]<- gam[1]*xi[g,i,1]+gam[2]*xi[g,i,2]+gam[3]*xi[g,i,1]*xi[g,i,2]+gam[4]*pi[g,2]+gam[5]*pi[g,3] ux[g,i,2]<-lam[6]*xi[g,i,1] dthat2[g,i]<-xi[g,i,2]-ux[g,i,2] dthat[g,i]<-eta[g,i]-nu[g,i] } # end of i pi[g,1:3]~ dmnorm(uu[1:3],phip[1:3,1:3]) } # end of g uu[1]<- 0.0 uu[2]<- 0.0 uu[3]<- 0.0 ux[1,1,1]<- 0.0 #ux[2]<- 0.0 # priors on loadings and coefficients mu[1]~dnorm(4.248,4.0) mu[2]~dnorm(4.668,4.0) mu[3]~dnorm(4.56,4.0) mu[4]~dnorm(2.389,4.0) mu[5]~dnorm(3.161,4.0)
49
mu[6]~dnorm(3.445,4.0) mu[7]~dnorm(0.526,4.0) mu[8]~dnorm(0.375,4.0) mu[9]~dnorm(0.596,4.0) var.bw[1]<-4.0*psi[2] var.bw[2]<-4.0*psi[3] var.bw[3]<-4.0*psi[5] var.bw[4]<-4.0*psi[6] var.bw[5]<-4.0*psi[8] var.bw[6]<-4.0*psi[9] lb[1]~dnorm(1.096,var.bw[1]) lb[2]~dnorm(0.861,var.bw[2]) lb[3]~dnorm(0.590,var.bw[3]) lb[4]~dnorm(1.470,var.bw[4]) lb[5]~dnorm(0.787,var.bw[5]) lb[6]~dnorm(0.574,var.bw[6]) lw[1]~dnorm(0.825,var.bw[1]) lw[2]~dnorm(0.813,var.bw[2]) lw[3]~dnorm(0.951,var.bw[3]) lw[4]~dnorm(0.692,var.bw[4]) lw[5]~dnorm(0.986,var.bw[5]) lw[6]~dnorm(0.800,var.bw[6]) var.gam<-4.0*psd var.lam<-4.0*phi[2] gam[1]~dnorm(0.577,var.gam) gam[2]~dnorm(1.712,var.gam) gam[3]~dnorm(-0.571,var.gam) gam[4]~dnorm(-0.571,var.gam) gam[5]~dnorm(-0.571,var.gam) lam[6]~dnorm(-0.571,var.lam) # priors on precisions
50
for(j in 1:9){psi[j]~dgamma(10.0,4.0) ivpsi[j]<-1/psi[j]} psd~dgamma(10.0,4.0) ivpsd<-1/psd phi[1]~dgamma(10.0,4.0) phx[1]<-1/phi[1] phi[2]~dgamma(10.0,4.0) phx[2]<-1/phi[2] #phi[1:2,1:2]~dwish(R0[1:2,1:2],5) #phx[1:2,1:2]<-inverse(phi[1:2,1:2]) phip[1:3,1:3]~dwish(R1[1:3,1:3],5) php[1:3,1:3]<-inverse(phip[1:3,1:3]) } # end of model win.data<-list(kkp=kkp,Np=Np,Ng=Ng,N=as.vector(N),kk=kk, R1=structure(.Data=c(13.6,-0.61,0.48,-0.61,0.24,0.06,0.48,0.06,0.22),.Dim= c(3,3)), y=structure(as.matrix(Data),.Dim= c(78,9))) #Three different initial values inits1<-list(lb=c(0.6,0.6,0.5,2.2,0.6,0.4),lw=c(0.3,0.3,0.3,0.3,0.3,0.3),mu=c(3.0,3.5,3.3,1.0,2.0,2.2,0.2,0.0,0.2), psi=c(0.3, 0.3, 0.3,0.3,0.3,0.3,0.3,0.3,0.3),psd=0.6,gam=c(0.2,1.0,-0.4,-0.3,-0.3),lam=c(-0.3), phip=structure(.Data=c(0.7,-0.1,0.0,-0.1,0.2,0.0,0.0,0.0,0.18),.Dim=c(3,3)), phi=structure(.Data=c(0.7, 0.4,0.4,0.7),.Dim= c(2,2))) inits2<-list(lb=c(0.8,0.8,0.7,2.5,0.8,0.6),lw=c(0.7,0.7,0.7,0.7,0.7,0.7),mu=c(4.0,4.0,4.0,2.0,3.0,3.0,0.5,0.
51
4,0.6), psi=c(0.5, 0.5, 0.5,0.5,0.5,0.5,0.5,0.5,0.5),psd=0.36,gam=c(0.5,1.7,0.6,-0.3,-0.3),lam=c(-0.3), phip=structure(.Data=c(0.5,0.1,-0.1,0.1,0.2,0.0,-0.1,0.0,0.5),.Dim=c(3,3)), phi=structure(.Data=c(0.5, 0.1,0.1,0.5), .Dim= c(2,2))) inits3<-list(lb=c(1.0,1.0,1.0,3.0,1.0,1.0),lw=c(1.0,1.0,1.0,1.0,1.0,1.0),mu=c(4.8,4.8,4.8,3.5,4.0,4.2,0.8,0.8,0.8), psi=c(0.8, 0.8, 0.8, 0.8, 0.8, 0.8,0.8,0.8,0.8),psd=0.9,gam=c(0.8,1.2,0.0,-0.3,-0.3),lam=c(-0.3), phip=structure(.Data=c(0.6,-0.2,0.2,-0.2,0.4,0.1,0.2,0.1,0.3),.Dim=c(3,3)), phi=structure(.Data=c(0.9, 0.0,0.0,0.6),.Dim= c(2,2))) params<-list("lb","lw","mu","psi","gam","lam") nc <- 3 # Nombre de trajectoires (ou chaînes de Markov) ni <- 10000 # Nombre total de valeurs pour chaque chaîne de Markov nb <- 3 # Nombre de valeurs attribuées à la partie transitoire de la chaîne de Markov #(premières valeurs de chaque chaîne) ("burn-in phase") nt <- 4 # Période (ou fréquence de sauvegarde des paramètres ("thinning rate") # On appelle de WinBUGS cette fonction pour qui choisit automatiquement l'algorithme convenable en MCMC ! (soit l'algorithme de Gibbs soit Metropolis-Hasting soit l'algorithme hybride c'est à dire les deux) ! out <- bugs(data = win.data, inits = list(inits1,inits2,inits3), parameters.to.save = params, model.file = model, n.thin = nt, n.chains = nc, n.burnin = nb, n.iter = ni, debug = TRUE, DIC = TRUE, working.directory = getwd(),bugs.directory="C:/WinBUGS14")