Introduction aux Donn ees Fonctionnelles - Institut mas/ aux Donn ees Fonctionnelles La statistique pour donn ees fonctionnelles ou analyse des donn ees fonction-nelles etudie des

  • View
    213

  • Download
    1

Embed Size (px)

Text of Introduction aux Donn ees Fonctionnelles - Institut mas/ aux Donn ees Fonctionnelles La statistique...

  • Chapitre 1

    Introduction aux DonneesFonctionnelles

    La statistique pour donnees fonctionnelles ou analyse des donnees fonction-nelles etudie des observations qui ne sont pas des variables reelles ou vectoriellesmais des courbes aleatoires.

    Exemples :

    La courbe des temperatures relevee en un point donne du globe est un pro-cessus a temps continu completement aleatoire. Si on observe la temperaturependantN jours il peut etre interessant de decouper la courbe de depart onN courbes qui tracent la temperature pour chacune des journees dobser-vation. Chacune des ces courbes journalieres peut alors etre vue comme unelement dun echantillon de taille N constitue de donnees fonctionnelles.

    Actuellement des experiences sont menees sur le campus de lINRA quivisent a etudier la croissance de plants de mas issus de varietes differenteset soumis a des conditions experimentales differentes. Pour chaque plant demas les appareils de mesure recueillent une fonction qui est bien elle-memealeatoire (elle depend de la variete de mas, de conditions experimentaleset dautres fluctuations...)

    Dans les deux exemples precedents les courbes aleatoires dependent dutemps mais la situation peut etre differente. Lanalyse spectrometrique desmateriaux (qui vise a deduire des proprietes physico-chimiques par lexa-men dun spectre de lumiere issu du materiau) produit aussi des courbesaleatoires indexees par une longueur donde (et plus par le temps)

    Lelectrocardiogramme dun patient, le cours dune action, un signal audiosont dautres exemples de donnees fonctionnelles. On peut montrer quun imagepeut aussi etre modelisee par une fonction aleatoire (qui depend cette fois-cide deux variables). Regarder un film sur support digital revient donc a passeren revue un echantillon (consequent certes) de donnees fonctionnelles un peuparticulieres...

    La modelisation mathematique est assez immuable. Nous avons besoin dunespace de fonctions note F (nous supposerons que cest au moins un espacede Banach separable) et dun espace de probabilite . Une variable aleatoirefonctionnelle est alors une application mesurable X : F . Lespace F estconstitue de fonctions definies sur [0, 1] et a valeurs reelles par exemple on peut

    1

  • 2 CHAPITRE 1. INTRODUCTION AUX DONNEES FONCTIONNELLES

    encore preciser les choses. Une v.a. fonctionnelle pourra etre alors vue commeuneapplication X : [0, 1] R. Si 0 est fixe la fonction X (0, ) est unetrajectoire de X. Si t0 [0, 1] est fixe X (, t0) est une simple v.a. reelle.

    Dasn toute la suite, une fois que lespace F aura ete bien specifie nous nementionnerons pas les indices comme ou t. Par exemple pour considerer un n-echantillon de donnees fonctionnelles nous noterons invariablement :X1, X2, ..., Xn.

    1.1 Pourquoi des donnees fonctionnelles ?

    On nobserve jamais une fonction integralement sur toute sa trajectoire. Ilfaudrait pour cela disposer dinstrument de mesures avec une vitesse denregis-trement infinie. Meme les cotations les plus rapides sur les marches financiersentierement informatises sont intercalees de quelques millisecondes. Quand lesdonnees fonctionnelles arrivent elles sont pour ces raisons toujours sous formevectorielle. Ainsi on nobservera pas, par exemple X (t) t mais on disposera de[X (t1) , X (t2) , ..., X (tp)] ou les tj constituent une grille de discretisation. Selonle phenomene etudie p peut varier entre quelques unites et plusieurs millions.

    Ce type de donnees nest pas nouveau et a ete etudie pendant longtemps viades techniques multivariees (en voyant X comme un vecteur aleatoire dans Rppour continuer lexemple precedent). Mais deux problemes apparaissent.

    Si la frequence de discretisation des courbes est elevee (i.e. si p est grand)on peut se retrouver dans des situations ou la taille de X est de lordrevoire plus grande que la taille de lechantillon lui-meme. Cette situationpeut poser des problemes redhibitoires tant sur le plan theorique que dansles aspects numeriques. Cette problematique est commune avec celle debeaucoup de problemes de la statistique en grande dimension.

    En traitant X comme un vecteur on perd completement sa vraie nature,celle de processus en temps continu ou plus generalement de fonction.Loperation de derivation, par exemple, na pas de sens dans ce cadre. Ilest logique alors de se poser la question de methodes alternatives danslesquelles, a defaut de saisir X (t) t on pourrait se contenter dune ap-proximation X qui, elle, serait une vraie fonction.

    Cette derniere approche constitue ce que lon pourrait appeler, par analo-gie avec la terminologie de la statistique bayesienne, le paradigme des donneesfonctionnelles. Ce paradigme serait resume dans lacte de foi suivant :

    Devant limpossibilite de reconstruire parfaitement une donnee denature fonctionnelle, je suis pret a ne considerer quune

    approximation de cette fonction. Jespere, en respectant ainsi lanature initiale de lechantillon, ameliorer les resultats de linference

    par rapport a un traitement multivarie.

    Il est alors important de definir ce que lon entend par approximation dunefonction. Ce concept sera developpe et explicite au sein du chapitre suivant ducours.Pour faire simple disons que lon cherche a effectuer le passage suivant :

    [X (t1) , X (t2) , ..., X (tp)] 7 X (t) =Di=1

    aii (t)

  • 1.2. RUDIMENTS THEORIQUES 3

    ou D est un entier naturel, les ai sont des coefficients reels et les i constituentune base de lespace F . Bien entendu toutes ces grandeurs dependent du vecteurdes X (tj) et sont donc a priori aleatoires. Reconstruire une version de X ouapproximer X reviendra donc pour nous determiner un developpement de Xdans une base de fonctions.

    Le fait que F soit un espace vectoriel (nous avons dit un espace de Banach)est crucial, sinon le developpement dans une base peut ne pas avoir de sens.

    Il est frequent que la base i ne soit pas aleatoire mais fixee (ce sera le casau chapitre suivant) et que seuls les ai et D soient aleatoires. Toutefois uneexception notable existe : elle est associee a lACP fonctionnelle de X.

    1.2 Rudiments theoriques

    1.2.1 Quelques espaces de fonctions classiques

    Pour ne pas se placer dans un cadre trop theorique on ne sinteresse ici quades fonctions definies sur un intervalle compact de R qui sera fixe a [0, 1] . Maisle lecteur doit rester conscient que la plupart des ouvrages danalyse, en lienavec la resolution des EDP, sinteressent a des fonctions definies sur Rd ou surun domaine de Rd.

    Exemple 1 : Lespace des fonctions avec m derivees continues :

    Cm ([0, 1]) ={f : f (m) C0 ([0, 1])

    }.

    Exemple 2 : Les espaces Lp :

    Lp ([0, 1]) =

    {f : [0, 1] R :

    10

    |f (t)|p dt < +}.

    On note souvent[ 1

    0|f (t)|p dt

    ]1/p= fp ;

    Exemple 3 : Les espaces de Sobolev :

    Wm,p ([0, 1]) =

    {f Lp ([0, 1]) : i {1, ...,m} ,

    10

    f (i) (t)p dt < +} .De nombreux autres espaces de fonctions existent comme les espaces de

    Holder, de Besov. Jen mentionne ici deux autres que nous retrouverons dans lechapitre consacre a lanalyse de Fourier : lespace des fonctions a C a supportcompact et lespace des fonctions a decroissance rapide :{

    f : R R : p, limt

    tp |f (t)| = 0}.

    1.2.2 Brefs rappels danalyse

    Un espace de Banach est un espace vectoriel norme complet (toute suite deCauchy converge). Soit F un espace de Banach separable (la separabilite signifieque lespace nest pas trop grand). On note F le dual de F . On rappelle queF est lespace des application lineaires et continues de F vers R. Cet espaceF jouera un role important pour la definition de la covariance plus tard. On

  • 4 CHAPITRE 1. INTRODUCTION AUX DONNEES FONCTIONNELLES

    note enfin , le crochet de dualite entre F et F : si x F et f F alorsx, f = f (x) R.

    Attention : des differences notables existent entre les espaces classiques eu-clidiens de type Rd, bien connus et pour lesquels beaucoup de raisonnementsintuitifs permettent des analogies. Ici lespace F sera en general de dimensioninfinie. Cela induit des differences geometriques notables. Jen retiens deux atitre dexemple :

    Les normes sur F ne sont pas equivalentes. Dit autrement : ce nest parcequune suite converge avec une norme quelle convergera avec une autrenorme. Il sera donc crucial, chaque fois que lon se place dans un espacede fonctions donne de bien specifier la norme utilisee si celle-ce nest pasevidente.

    Les boules ne sont pas compactes. Du coup les ensembles compacts ontdes formes non intuitives, beaucoup plus plates quen dimension infinie ;il est par exemple impossible dinclure une boule dans un compact dansce type despace de dimension infinie. On dit que F nest pas localementcompact. Le theoreme de Riesz explicite tres bien les liens entre dimensionet compacite locale.

    On sinteressera assez souvent a des cas particuliers importants des espacesde Banach : les espaces de Hilbert. Un espace de Hilbert H est un espace deBanach dans le quel la norme est issue dun produit scalaire

    Theoreme 1 Si H est un espace de Hilbert separable alors (i) Il existe des basesdenombrables (on les notera (ei)iN ou (i)iN) et (ii) Tout vecteur x H sedecompose de facon unique dans la base sous la forme x =

    iN x, ei ei. Enfin

    tout element f de H peut se mettre sous la forme f = , h ou h H. On peutdonc legitimement assimiler H a H.

    Les espaces de Hilbert forment un cadre privilegie pour les statisticiens tra-vaillant sur les donnees fonctionnelles. Ils generalisent de la facon la plus intuitiveles espaces euclidiens et les principaux outils danalyse associes, notamment lanotion de projection. Ces espaces fonctionnels simples disposent aussi dexcel-lentes proprietes probabilistes.

    1.3 Bases de probabilites

    Une variable aleatoire fonctionn