Metodi di stima e test di ipotesi - wpage.unina.itwpage.unina.it/antdambr/Docs/Metodi di stima e test di ipotesi.pdf · Outline • Statistiche campionarie e distribuzioni campionarie

  • Upload
    vunhi

  • View
    221

  • Download
    1

Embed Size (px)

Citation preview

  • Ciclo di seminari in STATISTICA e APPLICAZIONI per le Scuole di

    Dottorato in Ingegneria Civile, Ingegneria Industriale, Ingegneria

    dellInformazione

    Coordinatori: Prof.ri Pasquale Erto e Roberta Siciliano

    Novembre 2013 Gennaio 2014

    Metodi di Stima e Test Statistici

    Antonio DAmbrosio, Ph.D.

    Assistant Professor,

    Dept. Of Industrial Engineering, Naples University Federico II

    STAD Research Group

    http://www.stad.unina.it

  • Outline Statistiche campionarie e distribuzioni campionarie

    Statistica, stimatore, statistica-test

    Propriet degli stimatori

    Metodi di stima

    Metodo dei Momenti

    Metodo dei Minimi Quadrati

    Metodo della Massima Verosimiglianza

    Stima puntuale per intervalli

    Inferenza computazionale (moderna)

    Bootstrap

    Jacknife

    Cross-validation

    Ensemble Methods

    Test delle ipotesi statistiche

    Logica e caratteristiche fondamentali dei test

    Test Parametrici e non parametrici

  • Sono gi noti i concetti di

    Statistica descrittiva;

    Probabilit;

    Variabili casuali.

  • PremessaUnindustria che produce pompe idrauliche utilizza guarnizioni in materiale

    plastico che vengono usate nel raccordo degli elementi meccanici. Le

    guarnizioni vengono fornite da unindustria chimica con un contratto di

    forniture periodiche di 5000 guarnizioni alla volta.

    Lindustria acquirente ha lesigenza di valutare la qualit dei pezzi forniti per

    ogni fornitura.

    Il tempo (e il costo) di collaudo delle guarnizioni rende inverosimile

    procedere allesame di tutti i pezzi forniti, visto che le guarnizioni devono

    essere fatte funzionare sotto pressione elevata e per un certo periodo di

    tempo.

    Si procede, cos, allesame di un numero limitato di guarnizioni, ad esempio

    50, e dallesame di soli questi pezzi si vuol valutare la frazione di pezzi

    difettosi dellintera partita ed eventualmente respingere la fornitura.

  • Premessa (Contd)Si pu considerare la partita di 5000 guarnizioni come la popolazione

    oggetto di indagine in cui ogni pezzo rappresenta un soggetto (o unit

    statistica) del quale siamo interessati alla sua conformit o meno alle

    specifiche tecniche.

    Le 50 guarnizioni che vengono effettivamente controllate sono il campione,

    attraverso lanalisi del quale si vuole valutare la frazione di elementi

    conformi nellintera popolazione.

    Ovviamente le rilevazioni sugli elementi del campione sono di interesse

    nella misura in cui esse forniscono informazione sulle caratteristiche della

    popolazione.

    Per poter estendere le caratteristiche del campione alla popolazione,

    necessario che questo debba riprodurre, per quanto possibile, le

    caratteristiche della popolazione, cio deve essere rappresentativo della

    stessa.

  • Premessa (Contd)Affinch un campione sia rappresentativo bisogna scegliere gli elementi che

    lo compongono in modo tale che linclusione sia indipendente dalle

    caratteristiche che si vogliono esaminare.

    Un modo che assicura lindipendenza richiesta quello di scegliere gli

    elementi del campione in modo casuale, quindi per definizione in modo

    indipendente dalla caratteristica oggetto di studio.

    Si pu pensare di istituire un esperimento casuale ausiliario per selezionare

    i soggetti da includere nel campione, idealizzandolo (ad esempio) nella

    estrazione di tante palline da unurna che contiene tanti elementi quanti

    sono gli elementi della popolazione.

    Lestrazione pu avvenire con ripetizione o senza ripetizione.

    La probabilit di estrazione potrebbe non essere uguale per tutti se, ad

    esempio, si assegnano probabilit di estrazione diverse a palline diverse,

    oppure se si predispongono pi urne

  • Premessa (Contd)Lesempio dellindustria pu essere comparato ad una situazione in cui in unurna ci sono 5000 palline (la popolazione di guarnizioni) di cui una proporzione incognita rappresentata da palline nere (i pezzi difettosi).Supponiamo che lestrazione delle 50 palline dia luogo al risultato che 4 di esse siano nere.

    La proporzione 4/50 un criterio ragionevole per dare un valore a , ma ad esempio, se si fossero estratte 100 palline di cui 8 difettose, la proporzione sarebbe rimasta immutata. Le domande a cui cerchiamo di dare una risposta sono:

    Cosa sarebbe cambiato se avessimo scelto di estrarre 100 palline?

    Ci sono altri metodi di scegliere ragionevolmente ? Quanto accurata la valutazione del risultato?

    Che informazione abbiamo su altri plausibili valori di ?

  • Premessa (Contd)Lesperimento in questione ci consente di individuare la v.c. che ha generato

    il fenomeno nella popolazione

    = 4 = 504 1 Nel grafico si lasciata

    variare lincognita nel

    range dei possibili valori

    che nella realt pu

    assumere.

    Il massimo valore che la

    figura assume si trova in

    corrispondenza di = 4/50.Se avessimo optato per

    un valore alternativo di pari a 6/50, quale tra le alternative sarebbe

    stata pi verosimile?

  • Premessa (Contd)

    Nel grafico si assunto di avere estratto un campione di numerosit 100. Si poi diviso il

    risultato di ogni valore di ottenuto per il suo massimo, al fine di rendere sovrapponibili le due figure. Il massimo valore che la figura assume si trova in corrispondenza di = 4/50.Quale delle due situazioni fornisce maggiore informazione?

  • Premessa (Contd)

    Si pu individuare un intervallo di valori sufficientemente plausibili per che tenga conto del fatto che vi comunque un grado di imprecisione intrinseco nel risultato dellestrazione

    campionaria?

  • Campione CasualeIndichiamo con X la popolazione, la quale caratterizzata dalla v.c. X. La

    conoscenza della popolazione X coincide strettamente con la funzione di

    ripartizione ; della v.c. X.Dalla popolazione X viene estratto un sottoinsieme di n unit statistiche. La

    procedura di selezione (assimilabile ad una prova nel senso del calcolo delle

    probabilit) genera una n-pla di v.c. (, , , )la cui determinazione numerica specifica una n-pla di numeri reali (, , , ) detto campione osservato. Di conseguenza, ogni la realizzazione della v.c. che prende il nome di v.c. della i-ma estrazione. E da notare, inoltre, che ogni proviene dalla stessa v.c. (; ). Le v.c. sono quindi componenti della v.c. n-pla = (, , , )indipendenti e identicamente distribuite.

  • Campione Casuale e Campione OsservatoUna successione di v.c. (, , , ) ottenute con una procedura di estrazione da (; ) detta campione casuale se le v.c. , = 1, , sono indipendenti e identicamente distribuite.

    Il campione osservato la n-pla di numeri reali (, , , ) che costituiscono le realizzazioni del campione casuale.

    La distribuzione congiunta del campione casuale , pertanto,

    (; ) = (; )(; )(; ) = (; )!

  • Statistica, Stimatore, Statistica-testSi definisce statistica (campionaria) " = "(, , , ) qualunque funzione nota e a valori reali del campione casuale indipendente da quantit incognite. Essendo

    funzione di variabili casuali, la statistica stessa una variabile casuale.

    Il valore della statistica " calcolata sul campione casuale # = "(, , ), prende il nome di statistica calcolata.

    Nellambito della teoria della stima, la statistica chiamata stimatore mentre la

    statistica calcolata detta stima;

    Nellambito della teoria della prova delle ipotesi, la statistica viene detta statistica-

    test.

    La distribuzione di probabilit della statistica prende il nome di distribuzione

    campionaria della statistica (stimatore) ".

  • Distribuzioni campionarie (intro)Per semplicit, consideriamo lo schema di campionamento casuale semplice, che corrisponde allo schema di estrazione con reinserimento.

    Indichiamo con N la numerosit della popolazione, mentre indichiamo con nla numerosit campionaria.

    Luniverso campionario (cio linsieme di tutti i possibili campioni di ampiezza n che possono essere estratti da una popolazione di cardinalit N) pari a

    $ = %Per curiosit, nel caso di caso di campionamento senza reimmissione, esso pari a

    $ = % = %!! (% )!

  • Distribuzioni campionarie (esempio)Supponiamo di avere una popolazione di 4 macchinari (A, B, C, D) preposti

    alla misurazione del tempo di reazione di una cellula fotoelettrica allo

    spostamento daria. Supponiamo che, nel corso di una giornata, commettono

    errori di misurazione rispettivamente pari a 1, 2, 3 e 4 millisecondi.

    La media degli errori di tali macchinari pari a 2,5, mentre la varianza pari

    a 1,25.

    Supponiamo di essere interessati alla stima della media degli errori dei

    macchinari.

    Supponendo di estrarre un campione di n=2 macchinari, possibile estrarre

    un massimo di 4 = 16 possibili campioni differenti.

  • Distribuzioni campionarie (esempio)

    Si ottengono i seguenti risultati:

    = 2,5;)*+ = 0,625;n.b.

    ,- = ,. = 0,625

  • Distribuzioni campionarie (esempio)

    Si ottengono i seguenti risultati:

    = 2,5;)*+ = 0,4167;n.b.

    ,-0 = ,.0 = 0,4167

    Immaginiamo di estrarre tutti i campioni di numerosit 3

  • Distribuzioni campionarie

    Per qualsiasi v.c. che possiede varianza finita, la statistica media campionaria

    ha valor medio pari al valor medio della popolazione e varianza pari alla

    varianza della popolazione diviso per la numerosit campionaria.

    Se X una v.c. Normale, allora anche la v.c. media campionaria una v.c.

    Normale.

  • Distribuzioni campionarie notevoli:

    differenza tra medie

    Sia (, , , ) un campione casuale proveniente da %(1, 2), allora 3 %(1, 4-5 ). Sia (, , , 6) un campione casuale proveniente da %(17, 27), allora 3 %(17, 48-9 ). Se i due campioni sono indipendenti, allora noto che per qualunque

    combinazione lineare (*3 + ;3) %((*1 + ;17), (*4-5 + ;48-9 )).La v.c. differenza tra medie campionarie 3 3 sar anchessa normale, con la conseguenza che la corrispondente v.c. standardizzata si distribuisce come

    una v.c. normale standardizzata:

    < = 3 3,- + ,8-6 %(0,1)

  • Distribuzioni campionarie notevoli:

    varianza campionariaSia (, , , ) un campione casuale proveniente da %(1, 2), supponiamo che allora 1 sia nota. Sia V = (?@AB)-! la varianza. C2 =D ?@AB, =

    !D ?@ABE?3A?3, =D ?@A?3,

    !+ ?3AB,

    !

    Poich F,- si decompone nella somma di 2 v.c. di cui una una v.c. G , per il teorema di Fisher e Cochran segue che H@IHJ4 ! G ASe Q, Q1 2 Q2 sono forme quadratiche tali che Q=Q1+Q2, e se K G L e K1 G L , allora K2 G L0 con g3=g1-g2 con q1 e q2 indipendenti.

    G con n gdl. G con 1 gdl, poich ?3AB, = ?3AB,/

  • Distribuzioni campionarie notevoliQuesto significa che ( 1)M-4- G AA fini inferenziali (per i test statistici) dai risultati precedenti risulta che:

    " = 3 1N/ = 0lim] " < _ = 1

    La coerenza in media quadratica implica la coerenza in probabilit (ma non

    vero il contrario).

  • Propriet asintotiche degli stimatori

    Uno stimatore T si dice coerente (o consistente) quasi certamente se

    ( lim]" ) = 1Uno stimatore T si dice asintoticamente efficiente se

    lim]C*+ " = X AUno stimatore T si dice asintoticamente normale se

    lim] " Q(")C*+(") # = (#)

  • Metodi di costruzione degli stimatori:

    Metodo dei momenti

    I momenti di ordine r si definiscono come i valori medi delle potenze r-

    esime della v.c. X

    1d = Q d = e d f]A]

    D dg]!

  • Metodi di costruzione degli stimatori:

    Metodo dei momenti

    Sia ; un v.c. che possieda momenti Q d = 1d , + = 1,2, ,OSe si indicano con Td i momenti campionari generati dal campione casuale , , , , il metodo dei momenti consiste nel risolvere rispetto a il sistema delle prime m equazioni1d = Td , + = 1,2, ,OIl metodo dei momenti fornisce stimatori che godono di propriet

    asintotiche (sono coerenti, asintoticamente corretti e asintoticamente

    normali).

    Non sempre fornisce stimatori efficienti.

  • Metodi di costruzione degli stimatori:

    Metodo dei minimi quadratiSia , , , un campione casuale proveniente da ; . Se ognuna delle v.c. componenti il campione casuale pu essere interpretata come la somma di una componente deterministica e di una quantit stocastica = h + _Allora si pu utilizzare il metodo di stima dei minimi quadrati.

    La parte deterministica h formata da funzioni note e a valori reali del parametro , mentre le v.c. _ hanno valore atteso nullo, varianza costante e sono incorrelate tra loro.

    Il metodo dei minimi quadrati deriva la stima del parametro (o del vettore vettore di parametri) in modo tale che

    i =D h = O!

  • Metodi di costruzione degli stimatori:

    Metodo dei minimi quadratiLa soluzione di minimo si ottiene derivando iN rispetto a e risolvendo lequazione ij = 0

    D ( h )!khk() = 0

    Al variare dei campioni, tale soluzione genera una funzione delle v.c.campionarie che definisce lo stimatore dei minimi quadrati per .Nellambito di stimatori lineari (vedi seminario sulla regressione lineare), si pu dimostrare che detti stimatori sono BLUE (Best Linear UnbiasedEstimators).

    Gli stimatori dei minimi quadrati sono asintoticamente normali e coerenti. Per lapplicazione di tale metodo non necessario conoscere la distribuzione di probabilit della v.c. che genera il campione.

  • Metodi di costruzione degli stimatori:

    Metodo della massima verosimiglianzaSia , , , un campione casuale proveniente da ; .Abbiamo gi visto che (; ) = (; )(; )(; ) = (; )! la funzione di densit congiunta del campione casuale. Essa, prima di estrarre il campione, e il parametro (o il vettore di parametri) fisso, esprime la probabilit di estrarre proprio quel campione casuale

    Supponendo che il campione sia stato estratto, supponendo che sia incognito, la quantit (; ) = (; )(; )(; ) = (; )!prende il nome di funzione di verosimiglianza, ed funzione del solo parametro .Essa esprime la plausibilit di ottenere quel campione casuale le cui determinazioni numeriche si sono effettivamente realizzate. Se (; ) >(; ), allora maggiormente verosimile che il parametro caratterizzante la v.c. nella popolazione sia e non .

  • Metodi di costruzione degli stimatori:

    Metodo della massima verosimiglianzaSpesso si preferisce lavorare con il logaritmo della funzione di verosimiglianza,

    C = noh(; ) =D noh(; )!Si definisce la funzione score la derivata della funzione di verosimiglianza

    rispetto al parametro Cj = knoh(; )k

    Se valgono alcune condizioni di regolarit sulla funzione di verosimiglianza

    (esistenza per ogni x delle derivate fino al terzo ordine, valore atteso del

    quadrato della funzione score finito), allora si ha che

    Q Cj = 0; C*+ Cj = Q Cj = Q Cjj = X()

  • Metodi di costruzione degli stimatori:

    Metodo della massima verosimiglianzaLa grandezzaX() prende il nome di informazione (attesa) di Fisher. Questa grandezza pu essere interpretata come un indice della rapidit di caduta

    della funzione di (log)verosimiglianza intorno al suo punto di massimo, e di

    conseguenza del grado relativo di preferenza che la verosimiglianza assegna al

    valore di corrispondente al suo massimo rispetto a valori alternativi.Il metodo di stima della massima verosimiglianza propone come stima per il valore #(, , , ) per il quale la funzione di verosimiglianza massima.La soluzione della funzione score corrisponde quindi alla stima di massima

    verosimiglianza. Al variare del campione essa descrive una v.c. che

    rappresenta lo stimatore di massima verosimiglianza.

  • Metodo della massima

    verosimiglianza: proprietSotto le condizioni di regolarit, gli stimatori di massima verosimiglianza possiedono tutte le propriet considerate ottimali.

    - Invarianza: se T lo stimatore di massima verosimiglianza per e se p = f una funzione biunivoca di, allora f " lo stimatore di massima verosimiglianza per f

    - Coerenza: gli stimatori di massima verosimiglianza sono coerenti e asintoticamente corretti

    - BAN: per gli stimatori di massima verosimiglianza vale che " q%(, X A). Quindi sono stimatori BAN (Best Asintotically Normal)- Se esiste uno stimatore T non distorto e efficiente per , e se T* la

    soluzione di massima verosimiglianza di C(), allora " " - Se esiste uno stimatore efficiente per , allora lo stimatore di massima

    verosimiglianza coincide con esso ed quindi efficiente per ogni n finito. Se non esiste uno stimatore efficiente per , allora lo stimatore di massima verosimiglianza comunque asintoticamente efficiente.

  • Stima per intervalliPer quanto accurata sia la stima e per quanto sia affidabile lo stimatore, a volte

    preferibile accompagnare il risultato numerico derivato dal campione con una

    misura di affidabilit circa la sua collocazione pi probabile.

    Sia , , , un campione casuale proveniente da ; . Si definisce variabile casuale pivot una v.c. )(; ) che funzione sia del campione che del parametro incognito (quindi, non una statistica), ma la cui

    distribuzione di probabilit indipendente da parametri incogniti.

    Se esiste una v.c. pivot per , e se la funzione che definisce la stessa invertibile, allora si pu scrivere che )u ) ; Cv = ()A )u, )A )v, ) = 1 wSi pu definire allora un intervallo casuale con coefficiente di confidenza 1 w, i cui limiti sono )A )u, e )A )v,

  • Stima per intervalli: v.c. pivotSia , , , un campione casuale proveniente da % 1; 2 . Poich sappiamo che Z = HJIy4/ 5z({,), allora Z una v.c. pivot perch la sua distribuzione di probabilit non dipende da 1.Se 2 incognita, sappiamo che T = HJIy}/ 5~ 5I . Allora T una v.c. pivot perch la sua distribuzione di probabilit non dipende da 1.E cos vero per tutte le distribuzioni notevoli che abbiamo incontrato prima.

    In genere,

    Se esiste uno stimatore di massima verosimiglianza T per un parametro di

    posizione (come la media), allora la v.c. T- una v.c. pivot. Se un parametro di scala (come la varianza), allora la v.c. T/ una v.c. pivot.

  • Stima per intervalli: v.c. pivotSia , , , un campione casuale proveniente da % ; 2 . Poich < = ?3A,/ %(0,1) allora si pu dire che

    3 2/ < (/) = 1 w

    Da cui XA = 3 (/)2/

  • Stima per intervalliPrima dellestrazione del campione, si potrebbe parlare di probabilit che il

    parametro incognito nella popolazione sia incluso tra i limiti inferiore e

    superiore dellintervallo casuale;

    Dopo che il campione stato estratto, la probabilit che il parametro incognito

    ricada allinterno dei limiti inferiore e superiore vale 1 se laffermazione vera

    e 0 altrimenti.

    Si parla quindi di intervalli di confidenza, con grado di confidenza pari a 1 w, perch ripetendo lesperimento un numero elevato di volte i limiti

    dellintervallo casuale conterranno il parametro incognito in una frazione pari a 1 w %.

  • Stima per intervalli

    Da una popolazione generata da una normale con media pari a 120.92 e varianza

    pari a 49 si sono estratti 100 campioni casuali di ampiezza 40. Si riportano 100

    intervalli di confidenza al 95%

  • Stima per intervalli

    Da una popolazione generata da una normale con media pari a 120.92 e varianza

    pari a 49 si sono estratti 100 campioni casuali di ampiezza 40. Si riportano 100

    intervalli di confidenza al 99%

  • Stima per intervalli

    Da una popolazione generata da una normale con media pari a 120.92 e varianza

    pari a 49 si sono estratti 100 campioni casuali di ampiezza 40. Si riportano 100

    intervalli di confidenza al 90%

  • Stima per intervalliLa stima per intervalli in questo modo possibile se si suppone che la v.c. che

    governa il fenomeno oggetto di studio nella popolazione sia Normale.

    Se ci non dovesse essere verificato, e si ha conoscenza del momento

    secondo, si pu ricorrere alla disuguaglianza di Tchebycheff

    3 1 _ 1 2/_Alternativamente si pu ricorrere ad intervalli di confidenza non parametrici,

    (ad es. Bootstrap, vedi oltre).

  • Metodi di stima computazionali

    Ai metodi di stima moderni si pu far ricorso in situazioni diverse:

    - Le condizioni di regolarit possono non essere soddisfatte, o la condizione di massimo pu essere raggiunta solo per via numerica. In questo caso si utilizzano metodi di ottimizzazione numerica, quali ad esempio:

    - Il metodo Newton_Raphson (molto utilizzato per problemi di stima dei parametri nei modelli lineari generalizzati);

    - Il metodo Tri-section (metodo molto semplice, ma anche poco efficiente);

    - Il metodo dello scoring (simile al metodo Newton-Raphson, ma che sfrutta le propriet statistiche della funzione di verosimiglianza);

    - Algoritmi di Majorizing, come lalgoritmo SMACOF (metodo iterativo per la minimizzazione di funzioni di perdita come nel caso dei minimi quadrati- molto utilizzato in statistica multivariata per problemi di multidimensional scaling);

    - Algoritmi di Alternating Least Squares (metodi iterativi per la minimizzazione di funzioni di perdita, molto utilizzati per problemi di regressione non lineare).

    - .

  • Metodi di stima computazionali

    Ai metodi di stima moderni si pu far ricorso in situazioni diverse:

    - Si pu avere una conoscenza solo approssimata o addirittura inesistente

    della v.c. che ha generato il campione.

    - Si pu avere lesigenza di rendere maggiormente robuste le stime che

    ottengono.

    - Si pu avere lesigenza di pervenire a stime intervallari senza avere alcuna

    idea della distribuzione di probabilit nella popolazione

    - Bootstrap

    - Jacknife

    - Cross-validation

    - Ensemble methods (Bagging, Boosting, Random Forest,)

  • Bootstrap

    Tecnica che fa parte della famiglia dei metodi di ricampionamento.

    Dal campione osservato si estraggono B campioni casuali con ripetizione della

    stessa numerosit del campione osservato.

    Per ciascuno di tali campioni si calcolano le grandezze (stime) di interesse,

    ottenendone cos una successione.

    Il bootstrap viene maggiormente utilizzato per:

    Stimare la distorsione;

    Stimare la varianza;

    Generare intervalli di confidenza, generalmente con il metodo del

    percentile.

  • Bootstrap: toy example 1

    Si generato un campione casuale da una v.c. normale di dimensione 100. Immaginiamo che esso sia la nostra popolazione e valutiamo la distorsione con il metodo bootstrap.

    Abbiamo (nella popolazione) 1 = 9,9439 e 2 = 8,3158.Generiamo 10000 campioni bootstrap e valutiamo la correttezza degli stimatori media e varianza campionaria (esempio eseguito con MatLab).

    Abbiamo che Q 3 1 = 0,00001, Q N 2 = 0,0831588Lo stimatore media campionaria (come noto) corretto, mentre lo stimatore media campionaria (come altrettanto noto) distorto.

    Sappiamo anche che la distorsione pari a ,-

    .

    Dai dati della nostra popolazione abbiamo che ,0.

    {{= 0,083158

  • Bootstrap: toy example 2

    Dal dataset auto-mpg (UCI machine learning repository) stimiamo la retta dei

    minimi quadrati (vedi seminario su regressione lineare). Si vuole spiegare il

    consumo delle automobili espresso in miglia per galloni a partire da una serie

    di caratteristiche delle auto. Si riportano sia gli intervalli di confidenza (95%) sui

    coefficienti sia gli stessi calcolati con 10000 ripetizioni boostrap (percentile CI)

    Beta CI_lower CI_upper

    intercept -17,955 -27,150 -8,759

    cylinders -0,490 -1,121 0,142

    displacement 0,024 0,009 0,039

    horsepower -0,018 -0,045 0,009

    weight -0,007 -0,008 -0,005

    acceleration 0,079 -0,114 0,272

    model year 0,777 0,675 0,879

    origin_EU 2,630 1,516 3,744

    origin_JAP 2,853 1,766 3,940

    Boot_Beta

    Boot_CI

    lower

    Boot_CI

    upper

    intercept -17,746 -27,583 -7,859

    cylinders -0,492 -1,079 0,130

    displacement 0,024 0,007 0,041

    horsepower -0,018 -0,047 0,009

    weight -0,007 -0,008 -0,005

    acceleration 0,075 -0,170 0,319

    model year 0,776 0,672 0,881

    origin_EU 2,631 1,338 3,906

    origin_JAP 2,858 1,812 3,926

  • Jackknife

    Tecnica che fa parte della famiglia dei metodi di ricampionamento.

    Dal campione osservato di numerosit n si estraggono tutti i possibili n

    campioni di numerosit n-1 ottenuti eliminando a turno dal campione la i-ma

    unit.

    Si procede in maniera analoga al metodo bootstrap.

    Il metodo jackknife viene maggiormente utilizzato per la costruzione di

    intervalli di confidenza.

  • Metodi Ensemble

    Tecniche che fanno parte della famiglia dei metodi di ricampionamento,

    principalmente per modelli di regressione (parametrica e non parametrica) e di

    classificazione supervisionata (vedi seminari su regressione non parametrica e

    sullo statistical learning).

    Un ensemble una aggregazione di classificatori con lo scopo di combinare in

    qualche modo le decisioni individuali di ciascuno di questi per classificare

    nuove osservazioni.

    La particolarit del BAGGING (Bootstrap Aggregating) consiste nellutilizzare il

    Bootstrap come metodo di ricampionamento; questo significa che la

    probabilit di essere estratto, per ciascun individuo, costante in ogni prova e

    uguale per tutti. La stima finale quindi laggregazione della risposta dei

    modelli di regressione o di classificazione attraverso la media o utilizzando

    majority rules.

  • Metodi Ensemble

    0 5 10 15 20 25 30 35 40 45 500

    0.02

    0.04

    0.06

    0.08

    0.1

    0.12

    0.14

    0.16

    0.18

    0.2

    Bootstrap replications

    test

    err

    or

    test error single tree

    test error Bagging

  • Metodi EnsembleBOOSTING

    LIDEA:

    Addestrare lalgoritmo di apprendimento (weak learner) su un data set e

    costringerlo ad imparare dai propri errori a classificare in modo corretto.

    Weak learner:

    Classificatore almeno moderatamente accurato (le sue previsioni devono

    essere almeno leggermente migliori rispetto ad una scelta totalmente casuale).

    Si ricampiona dal set di dati in modo che le osservazioni malclassificate (o con

    valori maggiori della funzione di perdita) hanno maggiore probabilit di essere

    estratte, forzando il weak learner ad addestrarsi sugli errori commessi per

    poterli correggere.

    La stima finale laggregazione della risposta ponderata dei modelli di

    regressione o di classificazione attraverso medie ponderate o a utilizzando

    majority rules.

  • Metodi Ensemble

  • Cross-ValidationCROSS-VALIDATION

    Molto simile concettualmente al Jackknife nella sua forma pi estrema (leave-

    one-out cross-validation).

    Lidea:

    Dividere il set di dati di numerosit n in V sottocampioni di numerosit n/ V (in

    genere si pone V=10).

    Si procede effettuando V analisi (escludendo di volta in volta il subset di dati

    corrispondente alla frazione n/ V), testando il modello solo sulla parte restante

    del modello.

    Metodo molto utilizzato nei metodi di regressione e classificazione non

    parametrici (alberi di classificazione e regressione, criterio di scelta dei

    parametri di penalizzazione nelle p-splines) e anche nei metodi di regressione

    parametrica (ridge regression, procedure di optimal scaling)

  • Cross-Validation

    Albero di classificazione validato via cross-validation. Funzione di goodness: ? rank correlaztion coefficient.

  • Cross-Validation

    Cross-validation applicata al criterio di selezione della penalit per lutilizzo delle p-

    splines

  • Test delle ipotesi statistiche

    Si pu derivare un test delle ipotesi supponendo nota la distribuzione

    di probabilit di una v.c. X, quindi linferenza si riferisce ai soli parametri

    che la specificano (Test Parametrici)

    Si pu derivare un test senza fare assunzioni stringenti sulla forma

    analistca della distribuzione di probabilit della v.c. X (ma qualche

    assunzione minimale va fatta: unimodale? continua? simmetrica?

    Possiede momento r-mo finito?). Linferenza riguarda quindi sia la

    forma che i parametri (Test non parametrici, o distribution free).

  • Test delle ipotesi statistiche

    Un test una regola istituita sullo spazio campionario mediante la

    quale, in funzione del campione osservato, si decide se rifiutare o meno

    una ipotesi { riferita alla popolazione.Unipotesi statistica una affermazione che specifica completamente

    (ipotesi semplice) o parzialmente (ipotesi composita) la distribuzione

    di probabilit di una v.c. X.

    % 10,9 ; o 0,5 ; f 1,6 ; ipotesi semplici. Quando sono vere la conoscenza di X completa

    % 5, 2 ; o ; f 1, % ; ipotesi composite. Quando sono vere non consentono di pervenire alla conoscenza di ununica v.c. ben definita.

  • Test delle ipotesi statistiche

    Si intende per ipotesi nulla ({) lipotesi preesistente rispetto allesperimento campionario. E lipotesi che sussiste fino a prova

    contraria.

    Lipotesi alternativa () lipotesi complementare rispetto a {.E importante precisare subito che, qualora non fosse vera {, non detto che sia vera .{ e sono esaustive e disgiunte: vale luna o vale laltra.

  • Test delle ipotesi statisticheIl test una regola basata sullo spazio campionario che si concretizza in

    una funzione definita sullinsieme di tutti i possibili campioni generati

    da X. Per alcuni valori , , , {per cui {, ({ )la regola imporr di rigettare {,mentre per altri valori , , , { per cui { la regola imporr di non rigettare {.{ detta regione critica (RC) per {. La regione complementare detta regione di accettazione.

    Poich se lipotesi riguarda il parametro le informazioni riguardo ad esso possono essere sintetizzate senza danno attraverso gli stimatori, la

    regola decisionale definita tramite il campione casuale su { si traduce in una nuova regola fondata sullo stimatore (o statistica) " sulla base di { , , , { " {

  • Struttura probabilistica di un testIn teoria, prima di prendere una decisione, sono possibili le seguenti 4

    situazioni

    Dopo aver deciso se rigettare o meno {, si pu solo aver preso la decisione giusta o aver commesso un errore.

    w = E1 = Pr(rigettare {|{ vera) = Pr(" {|{) = E2 = Pr(non rigettare {|{ falsa) = Pr(" {|) = 1 = Pr(rigettare {|{ falsa) = Pr " { (decisione giusta 2, nota come POTENZA DEL TEST)1 w = Pr(non rigettare {|{ vera) = Pr(" {|{)(decisione giusta 1)

    vera Si rigetta { Errore 1 (di prima specie)Non si rigetta { Decisione Giusta 1

    falsa Si rigetta { Decisione Giusta 2Non si rigetta { Errore 2 (di seconda specie)

  • Struttura probabilistica di un testSarebbe auspicabile richiedere che la RC sia tale che sia w che siano ragionevolmente piccole.

    A parit di numerosit campionaria, non possibile far tendere a zero

    entrambe le probabilit di errore.

    Si potrebbe fissare w e scegliere la RC che minimizza ;Si potrebbe fissare e scegliere la RC che minimizza w;Si opta per la prima soluzione, poich si ritiene pi grave commettere

    lerrore di prima specie ( pi rischioso modificare a torto la realt piuttosto che persistere nella medesima situazione laddove non fosse pi vera)

    1

    1 w

  • Struttura probabilistica di un testSi definisce regione critica ottimale di ampiezza (RCO(w)) una RC per { tale che Pr " { { = w e che, per qualsiasi altra RC j di eguale ampiezza risulti: { = Pr " { < Pr " {j = {j .E quindi ottimale la regione critica che, a parit di tutte quelle di

    ampiezza w, possiede la pi elevata potenza del test { > ({j)

    Un buon test quello con la potenza pi elevata a parit di probabilit

    di commettere lerrore di prima specie. Come si costruiscono le RCO(w)?

  • Lemma di Neyman PearsonSia X = (, , , ) un campione casuale generato da (; ). Si vuole verificare {: = { contro : = . Sia i(; ) la funzione di verosimiglianza di X. La (w) per { contro quella regione {che soddisfa:

    *)ii{ ; ;)Pr(X { { = wdove i = i ; ei{ = i {; .a) Implica che { viene costruita in modo tale che lipotesi alternativa

    deve risultare c volte pi verosimile

    b) Implica che la costante c determinata in modo che la probabilit di

    commettere lerrore di prima specie sia pari a w

  • Test di significativitSi utilizza solo { e ci si chiede se i dati sostengono tale affermazione.Lipotesi alternativa non mai specificata.

    Ci si basa sul p-value: g = Pr(" > #|{), definito cio come probabilit che, se vera {, lo stimatore " assuma un valore almeno estremo come la stima # osservata.Non possibile calcolare la potenza del test

  • Test uniformemente pi potenteLa potenza del test definita come = Pr(" {| = ). Se si prende in considerazione qualsiasi valore di (), si definisce funzione potenza = Pr " { , ,w = sup ()Sia { una RC di ampiezza w. Un test si dice uniformemente pi potente T se {dove la funzione potenza di qualsiasi altro test di eguale ampiezza.

  • Test LRTIl test del rapporto di verosimiglianza (LRT) si basa sul rapporto tra la

    verosimiglianza massimizzata sotto { e la verosimiglianza massimizzata senza alcun vincolo.

    Sia X = , , , un campione casuale generato da (; ). Si vuole verificare {: { contro : {. Si costruisce il rapporto

    = max i(; )max() i(; )La RC costruita in modo che siaPr { = w.{ = {: } una RC costruita con il metodo LRT

  • Test LRT

    Se applicabile il Lemma di Neyman-Pearson, il LRT produce (w)coincidenti.

    Sotto opportune condizioni di regolarit, se vera { allora2 log qG(L)

    dove g il numero di dimensioni dello spazio parametrico sotto {(teorema di Wilks)

  • Test asintotici: Score test

    Sia X = , , , un campione casuale generato da (; ). Si vuole verificare {: contro : . Sia Cj() il vettore degli score rispetto ai parametri:

    Cj = k log i ; k ,k log i ; k , ,

    k log i ; k6V

    Si pu dimostrare che

    N = Cj V X ACj qG(6)Lo score test, rispetto al LRT, necessita solo del calcolo delle derivate

    della funzione di verosimiglianza per = Asintoticamente LRT e score test sono equivalenti

  • Test asintotici: test di Wald

    Sia X = , , , un campione casuale generato da (; ). Si vuole verificare {: contro : . Si pu dimostrare che

    = VX qG(6)

    Asintoticamente LRT e score test e test di Wald sono equivalenti

  • 71

    LRT, Score test e test di Wald

    When the three test statistics

    have equivalent

    properties.

    For small the Likelihood ratio

    statistic is more

    reliable than the

    Wald statistic.

  • Principali test parametrici: Test sul valore medio, varianza nota:

    {: 1 = 1{ : 1 > 1{ w 3 1{ + 2/: 1 < 1{ w 3 1{ 2/: 1 1{ w 3 1{ + /2/3 1{ /2/

    Test sul valore medio, varianza ignota:

    {: 1 = 1{ : 1 > 1{ w 3 1{ + #(,L)/: 1 < 1{ w 3 1{ #(,L)/: 1 1{ w 3 1{ + #(/,L)/3 1{ #(/,L)/

  • Principali test parametrici: Test sulla varianza, media ignota:

    {: 2 = 2{: 2 > 2{ w N G(,L) 2{/( 1): 2 < 2{ w N G(A,L) 2{/( 1): 2 2{ w N G(/,L)

    2{/( 1)N G(A/,L) 2{/( 1)Test sulla differenza tra medie, varianze ignote (note), campioni

    indipendenti

    Test sulla differenza tra medie, varianze ignote (note), campioni

    dipendenti (appaiati)

    Test sul rapporto tra varianze

    and so on

  • Principali test non parametrici:Test dei segni

    Test di Wicoxon

    Test di Mann e Whitney

    Goodness of fit tests (test chi quadrato, test di Kolmogorov-Smirnov,

    test di Jarque-Bera,)

    And so on

  • Letture consigliate Azzalini, A. Inferenza statistica, Springer, 2008

    Casella, G., Berger, R. Statistical inference, Brooks/Cole Pub. Co., 1990

    Erto, P. Probabilit e statistica per le scienze e l'ingegneria, McGraw-Hill,

    2008

    Hastie, T., Tibshirani, R., Friedman, J.H. The elements of statistical learning,

    Springer, 2009

    Landenna, G., Marasini, D., Ferrari, P. Teoria della Stima, Il Mulino 1997

    Landenna, G., Marasini, D., Ferrari, P. La verifica di ipotesi statistiche, Il

    Mulino 1998

    Lindgren B., W. Statistical theory, Chapman & Hall, 1993

    Piccolo, D. Statistica, Il Mulino, 1998.

    Rice, J. Mathematical Statistics and Data Analysis, Duxbury, 2007