Gli errori nellanalisi statistica Errore di Tipo I – Il trattamento NON ha effetto, ma noi riteniamo che lo abbia Errore di tipo II – Il trattamento ha

Gli errori nell’analisi statistica

• Errore di Tipo I – Il trattamento NON ha effetto, ma noi riteniamo che lo abbia

• Errore di tipo II – Il trattamento ha effetto ma noi riteniamo che NON lo abbia

• Alfa è il criterio richiesto per la significatività statistica. Assumendo che l’ipotesi nulla sia vera, alfa è la proporzione di studi che risulteranno in un errore di tipo I

• Beta è la proporzione di studi che avranno un errore di tipo II

Potenza di uno studio

• Un’analisi di potenza viene svolta nella progettazione di uno studio, per poter anticipare la possibilità che si ottengano risultati significativi. E’ basata sugli stessi fattori associati alla significatività: 1) numerosità del campione, 2) dimensione dell’effetto, 3) valore di alfa

• Potenza è quindi la proporzione di studi che, date le caratteristiche elencate precedentemente, porterà ad un risultato significativo

• Errore di tipo II = 1 - potenza

Potenza di uno studio per dimensioni dell’effetto – Confronto fra due popolazioni

Potenza di uno studio per valore di alfa – Confronto fra due popolazioni

Campionamento casuale (1)

• Campioni di popolazione possono essere selezionati in modi differenti

• In statistica, tuttavia, per poter estendere le proprie conclusioni ad una popolazione generale, partendo da un campione, è necessario partire da una selezione basata sulla “randomizzazione” dei soggetti

Campionamento casuale (2)

1. Ogni membro della popolazione ha una possibilità uguale ed indipendente di essere scelto o di essere assegnato ad un gruppo

2. La scelta di un membro del gruppo non influenza in alcun modo la scelta dei membri successivi

3. Un esempio …

Tipi di variabiliTipi di variabili

• Alfanumeriche • Numeriche ( scale)

– Nominali– Ordinali– Intervallari e razionali,

discrete e continue

Variabili alfanumeriche Variabili alfanumeriche (stringa, ASCII)(stringa, ASCII)

• Parole, caratteri dell’alfabeto, numeri trattati come caratteri

• Non consentono operazioni matematiche, anche se molti software permettono operazioni logiche (es. “A” < “B”)

• Usate nella ricerca biomedica solo:– a scopi identificavi (es. cognome, nome, acronimo,

codice fiscale)– per riportare un commento

Es. “Che tipo di frattura ha subito?”1. femore2. polso3. vertebra4. altro (specificare) ____________________________________

Scale nominali Scale nominali (categoriche, qualitative)(categoriche, qualitative)

• Categorie non ordinate, mutuamente esclusive

• L’assegnazione di un valore quantitativo piuttosto di un altro è arbitrario

– es. codici categorie professionali 1. medici2. fisioterapisti3. infermieri

• Un tipo particolare: le variabili dicotomiche– es. stato vitale

1. vivo2. morto

Scale ordinaliScale ordinali

• Categorie mutuamente esclusive, ordinate• I valori numerici esprimono il grado di intensità

relativa della caratteristica– es. grado di disabilità

0. non disabile

1. disabilità lieve

2. disabilità moderata

3. disabilità grave

• Uguali differenze numeriche non corrispondono ad uguali differenze di intensità

Scale intervallari e razionaliScale intervallari e razionali

• Per ogni grado della scala, uguali differenze numeriche corrispondono ad uguali differenze di intensità

• Se lo zero è arbitrario, la scala è intervallare ma non razionale– es. temperatura: Celsius 0 – Fahrenheit 32

50 ºC = (32 + 1.8 x 50) ºF = 122 ºF100 ºC = (32 + 1.8 x 100) ºF = 212 ºF100 è il doppio di 50, ma 212 non è il doppio di 122

• Se lo zero corrisponde all’assenza della caratteristica, la scala è detta razionale– es. scala Kelvin (temperatura), glicemia, pressione

arteriosa

Scale discrete e continueScale discrete e continue

Le scale intervallari (razionali o no) sono distinguibili in:– Continue: sempre possibile trovare

intervalli più piccoli• es. distanza

– Discrete: intervalli interi• es. numero di figli di una donna

Trasformazione di variabili Trasformazione di variabili

• Var. continue o discrete var. ordinali– sulla base di una soglia predefinita

• es. PAS, soglia diagnostica di ipertensione 140 mmHg

– sulla base della distribuzione di frequenza

• Vantaggio: semplicità di analisi

• Svantaggio: perdita di dettaglio

Controllo di qualità dei datiControllo di qualità dei dati

• Preparare il manuale operativo• Provare gli strumenti prima di cominciare la

raccolta dati• Addestrare il personale• Prima dell’immissione dati, controllarne l’

appropriatezza (es. codifiche mancanti, impossibili o inesistenti) correggere

• Doppia immissione (o verifica dell’immissione) • Controlli logici e d’intervallo

Raccolta e presentazione dei datiRaccolta e presentazione dei dati

• Solitamente in tabelle, in cui ogni osservazione è rappresentata da una riga ed ogni variabile da una colonna

• Utili a questo scopo software tipo Excel, con:– “fogli di lavoro” per l’immissione dati– formule e funzioni per effettuare operazioni sui dati– funzione di ordinamento– grafici– analisi statistica

• I dati Excel possono essere scambiati con altri software (esportati o importati)

Riduzione dei datiRiduzione dei dati

• I dati relativi alle osservazioni individuali vanno sintetizzati, esprimendo:

– la frequenza delle osservazioni – la tendenza centrale e la variabilità (dispersione)

• (A tale scopo, i dati vanno preliminarmente ordinati)

• I dati così sintetizzati possono essere presentati in forma di tabelle e grafici

Misure di tendenza centrale: media, Misure di tendenza centrale: media, mediana e modamediana e moda

• Media (aritmetica): somma delle osservazioni diviso il loro numero

• Mediana: il valore che divide a metà le osservazioni (50% sono più basse o uguali, 50% sono maggiori)

• Moda: il (i) valore(i) più frequenti in una serie di osservazioni

Diversi andamenti di curve di distribuzione

A07- Età paziente

A07- Età paziente

Freq

uenc

y

1400

1200

1000

800

600

400

200

0

Std. Dev = 16.50

Mean = 69.3

N = 7078.00

G04- Colesterolemia (mg/dl) (ent.)

G04- Colesterolemia (mg/dl) (ent.)

Freq

uenc

y

1000

800

600

400

200

0

Std. Dev = 53.42

Mean = 189.1

N = 5513.00

Curve di distribuzioneCurve di distribuzione

Media, mediana e moda a confrontoMedia, mediana e moda a confronto

• La media si presta meglio a rappresentare dati simmetricamente disposti rispetto al valore centrale

• La mediana è meno influenzata dai valori estremi, quindi è da preferirsi in caso di distribuzioni fortemente asimmetriche

• La presenza di più mode può suggerire che la popolazione in esame è in realtà composta da due subpopolazioni diverse

V. esempi in Excel

Distribuzione normaleDistribuzione normale

Distribuzione teorica di

probabilità per n∞

0.0000

0.0500

0.1000

0.1500

0.2000

0 4 8 12 16 20

ProprietProprietà della dà della distribuzione normaleistribuzione normale• Descritta interamente dalla media e dalla deviazione

standard • Simmetrica attorno a , flesso a –e +• Va da -∞ a +∞

X ~ N (2

X

Confronto traConfronto tra d distribuzioni normaliistribuzioni normali

2

1

2

1

• Stessa media, diversa deviazione standard

• Stessa deviazione standard, diversa media

1 21 2

Documents

Gli errori nellanalisi statistica Errore di Tipo I – Il trattamento NON ha effetto, ma noi riteniamo che lo abbia Errore di tipo II – Il trattamento ha