Upload
lazzaro-lopez
View
224
Download
1
Embed Size (px)
Citation preview
Gli errori nell’analisi statistica
• Errore di Tipo I – Il trattamento NON ha effetto, ma noi riteniamo che lo abbia
• Errore di tipo II – Il trattamento ha effetto ma noi riteniamo che NON lo abbia
• Alfa è il criterio richiesto per la significatività statistica. Assumendo che l’ipotesi nulla sia vera, alfa è la proporzione di studi che risulteranno in un errore di tipo I
• Beta è la proporzione di studi che avranno un errore di tipo II
Potenza di uno studio
• Un’analisi di potenza viene svolta nella progettazione di uno studio, per poter anticipare la possibilità che si ottengano risultati significativi. E’ basata sugli stessi fattori associati alla significatività: 1) numerosità del campione, 2) dimensione dell’effetto, 3) valore di alfa
• Potenza è quindi la proporzione di studi che, date le caratteristiche elencate precedentemente, porterà ad un risultato significativo
• Errore di tipo II = 1 - potenza
Potenza di uno studio per dimensioni dell’effetto – Confronto fra due popolazioni
Potenza di uno studio per valore di alfa – Confronto fra due popolazioni
Campionamento casuale (1)
• Campioni di popolazione possono essere selezionati in modi differenti
• In statistica, tuttavia, per poter estendere le proprie conclusioni ad una popolazione generale, partendo da un campione, è necessario partire da una selezione basata sulla “randomizzazione” dei soggetti
Campionamento casuale (2)
1. Ogni membro della popolazione ha una possibilità uguale ed indipendente di essere scelto o di essere assegnato ad un gruppo
2. La scelta di un membro del gruppo non influenza in alcun modo la scelta dei membri successivi
3. Un esempio …
Tipi di variabiliTipi di variabili
• Alfanumeriche • Numeriche ( scale)
– Nominali– Ordinali– Intervallari e razionali,
discrete e continue
Variabili alfanumeriche Variabili alfanumeriche (stringa, ASCII)(stringa, ASCII)
• Parole, caratteri dell’alfabeto, numeri trattati come caratteri
• Non consentono operazioni matematiche, anche se molti software permettono operazioni logiche (es. “A” < “B”)
• Usate nella ricerca biomedica solo:– a scopi identificavi (es. cognome, nome, acronimo,
codice fiscale)– per riportare un commento
Es. “Che tipo di frattura ha subito?”1. femore2. polso3. vertebra4. altro (specificare) ____________________________________
Scale nominali Scale nominali (categoriche, qualitative)(categoriche, qualitative)
• Categorie non ordinate, mutuamente esclusive
• L’assegnazione di un valore quantitativo piuttosto di un altro è arbitrario
– es. codici categorie professionali 1. medici2. fisioterapisti3. infermieri
• Un tipo particolare: le variabili dicotomiche– es. stato vitale
1. vivo2. morto
Scale ordinaliScale ordinali
• Categorie mutuamente esclusive, ordinate• I valori numerici esprimono il grado di intensità
relativa della caratteristica– es. grado di disabilità
0. non disabile
1. disabilità lieve
2. disabilità moderata
3. disabilità grave
• Uguali differenze numeriche non corrispondono ad uguali differenze di intensità
Scale intervallari e razionaliScale intervallari e razionali
• Per ogni grado della scala, uguali differenze numeriche corrispondono ad uguali differenze di intensità
• Se lo zero è arbitrario, la scala è intervallare ma non razionale– es. temperatura: Celsius 0 – Fahrenheit 32
50 ºC = (32 + 1.8 x 50) ºF = 122 ºF100 ºC = (32 + 1.8 x 100) ºF = 212 ºF100 è il doppio di 50, ma 212 non è il doppio di 122
• Se lo zero corrisponde all’assenza della caratteristica, la scala è detta razionale– es. scala Kelvin (temperatura), glicemia, pressione
arteriosa
Scale discrete e continueScale discrete e continue
Le scale intervallari (razionali o no) sono distinguibili in:– Continue: sempre possibile trovare
intervalli più piccoli• es. distanza
– Discrete: intervalli interi• es. numero di figli di una donna
Trasformazione di variabili Trasformazione di variabili
• Var. continue o discrete var. ordinali– sulla base di una soglia predefinita
• es. PAS, soglia diagnostica di ipertensione 140 mmHg
– sulla base della distribuzione di frequenza
• Vantaggio: semplicità di analisi
• Svantaggio: perdita di dettaglio
Controllo di qualità dei datiControllo di qualità dei dati
• Preparare il manuale operativo• Provare gli strumenti prima di cominciare la
raccolta dati• Addestrare il personale• Prima dell’immissione dati, controllarne l’
appropriatezza (es. codifiche mancanti, impossibili o inesistenti) correggere
• Doppia immissione (o verifica dell’immissione) • Controlli logici e d’intervallo
Raccolta e presentazione dei datiRaccolta e presentazione dei dati
• Solitamente in tabelle, in cui ogni osservazione è rappresentata da una riga ed ogni variabile da una colonna
• Utili a questo scopo software tipo Excel, con:– “fogli di lavoro” per l’immissione dati– formule e funzioni per effettuare operazioni sui dati– funzione di ordinamento– grafici– analisi statistica
• I dati Excel possono essere scambiati con altri software (esportati o importati)
Riduzione dei datiRiduzione dei dati
• I dati relativi alle osservazioni individuali vanno sintetizzati, esprimendo:
– la frequenza delle osservazioni – la tendenza centrale e la variabilità (dispersione)
• (A tale scopo, i dati vanno preliminarmente ordinati)
• I dati così sintetizzati possono essere presentati in forma di tabelle e grafici
Misure di tendenza centrale: media, Misure di tendenza centrale: media, mediana e modamediana e moda
• Media (aritmetica): somma delle osservazioni diviso il loro numero
• Mediana: il valore che divide a metà le osservazioni (50% sono più basse o uguali, 50% sono maggiori)
• Moda: il (i) valore(i) più frequenti in una serie di osservazioni
Diversi andamenti di curve di distribuzione
A07- Età paziente
A07- Età paziente
Freq
uenc
y
1400
1200
1000
800
600
400
200
0
Std. Dev = 16.50
Mean = 69.3
N = 7078.00
G04- Colesterolemia (mg/dl) (ent.)
G04- Colesterolemia (mg/dl) (ent.)
Freq
uenc
y
1000
800
600
400
200
0
Std. Dev = 53.42
Mean = 189.1
N = 5513.00
Curve di distribuzioneCurve di distribuzione
Media, mediana e moda a confrontoMedia, mediana e moda a confronto
• La media si presta meglio a rappresentare dati simmetricamente disposti rispetto al valore centrale
• La mediana è meno influenzata dai valori estremi, quindi è da preferirsi in caso di distribuzioni fortemente asimmetriche
• La presenza di più mode può suggerire che la popolazione in esame è in realtà composta da due subpopolazioni diverse
V. esempi in Excel
Distribuzione normaleDistribuzione normale
Distribuzione teorica di
probabilità per n∞
0.0000
0.0500
0.1000
0.1500
0.2000
0 4 8 12 16 20
ProprietProprietà della dà della distribuzione normaleistribuzione normale• Descritta interamente dalla media e dalla deviazione
standard • Simmetrica attorno a , flesso a –e +• Va da -∞ a +∞
X ~ N (2
X
Confronto traConfronto tra d distribuzioni normaliistribuzioni normali
2
1
2
1
• Stessa media, diversa deviazione standard
• Stessa deviazione standard, diversa media
1 21 2