Upload
tranminh
View
229
Download
0
Embed Size (px)
Citation preview
STATISTICA MEDICA
Prof.ssa Donatella Siepi
tel: 075 5853525
UNIVERSITA’ DEGLI
STUDI DI PERUGIA
Testi consigliati
• “Statistica Medica”, F. Di Iorio, Ed.
Carocci
• “Biostatistica, concetti di base per
l’analisi statistica delle scienze
dell’area Medico-Sanitaria”, Wayne W.
Daniel, Ed. EdiSES
• “Statistica per le professioni sanitarie”,
Jim Fowler, Phil Jarvis, Mel Chevannes.
Ed. EdiSES
La statistica • è una scienza relativamente giovane spesso
viene confusa con le statistiche: dati, tabelle,
grafici, indici, medie.
• è utilizzata in tutte le scienze e rappresenta uno
strumento essenziale per la scoperta di leggi e
relazioni tra fenomeni.
• utile nelle situazioni nelle quali occorre
assumere decisioni in condizioni di incertezza,
• la statistica si configura come un momento
importante della ricerca scientifica, della
pianificazione economica e dell'azione politica.
ETIMOLOGIA• "statistica" deriva dal vocabolo italiano "provincia" e fa
riferimento alla constatazione per cui le prime
informazioni su fenomeni reali sono state raccolte ed
organizzate ad opera degli organismi statali che ne
erano anche i principali utilizzatori.
• Esistono altre versioni circa la derivazione etimologica di
"Statistica", come quella che fa riferimento a status, per
indicare che tale scienza esamina la situazione
contingente della realtà oppure al latino statera
(=bilancia), al tedesco Stadt (=città).
• La prima apparizione del vocabolo "statistica" in questa
accezione sembra essere quella dell'italiano Ghislini
che, nel 1589, indica la statistica come "descrizione delle
qualità che caratterizzano e degli elementi che
compongono uno Stato".
Che cosa vuol dire fare statistica?
Affermazioni del tipo
• Il profitto di questa classe è in media
sufficiente
• Quest’anno sono di moda le vacanze tipo
agriturismo
Sono affermazioni di tipo statistico
Come è nata
• Con la nascita dei grandi Stati europei, si vede
che all'analisi statistica dei fenomeni collettivi
diventa di interesse pubblico nascono:
• Istituti "centrali" di Statistica
• deputati per legge alla raccolta, organizzazione
e diffusione di dati sulla popolazione, sulle
abitazioni, sulle risorse economiche e su tutti gli
aspetti rilevanti della vita collettiva di una
nazione, di una Comunità di stati (Unione
Europea) o dell'intero pianeta (Nazioni Unite).
Che cosa è la statistica?
• E’ una scienza che ha per oggetto lo
studio, mediante metodi matematici, di
fenomeni collettivi suscettibili di
misurazione e di descrizione quantitativa.
• Si basa sulla raccolta di dati riguardanti le
manifestazioni individuali con cui tali
fenomeni si manifestano.
• Fornisce regole, strumenti e tecniche che
consentono la raccolta e l’analisi quantitativa
delle caratteristiche dei fenomeni collettivi.
Che cosa è la statistica?
La statistica è la tecnica che ha come scopo la conoscenza quantitativa dei fenomeni collettivi
• Fenomeni di massa o collettivi
• Fenomeni individuali o singoli
• SENZA STATISTICA DIAMO AFFERMAZIONI QUALITATIVE NON QUANTITATIVE
Scopo della statistica è quello di descrivere questi fenomeni
o di individuare regolarità di comportamento in essi.
Chi usa la statistica?
• La demografia, la sociologia, l’economia,
l’epidemiologia
• Le scienze sperimentali: la fisica, la
chimica, l’ingegnaria, la biologia, la ricerca
biomedica
Da quanto tempo esiste
la statistica?
• Inizio XVII secolo: archivi parrocchiali (statistica
demografica)
• Seconda metà del seicento osservazioni di un certo interesse (popolazione a Londra, rapporto maschi/femmine alla nascita, popolazione urbana e rurale)
• Solo nell’ottocento alla descrittiva segue una valutazione probabilistica
• E solo tra fine XIX ed inizio XX secolo fioriscono teorie e tecniche per l’analisi dei dati
• Computer permettono la gestioni di numerosissimi dati
Da quanto tempo esiste la statistica?• 1494 Luca Pacioli formula nel suo libro Summa de
arithmetica, geometria, proportioni et proportionalità il quesito noto come il problema dei punti(o delle parti),
• Scommesse nel gioco della palla
(ripartizione quote)
• 1539: Girolamo Cardano dimostra l'errata
argomentazione di Pacioli nel problema dei punti
• 1564: Girolamo Cardano scrive Liber de ludo aleae, una
guida pratica per giocatori d'azzardo, contenti alcune
considerazioni teoriche fondamentali. Tale libro venne
pubblicato postumo nel 1663.
• 1613-1623: Galileo Galilei scrive il saggio Sopra le
scoperte dei dadi
• 1654: in uno scambio epistolare tra Blaise Pascal e
Pierre de Fermat vengono gettate le basi della moderna
teoria delle probabilità analizzando il cosiddetto
problema dei punti
• 1657: Christiaan Huygens pubblica De ratiociniis de ludo
aleae, il primo libro sulla teoria delle probabilità (ripreso
e commentato da Jakob Bernoulli in Ars conjectandi
(pubblicato postumo nel 1713).
• 1663: pubblicazione postuma del Liber de ludo aleae di
Girolamo Cardano
• 1854: il medico britannico John Snow riesce a
far prendere misure di igiene pubblica salvando
centinaia di vite dal colera, grazie ad uno tra i
primissimi studi epidemiologi, malgrado fosse
innovativo ed inusuale per quei tempi tale
approccio.
• 1879: Luigi Perozzo introduce uno
stereogramma rappresentante la piramide
tridimensionale della popolazione a partire dei
dati dei censimenti svedesi 1750-1875.
• 1885: viene fondato l'Istituto Internazionale di
Statistica.
• 1935
– Ronald Fisher introduce in The Design of Experiments la regola che gli
esperimenti devono essere programmati (disegnati) prima di essere
effettuati, affinché i test statistici possano avere una loro validità. In
questo ambito introdusse i concetti di ipotesi nulla (H0) e ipotesi
sperimentale (H1). Afferma (e si tratta di una grande novità in ambito del
metodo scientifico) che nessuna ricerca sperimentale poteva dimostrare
l'ipotesi sperimentale, ma solo "accettare" o "respingere" l'ipotesi nulla,
anche se effettuare tanti esperimenti in cui si rigettava l'ipotesi nulla
aumentava la credibilità che l'ipotesi sperimentale fosse vera.
– 12 settembre: Harold Hotelling tratta a Ann Arbor davanti alla American
Mathematical Society e l'istituto per statistica matematica il tema
"Relations between two sets of variates" (pubblicato nel 1936 in
Biometrika), fondando così il metodo multivariato noto come analisi
della correlazione canonica. Lo stesso anno pubblica "The most
predictable criterion", che pone anch'esso le fondamenta per questo
metodo.
– Alexander Craig Aitken con On Least Squares and Linear Combinations
of Observations introduce la notazione matriciale per il modello di
regressione lineare e lo stimatore per i minimi quadrati generalizzati nel
caso di matrice delle covarianze degli errori non standard
• 1936
– George Gallup ottiene grande notorietà prevedendo
correttamente il risultato delle elezioni presidenziali intervistando
soltanto 50 mila persone, mentre l'allora molto quotato Literary
Digest sbagliò clamorosamente la previsione pur avendo
intervistato molte più persone.
• 1938
– il fisico Frank Benford analizzò raccolte di numeri formulando la
legge di Benford già scoperta nel 1881 dal matematico e
astronomo Simon Newcomb e descritta in "American Journal of
Mathematics".
• 1939
– Vladimir Smirnov costruisce il test di Kolmogorov-Smirnov
– La Società Italiana di Statistica viene fondata il 15 gennaio 1939.
– Robert Tryon introduce il termine cluster analysis
• 1942
– Alexander Craig Aitken e H. Silverstone pubblicano On the
Estimation of Statistical Parameters dove sviluppando idee di
Ronald Fisher derivano un caso particolare di quella che oggi è
nota come disuguaglianza di Cramér-Rao
• 1948
– Viene pubblicato l'esito di una ricerca sull'uso della streptomicina
per la cura della tubercolosi che ha fatto uso del primo
esperimento clinico randomizzato, progettato da Austin Bradford
Hill.
• 1949
– George Kingsley Zipf (1902-1950), linguista e filologo
statunitense dopo aver studiato per diverse lingue la frequenza
con la quale compaiono le parole, proponendo in "Human
Behaviour and the Principle of Least-Effort" una relazione oggi
nota come legge di Zipf.
Sapere che cosa è e a che cosa serve la
statistica non vuole però dire
…………..
conoscere e saper usare la statistica
Statistica
• La Statistica è la disciplina che si
occupa dell’analisi in termini
quantitativi di fenomeni collettivi, cioè di
fenomeni che richiedono l’osservazione di
un insieme di fenomeni individuali (es:
reddito dei residenti in una certa regione,
consumo di un determinato bene in un
certo periodo di tempo).
Statistica • La statistica può essere d’aiuto per
descrivere dati, progettare esperimenti e
verificare ipotesi
È utile per rispondere a domande quali
”Se le mie idee vengono contestate, sarò
in grado di difenderle”
La statistica non è in grado di provare nulla.
Evidenzia la misura in cui i risultati possono
essere il prodotto di casualità
Limiti della statistica
• La statistica non è in grado di provare
nulla
• Serve solo a comprendere in quale misura
i risultati di una ricerca non siano il
prodotto della casualità
Ottenendo conclusioni errate
• Sono state fatte revisioni della letteratura e
sono stati evidenziati numerosi errori
grossolani
– Errori nel disegno sperimentale
– Mancanza di un gruppo controllo
– Errata scelta di test di ipotesi
– Assegnazione non casuale dei trattamenti ai
diversi soggetti
– ecc
Perché la statistica è necessaria
• Per saper leggere, comprendere,
analizzare un articolo
Per stabilire la rilevanza delle affermazioni
fatte da un autore
La maggior parte dei lettori da per certo che
quando un articolo compare su una rivista
questo sia stato valutato in ogni aspetto
compreso l’uso della statistica
È necessario che
I metodi statistici utilizzati nell’analisi dei dati
sperimentali
Devono essere ben conosciuti sia da lettori
intelligenti che da ricercatori intelligenti
• Una raccolta di dati non corretta, una
loro presentazione inadeguata o
un’analisi statistica non appropriata
rendono impossibile la verifica dei
risultati da parte di altri studiosi e il
confronto con altre ricerche e analisi
del settore.
• Statistica descrittiva (I parte del corso):
si occupa dell’analisi di un
fenomeno relativo a un certo gruppo di
soggetti (popolazione) sulla base di una
rilevazione completa delle informazioni
(censimento). Tali informazioni vengono
sintetizzate tramite opportuni indici
statistici (es: reddito medio dei residenti in
una certa regione).
STATISTICA DECRITTIVA
Statistica matematica
• 2 - La statistica matematica presenta le
distribuzioni teoriche sia per misure
discrete sia per misure continue, allo
scopo di illustrarne le caratteristiche
fondamentali, le relazioni che esistono tra
esse, gli usi possibili;
Statistica Inferenziale• Inferenza statistica (II parte del corso):
si basa su informazioni relative a un
• campione di soggetti estratto dalla
popolazione in esame.
• Tramite opportune tecniche inferenziali si
traggono delle conclusioni sulla
popolazione
• (es: si stima il reddito medio dei residenti
in una certa regione con il reddito medio di
un campione di questi soggetti).
Tutto ciò in termini di ricerca si
ritrova nei lavori scientifici che
riportano le varie “scoperte” o i
“nuovi risultati”
• Al fine di facilitare ai lettori la corretta
comprensione dei risultati, per pubblicare
una ricerca le riviste internazionali e quelle
di maggior prestigio richiedono
tassativamente agli autori di seguire uno
schema preciso che, in linea di massima,
è fondato sullo sviluppo di quattro fasi.
• 1) Una introduzione, che presenti in
modo accurato sia l'argomento
affrontato, sia le finalità della ricerca,
mediante citazione dei lavori scientifici
pregressi e della letteratura specifica.
• 2) La descrizione di materiali e metodi,
nella quale devono essere definiti:• a) il tipo di scala utilizzato;
• b) le modalità del campionamento o di raccolta dei
dati;
• c) le misure sintetiche delle caratteristiche più importanti
della distribuzione dei dati, come media e varianza
(più raramente simmetria, curtosi e coefficiente di
variazione).
Spesso, soprattutto per argomenti nuovi o quando
siano stati pubblicati solo pochi dati, è prassi
richiedere la distribuzione tabellare completa e
dettagliata. Per relazioni scientifiche che non
abbiano solo un carattere divulgativo, le tabelle e
le distribuzioni di frequenze sono da preferire alle
rappresentazioni grafiche. Infatti queste ultime
raramente permettono di risalire ai dati originari,
che sono indispensabili per la verifica dei calcoli e
quindi una valutazione più dettagliata delle
conclusioni raggiunte.
• 3) I risultati, che devono comprendere
espressamente la citazione dei test di inferenza
utilizzati, allo scopo di permettere alla comunità
scientifica di valutare se la loro scelta è appropriata, cioè
se sono in rapporto corretto con
• a) le ipotesi che si intendono verificare,
• b) il tipo di scala con cui sono state misurate le variabili
analizzate,
• c) le caratteristiche statistiche della distribuzione dei dati.
• 4) La discussione, che deve riportare l’interpretazione
dei risultati ottenuti con i test applicati e infine eventuali
confronti con analisi già pubblicate.
• L’interpretazione deve non solo comprendere l’analisi
statistica, ma essere estesa al significato ecologico,
ambientale o biologico dei risultati ottenuti. Non
sempre un risultato statisticamente rilevante assume
anche un significato importante nella disciplina specifica
• Per impostare correttamente una ricerca, per
formulare ipotesi scientificamente valide, per
raccogliere e analizzare i dati, infine per interpretarne i
risultati, non è possibile scindere le analisi statistiche
dalla loro interpretazione disciplinare.
PER OTTENERE QUESTO
• Per condurre in modo corretto una ricerca scientifica,
cioè per raccogliere un campione con un numero
sufficiente di dati, tenendo in considerazione sia le
condizioni esistenti nella popolazione, sia la successiva
applicazione dei test, occorre seguire alcuni passaggi
metodologici, riassumibili in 4 fasi:
• - il disegno sperimentale,
• - il campionamento,
• - la descrizione statistica,
• - la scelta dei test per l’inferenza.
Disegno sperimentale• 1 - Il disegno sperimentale è necessario per scegliere e
programmare le osservazioni in natura e le ripetizioni in
laboratorio, in funzione della ricerca e delle ipotesi esplicative. Già
nella prima fase della ricerca, chiamata con termine tecnico appunto
“disegno sperimentale” (programmazione dell’esperimento),
occorre avere chiara la formulazione dell'ipotesi che si intende
verificare.
• Raccogliere i dati prima di aver chiaramente espresso le finalità
della ricerca conduce spesso ad analisi non adeguate e quindi a
risultati poco attendibili.
• Con la formulazione dell’ipotesi, si deve rispondere alle domande:
• - “Le eventuali differenze riscontrate tra due o più gruppi di dati,
oppure di una serie di osservazioni con quanto è atteso, possono
essere imputabili a fattori causali specifici o solamente a fattori
casuali ignoti?
• - Le differenze riscontrate sono generate dalla naturale variabilità
delle misure e del materiale utilizzato oppure più probabilmente
esiste una causa specifica che le ha determinate?”
• Per condurre in modo corretto una ricerca scientifica,
cioè per raccogliere un campione con un numero
sufficiente di dati, tenendo in considerazione sia le
condizioni esistenti nella popolazione, sia la successiva
applicazione dei test, occorre seguire alcuni passaggi
metodologici, riassumibili in 4 fasi:
• - il disegno sperimentale,
• - il campionamento,
• - la descrizione statistica,
• - la scelta dei test per l’inferenza.
Campionamento
• 2 - Il campionamento permette di raccogliere i dati in
funzione dello scopo della ricerca, rispettando le
caratteristiche della popolazione o universo dei dati.
• Uno dei problemi fondamentali della statistica è
come raccogliere solamente un numero limitato di
dati (per motivi economici, di tempo, di oggetti
effettivamente disponibili, cioè per limiti oggettivi che
quasi sempre esistono in qualsiasi ricerca sperimentale),
ma attraverso la loro analisi pervenire ugualmente a
conclusioni generali, che possano essere estese a
tutta la popolazione.
• Per condurre in modo corretto una ricerca scientifica,
cioè per raccogliere un campione con un numero
sufficiente di dati, tenendo in considerazione sia le
condizioni esistenti nella popolazione, sia la successiva
applicazione dei test, occorre seguire alcuni passaggi
metodologici, riassumibili in 4 fasi:
• - il disegno sperimentale,
• - il campionamento,
• - la descrizione statistica,
• - la scelta dei test per l’inferenza.
Descrizione statistica
• 3 - La descrizione delle caratteristiche
statistiche dell’insieme dei dati raccolti
deve permettere a tutti di verificare sia
l'adeguatezza del disegno sperimentale e
del campionamento, sia la correttezza
delle analisi attuate e dei risultati ottenuti.
• Per condurre in modo corretto una ricerca scientifica,
cioè per raccogliere un campione con un numero
sufficiente di dati, tenendo in considerazione sia le
condizioni esistenti nella popolazione, sia la successiva
applicazione dei test, occorre seguire alcuni passaggi
metodologici, riassumibili in 4 fasi:
• - il disegno sperimentale,
• - il campionamento,
• - la descrizione statistica,
• - la scelta dei test per l’inferenza.
Test per l’inferenza• 4 - I test devono essere già programmati nella fase del
disegno sperimentale, poiché è da essi che dipende il
tipo di campionamento.
• Il test è un processo logico-matematico che porta alla
conclusione di non poter respingere oppure mdi poter
respingere l'ipotesi della casualità, mediante il calcolo
di probabilità specifiche di commettere un errore con
queste affermazioni.
• L’ipotesi che il risultato ottenuto con i dati sperimentali
raccolti sia dovuto solo al caso è chiamata ipotesi nulla
e è indicata con H0. Di norma, con essa si afferma che
le differenze tra due o più gruppi, quelle tra un gruppo e il
valore atteso oppure le tendenze riscontrate siano
imputabili essenzialmente al caso.