APPUNTI di EPIDEMIOLOGIA e BIOSTATISTICA · APPUNTI di EPIDEMIOLOGIA e BIOSTATISTICA Prof. Claudio Clini ... Malattie infettive (colera, febbre puerperale, ecc.) Malattie non trasmissibili

Università degli Studi di Roma "Tor Vergata"

Facoltà di Medicina e Chirurgia

Corso di laurea specialistica in Biotecnologie Mediche A.A. 2010/2011

APPUNTI di EPIDEMIOLOGIA e BIOSTATISTICA

Prof. Claudio Clini

www.slidetube.it

EPIDEMIOLOGIA = EPI-DEMOS-LOGOS

STUDIO delle MALATTIE su una POPOLAZIONE

• chi sono sono le persone ammalate?

• quali differenze rispetto ai non ammalati?

• dove la malattia si presenta con maggiore frequenza?

• qual è l’evoluzione temporale della malattia?

www.slidetube.it

ALCUNE DEFINIZIONI di EPIDEMIOLOGIA

1927 – La scienza che studia gli episodi di infezioni di massa (Frost)

1958 – La scienza che studia la distribuzione di una malattia, o di una particolare condizione, in una popolazione e deifattori che la influenzano (Lilienfield)

1970 – La scienza che studia i fattori che determinano la comparsa delle malattie nelle popolazioni umane (Fox)

www.slidetube.it

Evoluzione dell’epidemiologia

1850-1950: Approccio descrittivo

Malattie infettive (colera, febbre puerperale, ecc.)

Malattie non trasmissibili (pellagra, ecc.)

Malattie croniche (malattie cardiovascolari, tumori, ecc.)

1950-2000: Approccio deterministico

“tutti gli esposti diventano casi e tutti i casi sono dovuti a quel fattore”

Approccio probabilistico:

“la causa non è più evento necessario e sufficiente”

2000-oggi: Epidemiologia genetica

studi epidemiologici molecolari mirati a misurare l'esposizione a sostanze specifiche

(addotti DNA) e la risposta biologica (mutazioni somatiche), valutazione delle

caratteristiche (genotipo e fenotipo) agli agenti esterni, marcatori di un effetto specifico

(come espressione genica). Valutazione epidemiologica delle cause ereditarie della malattia,

mirata ad individuare il modello di ereditarietà, localizzare il gene e trovare marker

associato alla suscettibilità alla malattia.

www.slidetube.it

Studio epidemiologico del 1854 (John Snow, Londra 1854)

Fonte dell’ acqua:

Soutwork Co. (1)

Lambeth Co (2).

Others companies (3)

Numero abitanti serviti dalle fonti idriche:

(1): 40.016

(2): 26.107

(3): 256.423

Decessi per colera:

(1): 1.263

(2): 98

(3): 1.422

Morti per 10.000 abitanti

(1): 315

(2): 37

(3): 59

www.slidetube.it

Preliminary Study Research Assessment :

cancer epidemiology by Claudio Clini

www.slidetube.it

STRUTTURA di UN’INDAGINE EPIDEMIOLOGICA

Parte descrittiva:a) definizione del fenomeno oggetto di studiob) quantificazione (misure di insorgenza)c) evoluzione (nel tempo e nello spazio)

Parte analitica:a) formulazione di ipotesi eziologiche su fattori causali e modalità di trasmissione (misure di associazione)b) impostazione ed esecuzione di studi analiticic) analisi dei datid) interpretazione dei risultati

Parte operativa:a) indicazioni d’ intervento e valutazioni delle loro conseguenzeb) stime d’ impatto a livello di popolazione generale

www.slidetube.it

UTILIZZO delle METODOLOGIE STATISTICHE

• popolazione di riferimento e dimensione del campione

• misure di occorrenza e di associazione

• analisi dei risultati (test di significatività e/o intervalli di confidenza)

• individuazione e correzione di possibili bias

www.slidetube.it

STUDI EPIDEMIOLOGI

STUDI SPERIMENTALI -Sperimentazioni cliniche-Sperimentazioni di comunità

STUDI OSSERVAZIONALI-Studi trasversali-Studi prospettici -Studi retrospettivi

www.slidetube.it

STUDI SPERIMENTALI

SPERIMENTAZIONE CLINICA CONTROLLATA:

A)TERAPEUTICO (su soggetti malati)

A)PREVENTIVO (su soggetti sani)

www.slidetube.it

STUDI OSSERVAZIONALI

Studi trasversali (cross-sectional; prevalence study):misurano la prevalenza di una determinata condizione (malattia) in unadeterminata popolazione ( o campione di essa)

Studi prospettici:seguono nel tempo (da T0 a Tn) gruppi di popolazione per verificare se l’esposizione o meno ad un certo fattore di rischio, si manifesterà o menouna differenza (statisticamente significativa) nell’ incidenza futura di unaspecifica condizione morbosa (malattia).

Studi retrospettivi:Analizzano gruppi di popolazione sulla base di osservazioni di eventi e/ocorrelazioni già avvenute

www.slidetube.it

ALCUNE MODALITA’ di EFFETTUAZIONE di STUDI EPIDEMIOLOGICI

STUDI DI COORTE:il punto di partenza è l’ esposizione (causa) e si seguono nel tempo isoggetti per verificare se la frequenza di malattia (effetto) è influenzatadalle differenti modalità di esposizione (gradiente)

STUDI CASO CONTROLLO:Il punto di partenza è un determinato evento e si confrontano soggetti(caso) esposti a un determinante con soggetti non esposti (controllo) perverificare l’effetto della esposizione sull’evento

www.slidetube.it

matrice di numeri caratterizzata dal fatto che il valore alla colonna y-esima della riga x-esima è dato da y*x

1 2 3 4 5 6 7 8 9 10

2 4 6 8 10 12 14 16 18 20

3 6 9 12 15 18 21 24 27 30

4 8 12 16 20 24 28 32 36 40

5 10 15 20 25 30 35 40 45 50

6 12 18 24 30 36 42 48 54 60

7 14 21 28 35 42 49 56 63 70

8 16 24 32 40 48 56 64 72 80

9 18 27 36 45 54 63 72 81 90

10 20 30 40 50 60 70 80 90 100

1 2 3 4 5 6 7 8 9 10

www.slidetube.it

www.slidetube.it

100

81 90

64 72 80

49 56 63 70

36 42 48 54 60

25 30 35 40 45 50

16 20 24 28 32 36 40

9 12 15 18 21 24 27 30

4 6 8 10 12 14 16 18 20

1 2 3 4 5 6 7 8 9 10

www.slidetube.it

MISURE di FREQUENZA

PROBABILITÀ:

è il rapporto tra gli eventi osservati nell’intervallo di tempo t0 a t1 e il

numero di soggetti esposti al tempo to.

P(t1-t0) = E (t1-t0)/Nt0

N= numero soggetti esposti

E= numero eventi osservati

P= probabilità che i soggetti esposti sviluppino un determinato evento nel

tempo

N.B.

La formula della probabilità presuppone che Nt1–Nt0 = E (t1-t0) oppure che E

(t0-t1) sia diverso da 0

www.slidetube.it

www.slidetube.it

MISURE di POSIZIONE o di TENDENZA CENTRALE

MediaLa media di una distribuzione è il suo “centro di gravità” indifferenze delladistribuzione delle osservazioni

= x1+x2+…xn/N

MedianaRappresenta un valore maggiore della metà delle osservazioni e minore dellametà o meno delle osservazioni

ModaRappresenta il valore che appare con maggiore frequenza nell’insieme dei dati

Media>Mediana :assimetria positivaMedia=mediana=moda:simmetriaMedia<Mediana:assimetria negativa

www.slidetube.it

MISURE di DISPERSIONE

rappresentano la dispersione dei dati (in + o in -) intorno alla media.

VarianzaÈ il rapporto tra il valore della somma dei quadrati degli scostamenti dalla mediae il numero delle osservazioni

V= ( x1+x2+…xn/ )º /N-1

Deviazione Standart

è la radice quadrata della varianza, ossia della media dei quadrati degli

scostamenti dalla media

√ ( x1+x2+…xn/ )º /N-1

www.slidetube.it

MISURE di FREQUENZA

TASSO

è il rapporto tra numero di eventi e popolazione in un periodo di

tempo definito

T(t1-t0)= E(t1-t0)/ (Nt0+Nt1)/2

T=tasso

N= numero soggetti esposti

E= numero eventi osservati

www.slidetube.it

ERRORE di PRIMO e SECONDO tipo

www.slidetube.it

Errore standard di un tassoE’ un indice del grado di precisione con cui il tasso determinato su un campione stima iltasso esistente nella popolazione.Per N > 100 l’errore standard di un tasso è dato da:

Es(T)=√(T/P)*K

Es(T)= errore standart di un tassoP= popolazioneK= costante moltiplicativa

Limiti fiduciali di un tassoSono i limiti dentro i quali si può affermare, con una data probabilità di errore, che ècompreso il tasso “vero” della popolazione.

Limite superiore T+ Es(T)Limiti fiduciali al 95%

Limite inferiore T- Es(T)

www.slidetube.it

Limiti fiduciali di un tasso

Il valore vero di una popolazione è incluso in un intervallo di confidenza la cui

ampiezza dipende dall’errore standard e dal livello di fiducia prescelto. Per

costruire intervalli di confidenza al 95% (scelta più comune) ed escludendo il

2,5% nelle aree di coda della distribuzione si ha il valore del limite è uguale a

+ / – 1,96.

Limite superiore T+ 1.96 E.S (T)

Limiti fiduciali al 95%

Limite inferiore T- 1.96 E.S (T)

Sono i limiti dentro i quali si può affermare, con una data probabilità di errore,

che è compreso il tasso “vero” della popolazione.

www.slidetube.it

MISURE di FREQUENZA

Incidenza :numero di nuovi casi in un dato periodo di tempo in una determinata popolazione

Le popolazioni a cui di riferimento possono essere:•chiuse •dinamiche

Le misure di incidenza sono di due tipi:•incidenza cumulativa (rischio o probabilità)•densità di incidenza (tasso di incidenza)

www.slidetube.it

Popolazione chiusa:è una popolazione i cui soggetti vengono seguiti per tutto il periodo di osservazione e non presenta nè ingressi nè uscite durante il follow-up.In una popolazione chiusa è valido il calcolo dell’incidenza cumulativa

Incidenza cumulativa :È il rapporto tra il numero dei nuovi casi in un dato periodo di tempo e ilnumero totale dei soggetti al tempo t1:

CI (t1-t0) = n(t1-t0)/Nt1

CI=incidenza cumulativaN=soggetti al tempo t1

n=nuovi casi nel tempo da t0 a t1

Il valore di CI varia perciò tra 0 e 1

www.slidetube.it

Popolazione dinamica:è una popolazione che varia durante il tempo di osservazione sia perchè nuovisoggetti possono entrare nella popolazione sia perchè dei soggetti possonoessere persi durante il follow-up. Per una popolazione dinamica si puòcalcolare solo la densità di incidenza

Densità di incidenza È rapporto tra numero di nuovi casi insorti nella popolazione nell’intervallo ditempo e il numero degli individui osservati per la durata del tempo.

DI=(E/(Ni*di)

E = eventi nel periodo di osservazionedi = durata del tempo i-esimoNi = individui osservati per la durata del tempo i

www.slidetube.it

MISURE di FREQUENZA

Prevalenzanumero di casi presenti in un dato tempo / totale della popolazione

Pr=n/N

La prevalenza dipende dalla comparsa di nuovi casi e/o dalla scomparsadi casi presenti.

Pr I*d

Dove d indica la durata della presenza di un casoLa prevalenza varia direttamente con l’incidenza e la durata mediadelle malattie. Se I e d sono costanti nel tempo si ha che:

Pr=I*d

www.slidetube.it

CALCOLO RISCHIO INDIVIDUALE per una DETERMINATA PATOLOGIA CORRELATO

alla PRESENZA o MENO di ULTERIORI PATOLOGIE, dalla FAMILIARITÀ, dalla PRESENZA

di MUTAZIONI GENETICHE RILEVATE e da RISCHI INDIVIDUALI(Clini ed altri 2010)

Ri = [( Pa1+Pa2+…Pan)] [E/n+( Ip1+Ip2+…Ipn)]+Rf+Rg+Ri

Ri (Rischio individuale) = 0≥Ri<5

Pa (tipo di patologia correlata) = 0≥Pa<5

E (età) = 0≥E<5 E Pa

N somma delle patologie rilevate

Ip (intereazione tra le patologie rilevate) = Pa1,2,3+Pan/n

Rf (rischio derivato da familiarità) = 0≥Rf<5

Rg rischio derivato da mutazioni genetiche patogene = 0≥Rg<5

Rc (rischio comportamentale, ambientale) = 0≥Rc<5

0≥Ri≤15 = basso rischio

15≥Ri≤30 = medio rischio

30≥Ri = alto rischio

www.slidetube.it

RICERCA EPIDEMIOLOGICA

OBIETTIVI:

Descrivere frequenza e distribuzione di un evento in una popolazione;Descrivere la distribuzione, nella stessa popolazione, di fattori predittivi dell’evento inesame;Valutare l’associazione tra l’evento e i fattori predittivi.

I METODI UTILIZZATI:

Dati già esistenti (certificati di morte, cartelle cliniche etc). Il limite è nell’accuratezzadei dati;Indagini ad hoc (ad esempio sullo stato di salute di una popolazione).

NB:L’EVENTO può essere una malattia, una variabile fisiologica, una mutazione genetica, un dato clinico etc.etc. Deve essere sempre definito in modo accurato, prerequisito essenziale per ogni indagineepidemiologica.

www.slidetube.it

UTILIZZO dei DATI:

Sorveglianza sanitaria di una popolazione;Descrizione dello stato di salute di una popolazione;Formulazione di ipotesi (ad esempio sul ruolo svolto da fattori che presentanouna distribuzione analoga all’evento osservato). Ipotesi poi verificabili attraversostudi analitici.

Raccolta dati

Analisi dei dati

Formulazione ipotesi (costruzione modello)

Verifica dell’ipotesi (studi analitici)

www.slidetube.it

ANALISI dei DATI:

a)Frequenza dell’evento (incidenza, prevalenza, tasso, probabilità)

b)Distribuzione dell’evento (misure di dispersione e di tendenza centrale)

c)Temporalità (orientamento dei dati definendone il trend a lungo o breve termine o

secondo fluttuazioni periodiche)

Esempio:

Nell’analisi dei dati riferiti a un evento specifico come lo è una specifica malattia, le principali

caratteristiche epidemiologiche che occorre analizzare sono :

•Caratteristiche individuali (età, fattori genetici, ambientali, lavorativi etc.)

•Sesso (differenze nella mortalità e nella frequenza delle malattie, fattori genetici, aspetti

comportamentali e sociali etc.)

•Etnia (condivisione di caratteristiche genetiche e/o ambientali)

•Classe sociale (stratificazione della popolazione in sottogruppi definiti dal diverso grado di

istruzione e disponibilità economica)

•Lavoro (rapporto tra condizione lavorativa e sviluppo di malattia)

www.slidetube.it

QUALITÀ dei DATI:

La qualità delle osservazioni e delle misure utilizzate nelle ricerche

epidemiologiche è uno dei determinanti principali della validità della ricerca

stessa. La qualità dei dati è caratterizzata dalla loro VALIDITÀ (sensibilità e

specificità, ovvero grado dell’accordo tra la misura o l’osservazione dell’evento e

il valore “vero” dell’evento stesso) e/o RIPRODUCIBILITÀ (grado di

concordanza tra misure ripetute dello stesso evento).

La validità è caratterizzata dalla sensibilità e dalla specificità.

La riproducibilità è caratterizzata dalla variabilità individuale (biologica) e dalla

variabilità dell’osservatore.

In una ricerca epidemiologica la stima della validità e della riproducibilità delle

misure effettuate è necessaria al fine dell’accettabilità o meno delle conclusioni

dello studio.

www.slidetube.it

Esempi:a)Sensibilità e specificità delle glicosuria nell’individuazione di soggetti diabetici rispetto alla OGTT (curva

da carico di glucosio):

La sensibilità è l’individuazione di una proporzione dei casi “veri”. Quindi dalla tabella la sensibilità è data

dalla proporzione dei casi classificati come diabetici sul totale dei diabetici: 12/46 = 0,26 (26%);

La specificità descrive la capacità di identificare i casi negativi. Quindi dalla tabella la specificità è data

dalla proporzione dei casi negativi nella popolazione classificata come non diabetici sul totale dei non

diabetici: 432/479 = 0,90 (90%)

Dalla tabella possiamo ricavare la PREVALENZA OSSERVATA, pari a 59/525 = 0,11. Inoltre possiamo

stimare la PREVALENZA VERA data dal rapporto tra la prevalenza osservata-1-specificità e la somma della

sensibilità+specificità-1 : 0,11-(1-0,90)/0,26+0,90-1) = 0,37.

Infine è possibile stimare il VALORE PREDITTIVO +/-. Nell’esempio se i 525 soggetto fossero un campione

significativo di una popolazione, il VP + è dato da 12/59 = 20,5% (vale adire che un soggetto + al test ha

una probabilità su 5 di essere diabetico. Il VP-, a sua volta, è dato da 432/466= 92,7% (vale a dire che un

soggetto non diabetico negativo al test ha 1 probabilità su 1,7 di non essere diabetico) .

diabetici non diabetici totale

+12 +47 59

-34 -432 466

46 479 525

www.slidetube.it

b) Variabilità tra osservatori nella lettura di cartelle cliniche in relazione alla presenza o meno di isterectomia

durante uno studio caso-controllo di cancro alla mammella.

Il due osservatori arrivano alle stesse conclusioni sulla presenza (56) e assenza (31) di isterectomia e in

disaccordo sulla presenza (6) e assenza (9) di isterectomia.

La CONCORDANZA COMPLESSIVA data dal rapporto tra i casi concordanti e la totalità della popolazione.

Quindi: (56+31)/102 = 0,85 (85%).

LA CONCORDANZA sui POSITIVI è data dal rapporto tra i positivi concordanti e questi + la somma dei

discordanti/2. Quindi: 56/56+(6+9/2) = 0,88 (88%)

LA CONCORDANZA sui NEGATIVI è data da rapporto tra i negativi (31) e questi + la somma dei

discordanti/2. Quindi: 31/31+(6+9/2) = 0,80 (80%)

1osservatore

2 osservatore

56 6 62

9 31 40

65 37 102

www.slidetube.it

DEFINIZIONE dello STUDIO1.STUDI ANALITICI:

Gli studi analitici hanno lo scopo di indagare cause e fattori di rischio delle malattie,

analizzando singoli individui o gruppi ristretti. La progettazione della ricerca attiene

la definizione del “modello biologico” che la ricerca intende valutare. E’ necessario

scegliere le variabili che si possono osservare e misurare, necessarie alla raccolta di

informazioni sufficienti a testare le ipotesi poste nel modello biologico.

2. STUDI di CORRELAZIONE:

In questo tipo di studi si mettono in relazione la distribuzione di uno o più fattori di

rischio e una patologia. Non è possibile verificare le relazioni a livello individuale,

ma solo di gruppo. In genere sono usati per proporre nuove linee di ricerca e

richiedono sempre una verifica da parte di altri studi.

3. STUDI SPERIMENTALI:

Lo studio sperimentale è un’indagine, che può essere condotta sia in campo che in

laboratorio, e permette di confrontare 2 o più gruppi di individui riguardo all’esito di

trattamenti diversi.

4. STUDI OSSERVAZIONALI

Gli studi osservazionali si pongono l’obiettivo di fotografare in un dato tempo le

dimensioni di parametri definiti, in un gruppo di soggetti selezionati in funzione di

ampi criteri di inclusione.www.slidetube.it

IL CAMPIONAMENTO

• Dimensione del campione

Molte indagini sono di dimensioni minori di quelle necessarie agli scopi prefissati.Per prevenire ciò è necessario stabilire la dimensione del campione in terministatistici.

• Metodo di campionamento

Il campione può essere scelto casualmente (random). Può accadere che il ricercatorevoglia che alcune caratteristiche siano comunque rappresentate nel campione (es.ambo i sessi, classi di età). In tal caso si campiona stratificando per la caratteristicadi interesse.

Tipi di

campionamento

Semplice

Sistematico

Stratificato

A più stadi

www.slidetube.it

www.slidetube.it

www.slidetube.it

www.slidetube.it

www.slidetube.it

ERRORI NELLE RICERCHE EPIDEMIOLOGICHE

ERRORI RANDOM:

errori imprevisti, fluttuazioni statistiche della variabile misurata, dovute a

imprecisioni implicite nel sistema di misurazione e/o nel sistema di

campionamento.ERRORI SISTEMATICI (BIAS = PREGIUDIZIO): errori dovuti a una causaprecisa, che possono in alcuni casi essere previsti e riconosciuti. In senso lato, sidefinisce bias qualunque fattore che può alterare la validità dei risultati di unaricerca distorsione).•Sampling bias : sono tutti i tipi di errore sistematico per cui il campione nonrappresenta veramente in maniera random la popolazione di origine•Assignment bias:•origina nel processo di assegnazione random all’uno o all’altro campione in unstudio di tipo RCT.•Estimator bias: origina da errori sistematici nella misurazione dell’outcome e/odell’esposizione.

•Cognitive bias: dovuti all’effetto dell’osservatore e dei suoi specifici punti di vista

sulla esecuzione della ricerca e sulla valutazione dei risultati

•Confirmation bias: deriva dalla tendenza a cercare o a interpretare le

informazioni in modo che confermino i nostri preconcetti. E’ un tipo di bias

cognitivo che crea una tendenza favorevole alla conferma dell’ipotesi sotto studio.

•Publication bias: tendenza delle riviste scientifiche a pubblicare studi con esiti

positivi, mentre studi negativi assai difficilmente sono pubblicati o reperibili.www.slidetube.it

Un fattore estraneo capace di influenzare l’outcome, il cui effetto viene confuso con

quello della variabile indipendente (esposizione) viene chiamato FATTORE

CONFONDENTE

esposizione malattia

associato all’esposizione

fattore di rischio per malattia

fattore confondente

www.slidetube.it

Esempio: Il consumo frequente di birra è associato al fumo di sigaretta.

Vogliamo studiare se il consumo frequente di birra può essere causa di ulcera peptica. Problema: Il

fumo di sigaretta è un fattore di confusione nello studio della relazione causale fra consumo di birra

e ulcera peptica? I fumatori che non bevono birra hanno un tasso di ulcera peptica maggiore dei

non fumatori. Quindi il fumo di sigaretta è un fattore di rischio indipendente per ulcera peptica, e

può essere fattore confondente (modificatore d’effetto) nello studio sul rapporto fra consumo di birra

e ulcera.

Consumo di birra Ulcera peptica

Fumo di sigaretta

Fattori confondenti

www.slidetube.it

Esempio: Il consumo frequente di birra è associato al consumo frequente di pizza. Vogliamo

studiare se il consumo frequente di birra può essere causa di cirrosi epatica.

Problema: Il consumo di pizza è un fattore di confusione nello studio della relazione causale fra

consumo di birra e cirrosi

Il consumo di pizza sarebbe un fattore confondente se fosse fattore di rischio per cirrosi nei non

bevitori di birra, cosa che probabilmente non è vera! Un fattore confondente deve avere un

effetto sull’outcome o malattia nel gruppo non esposto per essere considerato tale.

Consumo di birra cirrosi

Consumo di pizza

Fattori confondenti

www.slidetube.it

Validità dei risultati

• Specificità

• Forza dell’associazione:

• Incremento e decremento del cambiamento

• Coerenza dell’associazione

• Replicabilità dei risultati

Esempi:

• Specificità: una causa specifica della TBC è il bacillus tubercolosis (Attenzione, molte patologie hanno eziologia multifattoriale).

• Forza dell’associazione: i fumatori hanno una probabilità x volte maggiore dei non fumatori di contrarre il tumore al polmone.

• Incremento e decremento del cambiamento: più è alto il numero di sigarette che sifuma e maggiore è la probabilità di soffrire di tumore al polmone

• Coerenza dell’associazione: Associazione tra l’infezione da rosolia nel primotrimestre di gravidanza e disordini congeniti del cristallino (La formazione delcristallino avviene nelle prime settimana di gravidanza, quando il cristallino èvulnerabile al virus della rosolia).

• Replicabilità dei risultati: Se lo studio viene ripetuto in un momento diverso, in unaltro posto e su altri soggetti e i risultati sono gli stessi allora la validità dellostudio è confermata.

www.slidetube.it

CRITERI BRADFORD- HILL

Sono i criteri che devono essere soddisfatti quando si vuole affermare che esisteuna relazione di causa-effetto tra la variabile E (Esposizione) e la variabile M(Malattia) piuttosto che una semplice associazione:

1. Relazione temporale: E deve avvenire prima di M

2. Forza di associazione: c’è una alta percentuale di associazionetra le due variabili

3. Relazione dose-risposta: all’aumentare di E, deve esserci unaumento confrontabile di M

4. Plausibilità biologica della relazione osservata

www.slidetube.it

STUDIO CASO-CONTROLLO

Uno studio caso-controllo è caratterizzato dal fatto che le popolazioni oggetto di

studio differiscono tra loro dal fatto che i soggetti che le compongono abbiano (casi)

o non abbiano (controllo) la malattia, o altra condizione, presa in considerazione

dallo studio. Uno studio classico di questo tipo, è stato quello condotto a Boston da

ricercatori della Harvard Medical School e pubblicato nel 1972. La ricerca nacque

dall’osservazione presso il Massachusetts General Hospital di 8 casi di cancro della

vagina diagnosticati a donne di età compresa tra i 15 e i 22 anni. Essendo questo tipo

di cancro abbastanza raro (colpisce donne anziane) la ricerca prese in considerazione

una serie di agenti e condizioni ritenute come fattori casuali della malattia. La

frequenza con cui questi fattori erano presenti nei casi (8) venne confrontata con

quella osservata in un numero 4 volte superiore di controlli. Risultò che le madri di 7

delle 8 donne, rispetto a nessuna dei controlli, avevano fatto uso durante fase

iniziale delle gravidanze, da cui sarebbero nati i casi, di un farmaco antiabortista

(DES=dietlstilbestrolo). Si stabilì così che l’esposizione al DES comportava un

rischio altissimo di sviluppare, dopo una latenza di 15-18 anni un adenocarcinoma

alla vagina.

www.slidetube.it

Questa ricerca contribuì a definire le caratteristiche che deve avere uno

studio caso-controllo, e cioè, la principale quali i RITERI di

INCLUSIONE.

È, infatti, importante definire all’inizio dello studio i criteri di inclusione

dei soggetti. Così, se si vuole studiare l’effetto di un farmaco su un gruppo

di pazienti affetti da una determina malatttia, occorre una definizione

biologica della malattia stessa. Il cancro dell’utero, ad esempio, è una

definizione poco adatta in quanto l’adenocarcinoma del corpo dell’utero e

il carcinoma acellule squamose della cervice sono entità nosologiche

distinte sotto molti aspetti, tra cui i fattori di rischio. Inoltre coccorre

procedere ad una definizione operativa, vale a dire includere solo i pazienti

che siano portatori di quella determinata patologia.

www.slidetube.it

DIMENSIONI di un CAMPIONE

La dimensione di un campione è importante perchè ci consente di poter

affermare che un incremento numerico dei soggetti oggetto di una ricerca

non cambia la stima dei parametri e consente quindi di trarre conclusioni

con margini minimi di errore.

Per definire le dimensioni di un campione bisogna scegliere inizialmente il

livello di significatività (α), generalmente posto tra 0,05 e 0,01 e può

essere a due code o a una sola coda (probabilità di commettere un errore

di 1 tipo).

Occorre poi scegliere la potenza statistica dello studio (ß), cioè di

considerare vera un’ipotesi falsa (probabilità di evitare un errore del 2

tipo). Considerando, ad esempio, una potenza statistica pari al 90%, cioè

1- ß=10%, si ha una minima possibilità di commettere un errore di tipo 2.

Da tutto ciò si deduce che la probabilità di commettere un errore di tipo 2

dipende dal valore di α (più α è piccolo, più alto sarà il valore di ß).

Una volta definiti questi valori, si stima la frequenza di un evento in una

popolazione e la dimensione di un campione (N) dipende sia dalla

varianza che dai valori di α e di ß.

www.slidetube.it

La numerosità di un campione è dunque quella che permette di ottenere

gli obiettivi dell’indagine al minimo costo e nel minor tempo. Sarà data,

quindi, dal più piccolo numero in base al quale le stime raggiungono il

livello di attendibilità desiderato dal ricercatore.

Espresso in termini pratici, e al di là delle formule matematiche

utilizzate, la dimensione di un campione deve essere tale da permettere

di identificare come "statisticamente significativa" una differenza di

effetto che sia spiegabile solo raramente da effetti casuali, ma anche tale

da poter essere effettivamente rilevata se esiste, e da poter essere

applicabile a tutta la popolazione da cui è stato estratto il campione.

Conviene ricordare che la significatività statistica è solo una stima di

quanto sia probabile che la stessa differenza possa essere osservata per

puro caso nel caso si ripetessero le stesse osservazioni, da cui la

necessità della definizione di uno e uno solo endpoint ben definito o, se

più di uno, procedere ad un adeguato incremento della numerosità

campionaria.

www.slidetube.it

Un risultato statisticamente significativo in uno studio di buona

potenza può essere privo di valore predittivo per l'applicazione alla

popolazione, se il campione non rappresenta – per aspetti demografici,

genetici, fisiopatologici – la popolazione cui si intende applicare il

risultato o se l'endpoint primario non risponde esattamente alla

domanda clinica di interesse per la popolazione considerata in queste

linee guida. Questo solo aspetto, indipendentemente dalla

significatività del risultato, causa la diversa classificazione della forza

di una evidenza esterna considerata in queste linee guida.

Tuttavia, la significatività statistica per sé non è un elemento

sufficiente a dare "forza" probante a uno studio.

Anche in questo caso il valore di "P" è elemento necessario ma non

sufficiente. Elemento altrettanto rilevante è l'intervallo di confidenza

del risultato, la sua natura, il suo peso clinico, il sospetto (o

l'evidenza) di bias

www.slidetube.it

La "potenza" di uno studio clinico è uno degli aspetti forse meno

comunemente considerati nelle discussioni ma riveste una rilevanza

notevole per la costituzione di linee guida. Tecnicamente, la "potenza" di

uno studio è la sua capacità di osservare una differenza di esito fra i due

o più gruppi al livello di significatività scelto. Quindi, una volta che lo

studio è stato concluso e la differenza è stata osservata al livello di

significatività prefissato, la questione della potenza è di minore

rilevanza. Tuttavia, la potenza può anche essere definita come la

percentuale di studi condotti su campioni indipendenti estratti dalla

stessa popolazione che darà una differenza statisticamente significativa

se l'effetto del trattamento è vero. Estendendo questa definizione fino a

comprendere, negli n campioni estratti indipendentemente dalla

popolazione, tutta la popolazione, allora la potenza dello studio è una

stima, per quanto grossolana, della proporzione di popolazione che può

"rispondere" al trattamento come si è visto nello studio purché il

campione sia davvero rappresentativo della popolazione stessa.

www.slidetube.it

Documents

APPUNTI di EPIDEMIOLOGIA e BIOSTATISTICA · APPUNTI di EPIDEMIOLOGIA e BIOSTATISTICA Prof. Claudio Clini ... Malattie infettive (colera, febbre puerperale, ecc.) Malattie non trasmissibili