44
Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 1 Università del Piemonte Orientale Corso di Laurea in Biotecnologia Corso di Statistica Medica Campionamento e distribuzione campionaria della media Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media 2 Argomenti della lezione - Perché estrarre un campione. - Definizione di popolazione e campione. - Relazione tra popolazione e campione e proprietà delle statistiche campionarie. - Teorema del limite centrale. - Applicazioni del teorema del limite centrale.

Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

  • Upload
    phamdat

  • View
    220

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

1

Università del Piemonte Orientale

Corso di Laurea in Biotecnologia

Corso di Statistica Medica

Campionamento e distribuzione campionaria della media

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

2

Argomenti della lezione

- Perché estrarre un campione.

- Definizione di popolazione e campione.

- Relazione tra popolazione e campione e proprietà delle statistiche

campionarie.

- Teorema del limite centrale.

- Applicazioni del teorema del limite centrale.

Page 2: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

3

Le statistiche campionarie fanno parte della vita di tutti i giorni:

- Il docente interroga un campione di allievi per verificare la comprensione della

classe.

- Il cuoco assaggia un campione di pasta per valutare la cottura.

- Il farmacologo valuta la risposta ad un farmaco su un campione di pazienti.

- La ditta di sondaggi prevede l’esito delle elezioni interrogando un campione

della popolazione.

- ecc. ecc.

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

4

I risultati campionari non interessano di per se ma solo perchè consentono di

trarre conclusioni generali valide per tutta la popolazione da cui il campione è

stato estratto.

Questo processo si chiama inferenza statistica.

Page 3: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

5

Campionamento ed inferenza sono due processi simmetrici.

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

6

Il percorso dell’inferenza statistica si svolge secondo le seguenti fasi:

1. estrazione di un campione della popolazione,

2. calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati

contenuti nel campione,

3. stima dei parametri nella popolazione in base ai risultati forniti dal campione.

Page 4: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

7

Argomenti della lezione

- Perché estrarre un campione.

- Definizione di popolazione e campione.

- Relazione tra popolazione e campione e proprietà delle statistiche

campionarie.

- Teorema del limite centrale.

- Applicazioni del teorema del limite centrale.

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

8

Popolazione:

• ‘insieme di tutti i valori realizzati o possibili di una data variabile’

• insieme che raccoglie tutte le osservazioni possibili, relativamente ad una data

variabile o ad un dato fenomeno.

• può essere finita (comunque molto grande) o infinita

trattiamo come popolazioni anche insiemi che non sono enumerabili e che si

realizzeranno anche nel futuro:

es. quando ci riferiamo ai malati di una certa malattia vogliamo formulare una

previsione valida anche per i casi che non sono ancora stati diagnosticati.

Page 5: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

9

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

10

Campione:

• raccolta finita di elementi estratti da una popolazione

• scopo dell’estrazione è quello di ottenere informazioni sulla popolazione

• pertanto il campione deve essere rappresentativo della popolazione da cui

viene estratto (‘non viziato’)

• per corrispondere a queste esigenze il campione viene individuato con un

campionamento casuale.

Page 6: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

11

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

12

Secondo quali modalità possiamo estrarre un campione?

(rif. capitolo 22)

- Campionamento casuale semplice

- Campionamento stratificato

- Campionamento a grappolo (a cluster)

Page 7: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

13

In un campionamento casuale semplice tutti gli individui nella popolazione hanno uguale

probabilità di essere inclusi nel campione.

- individui nella popolazione = "unità di campionamento"

- popolazione oggetto dello studio = "popolazione bersaglio"

- popolazione effettivamente campionabile (al netto dell'effetto di fattori di selezione) =

base di campionamento

- distorsioni di selezione= errori che rendono non uniforme la probabilità di essere

inclusi nel campione. (es un campionamento condotto con l'uso dell'elenco telefonico

esclude le famiglie senza telefono, pertanto la popolazione bersaglio e la base di

campionamento potrebbero non corrispondere, causando una distorsione di selezione)

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

14

Nella pratica del campionamento debbo disporre di una ‘base di campionamento’.

La base di campionamento corrisponde all’elenco dei soggetti da cui

materialmente estraggo il campione.

La base di campionamento deve corrispondere ad un elenco (lista) di individui

identificabili.

Se la base di campionamento e la popolazione bersaglio discordano, si verifica

una distorsione di selezione.

Page 8: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

15

Assunzioni per la validità del campionamento

I metodi della statistica campionaria assumono che:

- non vi siano errori sistematici (bias) di selezione

- la base di campionamento corrisponda alla popolazione ‘bersaglio’.

(approfondimento individuale, pp 380-382 del testo)

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

16

Il campionamento viene di solito condotto predefinendo la dimensione del campione. Si

calcola quindi la frazione di campionamento, cioè la probabilità che un dato individuo sia

estratto ed inserito nel campione.

Data una popolazione con N individui ed un campione di c individui (dove N è molto

grande rispetto a c) la probabilità per l’i-esimo individuo è c/N.

epopolazion della dimensione

campione del dimensione ntocampioname di Frazione =ψ

Page 9: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

17

Nel campionamento casuale semplice la stessa frazione di

campionamento viene applicata a tutta la popolazione.

Se la frazione di campionamento è piccola (c << N), Ψ si mantiene

praticamente costante anche se i soggetti campionati escono dalla

popolazione.

Altrimenti Ψ varia nel corso del campionamento ed occorre tenerne conto

applicando una correzione (Correzione per la popolazione finita)

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

18

Se Ψ > 0.05

ES (della media campionaria) =

1*

−−

=N

cNc

ES σ

Page 10: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

19

Altri schemi di campionamento. (studio individuale, pp 380-382 del testo)

- Campionamento sistematico;

- Campionamento stratificato;

- Campionamento a cluster ( grappolo);

- Campionamento non probabilistico.

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

20

Metodi sconsigliati

- Il campionamento sistematico ("a passo fisso", es. una osservazione ogni 10)

-> potrebbe nascondere distorsioni di selezione.

-

- Campionamento non probabilistico (Metodi non formalizzati, a casaccio, es.

alcuni dei pazienti in ambulatorio, senza criterio preciso) -> non è un

campionamento

Page 11: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

21

Campionamento stratificato

N. nella

popolazione

N. nel

campione

Frazione di

campionamento

Strato 1 Maschi N1 C1 ψ 1

Strato 2 Femmine N2 C2 ψ 2

• Obiettivi :

1.voglio che tutti gli strati siano rappresentati nel campione con numerosità

sufficiente

2. voglio controllare la proporzione dei soggetti nei diversi strati, non

lasciandola esposta alla variabilità casuale

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

22

Esempio: in uno studio epidemiologico su tumore polmonare voglio maschi e

femmine siano rappresentati con la stessa numerosità.

La frequenza relativa nella popolazione dei casi di tumore polmonare è di 10

uomini : 1 donna.

Con un campione casuale semplice mi aspetto di trovare solo il 10% di donne.

Procedo quindi ad un campionamento stratificato

Page 12: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

23

Base di campionamento: i casi di tumore polmonare incidenti (cioè di nuova

diagnosi) nella popolazione di Torino negli anni 1993-98

Debbo includere nel campione 100 uomini e 100 donne.

N. nella

popolazione

N.

campione

Frazione di campionamento

Strato 1 Maschi 3355 100 100 / 3355 =

0,0298

Strato 2 Femmine 847 100 100 / 847 =

0,1181

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

24

Il campionamento ‘a grappolo’ (anche detto a cluster).

Esempio:

voglio verificare l’efficacia di due diversi trattamenti per la disassuefazione dal fumo.

Entrambi i trattamenti devono essere proposto dal medico di base.

Procedo in due fasi:

1. campione dei medici (10 medici tra tutti i medici di base di Novara)

2. campione degli assistiti dei medici campionati nella fase 1 (20 assistiti per ciascun

medico)

Totale del campione : 10 medici x 20 assistiti = 200 assistiti.

Page 13: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

25

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

26

Page 14: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

27

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

28

Page 15: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

29

Schema di campionamento a grappolo

campione

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

30

Argomenti della lezione

- Perché estrarre un campione.

- Definizione di popolazione e campione.

- Relazione tra popolazione e campione e proprietà delle statistiche

campionarie.

- Teorema del limite centrale.

- Applicazioni del teorema del limite centrale.

Page 16: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

31

Un campione casuale corrisponde alla popolazione?

Definiamo statistica campionaria la statistica calcolata per le osservazioni

che compongono il campione.

In generale, le statistiche campionarie sono definite in modo tale da essere degli

stimatori non distorti della statistica calcolata per la popolazione.

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

32

Il campione casuale corrisponde alla popolazione?

Esaminiamo il caso della media campionaria (la media calcolata per le osservazioni che

compongono il campione).

Un campione casuale ha le seguenti proprietà:

- Il valore atteso della media calcolata sul campione (media campionaria) è la media della

popolazione, in altre parole la media campionaria è una stima non distorta della media

della popolazione.

Page 17: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

33

n=9

200 campioni

da Norm (0;1)

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

34

E per quanto riguarda la varianza campionaria?

Il valore atteso della varianza campionaria (calcolata con n-1) è la

varianza della popolazione, in altre parole la varianza campionaria

(calcolata con n-1) è una stima non distorta della varianza della

popolazione.

Page 18: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

35

La stima fornita dal singolo campione è comunque affetta da incertezza, a

causa dell'errore casuale del campionamento.

In generale quindi possiamo dire che la precisione della stima fornita da

un campione (stima campionaria) sarà maggiore con:

- inferiore variabilità nella popolazione;

- maggiore dimensione del campione

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

36

Vediamo alcuni esempi relativi alle proprietà dei campioni

n = 9

Page 19: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

37

Con campioni più grandi la distribuzione delle medie campionarie ha variabilità inferiore.

n = 40

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

38

Argomenti della lezione

- Perché estrarre un campione.

- Definizione di popolazione e campione.

- Relazione tra popolazione e campione e proprietà delle statistiche

campionarie.

- Teorema del limite centrale.

- Applicazioni del teorema del limite centrale.

Page 20: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

39

La distribuzione di probabilità dei valori delle medie campionarie

Immaginiamo di ripetere un campionamento per molte volte.

Per ciascuno dei campioni calcoliamo la media (la ‘media campionaria’).

Calcoliamo media e deviazione standard delle medie campionarie.

Esaminiamo alcuni esempi di risultati con strumenti grafici:

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

40

Page 21: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

41

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

42

La forma della distribuzione di frequenza delle medie campionarie è

gaussiana.

-

-

- Questo vale anche quando la popolazione da cui è stato estratto il

campione ha una distribuzione non gaussiana.

Page 22: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

43

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

44

Variabilità della distribuzione delle medie campionarie

- La deviazione standard della distribuzione delle medie campionarie è

indicata come ‘Errore Standard della Media’ (abbreviato in Errore

Standard o ES).

Page 23: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

45

ES dipende dalla variabilità nella popolazione e dalla dimensione

campionaria

nSE σ

=..

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

46

nSE σ

=..

variabilità nella

popolazione

dimensione del campione

Page 24: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

47

La distribuzione delle medie campionarie è una distribuzione Gaussiana

con media µ e deviazione standard σ /√n

Applicando le proprietà della distribuzione Gaussiana posso calcolare la

probabilità di estrarre un campione di dimensione n con media

campionaria >= X

dati media µ e deviazione standard σ della popolazione.

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

48

La formula è analoga a quella studiata nella precedente lezione sulla distribuzione

gaussiana.

dove:

x: media campionaria

µ: media nella popolazione

σ /√n: errore standard

Z: deviata normale standardizzata.

Il valore di probabilità corrispondente al valore Z si legge dalla tabella della

distribuzione normale standard.

n

xZ σµ−

=

Page 25: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

49

Esempio: Studio della pressione sistolica in un gruppo di 15 pazienti.

I pazienti appartengono ad una popolazione con media della pressione

sistolica 145 mmHg

La deviazione standard della misura della pressione della popolazione è

pari a 5,92 mmHg;

n = 15

Media campionaria 148 mmHg

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

50

Il calcolo del test

Z = ( X - µ)/ (σ/√n).

Z = (148 - 145) / (5,92/√15) =

= 1,96

Conclusione = ?

Page 26: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

51

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

52

Distribuzione normale standardizzata

Area sottesa alla curva tra Z e ∞

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,50000 0,49601 0,49202 0,48803 0,48405 0,48006 0,47608 0,47210 0,46812 0,46414

0,1 0,46017 0,45620 0,45224 0,44828 0,44433 0,44038 0,43644 0,43251 0,42858 0,42465

0,2 0,42074 0,41683 0,41294 0,40905 0,40517 0,40129 0,39743 0,39358 0,38974 0,38591

0,3 0,38209 0,37828 0,37448 0,37070 0,36693 0,36317 0,35942 0,35569 0,35197 0,34827

0,4 0,34458 0,34090 0,33724 0,33360 0,32997 0,32636 0,32276 0,31918 0,31561 0,31207

0,5 0,30854 0,30503 0,30153 0,29806 0,29460 0,29116 0,28774 0,28434 0,28096 0,27760

0,6 0,27425 0,27093 0,26763 0,26435 0,26109 0,25785 0,25463 0,25143 0,24825 0,24510

0,7 0,24196 0,23885 0,23576 0,23270 0,22965 0,22663 0,22363 0,22065 0,21770 0,21476

0,8 0,21186 0,20897 0,20611 0,20327 0,20045 0,19766 0,19489 0,19215 0,18943 0,18673

0,9 0,18406 0,18141 0,17879 0,17619 0,17361 0,17106 0,16853 0,16602 0,16354 0,16109

1,0 0,15866 0,15625 0,15386 0,15151 0,14917 0,14686 0,14457 0,14231 0,14007 0,13786

1,1 0,13567 0,13350 0,13136 0,12924 0,12714 0,12507 0,12302 0,12100 0,11900 0,11702

1,2 0,11507 0,11314 0,11123 0,10935 0,10749 0,10565 0,10383 0,10204 0,10027 0,09853

1,3 0,09680 0,09510 0,09342 0,09176 0,09012 0,08851 0,08692 0,08534 0,08379 0,08226

1,4 0,08076 0,07927 0,07780 0,07636 0,07493 0,07353 0,07215 0,07078 0,06944 0,06811

1,5 0,06681 0,06552 0,06426 0,06301 0,06178 0,06057 0,05938 0,05821 0,05705 0,05592

1,6 0,05480 0,05370 0,05262 0,05155 0,05050 0,04947 0,04846 0,04746 0,04648 0,04551

1,7 0,04457 0,04363 0,04272 0,04182 0,04093 0,04006 0,03920 0,03836 0,03754 0,03673

1,8 0,03593 0,03515 0,03438 0,03362 0,03288 0,03216 0,03144 0,03074 0,03005 0,02938

1,9 0,02872 0,02807 0,02743 0,02680 0,02619 0,02559 0,02500 0,02442 0,02385 0,02330

2,0 0,02275 0,02222 0,02169 0,02118 0,02068 0,02018 0,01970 0,01923 0,01876 0,01831

Page 27: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

53

2,1 0,01786 0,01743 0,01700 0,01659 0,01618 0,01578 0,01539 0,01500 0,01463 0,01426

2,2 0,01390 0,01355 0,01321 0,01287 0,01255 0,01222 0,01191 0,01160 0,01130 0,01101

2,3 0,01072 0,01044 0,01017 0,00990 0,00964 0,00939 0,00914 0,00889 0,00866 0,00842

2,4 0,00820 0,00798 0,00776 0,00755 0,00734 0,00714 0,00695 0,00676 0,00657 0,00639

2,5 0,00621 0,00604 0,00587 0,00570 0,00554 0,00539 0,00523 0,00508 0,00494 0,00480

2,6 0,00466 0,00453 0,00440 0,00427 0,00415 0,00402 0,00391 0,00379 0,00368 0,00357

2,7 0,00347 0,00336 0,00326 0,00317 0,00307 0,00298 0,00289 0,00280 0,00272 0,00264

2,8 0,00256 0,00248 0,00240 0,00233 0,00226 0,00219 0,00212 0,00205 0,00199 0,00193

2,9 0,00187 0,00181 0,00175 0,00169 0,00164 0,00159 0,00154 0,00149 0,00144 0,00139

3,0 0,00135 0,00131 0,00126 0,00122 0,00118 0,00114 0,00111 0,00107 0,00104 0,00100

3,1 0,00097 0,00094 0,00090 0,00087 0,00084 0,00082 0,00079 0,00076 0,00074 0,00071

3,2 0,00069 0,00066 0,00064 0,00062 0,00060 0,00058 0,00056 0,00054 0,00052 0,00050

3,3 0,00048 0,00047 0,00045 0,00043 0,00042 0,00040 0,00039 0,00038 0,00036 0,00035

3,4 0,00034 0,00032 0,00031 0,00030 0,00029 0,00028 0,00027 0,00026 0,00025 0,00024

3,5 0,00023 0,00022 0,00022 0,00021 0,00020 0,00019 0,00019 0,00018 0,00017 0,00017

3,6 0,00016 0,00015 0,00015 0,00014 0,00014 0,00013 0,00013 0,00012 0,00012 0,00011

3,7 0,00011 0,00010 0,00010 0,00010 0,00009 0,00009 0,00008 0,00008 0,00008 0,00008

3,8 0,00007 0,00007 0,00007 0,00006 0,00006 0,00006 0,00006 0,00005 0,00005 0,00005

3,9 0,00005 0,00005 0,00004 0,00004 0,00004 0,00004 0,00004 0,00004 0,00003 0,00003

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

54

Conclusione / riepilogo

• Il valore atteso della media campionaria è la media della popolazione.

• Il valore atteso della varianza campionaria calcolata con il denominatore (n-1) è la

varianza della popolazione.

• La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità nella

popolazione. Campioni più grandi avranno distribuzione con variabilità inferiore. La

deviazione standard delle medie campionarie viene indicata anche come Errore

Standard

• La forma della distribuzione di frequenza delle medie campionarie è normale. Questo

accade anche se la distribuzione nella popolazione non è normale, purchè il campione

sia abbastanza numeroso.

Page 28: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

55

La dimostrazione di questi teoremi va oltre i limiti del corso. In appendice trovate un

esempio ed alcuni grafici corrispondenti ai risultati di campionamenti ripetuti a partire da

una distribuzione uniforme, per confermare come anche in questo caso la distribuzione

delle medie campionarie segue le regole precedenti.

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

56

Possiamo applicare queste regole per risolvere due problemi importanti e

ricorrenti

- Qual'è il valore della media campionaria che delimita una certa

proporzione (α) della distribuzione di probabilità della media

campionaria?

- Calcolo dell'intervallo di confidenza

- Calcolo della dimensione minima di un campione

Page 29: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

57

Qual'è il valore della media campionaria che delimita una certa proporzione (α) della distribuzione campionaria della media?

Risolvo per x l'equazione

ZESx αµ ∗+=

Z α è il valore della distribuzione normale standard corrispondente al valore di probabilità α e viene letto dalle tavole della distribuzione normale standard partendo da -∞.

Ad esempio, il valore Z 10,0 (corrispondente alla probabilità 0,10 con riferimento alla sola coda inferiore) è - 1,28

ESxZ µ

α

−=

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

58

Esempio: Qual'è il valore medio di altezza che delimita il 95% della distribuzione di

probabilità delle medie campionarie (in una sola coda della distribuzione)

di campioni di 25 soggetti estratti da una popolazione con µ=170 cm e

σ=15,0 cm?

ES=15,0 / 5 = 3,0

Z 95,0 = 1,64

92,17492,417064,10,3170 =+=∗+=x

Page 30: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

59

Pertanto, un campione di 25 soggetti con media campionaria > 174,92 cm potrà essere

estratto dalla popolazione data solo con probabilità inferiore a 5%

Distribuzione di probabilità delle

medie campionarie.

n=25

popolazione Norm( 170; 15,0)

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

60

Esempio: Quali sono i valori delle medie campionarie di altezza che, in modo simmetrico rispetto alla

media della popolazione, delimitano il 95% della distribuzione campionaria delle medie,

data una popolazione con µ=170 cm e σ=15,0 cm e campioni di 25 soggetti?

Corrisponde a chiedere quali sono i valori di altezza che delimitano il 2,5% ed il 97,5%

della distribuzione campionaria delle medie.

Page 31: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

61

Individuiamo sulle tavole i valori Z di interesse:

p(inf) = 0,50 - 0,95/2 = 0,025 Z 025,0 = -1,96

p(sup)= 0,50 + 0,95/2 = 0,975 Z 975,0 = +1,96

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

62

ES=15,0 / 5 = 3,0

Z 025,0 = -1,96

Z 975,0 = +1,96

limite inferiore 12,16488,51700.3*96,1170*025.0 =−=−=+= ESZx µ

limite superiore 88,17588,51700.3*96,1170*975.0 =+=+=+= ESZx µ

- Pertanto avremo il 95% di probabilità che un campione casuale di 25 soggetti, estratto da

una popolazione con µ=170 cm e σ=15,0 cm abbia media campionaria compresa tra

164,12 e 175,88.

Page 32: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

63

Distribuzione di probabilità

delle medie campionarie.

n=25

popolazione Norm( 170; 15,0)

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

64

Quale deve essere la dimensione minima di un campione?

Prima di estrarre un campione voglio sapere quale deve essere la sua numerosità. Voglio cioè sapere quanto deve essere grande un campione per estrarre con probabilità nota campioni compresi entro un dato intervallo intorno alla media della popolazione. Fissiamo ad esempio la probabilità al 90%.

Page 33: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

65

La soluzione del problema corrisponde a trovare i valori di n che soddisfano la seguente equazione

p[(µ-∆)<= x <=(µ+∆)] = 0,90

Attraverso alcuni passaggi algebrici l'equazione diventa:

90,0=

∆<=<=

∆−σσ

nZnp

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

66

I passaggi algebrici (per chi fosse interessato)

p[(-∆)<= x -µ<=(+∆)] = 0,90

p[(-∆)<= x -µ<=(+∆)] = 0,90

( ) ( )90,0=

∆<=

−<=

∆−ESES

xES

p µ

( ) ( )90,0=

<=−

<=∆−

nn

x

np σσ

µσ

( )90,0=

∆<=<=

∆−σσnZnp

Page 34: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

67

La soluzione dell'equazione corrisponde alla soluzione delle due

equazioni:

( )

∆−=

σαnZ

2 e

∆=

σαnZ

2

Se l'intervallo intorno alla media è simmetrico basta risolverne una.

∗=

σαZn 2

∗=

σαZn 2

2

Attenzione: per risolvere l'equazione debbo conoscere σ ma non µ.

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

68

I valori noti nell'equazione:

Z2

α è il valore Z corrispondente all'errore di primo tipo che siamo

disposti ad accettare, distribuito in modo simmetrico nelle due code della

distribuzione gaussiana. (In questa lezione non abbiamo ancora parlato

degli errori statistici di primo e di secondo tipo) .

σ = deviazione standard, deve essere nota o ipotizzata

∆ = corrisponde alla precisione desiderata della stima campionaria

Page 35: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

69

Ad esempio, intendo condurre uno studio campionario per stimare l'altezza

di una popolazione. Quanto deve essere grande il mio campione perchè

con probabilità del 95% il suo valore sia compreso intorno alla media della

popolazione +- 5 cm? La deviazione standard è 25 cm.

∗=

σαZn 2

2

I valori noti nell'equazione:

Z2

α = 96,12

05,0 =Z ; σ = 25 ; ∆ = 5

=5

2596,12

n =96,04

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

70

Applicazione: Metodo consigliato per l’estrazione di piccoli campioni da gruppi

non troppo numerosi: tavola dei numeri casuali

Procedura per il campionamento con tavola dei numeri casuali:

1. Le osservazioni che compongono la ‘popolazione’ (anche detta base di

campionamento) vengono numerate in ordine progressivo da 1 a N;

2. Viene scelto un punto di partenza sulla tavola dei numeri casuali (es. a occhi

chiusi si segna un punto);

3. Viene letto (‘estratto’), a partire dal punto così individuato, un numero di M cifre,

dove M è pari al numero di cifre del numero totale di osservazioni nella

‘popolazione’ (es. se la popolazione è di 300 persone useremo numeri di 3

cifre, se di 4500 persone useremo numeri di 4 cifre);

Page 36: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

71

4. Viene inclusa nel campione l’osservazione con numero progressivo pari al

numero estratto; se il numero estratto è superiore a N si estrae un altro

numero.

5. Si ripete la procedura leggendo i numeri successivi dalla tavola, fino a che non

è stato estratto il numero richiesto di osservazioni.

Le tavole dei numeri casuali possono essere prodotte con appositi programmi di

calcolo.

Corso di biotecnologie - S

tatistica Medica – C

ampionam

ento e distribuzione campionaria della m

edia

72

Tavola dei numeri casuali (esemplificativa)

33369 22784 33875 41853 96864 47971 95778 08005 13691 63400

27255 03112 68048 77412 56742 76219 31224 14474 75336 86303

06338 95707 49455 85540 13965 75668 33709 06295 33055 62019

78309 42155 90346 49145 20503 00241 29991 19345 61564 99081

99759 97934 03254 41554 21590 57210 07123 68756 63083 96235

67176 10433 87681 87210 64933 68347 92077 88792 91810 58573

65248 76928 89837 08846 56629 32437 67688 17835 91940 90593

49006 76166 02500 63782 59322 00390 98163 63614 78605 49403

68103 85644 25796 91448 30805 42664 51326 74436 62322 12241

63802 53305 04059 59764 90724 76359 55535 86055 29585 46302

79742 99960 26124 46870 20689 25098 06410 27973 46998 77311

57720 54907 74245 84488 04270 73048 99066 06519 48641 55943

79237 41051 12398 66696 85112 14981 17287 21146 62211 05821

24228 57850 98341 16681 37812 47509 18925 86597 18675 49091

55660 49424 43933 05963 20149 05200 50960 08358 67511 01933

19861 22439 01143 94432 63532 56945 58842 40528 92572 20741

94669 32527 87760 94104 25509 76415 05216 24500 17838 70817

89985 34649 53377 31730 94086 31638 35588 17093 36147 91279

48789 72702 67008 21668 82146 01413 79372 14942 68705 38683

49480 02888 22917 63258 11111 33411 13775 85533 80985 00143

24743 85641 42291 36778 10893 05437 19824 08378 42976 86795

64847 23589 33594 89748 10957 32718 51763 68813 10425 77035

03430 36514 70661 31756 05050 40475 71065 74305 77737 29833

75385 23135 69283 16727 65703 02780 23804 68981 11584 49648

64545 63962 51199 01283 97825 28393 66071 82123 57660 19916

98208 33362 69117 21161 23944 64238 94059 14970 05617 12805

32054 07203 26193 21394 84195 24214 84411 40803 98537 38507

17344 15148 48565 37822 58481 89051 82970 42120 31433 22193

50394 05450 64035 43057 40668 41553 60431 18390 64851 68625

78953 17763 97731 42023 83425 21144 61224 08446 59292 20144

00944 74988 12680 67331 38098 07617 07062 68488 10741 47585

09145 60399 34502 96525 01889 26599 00459 84522 16394 04293

95169 67557 02640 34346 11248 38069 92350 56729 39454 29692

70508 54005 04520 68481 49490 54518 61250 57413 21963 58693

Page 37: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - S

tatistica Medica – C

ampionam

ento e distribuzione campionaria della m

edia

73

Esem

pio

:

estrazione di un campione di 10 soggetti da una base

di 150. La base è elencata nella tabella allegata

Do

vrò sceg

liere nu

meri d

i 3 cifre.

Decido che procederò progressivam

ente per colonna, dall’alto in basso.

In modo casuale individuo il punto sottolineato com

e punto di partenza.

I successivi valori inferiori a 150 sono annotati in grassetto. I valori 040, 011, 026, 045, 088 corrispondono ai soggetti da cam

pionare.

Tali soggetti sono evidenziati nella tabella successiva

con indicati i valori di emoglobina.

Corso di biotecnologie - S

tatistica Medica – C

ampionam

ento e distribuzione campionaria della m

edia

74

Tavola dei numeri casuali

33369 22784 33875 418

53 96864 47971 95778 08005 13691 63400

27255 03112 68048 774

12 56742 76219 31224 14474 75336 86303

06338 95707 49455 855

40 13965 75668 33709 06295 33055 62019

78309 42155 90346 491

45 20503 00241 29991 19345 61564 99081

99759 97934 03254 415

54 21590 57210 07123 68756 63083 96235

67176 10433 87681 872

10 64933 68347 92077 88792 91810 58573

65248 76928 898

37 088

46 56629 32437 67688 17835 91940 90593

49006 76166 125

00 63782 59322 00390 98163 63614 78605 49403

68103 85644 257

96 91448 30805 42664 51326 74436 62322 12241

63802 53305 040

59 59764 90724 76359 55535 86055 29585 46302

79742 99960 261

24 46870 20689 25098 06410 27973 46998 77311

57720 54907 742

45 84488 04270 73048 99066 06519 48641 55943

79237 41051 123

98 66696 85112 14981 17287 21146 62211 05821

24228 57850 983

41 16681 37812 47509 18925 86597 18675 49091

55660 49424 439

33 05963 20149 05200 50960 08358 67511 01933

19861 22439 011

43 94432 63532 56945 58842 40528 92572 20741

94669 32527 877

60 94104 25509 76415 05216 24500 17838 70817

89985 34649 533

77 31730 94086 31638 35588 17093 36147 91279

48789 72702 670

08 21668 82146 01413 79372 14942 68705 38683

49480 02888 229

17 63258 11111 33411 13775 85533 80985 00143

24743 85641 422

91 36778 10893 05437 19824 08378 42976 86795

64847 23589 335

94 89748 10957 32718 51763 68813 10425 77035

03430 36514 706

61 31756 05050 40475 71065 74305 77737 29833

75385 23135 692

83 16727 65703 02780 23804 68981 11584 49648

64545 63962 511

99 01283 97825 28393 66071 82123 57660 19916

98208 33362 691

17 21161 23944 64238 94059 14970 05617 12805

32054 07203 261

93 21394 84195 24214 84411 40803 98537 38507

17344 15148 485

65 37822 58481 89051 82970 42120 31433 22193

50394 05450 640

35 43057 40668 41553 60431 18390 64851 68625

78953 17763 977

31 42023 83425 21144 61224 08446 59292 20144

00944 74988 126

80 67331 38098 07617 07062 68488 10741 47585

09145 60399 345

02 96525 01889 26599 00459 84522 16394 04293

95169 67557 026

40 34346 11248 38069 92350 56729 39454 29692

70508 54005 045

20 68481 49490 54518 61250 57413 21963 58693

Page 38: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - S

tatistica Medica – C

ampionam

ento e distribuzione campionaria della m

edia

75

N

umero

progressivo

Hb

1

129

2

133

3

133

4

134

5

136

6

136

7

136

8

136

9

137

10

137

11

137

12

137

13

138

14

138

15

138

16

138

17

139

18

139

19

139

20

139

21

139

22

140

23

140

24

141

25

141

26

141

27

141

28

141

29

141

30

141

31

141

32

141

33

141

34

142

35

142

36

142

37

142

38

142

39

142

40

142

41

142

42

142

43

142

44

142

45

142

46

142

47

143

48

143

49

143

50

143

51

143

52

143

53

143

54

143

55

143

56

143

57

144

58

144

59

144

60

144

N

umero

progressivo

Hb

61

144

62

144

63

144

64

144

65

145

66

145

67

145

68

145

69

145

70

145

71

145

72

145

73

146

74

146

75

146

76

146

77

147

78

147

79

147

80

147

81

147

82

147

83

147

84

148

85

148

86

148

87

148

88

148

89

149

90

149

91

149

92

149

93

149

94

149

95

149

96

149

97

149

98

149

99

149

100

150

101

150

102

150

103

150

104

150

105

150

106

150

107

150

108

150

109

151

110

151

111

151

112

151

113

151

114

151

115

151

116

151

117

151

118

151

119

151

Page 39: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - S

tatistica Medica – C

ampionam

ento e distribuzione campionaria della m

edia

77

Esercizi dal testo

pag 161 n. 1

pag 161 n. 2

pag 161 n. 3

pag 162 n. 4

pag 162 n. 5

pag 162 n. 6

pag 162 n. 8

pag 162 n. 13

Corso di biotecnologie - S

tatistica Medica – C

ampionam

ento e distribuzione campionaria della m

edia

78

Altri esercizi

ESE

RC

IZIO 1

La tabella allegata include i valori di 1000 m

isure di emoglobina espresse in decigram

mi/100 m

l, ordinati in modo

crescente.

Estrarre un cam

pione casuale di 10 osservazioni utilizzando la tavola dei numeri casuali. C

alcolare Media e deviazione

standard.

0 124 124 125 126 128 128 128 128 129 129 129 129 130 131 131 131 131 131 131 132

20 132 132 132 132 132 132 132 133 133 133 133 133 133 133 133 134 134 134 134 134

40 134 134 134 134 134 134 134 134 135 135 135 135 135 135 135 135 135 135 135 135

60 135 135 135 136 136 136 136 136 136 136 136 136 136 136 136 136 136 136 136 136

80 136 136 136 136 136 136 136 136 136 136 136 137 137 137 137 137 137 137 137 137

100 137 137 137 137 137 137 137 137 137 137 137 137 137 137 137 137 137 137 137 137

120 137 137 137 137 137 137 138 138 138 138 138 138 138 138 138 138 138 138 138 138

140 138 138 138 138 138 138 138 138 138 138 138 138 138 138 138 138 139 139 139 139

160 139 139 139 139 139 139 139 139 139 139 139 139 139 139 139 139 139 139 139 139

180 139 139 139 139 139 139 139 139 139 139 139 140 140 140 140 140 140 140 140 140

200 140 140 140 140 140 140 140 140 140 140 140 140 140 140 140 140 140 140 140 141

220 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141

240 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141

260 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141 141

280 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142

300 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142

320 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142 142

340 142 142 142 143 143 143 143 143 143 143 143 143 143 143 143 143 143 143 143 143

360 143 143 143 143 143 143 143 143 143 143 143 143 143 143 143 143 143 143 143 143

380 143 143 143 143 143 143 143 143 143 143 143 143 143 143 143 143 143 143 144 144

400 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144

420 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144

440 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144 144

460 144 144 144 144 145 145 145 145 145 145 145 145 145 145 145 145 145 145 145 145

480 145 145 145 145 145 145 145 145 145 145 145 145 145 145 145 145 145 145 145 145

500 145 145 145 145 145 145 145 145 145 145 145 145 145 145 146 146 146 146 146 146

520 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146

540 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146

560 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146 146

580 146 146 146 146 146 146 146 146 146 146 147 147 147 147 147 147 147 147 147 147

600 147 147 147 147 147 147 147 147 147 147 147 147 147 147 147 147 147 147 147 147

620 147 147 147 147 147 147 147 147 147 147 147 147 147 147 147 147 147 147 147 147

640 147 147 147 147 147 147 147 147 147 147 147 147 148 148 148 148 148 148 148 148

660 148 148 148 148 148 148 148 148 148 148 148 148 148 148 148 148 148 148 148 148

680 148 148 148 148 148 148 148 148 148 148 148 148 149 149 149 149 149 149 149 149

700 149 149 149 149 149 149 149 149 149 149 149 149 149 149 149 149 149 149 149 149

720 149 149 149 149 149 149 149 149 149 149 149 149 149 149 149 149 149 149 149 149

740 149 149 149 149 149 149 149 150 150 150 150 150 150 150 150 150 150 150 150 150

760 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150

780 150 150 150 150 150 151 151 151 151 151 151 151 151 151 151 151 151 151 151 151

800 151 151 151 151 151 151 151 151 151 151 151 151 151 151 151 151 151 151 151 151

820 151 151 151 151 151 151 151 151 151 151 151 151 151 152 152 152 152 152 152 152

840 152 152 152 152 152 152 152 152 152 152 152 152 152 152 152 152 152 152 152 152

860 152 152 152 152 152 152 152 152 152 152 152 152 152 153 153 153 153 153 153 153

880 153 153 153 153 153 153 153 153 153 153 153 153 153 153 153 153 153 153 153 153

900 153 153 153 153 154 154 154 154 154 154 154 154 154 154 154 154 154 154 154 154

920 154 154 154 154 154 154 154 154 155 155 155 155 155 155 155 155 155 155 155 155

940 155 155 155 155 156 156 156 156 156 156 156 156 156 156 156 156 156 156 156 156

960 156 156 156 156 157 157 157 157 157 157 157 157 157 157 157 158 158 158 158 158

980 159 159 159 159 159 159 159 159 159 159 159 160 160 161 161 161 161 162 165 166

Page 40: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - S

tatistica Medica – C

ampionam

ento e distribuzione campionaria della m

edia

79

Tavola dei num

eri casuali

33369 22784 33875 41853 96864 47971 95778 08005 13691 63400

27255 03112 68048 77412 56742 76219 31224 14474 75336 86303

06338 95707 49455 85540 13965 75668 33709 06295 33055 62019

78309 42155 90346 49145 20503 00241 29991 19345 61564 99081

99759 97934 03254 41554 21590 57210 07123 68756 63083 96235

67176 10433 87681 87210 64933 68347 92077 88792 91810 58573

65248 76928 89837 08846 56629 32437 67688 17835 91940 90593

49006 76166 02500 63782 59322 00390 98163 63614 78605 49403

68103 85644 25796 91448 30805 42664 51326 74436 62322 12241

63802 53305 04059 59764 90724 76359 55535 86055 29585 46302

79742 99960 26124 46870 20689 25098 06410 27973 46998 77311

57720 54907 74245 84488 04270 73048 99066 06519 48641 55943

79237 41051 12398 66696 85112 14981 17287 21146 62211 05821

24228 57850 98341 16681 37812 47509 18925 86597 18675 49091

55660 49424 43933 05963 20149 05200 50960 08358 67511 01933

19861 22439 01143 94432 63532 56945 58842 40528 92572 20741

94669 32527 87760 94104 25509 76415 05216 24500 17838 70817

89985 34649 53377 31730 94086 31638 35588 17093 36147 91279

48789 72702 67008 21668 82146 01413 79372 14942 68705 38683

49480 02888 22917 63258 11111 33411 13775 85533 80985 00143

24743 85641 42291 36778 10893 05437 19824 08378 42976 86795

64847 23589 33594 89748 10957 32718 51763 68813 10425 77035

03430 36514 70661 31756 05050 40475 71065 74305 77737 29833

75385 23135 69283 16727 65703 02780 23804 68981 11584 49648

64545 63962 51199 01283 97825 28393 66071 82123 57660 19916

98208 33362 69117 21161 23944 64238 94059 14970 05617 12805

32054 07203 26193 21394 84195 24214 84411 40803 98537 38507

17344 15148 48565 37822 58481 89051 82970 42120 31433 22193

50394 05450 64035 43057 40668 41553 60431 18390 64851 68625

78953 17763 97731 42023 83425 21144 61224 08446 59292 20144

00944 74988 12680 67331 38098 07617 07062 68488 10741 47585

09145 60399 34502 96525 01889 26599 00459 84522 16394 04293

95169 67557 02640 34346 11248 38069 92350 56729 39454 29692

70508 54005 04520 68481 49490 54518 61250 57413 21963 58693

Corso di biotecnologie - S

tatistica Medica – C

ampionam

ento e distribuzione campionaria della m

edia

80

Esercizio 2

Imm

aginiamo di voler estrarre un cam

pione casuale stratificato per

sesso dalla popolazione in tabella, includendo 200 uomini e 100

donne.

Com

pletare la tabella ed indicare la frazione di campionam

ento

complessiva per gli uom

ini e per le donne.

Indicate la probabilità di essere inclusi nel campione,

separatamente per uom

ini e donne.

Strato

N. nella

popolazione

N.

campione

Frazione di

campionam

ento

Maschi

3355

Fem

mine

847

Page 41: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

81

Appendice

L’istogramma presenta la distribuzione di frequenza di 100000

osservazioni distribuite in modo uniforme. La variabile

considerata assume i soli valori interi tra 0 e 9.

L’esempio è analogo a quello presentato nel testo di P.Armitage

e G.Berry Statistical Methods in Medical Researchs (ed.Italiana

McGraw-Hill).

Alcune statistiche descrittive della Variabile I

N 100000

Mean 4.5

Std Deviation 2.87229568 Variance 8.2500825

Skewness 0 Kurtosis -1.2242436

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

82

FREQUENCY

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

popol azi one

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

2.2

2.4

2.6

2.8

3.0

3.2

3.4

3.6

3.8

4.0

4.2

4.4

4.6

4.8

5.0

5.2

5.4

5.6

5.8

6.0

6.2

6.4

6.6

6.8

7.0

7.2

7.4

7.6

7.8

8.0

8.2

8.4

8.6

8.8

9.0

9.2

9.4

9.6

9.8

10.0

Page 42: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

83

Sono stati estratti 20000 campioni, tutti di numerosità 5 osservazioni da tale

popolazione.

Le statistiche e gli istogrammi si riferiscono alla distribuzione di questi 20000

campioni.

La variabile considerata è la media campionaria della variabile I, indicata per

convenienza come ‘md’.

Variable: md. Osserviamo che:

N 20000 -> numero di campioni (ciascuno costituisce

un’osservazione)

Mean 4.5 -> media campionaria

Errore standard 1.28632606

Skewness 0.0133416

Kurtosis -0.2412179 -> il valore si questi indici (non presentati a

lezione) corrisponde a quanto atteso per una distribuzione normale.

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

84

Mean 4.500000 La coincidenza di queste statistiche indica che la

distribuzione è simmetrica

Median 4.400000

Mode 4.200000

Page 43: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

85

PERCENT

0

1

2

3

4

5

6

7

medi a campi onar i a

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

2.2

2.4

2.6

2.8

3.0

3.2

3.4

3.6

3.8

4.0

4.2

4.4

4.6

4.8

5.0

5.2

5.4

5.6

5.8

6.0

6.2

6.4

6.6

6.8

7.0

7.2

7.4

7.6

7.8

8.0

8.2

8.4

8.6

8.8

9.0

9.2

9.4

9.6

9.8

10.0

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

86

CUMULATI VE PERCENT

0

10

20

30

40

50

60

70

80

90

100

medi a campi onar i a

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

2.2

2.4

2.6

2.8

3.0

3.2

3.4

3.6

3.8

4.0

4.2

4.4

4.6

4.8

5.0

5.2

5.4

5.6

5.8

6.0

6.2

6.4

6.6

6.8

7.0

7.2

7.4

7.6

7.8

8.0

8.2

8.4

8.6

8.8

9.0

9.2

9.4

9.6

9.8

10.0

Page 44: Campionamento e distribuzione campionaria della mediamagnani/pdf/biotech_2009_5_campionamento.pdf · La distribuzione di probabilità dei valori delle medie campionarie Immaginiamo

Corso di biotecnologie - Statistica Medica – Campionamento e distribuzione campionaria della media

87

Ripeto il campionamento con n=9. I risultati principali sono:

Mean 4.500005

Errore standard 0.96123584

Variance 0.92397434

Skewness -0.0211222 Kurtosis -0.1835888

Si noti che l’errore standard è inferiore rispetto al precedente

esempio.