Eserciziario Di Statistica

7/30/2019 Eserciziario Di Statistica

http://slidepdf.com/reader/full/eserciziario-di-statistica 1/54

Università degli studi di Brescia

Dipartimento di ingegneria meccanica

FONDAMENTI DELLA MISURAZIONE

ESERCIZIARIO DI STATISTICA

Dispensa a cura degli studenti del corso



Fondamenti della misurazione – Eserciziario di statistica

Introduzione

La statistica riguarda i metodi scientifici per raccogliere, ordinare, riassumere, presentare ed

analizzare i dati ed anche per trarre valide conclusioni e prendere ragionevoli decisioni sulla

base di tali analisi.

Nel raccogliere i dati sulle caratteristiche di un gruppo di individui od oggetti, come le

altezze ed i pesi di studenti di un’università, oppure il numero di pezzi difettosi e non

difettosi prodotti in una fabbrica in un dato giorno, è spesso impossibile o poco pratico

osservare l’intero gruppo, specialmente se è grande. Invece di esaminare l’intero gruppo,

chiamato POPOLAZIONE o UNIVERSO, si esamina una piccola parte dello stesso, detta

CAMPIONE.

Se un campione è rappresentativo di una popolazione, spesso si possono dedurre dall’analisi

del campione importanti conclusioni circa la popolazione. La fase della statistica che tratta

le condizioni sotto le quali tale inferenza è valida, viene detta STATISTICA INDUTTIVA o

INFERENZA STATISTICA. Poichè tale inferenza non può essere certa in assoluto, spesso

si usa il linguaggio della PROBABILITA’ nello stabilire le conclusioni.

-2-




Definizione classica di probabilità

La probabilità di un dato evento è il rapporto tra il numero di casi favorevoli al suo

verificarsi ed il numero dei casi possibili.

Dato un evento A, siano NA e N rispettivamente i casi favorevoli e quelli possibili, allora la

probabilità che si manifesti l’evento A (detta successo) è indicata con:

p(A) = NA/N

ed è un numero compreso tra 0 e 1.

Se un evento non può presentarsi, la sua probabilità è 0. Se si presenta necessariamente, cioè

è certo, la sua probabilità è 1.

La probabilità che non si manifesti l’evento A (detta insuccesso) è indicata con

p(Ā) = 1-p(A)

Probabilità condizionata

Se A e B sono due eventi, la probabilità che, presentandosi A si presenti B, è indicata con

P(B/A) e viene detta probabilità condizionata di B posto che A si sia presentato.

In generale vale la relazione:

p(B/A) = p(AB)/p(A)

Se il presentarsi o il non presentarsi di A non influisce sulla probabilità del presentarsi di B,

allora:

p(B/A) = p(B)

-3-




e si dice che A e B sono eventi indipendenti; in caso contrario, si dice che sono eventi

dipendenti.

Probabilità totali

• Siano A e B due eventi, se denotiamo con AB l’evento che “si presentino sia A sia B”,

talvolta detto evento composto, allora:

p(AB) = p(A) p(B/A)

Nel caso particolare di eventi indipendenti:

p(AB) = p(A) p(B)

Si dice che due o più eventi si escludono a vicenda se il presentarsi di uno di essi esclude il

presentarsi degli altri. Così se A e B sono eventi escludentisi a vicenda p(AB) = 0.

• Se A∪B indica l’evento che di A e B “si presentino o l’uno o l’altro o entrambi”, allora:

p(A B) = p(A)+p(B)-p(AB)

In particolare, nel caso di eventi escludentisi a vicenda:

p(A B) = p(A)+p(B)

-4-




Distribuzioni di probabilità discrete

Se una variabile X può assumere un insieme discreto di valori X1,X2,.....,Xn rispettivamente

con probabilità p(X1),p(X2),.....,p(Xn), dove p(X1)+p(X2)+.....+p(Xn) = 1, si dice che è stat

definita per X una distribuzione di probabilità discreta.

La funzione p(X) che assume i valori p(X1),p(X2),.....,p(Xn) rispettivamente in

corrispondenza di X1,X2,.....,Xn è detta funzione densità di probabilità di X.

Poichè X può assumere certi valori con date probabilità, viene spesso detta variabile

casuale discreta (anche detta variabile stocastica).

Un modo per descrivere una variabile casuale X è il seguente:

X1 X2 .... Xn valori argomentali dellavariabile casuale X

p(X1) p(X2) .... p(Xn) probabilità associata

La funzione densità di probabilità gode delle seguenti proprietà:

1) p(Xi) 0 Xi

2) p(X1)+p(X2)+.....+p(Xn) = 1

-5-




Esempio. Lanciando 3 volte una moneta non truccata, se si denota con X il numero delle

volte che “esce” croce si ottengono i seguenti valori :

0 1 2 3

1/8 3/8 3/8 1/8

ricavati facilmente per via grafica (ALBERO DI PROBABILITA’):

T(1/2)

C(1/2)

T(1/2)

T(1/2)

C(1/2)

C(1/2)

T(1/2)

T(1/2)

T(1/2)

T(1/2)

C(1/2)

C(1/2)

C(1/2)

C(1/2)

Ad esempio, per ricavare la probabilità p(1) (1 croce e 2 teste) si sommano i valori che si

ottengono dal prodotto delle probabilità relative ad ogni ramo, seguendo il percorso a cui

sono associati 2 valori “testa” e un valore “croce” (1/8+1/8+1/8 = 3/8).

Costruita la variabile casuale X legata all’evento “lancio della moneta”, si può verificare se

la funzione p(Xi) soddisfa le condizioni sulla funzione densità di probabilità:

- p(Xi)≥0 ∀Xi O.K.

- 1/8+1/8+3/8+3/8 = 1 O.K.

OSSERVAZIONE: la funzione densità di probabilità può anche essere indicata con f x(Xi).

-6-




Modelli probabilistici

Per alcuni fenomeni esistono delle espressioni algebriche per la funzione densità di

probabilità per determinare la quale, quindi, non è necessario costruire un albero di

probabilità. Tali espressioni algebriche costituiscono i cosiddetti modelli probabilistici o

distribuzioni probabilistiche.

A seconda della natura del problema che si affronta, si seleziona il modello che si ritiene più

idoneo a risolverlo.

Distribuzione ipergeometrica

I problemi che vengono risolti in base al modello ipergeometrico sono del seguente tipo: sia

data una popolazione con numerosità N e con caratteristiche diverse; se con D si indica il

numero di individui aventi una certa caratteristica (difettosità) e dalla popolazione si estrae

un campione di dimensione n, si vuole conoscere qual è la probabilità che un campione

contenga x elementi dotati della caratteristica dei D elementi. Poiché gli elementi che

formano il campione vengono estratti e non riposti nel lotto prima della successiva

estrazione, siamo in presenza di eventi dipendenti, in quanto l’estrazione di un elemento

condiziona l’estrazione del successivo.

La definizione di distribuzione ipergeometrica è la seguente:

⎟⎟ ⎠ ⎞

⎜⎜⎝ ⎛

⎟⎟ ⎠

⎞⎜⎜⎝

⎛

−

−⋅⎟⎟

⎠

⎞⎜⎜⎝

⎛

=n

N

xn

D N

x

D

X p )(

NOTA:

!)!(

!

k k n

n

k

n

⋅−=⎟⎟

⎠

⎞⎜⎜⎝

⎛

-7-




Esempio. Se su un totale di 20 palline 5 sono rosse, qual è la probabilità di estrarre su 4

estrazioni 0, 1, 2, 3, 4, palline rosse?

Soluzione.

In questo caso:

N=20

D=5

n=4

Quindi:

⎟⎟ ⎠

⎞⎜⎜⎝

⎛

⎟⎟ ⎠

⎞⎜⎜⎝

⎛

−⋅⎟⎟

⎠

⎞⎜⎜⎝

⎛

=

4

20

4

155

)( x x

X p

La probabilità di non estrarre alcuna pallina rossa risulta:

Analogamente si ricavano le altre probabilità:

%2828,020191817

15141312

!20!4!11!0!5

!4!16!15!5)0( ==

⋅⋅⋅⋅⋅⋅

=⋅⋅⋅⋅⋅⋅⋅

= p

%47)1( = p

%6,21)2( = p

%1,3)3( = p

%1,0)4( = p

Esempio. La probabilità di “fare 6” al Superenalotto si può calcolare facilmente facendo

ricorso alla distribuzione binomiale.

Soluzione

D=6

N=90

n=6

-8-




91061,1

6

90

0

84

6

6

)6( −⋅=

⎟⎟ ⎠

⎞⎜⎜⎝

⎛

⎟⎟ ⎠

⎞⎜⎜⎝

⎛ ⋅⎟⎟

⎠

⎞⎜⎜⎝

⎛

= p

pari a circa una probabilità su 600.000.000.

ATTENZIONE: questa distribuzione è adeguata quando la numerosità della

popolazione è paragonabile alla numerosità del campione

Distribuzione binomiale o di Bernoulli

Questa distribuzione può essere considerata un’estensione dell’ipergeometrica quando la

numerosità della popolazione è molto maggiore della numerosità del campione (N>>n).

Si indica in questo caso con ‘p’ il rapporto : p = D/N, cioè la probabilità che si presenti un

certo evento in una prova (detta probabilità di un successo) e con 1-p la probabilità che

l’evento non si presenti (detta probabilità di un insuccesso).

Quindi la probabilità che l’evento si presenti esattamente x volte in n prove (cioè che si

abbiano x successi ed N-x insuccessi) è data da:

)()1()( xn x p p

x

n x p

−−⋅⋅⎟⎟ ⎠

⎞⎜⎜⎝

⎛ =

Esempio. Si ha a disposizione un lotto di 1000 pezzi (N) di cui il 3% è difettoso (p=0,03).

Estraendo 5 pezzi (n) qual è la probabilità che x (x=0,1…,5) siano difettosi?

Soluzione

Notiamo che N>>n, perciò è corretto utilizzare la distribuzione di Bernoulli.

%6666,0)03.01(03.00

5)0( 50 ==−⋅⋅⎟⎟

⎠

⎞⎜⎜⎝

⎛ = p

%1313,0)03.01(03.01

5)1( 41 ==−⋅⋅⎟⎟

⎠

⎞⎜⎜⎝

⎛ = p

E così via….

-9-




OSSERVAZIONE: le distribuzioni fin qui viste consentono di stabilire dei criteri per la

verifica della qualità del prodotto, grazie all’analisi di un campione.

-10-




• Distribuzione di Poisson

Questa distribuzione si applica in sostituzione di quella binomiale quanto più n è grande e

quanto più p è piccolo. Sotto tali condizioni essa fornisce risultati con accettabile

approssimazione, evitando i lunghi e laboriosi calcoli imposti dal modello binomiale.

La distribuzione è espressa dalla seguente formula:

!)(

x

e x p

xλ λ ⋅=

−

dove λ = n⋅p (con i significati di n e p che compaiono nella distribuzione binomiale).

Il valore di λ, che assume solo valori discreti, rappresenta la media. Quindi questa

distribuzione è utile per fenomeni dei quali è nota la media.

Esempio. Se la media delle telefonate in un’ora in un centralino è pari a 10 (λ), qual è la

probabilità che si ricevano 5 telefonate in un’ora?

Soluzione

037,0!510)5(

510

=⋅=−

e p

Alcune proprietà delle distribuzioni

Distribuzione Media Varianza

BINOMIALE E[x] = n⋅p σx2 = n⋅p⋅(1-p)

POISSON E[x] = λ σx2 = λ

-11-




Distribuzioni di probabilità continue

Un altro tipo di distribuzione è quella definita per VARIABILI CONTINUE, ossia variabili

che possono assumere un insieme continuo di valori. Si può definire in questo caso una

funzione densità di probabilità f x(x) che descrive una curva continua.

L’integrale della funzione densità di probabilità tra -∞ e il generico valore x, si dice

funzione distribuzione di probabilità F(x) e rappresenta la probabilità di che il generico

valore argomentale sia ≤ x.

L’area totale compresa tra la curva e l’asse delle x è quindi uguale a 1.

x

f x(x)

x

Valgono le seguenti proprietà:

f x(x)≥ 0 ∀x (condizione di non negatività)

∫+∞

∞−

=⋅ 1)( dx x f x (condizione di normalizzazione)

Si possono inoltre calcolare i momenti della distribuzione:

- MEDIA:

[ ] dx x f x x E x x⋅⋅== ∫

+∞

∞−

)(μ

- VARIANZA:

dx x f x x x x ⋅⋅−= ∫+∞

∞−

)()( 22 μ σ

-12-




oppure:

[ ] 22222 )( x x x x x E dx x f x μ μ σ −=−⋅⋅= ∫

+∞

∞−

NOTA I: una variabile casuale è definita quando si conosce

la densità di probabilità. Tramite la condizione di normalizzazione si ricava la f x(x) e

tramite la distribuzione di probabilità F(x) si risolvono gli esercizi.

NOTA II: esistono delle analogie tra variabili casuali discrete e continue che si riassumono

nella seguente tabella:

VARIABILI DISCRETE VARIABILI CONTINUE

p(x≤i) = p(0)+p(1)+…+p(i) = f 0+f 1+…+f i =

1=∑i

i f 1)( =⋅∫+∞

∞−

dx x fx

∑≤ik

k f ( ) τ τ d f

x

x ⋅∫∞−

i

i

i x f x ⋅= ∑μ

( ) 2222

x

i

iii

i

xi x f x f x μ μ σ −⎟ ⎠

⎞⎜⎝

⎛ ⋅=⋅−= ∑∑

dx x f x x x ⋅⋅= ∫+∞

∞−

)(μ

∫+∞

∞−

⋅⋅−= dx x f x x x x )()( 22 μ σ

-13-




Distribuzione esponenziale

α⋅e-αx x≥0

f x(x) =

0 x<0

I cui momenti sono:

E[x] = 1/ α

σ2 = 1/ α2

Esercizio. La legge di probabilità che descrive il verificarsi di un guasto alla TV è del tipo:

α⋅e-αt t≥0

f t(t) =

0 t<0

con:

α = 1/6 e t espresso in anni.

Qual è la percentuale di TV che saranno sostituite in un anno (validità della garanzia)?

Soluzione

Si deve determinare :

[ ] 1535.0110)()()()1()1( 6 / 11

0

1 0 1

0

1

0

=−=−=⋅⋅+=⋅+⋅=⋅==≤ −⋅−

∞− ∞−

⋅−∫ ∫ ∫ ∫ eed ed ft d ft d ft F t pτ α τ α τ α τ τ τ τ τ τ

-14-




Distribuzione normale

Uno dei più importanti esempi di distribuzioni di probabilità continue è dato dalla

distribuzione normale ( o distribuzione Gaussiana), definita a partire dalla sua densità di

probabilità:

2

2

2

)(

2

1)( σ

μ

π σ

⋅

−−

⋅⋅⋅

= x

e x f

dove μ è la media e σ lo scarto quadratico medio .

Anche in questo caso l’area delimitata dalla curva e dall’asse delle x vale 1.Quindi l’area

sotto la curva e compresa tra due ordinate x = a e x = b, dove a<b, rappresenta la possibilità

che x sia compreso tra a e b.

Quando la variabile casuale x viene espressa in termini di unità standard , z=(x-μ)/ σ,

l’equazione della densità di probabilità viene sostituita dalla cosiddetta forma

standardizzata:

2

2

21)(

z

e z f

−

⋅⋅

=π

In tal caso si dice che z è distribuita normalmente con media zero (μz=0) e varianza unitaria

(σ2=1) .

Quindi la distribuzione di probabilità risulta:

( ) τ τ φ d f z

z

⋅= ∫∞−

)(

Esistono delle tabelle (vedi allegato a fine dispensa) che indicano il valore di φ(z) in

funzione di z.

ATTENZIONE: poiché non vengono diagrammati valori di z negativi, per ottenere la

relativa distribuzione, si procede facendo la differenza tra l’area totale (1) e il

corrispondente valore simmetrico positivo.

Esempio. φ(-1.32)=1-φ(1.32)=1-090658=0.09342

-15-




Esercizio. Il diametro medio interno di un campione di 200 rondelle prodotte da una

macchina è 0.502 cm, mentre lo scarto quadratico medio è 0.005 cm. La funzione

a cui sono destinate queste rondelle permette che i limiti massimi di tolleranzaper i diametri interni vadano da 0.496 cm a 0.508 cm. Qualora si esca da teli

limiti, le rondelle sono considerate difettose. Si determini la percentuale di

rondelle difettose prodotta dalla macchina, assumendo che i diametri siano

distribuiti normalmente.

Soluzione

0.496 in unità standard vale: z1=(0.496-0.502)/0.005=-1.2

0.508 in unità standard vale: z2=(0.508-0.502)/0.005=1.2

La porzione di rondelle non difettose è rappresentata dall’area della curva Gaussiana

compresa tra z1=-1.2 e z2=1.2, quindi dal doppio dell’area compresa tra 0 e z2=1.2.

Perciò:

φ(z2)=φ(1.2)=0.3849.

φ(rondelle non difettose)=2⋅0.3849=0.7698≅77%φ(rondelle difettose)=100%-77%=23%

Esercizio. I voti in, un questionario di biologia, vanno dall’ 1 al 10 secondo un numero di

risposte date a 10 quesiti. Il voto medio è 6.7 e lo scarto quadratico medio 1.2.

Assumendo che i voti siano distribuiti normalmente, determinare (a) la

percentuale di studenti che ha ottenuto il voto 6, (b) il voto massimo del peggior

10% della classe, (c) il voto minimo del miglior 10% della classe.

Soluzione

(a) Per applicare la distribuzione normale a dati discreti, è necessario trattare i dati come

fossero continui. Così non si considera il voto 6, ma il voto che va da 5.5 a 6.5:



La porzione richiesta è l’area compresa tra z1(-1) e z2(-0.17):

-16-




Area richiesta = (area compresa tra –1 e 0)-(area compresa tra –0.17 e 0) =

=0.3413-0.0675=0.2738≅27%

(b) Sia x3 il voto massimo e z3 il voto stesso espresso in unità standard

Nella seguente figura l’area a sinistra di z3 vale 10%=0.10 e quindi l’area compresa tra

z3 e 0 è pari a 0.40 da cui si desume in base alle tabelle z3≅-1.28.

Utilizzando la relazione : Z3=(x3-6.7)/1.2=-1.28

si ottiene x3=5.2 ovvero 5, l’unità più prossima.

(c) Sia x4 il voto minimo richiesto e z4 il voto stesso in unità standard.

Dal punto (b), per simmetria, z4=1.28. Quindi (x4-6.7)/1.2=1.28 e x4=8.2 ovvero 8,

all’unità più prossima.

-17-




Teorema fondamentale della media

Sia data un v.c. y funzione di una seconda v.c. x:

y = g(x)

Allora la media e la varianza della v.c. y possono essere determinati nel modo seguente:

[ ] [ ] ( ) ( ) dx x fx xg xg E y E y ⋅⋅=== ∫+∞

∞−

)(μ TEOREMA FONDAMENTALE DELLA MEDIA

in forma approssimata:

y = g( x)

( ) ( )[ ] ( )[ ] 22'22 )( x x y g xg E y σ μ μ σ ⋅=−= LEGGE DI PROPAGAZIONE DELLA VARIANZA

OSSERVAZIONE: la legge di propagazione risulta valida sotto le seguenti ipotesi:a) la funzione g(x) dev’essere sufficientemente regolare

b) x risulta ben concentrata attorno alla media

La funzione densità di probabilità della v.c. y è espressa inoltre dalla seguente relazione:

In cui l’indice ‘i’ si riferisce al generico intervallodi definizione di x =f

∑∑ ==i i

i x

i

i

i x

y xg

x f

dx

dy

x f y f

)('

)()()(

Esempio. Sia y = x2 con x v.c UNIFORME tra 10 e 11 tale che:

K 10<x<11

fx(x)

0 altrove

Determinare media e varianza di y.

-18-




Soluzione

Si analizza innanzitutto la v.c. x. Per la determinazione di k ossia del valore costante assunto

dalla funzione densità di probabilità tra i valori 10 e 11, applichiamo la condizione dinormalizzazione:

K = 1/(b-a)

∫ ∫+∞

∞−

−⋅=⋅=⋅=b

a

abk dxk dx x fx )()(1

Si può ora valutare media e varianza di x:

2

)(ab

dx

ab

xdx x f x

b

a

x x

+=⋅

−

=⋅⋅= ∫∫+∞

∞−

μ

( )[ ] ( )[ ]

122

22

2222 baabk x x E x E

b

a

x

−=⎟

⎠

⎞⎜⎝

⎛ +−⋅=−= ∫σ

In generale quindi per una distribuzione uniforme tra a e b:

k = 1/(b-a)

μx = (b+a)/2

σ2x = (b-a)3 /12

Nel caso in esame (a=10;b=11):

k = 1

μx = 21/2

σ2x = 1/12

Si può quindi procedere alla soluzione del problema vero e proprio:In forma approssimata si può scrivere:

μy = g(μx) = (21/2)2 = 441/4 = 110.25 (teorema fondamentale della media in forma

approssimata)

-19-




( ) 75.362)( 2222'2 =⋅=⋅≅ x x x x y g σ μ σ μ σ

In forma esatta i valori precedenti risultano:

[ ] [ ][ ] 755.36)33.110(1)()( 211

10

4222 =−⋅⋅=−= ∫ dx x xg E xg E yσ

[ ] [ ] ( ) 33.11010113

11)()()( 33

11

10

2 =−⋅=⋅⋅=⋅⋅=== ∫ ∫+∞

∞−

dx xdx x fx xg xg E y E yμ

VARIABILI CASUALI A 2 DIMENSIONI (variabili casuali doppie)

Si è potuto osservare nella trattazione precedente come i valori argomentali di una variabile

casuale semplice è rappresentabile sull’asse reale.

Le variabili casuali a ‘n’ dimensioni invece sono rappresentabili mediante vettori a ‘n’

componenti.

In particolare si tratteranno le v.c. a due dimensioni (doppie) le quali risultano le più

interessanti per la risoluzione di problemi pratici.

Si distingue anche in questo caso tra v.c. discrete e v.c. continue.

Per la definizione delle v.c. discrete si ricorre alle cosiddette tabelle a doppia entrata che

presentano la seguente struttura:

y\x x1 … xi xn q j

y1 f 11 … … f n1 qi

… … … … … …

y j … … f ij … …

ym f m1 … … f nm qn

pi p1 … … pn

-20-




Le distribuzioni:

∑=

=n

i

ij j f q

1

∑=

=m

j

iji f p1

Costituiscono le distribuzioni marginali associate rispettivamente alla ad y e a x. Esse

esprimono al probabilità che un individuo possieda una proprietà y j o xi indipendentemente

dalle altre proprietà.

Si sono così definite due nuove variabili casuali dette variabili marginali:

x1 … … xn y1 … … ym

X Y

p1 … … pn q1 … … qm

La condizione di normalizzazione diventa ora:

∑∑= =

=n

i

m

j

ij f 1 1

1

Essendo le distribuzioni marginali delle distribuzioni vere e proprie, vale la condizione di

normalizzazione su ciascuna di esse:

∑=

=m

j

jq1

1

∑= =

n

ii p1 1

Inoltre, è possibile esprimere per ciascuna variabile marginale i suoi momenti semplici

(media e varianza):

∑= y

j y qμ ∑ ⋅=i

ii x p xμ

∑ −⋅= j

y j j y p y222 μ σ ∑ −⋅=

i

xii x p x222 μ σ

-21-




Per la variabile casuale doppia nel suo complesso, invece, non si parlerà più di varianza ma

di COVARIANZA, termine che esprime la dipersione attorno alla media analogamente a

quanto visto per variabili casuali semplici.

Si definisce innanzitutto il termine:

( ) ( ) y xij

n

i

n

i

m

j

jiij

m

j

y j xi xy f y x f y x μ μ μ μ σ −⋅⋅=⋅−⋅−= ∑ ∑∑∑= = ==1 1 11

Si definisce MATRICE DI COVARIANZA la seguente:

⎥⎥⎦

⎤

⎢⎢⎣

⎡=

2

2

y xy

xy xC

σ σ

σ σ

NOTA: le due variabili marginali x e y si dicono stocasticamente indipendenti se xy = 0.

Si osservi che nel caso in cui la variabile casuale doppia sia continua, essa risulterà definita

quando è nota la funzione densità di probabilità, in modo analogo a quanto visto per le

variabili casuali semplici.

Si consideri ora il caso in cui una v.c. semplice è funzione di una v.c. doppia, del tipo A =

f(x,y); è il caso tipico di una misura indiretta. Anche in questo caso sarà possibile

determinare media e varianza della variabile casuale semplice in esame con delle semplici

formule. Per maggiore chiarezza di esposizione si analizza il problema con un esempio:

Esempio. Si sono misurati indipendentemente i due lati di un rettangolo (b,h) ottenendo i

seguenti risultati, in termini di media e varianza delle misure:μb = b = 12 m con σb = 0.01 m

μh = h = 5 m con σh = 0.01 m

Determinare la diagonale, il perimetro e l’area del rettangolo come valore medio

e relativa varianza,

-22-




Soluzione

- AREA: A = f(b,h) = b⋅h

μA = f(μb,μh) =12⋅5 = 60 m2

In base alla legge di propagazione della varianza:

bhhb Ah

f

b

f

h

f

b

f σ σ σ σ ⋅

∂∂

⋅∂∂

⋅+⋅⎟ ⎠

⎞⎜⎝

⎛ ∂∂

+⋅⎟ ⎠

⎞⎜⎝

⎛ ∂∂

= 22

2

2

2

2

Essendo le due variabili casuali stocasticamente indipendenti, sarà σbh = 0.

5,

==⎟ ⎠

⎞⎜⎝

⎛ ∂∂

hb

f

hb μ μ

Inoltre:

12,

==⎟

⎠

⎞⎜

⎝

⎛

∂

∂b

h

f

hb μ μ

m A13.0=σ 22 0169.0 m A =σ

- DIAGONALE:

22hbd +=

md 13512 22 =+=μ

13

12

2

2

22,

1 =+⋅

=⎟ ⎠

⎞⎜⎝

⎛ ∂

∂

hb

b

b

f

hb μ μ

md 01143.0=σ 22 0001.0 md =σ

-23-




- PERIMETRO:

),()(2 2 hb f hb p =+=

m p

34)512(2 =+=

2,

2 =⎟ ⎠

⎞⎜⎝

⎛ ∂

∂

hbb

f

μ μ

13

5

2

2

22,

1 =

+⋅

=⎟

⎠

⎞⎜

⎝

⎛

∂

∂

hb

h

h

f

hb μ μ

22 0008.0 m p=σ m p 0283.0=σ

Si consideri ora il caso più generale (che comprende quelli visti in precedenza) in cui una

variabile casuale (semplice o doppia) è funzione di un’altra variabile casuale (semplice o

doppia).

Analizziamo anche in questo caso il problema con un esempio:

- Si considerino quindi le due variabili casuali doppie ξ e η tali che:

x μx = 3 σx = 0.1

ξ con σxy = 0

y μy = 3 σy = 0.1

a = x2+y2 e quindi: μa = …; σa = …

η σab = 0 (sono indipendenti o no?)

b = x2-y2 e quindi: μb = …; σb = …

Si osserva immediatamente che la v.c. doppia η risulta funzione della v.c doppia ξ; si potrà

quindi scrivere:

η = g(ξ)

-24-




Vale ancora la legge della propagazione della varianza che ora assume una espressione

matriciale; essa esprime infatti il legame che intercorre tra la matrice di covarianza della v.c.

η e la matrice di covarianza della v.c. ξ:

C ηη = A⋅Cξξ⋅AT

In cui:

y x

y

g

x

g

y

g

x

g

g A

i

μ μ

ξ

,

22

11

⎥⎥⎥⎥⎢ ∂∂⎤⎡ ∂

⎦

⎤

⎢⎢⎢

⎣

⎡

∂

∂

∂

∂

∂∂

=⎥⎦

⎢⎣∂

=• Jacobiano di g calcolato nella media

⎥⎥⎦

⎤

⎢⎢⎣

⎡=•

2

2

0

0

y

xC

σ

σ ξξ

⎥⎦

⎤⎢⎣

⎡=•

2

2

bab

abaC σ σ

σ σ ηη

Nel caso in esame:

⎥⎦

⎤⎢⎣

⎡

−=⎥

⎦

⎤⎢⎣

⎡

−=

86

86

22

22

, y x

y x

y x A

μ μ

⎥⎦

⎤⎢⎣

⎡=

04.00

001.0ξξ C

⎥⎦

⎤⎢⎣

⎡

−

−=⎥

⎦

⎤⎢⎣

⎡

−⋅⎥

⎦

⎤⎢⎣

⎡⋅⎥

⎦

⎤⎢⎣

⎡

−=⇒

92.22.2

2.292.2

88

66

04.00

001.0

86

86ηη C

92.22 =⇒a

σ

92.22 =⇒ bσ

2.2−=⇒ abσ

Da cui deduciamo che le 2 v.c. a e b non sono stocasticamente indipendenti

-25-




OSSERVAZIONE I:

Le condizioni sotto le quali la legge di propagazione della varianza risulta valida sono le

stesse già viste in precedenza e che qui ricordiamo:- la funzione g deve essere morbida:

- la v.c. ξ deve essere ben distribuita attorno alla media.

OSSERVAZIONE II:

- Coefficiente di correlazione lineare: fornisce un’indicazione sull’entità della

correlazione tra due variabili casuali a e b (in particolare fornisce il livello di

distribuzione dei valori attorno ad una retta):ba

ab

abr σ σ

σ

⋅=

Nel caso sopra analizzato, per esempio, risulta:

rab = -0.7534

-26-




Costruzione di un istogramma

L’istogramma costituisce fondamentalmente una rappresentazione grafica della funzione

densità di probabilità f x(x).

Sia quindi data una variabile casuale x i cui valori argomentali sono raggruppati in classi:

10-12 12-15 15-20 20-30 30-50

x

0.04 0.18 0.40 0.20 0.18

Vediamo come si procede operativamente alla costruzione dell’istogramma della v.c. x.

Si procede innanzitutto con la costruzione di una tabella in cui per ogni classe di valori si

indica: il valore medio della classe xi, l’ampiezza della classe, la frequenza f(x) associata, la

cumulata relativa F(x) data dalla somma di tutte le frequenze precedenti, l’altezza hi

associata.

Per la valutazione di hi si tenga conto che l’istogramma è costituito da rettangoli la cui area

dev’essere proporzionale alla probabilità che il generico valore cada nell’intervallo

considerato, quindi:hi⋅Δxi ∝ f(x) (dove hi rappresenta l’altezza dell’i-esima barra dell’istogramma)

oppure, in particolare: hi⋅Δxi = f(x) hi = f(x)/ xi

CLASSE xi Δxi f(x) F(x) hi

<10 - - 0 0 0

10-12 11 2 0.04 0.04 0.02

12-15 13.5 3 0.18 0.22 0.06

15-20 17.5 5 0.40 0.62 0.08

20-30 25 10 0.2 0.82 0.02

30-50 40 20 0.18 1.00 0.00

>50 - - 0 0 0

Si può quindi procedere alla costruzione dell’istogramma1.

1 Si veda a pag.28 un esempio completo di tracciamento di un istogramma

-27-




E’ possibile inoltre dare una rappresentazione grafica della cumulata F(x) che rappresenta

l’andamento dell’integrale dell’istogramma:

CUMULATA

0

0,2

0,4

0,6

0,8

1

1,2

0 10 20 30 40 50 60 70

x

F ( x )

Si procede quindi alla determinazione di media e varianza della v.c. x:

[ ] 07.22=⋅== ∑ i

i

i x f x x E μ

( ) 06.862222 =−⎟ ⎠

⎞⎜⎝

⎛ ⋅=⋅−= ∑∑ x

i

iii

i

xi x f x f x μ μ σ

σx = 9.27 (dispersione attorno alla media)

A partire dai valori di μx e σx è possibile costruire una distribuzione normale con media e

varianza proprio μx e σx, potendo definire conseguentemente il livello di adattabilità del

modello, cioè se la distribuzione normale si avvicina con buona approssimazione la

distribuzione effettiva.

-28-




• Di seguito è riportato un esempio di tracciamento di un istogramma, a cui è stata

sovrapposta la distribuzione normale associata; si è poi eseguito il test

dell’approssimazione del modello:

Classe Valore Ampiezza O i f(x) F(x) h i E i

medio x i

1 -105 30 1 0,006667 0,006667 0,000222 1,6425

2 -65 50 18 0,12 0,126667 0,0024 15,8685

3 -25 30 25 0,166667 0,293333 0,005556 25,824

4 5 30 42 0,28 0,573333 0,009333 35,511

5 35 30 30 0,2 0,773333 0,006667 34,5195

6 65 30 20 0,133333 0,906667 0,004444 22,2825

7 95 30 10 0,066667 0,973333 0,002222 10,0845

8 125 30 2 0,013333 0,986667 0,000444 3,144

9 155 30 2 0,013333 1 0,000444 0,678

10 195 50 0 0 1 0 0,1065

210 1

Numerosità totale (N): 150

Media (μ): 16,548

Varianza (σ2): 2308,73

S.q.m (σ): 48,04921

κ2: 5,676383

0

0,2

0,4

0,6

0,8

1

1,2

- 1 2 0

- 1 1 0

- 1 0 0

- 9 0

- 8 0

- 7 0

- 6 0

- 5 0

- 4 0

- 3 0

- 2 0

- 1 0 0

1 0

2 0

3 0

4 0 5 0

6 0

7 0

8 0

9 0

1 0 0

1 1 0

1 2 0

1 3 0

1 4 0

1 5 0

1 6 0

1 7 0

1 8 0

1 9 0

2 0 0

2 1 0

x

F(x)

Funzione distribuzione di probabilità (F)

-29-




Si può determinare la distribuzione normale (gaussiana) di media m e varianza s2 seconda la

formula:

Si può ora rappresentare l’istogramma sovrapposto alla distribuzione normale associata, in

modo da avere un riscontro visivo dello scostamento dei due andamenti.

2

2

2

)(

2

1σ

μ

σ π

−−

⋅= x

x e f

0

0,001

0,002

0,003

0,004

0,005

0,006

0,007

0,008

0,009

0,01

- 1 6 0

- 1 5 0

- 1 4 0

- 1 3 0

- 1 2 0

- 1 1 0

- 1 0 0

- 9 0

- 8 0

- 7 0

- 6 0

- 5 0

- 4 0

- 3 0

- 2 0

- 1 0 0

1 0

2 0

3 0

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0

1 1 0

1 2 0

1 3 0

1 4 0

1 5 0

1 6 0

1 7 0

1 8 0

1 9 0

2 0 0

2 1 0

2 2 0

2 3 0

2 4 0

x

h

f

Distribuzione a istogrammi (h)

Distribuzione normale (fx)

Per il test di buon adattamento dell’istogramma alla distribuzione reale, si rimanda al

paragrafo relativo.

-30-




Intervalli fiduciari

Il seguente paragrafo si propone di rispondere alle domande: presa una popolazione con un

elevato numero di individui, esiste un modo per caratterizzarla, partendo da un suo

campione? In che modo i parametri caratteristici del campione si avvicinano a quelli reali?

Per prima cosa si deve stabilire un INTERVALLO FIDUCIARIO basato su una confidenza

α , in base alla quale, la media dell’intera popolazione (μ) risulta compresa nell’intervallo

fiduciario con una probabilità dell’ (1-α⋅ 100)%.

Note la numerosità (n) e la media del campione (xm), lo scarto quadratico medio della

popolazione (σ) e l’intervallo di confidenza (α), l’intervallo fiduciario per μ risulta:

n

z x

n

z x mm

σ μ

σ α α ⋅+≤≤

⋅− 2 / 2 /

dove zα /2 si ricava dalle tabelle. Attenzione ad usare α /2!

Se invece non si ha a disposizione alcuna informazione circa la popolazione, ossia anche σ è

incognito, si devono considerare come dati di partenza :

n= numerosità del campione

xm= media del campione

ed esprimere l’intervallo fiduciario come:

( )2

2

1−

−= ∑

n

x xs

m

n

st xn

st x mm⋅+≤≤⋅− 2 / 2 / α α μ

dove con tα /2 si indica la variabile di student , ricavabile dalle apposite tabelle, in funzione

del numero di gradi di libertà (ν=numero dei campioni - numero parametri già stimati) del

sistema.

-31-




Esercizio: Nel misurare i tempi di reazione, uno psicologo stima che lo scarto quadratico

medio sia 0.05 s. Quanto grande deve essere il campione di misure considerate,

affinché possiamo essere confidenti (a) al 95% e (b) al 99% che l’errorecompiuto nella stima non superi gli 0.01 s.

Soluzione. (a)I limiti di confidenza al 95% sono

n xm

σ ⋅±

96.1

Essendo l’errore della stima pari a

n

σ ⋅96.1

Considerando σ=0.05 s, tale errore sarà uguale a 0.01 s se

01.0)05.0()96.1(

=⋅

n

Cioè n=96.04.

Così si può essere confidenti che al 95% che l’errore della stima sarà inferiore a 0.01 se n è

pari a 97 o più.

(b)Analogamente si ricava n=166.4 .Così si può essere confidenti al 99% che l’errore della

stima sarà inferiore a 0.01 solo se n è pari a 167 0 più.

Intervalli fiduciari per differenze

Se si vuole costruire un intervallo fiduciario per la differenza di due medie (μ1-μ2) e si

hanno a disposizione le varianze σ1 e σ2, esso si calcola come:

2

2

2

1

2

12 / 2121

2

2

2

1

2

12 / 21

nn z x x

nn z x x

σ σ μ μ

σ σ α α +⋅+−≤−≤+⋅−−

Se invece i valori di σ1 e σ2 sono incogniti si ricorre alla distribuzione di student e si

presentano due possibili casi:

-32-




• σ1 e σ2 non noti ma si ipotizza σ12 ≠σ2

2

2

2

2

1

2

1

2 / 21212

2

2

1

2

1

2 / 21 n

s

n

s

t x xn

s

n

s

t x x +⋅+−≤−≤+⋅−− α α μ μ

Il numero di gradi di libertà si può calcolare come:

2

11 2

2

2

2

2

1

2

1

2

1

2

2

2

2

1

2

1

−

+

⎟⎟

⎠

⎞⎜⎜

⎝

⎛

−+

⎟⎟

⎠

⎞⎜⎜

⎝

⎛

⎟⎟ ⎠

⎞⎜⎜⎝

⎛ +

=

nn

s

nn

s

n

s

n

s

ν

• σ1 e σ2 non noti ma si ipotizza σ12 =σ2

2

p p st x xst x x ⋅+−≤−≤⋅−− 2 / 21212 / 21 α α μ μ

dove

( ) ( )2

11

21

2221

21

−+

−⋅+−⋅=

nn

nsnss p

Il denominatore indica il numero di gradi di libertà, dato dalla somma degli elementi

campionati meno il numero dei parametri già stimati.

-33-




Test di significatività

Avendo a disposizione le caratteristiche di un campione, ci si chiede se la media dell'intera

popolazione possa essere pari, con una certa confidenza, ad un valore ipotizzato. Ci si pone,

per esempio, la domanda: è ragionevole pensare che al 95% la media cada in un certo

intervallo?

Si indica tale ipotesi (Hp) con: μ=μ0 e si costruisce un intervallo fiduciario con confidenza

α:

• σ (della popolazione) noto:

per sottoporre a test l’ipotesi μ=μ0, bisogna calcolare la quantità:

n

x z m

σ 0−

=

e se

2 / α z z <

l’ipotesi è accettata.

In caso contrario l’ipotesi μ=μ0 è rigettata.

Osservazione: la scrittura

2 / α z z <

equivale a

2 /

0

2 / α α σ z

n

x

zm

<

−

<−

ossia all’ espressione vista per gli intervalli fiduciari. Infatti nel caso precedente si costruiva

un intervallo, ora si deve verificare una disuguaglianza.

-34-




• σ non noto:

per sottoporre a test l’ipotesi μ=μ0, si deve fare riferimento alla distribuzione di student e

calcolare la quantità:

n

s

xt m 0

0

μ −=

e se

1,2 / 0 −=<nt t υ α


In caso contrario l’ipotesi μ=μ0 è rigettata.

• Sono noti σ1,σ2,μ1,μ2, di due popolazioni da cui estraggo due campioni (n1, x1, σ12, n2, x2,

σ22, noti):

si sottopone a test l’ipotesi (Hp0) μ1=μ2.

Si calcola quindi

2

2

2

1

2

1

210

nn

x x zσ σ

+−=

e se

2 / 0 α z z <


In caso contrario l’ipotesi μ1=μ2 è rigettata e vale invece l’ipotesi Hp1: μ1≠μ2

• σ1 e σ2 non noti ma si ipotizza σ12 ≠σ2

2:

per sottoporre a test l’ipotesi Hp0 μ1=μ2, si deve fare riferimento alla distribuzione di student

e calcolare la quantità:

2

2

2

1

2

1

210

n

s

n

s

x xt

+

−=

-35-




considerando il numero di gradi di libertà (come già visto per gli intervalli fiduciari) pari a:

2

11 2

2

2

2

2

1

2

1

2

1

2

2

22

1

21

−

+

⎟⎟ ⎠

⎞⎜⎜⎝

⎛

−+

⎟⎟ ⎠

⎞⎜⎜⎝

⎛ ⎟

⎟

⎠

⎞

⎜

⎜

⎝

⎛ +

=

n

n

s

n

n

s

n

s

n

s

ν

e se

υ α ,2 / 0 t t <


In caso contrario l’ipotesi μ1=μ2 è rigettata e vale invece l’ipotesi Hp1: μ1≠μ2

• σ1 e σ2 non noti ma si ipotizza σ12 =σ2

2

sempre facendo riferimento alla distribuzione di student si calcola:

21

210

11

nns

x xt

p+⋅

−=

dove

( ) ( )2

11

21

2221

21

−+

−⋅+−⋅=

nn

nsnss p

e ν= n1+n2-2

e se

υ α ,2 / 0 t t <


In caso contrario l’ipotesi Hp0 μ1=μ2 è rigettata e vale invece l’ipotesi Hp1: μ1≠μ2.

-36-




Esercizio: Verificare (con confidenza α=0.05) l’ipotesi che la media dei guadagni in una

certa comunità sia μ=13000 $ l’anno, considerando uno scarto σ=3640$ e

supponendo di valutare un campione di n=64 persone appartenenti a tale

comunità con media x=12180 $.

Soluzione:

Poiché la varianza della popolazione è nota (σ), si considera una distribuzione di tipo

normale e si calcola:

80.1

64

364013000121800 −≅−=−=

n

x z m

σ

Per avere un rifiuto il valore di z dovrebbe essere minore di –1.96 (valore di zα /2

corrispondente a α=0.05) ma non è così. Si conclude quindi che l’ipotesi μ=13000 è

accettata.

Esercizio. Sono stati testati 15 campioni di due tipi di materiale e si sono osservati iseguenti risultati, relativi al carico di resistenza a rottura:

x1=320 x2=350

S1=12 S2=16

Si può ritenere che il secondo materiale sia migliore del primo?

Soluzione

H0: μ1≠μ2

H1: μ1=μ2

In questo caso la varianza è incognita perciò si calcola:

809.5

15

400

350320

2

2

2

1

2

1

21 −=−

=

+

−=

n

s

n

s

x xt o

-37-




Se si verifica che

ν ,05.0

t t o ≥

H0 è verificato.

701.1

2822.1876.5

1.7112

11

28,05.0

2

2

1

2

1

1

2

1

2

1

2

2

2

2

1

2

1

=

≅−+

=−

+

⎟⎟ ⎠

⎞⎜⎜⎝

⎛

+

+

⎟⎟ ⎠

⎞⎜⎜⎝

⎛

⎟⎟ ⎠

⎞⎜⎜⎝

⎛ +

=

t

n

n

s

n

n

s

n

s

n

s

ν

Da cui

5.809>1.701

quindi si può ritenere che il secondo materiale sia migliore del primo.

La distribuzione 2

Stima della varianza di una popolazione normale

Come già visto a proposito della media di una popolazione normale, può presentarsi la

necessità i determinare un intervallo di confidenza per la varianza σ2 della popolazione. Si

fa riferimento a questo proposito alla distribuzione χ2 che ci permette appunto la

costruzione di un intervallo fiduciario per la varianza della popolazione, il quale è legato

alla stima S della varianza stessa e dal modo in cui S risulta distribuita attorno al valore

esatto.

L’intervallo di confidenza all’(1-α)% risulta quindi:

( ) ( )2

1,2 / 1

22

21,2 /

2 11

−−−

⋅−≤≤

⋅−

nn

S nS n

α α χ σ

χ

-38-




in cui: S2 = stima della varianza della popolazione (v. formule precedenti)

n = numerosità del campione

n-1 = gradi di libertàSi tratta quindi di un intervallo di confidenza asimmetrico.

I valori di χ2 che compaiono nell’espressione precedente vengono ricavati da apposite

tabelle in funzione di n-1 e α.

Test di significatività per la varianza di una popolazione normale

La domanda a cui si vuole rispondere è la seguente: “E’ ragionevole considerare valida

l’ipotesi che la varianza della popolazione uguagli un valore dato σ02 con una confidenza

α?”. A tal fine si fa ancora ricorso alla distribuzione χ2.

( )2

0

22

0

1

σ χ

S n ⋅−=

Si calcola innanzitutto la seguente quantità:

Il test si può quindi riassumere nel modo seguente:

IPOTESI ACCETTATA

IPOTESI NON ACCETTATA

⇒≤≤ −−−2

1,2 /

2

0

2

1,2 / 1 nn α α χ χ χ

⇒<> −−−2

1,2 / 120

21,2 /

20 ; nn α α χ χ χ χ

-39-




Esempio. Si sono esaminati 16 campioni di materiale da costruzione:

2216 2237 2249 22042225 2301 2281 2263

2318 2255 2275 2295

2250 2238 2300 2217

Costruire un intervallo fiduciario al 95% per la media μ e la varianza σ2.

Soluzione

La numerosità del campione risulta n =16. Si calcola quindi media e varianza campionaria:

xm = 2257.75

S = 34.515

L’intervallo fiduciario per la media è dunque:

n

S t x

n

S t x nmnm

⋅+≤≤⋅− −− 1,2 / 1,2 / α α μ

Dalle tabelle relative alla ditribuzione t-di Student si ricava (α /2 = 0.025,ν = n-1 = 15):

t0.025,15 = 2.131

14.227636.2239 ≤≤⇒

Si procede ora con la costruzione dell’intervallo fiduciario per la varianza:

( ) ( )2

1,2 / 1

22

21,2 /

2 11

−−−

⋅−≤≤

⋅−

nn

S nS n

α α χ σ

χ

Dalle tabelle relative alla distribuzione χ2 si ottiene:

4.535.25

2850650

27.6

49.27

2

2

15,975.0

2

15,025.0

≤≤⇒

≤≤⇒

=

=

σ

σ

χ

χ

-40-




Si supponga ora di voler sottoporre a test la seguente ipotesi con un livello di confidenza al

95%:

H0: σ2

= σ02

= 402

Si calcola quindi, in base a quanto visto in precedenza, il parametro:

( )168.11

120

22

0 =⋅−

=σ

χ S n

Sono stati precedentemente determinati i valori:

27.6

49.27

215,975.0

2

15,025.0

=

=

χ

χ

Si verifica quindi che:

49.2727.6 20 ≤≤ χ

Pertanto è ragionevole supporre che σ2 = σ02 con livello di confidenza del 95%.

Esercizio. Dato il campione

5.34 5.65 4.76

5.00 5.55 5.54

5.07 5.35 5.44

5.25 5.35 5.61

sottoporre a test l’ipotesi: H0: σ

2

= σ0

2

= 0.5 con confidenza α = 0.05.Soluzione

Risulta in questo caso:

n = 12

n-1 = ν = 11

α /2 = 0.025

xm = 5.3258

-41-




S = 0.26865

Pertanto:

( )588.1

120

220 =

⋅−=

σ

χ S n

Dalle tabelle del χ2 si ricava:

82.3

92.21

211,975.0

2

11,025.0

=

=

χ

χ

Si osserva dunque che la disuguaglianza:

92.2182.3 20 ≤≤ χ

non è verificata e quindi l’ipotesi iniziale è respinta.

Test di buon adattamento di un istogramma ad una distribuzione teorica – test

del 2

Il test del chi-quadro può essere usato per determinare in che misura le distribuzioni teoriche

si adattano alle distribuzioni empiriche, cioè quelle ottenute da dati campionati.La statistica χ2, infatti, fornisce una misura della discrepanza esistente fra le frequenze

osservate o empiriche (Oi) e quelle teoriche (Ei).

Si calcola la quantità:

( )∑

=

−=

k

i i

ii

E

E O

1

2

2

0 χ

in cui: k = numero classi dell’istogramma

Oi = frequenza empirica intervallo i-esimoEi = frequenza teorica intervallo i-esimo

Si dirà che l’ipotesi in base alla quale la distribuzione teorica approssima bene la

distribuzione della v.c. in esame è accettata, qualora sia verificata la seguente

disuguaglianza:

2,2 /

20

2,2 / 1 ν α ν α χ χ χ <<−

-42-




in cui: α = confidenza

ν = numero dei gradi di libertà = n-m-1 (n = numero delle classi

m = numero parametri da determinare per

mettere a punto il modello approssimante)

Nel caso in cui la disuguaglianza risulti verificata, diremo che il modello scelto è un buon

modello con una attendibilità del (1-α)%.

Riprendendo l’esempio dell’istogramma, si potrà determinare, per mezzo del test del chi-

quadro, se la distribuzione normale è una buona approssimazione per la distribuzione reale,

rilevata empiricamente.

Volendo eseguire un test al 95% si adotteranno i seguenti dati:

α = 0.05

n = numero delle classi = 10

m = 2

e quindi:

ν = 7

Dalle apposite tabelle si ricava:

01.1627,025.0 = χ

69.12

7,975.0 = χ

inoltre:

( ) 05.41

2

20 =−

= ∑=

k

i i

ii

E

E O χ

dove:

Ei = pi⋅N = [φ(zi+1)-φ(zi)] ⋅N (N = numerosità del campione)

Oi si ricava dalla tabella che riassume i dati sperimentali

Eseguendo i calcoli si deduce che la distribuzione normale è una buona approssimazione per

la distribuzione relativa alla v.c. in esame.

-43-




Esempio. Siano date le seguenti distribuzioni

H HK KDistribuzione teorica 1(0.25%) 2(0.5%) 1(0.25%)

Risultati sperimentali 0.28% 0.47% 0.25%

(numerosità campione N=400)

Con una affidabilità del 95%, la legge teorica è una buona approssimazione

dell’andamento reale?

Soluzione

Si calcolano innanzitutto le frequenze empiriche e le frequenze teoriche:

Ei 100 (=0.25⋅400) 200 100

Oi 112 (0.28⋅400) 188 100

Volendo fare un test del χ2, si calcola:

( ) ( ) ( )16.2

100

100100

200

200188

100

100112222

2

0 =−

+−

+−

= χ

I gradi di libertà risultano:

ν = 3-0-1 = 2 (infatti non ci sono dati da stimare per mettere a punto il modello teorico)

Dalle apposite tabelle si ricava:

E’ verificata, quindi, la condizione di validità del test e si può concludere che il modello

assunto è un buon modello.

38.722,025.0 = χ

05.02

2,975.0 = χ

-44-




Media ponderata

Si vuole stimare una certa grandezza a partire da stime di essa fatte in modi e tempi diversi.

Se, per esempio; con cinque strumenti si sono ottenuti i seguenti risultati per la misurazione

di una certa grandezza:

A 120.449 ± 0. 010 (μ±σ)

B 120.441 ± 0.008 (μ±σ)

C 120.425 ± 0.009 (μ±σ)

D 120.405 ± 0.005 (μ±σ)E 120.439 ± 0.005 (μ±σ)

Si utilizza la media ponderata.

Per prima cosa bisogna verificare che le misure siano tra loro compatibili al fine di scartare

quelle affette da errore sistematico. Da un’analisi degli intervalli fiduciari (μ±3σ), si verifica

che la misura D non è compatibile con le altre e quindi viene scartata.

Quindi, si calcolano i pesi per ogni misura:

dove:

2

20

i

i pσ

σ =

σ02=max(σi

2)=(0.010)2=10-4

p1=pa=1

p2=pb=1.56p3=pc=1.23

p4=pe=4

media ponderata:

4385.120=⋅

=∑

∑i

ii

p

p x

α

dove αi=μi;

-45-




serve anche l’incertezza. Perciò si calcola la varianza pesata:

( ) 5

22

02ˆ 10479.11

1ˆˆ −⋅=⋅− ⋅−== ∑∑∑ i

ii x

pm p x

pα σ σ

da cui si ottiene la stima finale della misura: 120.4385±0.003846.

A questo punto si può verificare la bontà del modello scelto, effettuando il test sulla

varianza (con confidenza α=0.05):

( ) ( )2

1),2 / 1(

202

021,2 /

20

ˆ1ˆ1

−−−

⋅−

≤≤

⋅−

mm

mm

α α χ

σ

σ χ

σ

dove con m si indica il numero delle misure e quindi con m-1=ν il numero di gradi di

libertà. Consultando le tabelle del χ2 si ottengono:

χ2α /2,m-1=0.35

χ2(1-α /2),m-1=0.22

da cui 3.6995⋅10

-5

≤10

-4

≤1.572⋅10

-4

perciò il modello adottato per scegliere i pesi è corretto.

Se, invece, considerassi anche la misura D (m=5) otterrei dei valori:

p1=pa=1

p2=pb=1.56

p3=pc=1.23

p4=pe=4

p5=pd=4

4271.120=⋅

=∑

∑i

ii

p

p x

α

Volendo effettuare il test sulla varianza in questo caso:

χ2

α /2,m-1=11.14

χ2(1-α /2),m-1=0.4

-46-




da cui 2.969⋅10-4≤10-4≤6.89⋅10-3 (falso)

indica che il modello non si adatta bene al problema considerato.

Esercizio. Le misure di seguito sono relative ad una stessa grandezza eseguita con differenti

modalità. Trovare una stima della grandezza, del suo scarto quadratico medio e

verificare l’attendibilità del modello.

240.4± 0.52 (A)

241.3± 0.38 (B)

235.8± 0.48 (C)

242.1± 0.42 (D)Soluzione

Da un’analisi degli intervalli prodotti durante le diverse misurazioni si verifica che la

misurazione C non è consistente perciò si scarta. La stima del modello risulta:

4.241=⋅

=∑

∑i

ii

p

p x

α

σ02=max(σi

2)=(0.52)2=0.2704

p1=pa=1

p2=pb=1.87

p3=pd=1.53

( )

423.0

179.01

1

ˆˆ

22

02ˆ

=

=⋅−

⋅−==

∑∑

∑ x

i

ii

x pm

p x

p

σ

α σ σ

Da cui si ottiene la stima finale della misura: 241.4±0.423.

Per verificare la bontà del modello scelto si effettua il test sulla varianza:

( ) ( )2

1),2 / 1(

202

021,2 /

20

ˆ1ˆ1

−−−

⋅−≤≤

⋅−

mm

mm

α α χ

σ σ

χ

σ

-47-




Da cui risulta:

0.213 ≤ 0.2704 ≤ 31.50

ossia il metodo è adatto.

-48-




ESERCIZI VARI

Esercizio. Sia Y una variabile casuale definita da Y=3⋅X1+ X2- X3 dove le variabili casuali

Xi sono indipendenti e normalmente distribuite con:

μ1=4 μ2=15 μ3=7

σ1=0.5 σ2=1.1 σ3=0.9

Quale è la probabilità che Y sia compresa tra 18.5 e 23.6?

Soluzione

Poiché le Xi sono tra loro indipendenti, posso calcolare media e varianza di Y come segue:

20157433 321 =+⋅=++⋅= x x x yμ

066.2

27.49.011.115.09 22223

2

=

=⋅+⋅+⋅=⋅= ∑

y

i

i

i y a

σ

σ σ

Supponendo che anche Y esibisca un andamento normale:

Y1=18.5:

( ) ( ) 2327.076730.01726.01

726.0066.2

205.18

1

1

=−=−=−=

−

=φ φ z

z

Y2=23.6:

( ) ( ) 95907.07425.1

7425.1066.2

206.232

2 ==

=−

=

φ φ z

z

da cui

P(18.5≤ y ≤ 23.6) =0.95907-0.2327=0.72637≅73%

-49-




Esercizio. Sia X una variabile casuale continua con densità:

k ⋅ x⋅ (2-x) con 0≤x≤2

f x(x)=

0 altrove

Determinare k in modo che la funzione sia effettivamente una densità di

probabilità. Si calcolino la media e la varianza di X.

Soluzione

Poiché deve valere:

Noto k si possono determinare media e varianza:

( )

( )

( )

4

3

13

84

3

12

12

1

2

0

32

2

0

2

2

0

=

=⎥⎦

⎤⎢⎣

⎡ −⋅=⎥⎦

⎤⎢⎣

⎡−⋅

=⋅−⋅

=⋅−⋅⋅

=

∫

∫

∫+∞

∞−

k

k x

xk

dx x xk

dx x xk

x f x

[ ] ( ) ( )

( )[ ] 0)484(4

3

44

3)2(

4

3)1(

14

168.

3

2

4

3

4

1

3

2

4

32

4

3

2

0

2342

0

22

2

0

432

2

0

=−+−⋅=⎥⎦

⎤⎢⎣

⎡−+−⋅=⋅−⋅⋅⋅−=−=

=⎟ ⎠

⎞⎜⎝

⎛ −⋅=⎥

⎦

⎤⎢

⎣

⎡⎟

⎠

⎞⎜⎝

⎛ −⋅⋅=⋅−⋅⋅=⋅⋅==

∫

∫∫+∞

∞−

x x x

dx x x x x E

x xdx x xdx x f x x E

x x

x x

μ σ

μ

-50-




Esercizio. All’interno di un eserciziario di matematica costituito da N=200 esercizi, sono

distribuiti casualmente 8 errori (D=8). Si chiede la probabilità di trovare almeno

1 errore esaminando 50 pagine (n=50).

Soluzione

Si osserva che la difettosità è piccola mentre la numersità è grande (p = D/N = 0.04); si fa

ricorso quindi alla distribuzione binomiale:

- probabilità di avere almeno un errore:

p(x≥1) = 1-p(x=0)

ricordando l’espressione della funzione densità di probabilità per una distribuzione

binomiale, si ha:

( ) 87.004.0104.00

501)1(

500 =−⋅⋅⎟⎟ ⎠

⎞⎜⎜⎝

⎛ −=≥ x p

Volendo determinare il numero di pagine da esaminare per avere una probabilità almeno del

90% di trovare almeno 3 errori, si calcola:

p(x≥3) = 1-[p(0)+p(1)+p(2)] ≥ 0.9

Si ricava n che risolve questa disequazione per via numerica ma non analitica.

Tra i vari metodi a disposizione risulta particolarmente agevole da utilizzare quello per

approssimazioni successive.

-51-




Esercizio. Per l’acquisto di un lotto di 300 pezzi (N), ne vengono esaminati 10 (n). Se si

riscontra al massimo un solo difetto, si procede all’acquisto, altrimenti no.

Diagrammare in funzione della difettosità la probabilità di acquistare il lotto.Soluzione

Poiché N>>n, si può utilizzare la distribuzione binomiale.

Per lo svolgimento dell’esercizio è utile organizzare in una tabella alcuni dati:

p D p(0) p(1) p(0)+p(1)

0.01 3 0.9043 0.0913 0.9957

0.02 6 0.817 0.1667 0.9838

0.04 12 0.6649 0.2770 0.9418

0.06 18 0.5386 0.3437 0.8824

0.1 30 0.3487 0.3874 0.7361

I valori riportati sono stati ricavati nel seguente modo:

- Se D = 3:

90434,0)01.01(01.00

10)0( 100 =−⋅⋅⎟⎟ ⎠ ⎞⎜⎜

⎝ ⎛ = p

0913,0)01.01(01.01

10)1( 91 =−⋅⋅⎟⎟

⎠

⎞⎜⎜⎝

⎛ = p

- Se D = 6:

e così via…

817,0)02.01(02.00

10)0( 100 =−⋅⋅⎟⎟

⎠

⎞⎜⎜⎝

⎛ = p

1667,0)02.01(02.01

10)1( 91 =−⋅⋅⎟⎟

⎠

⎞⎜⎜⎝

⎛ = p

-52-




E’ possibile così tracciare un grafico qualitativo:

0

0,2

0,4

0,6

0,8

1

1,2

0 0,02 0,04 0,06 0,08 0,1 0,12

D/N

p ( 0 ) + p ( 1 )

Esercizio. Il centralino di una società riceve un numero medio di 30 chiamate all’ora.

A) Calcolare la probabilità che in 3 minuti non arrivi alcuna chiamata.

B) Calcolare la probabilità che in 3 minuti arrivi al massimo 1 chiamata.

C) Calcolare la probabilità che in 5 minuti arrivino più di 5 chiamate.

Soluzione

A) Poiché si ha un’indicazione media del fenomeno, la distribuzione migliore è quella di

Poisson. Si deve quindi definire un opportuno parametro λ che modellizza il fenomeno.

λ (chiamate “mediamente” ogni 3 min) = 30/60⋅3 = 1.5

B)

223.0!0

5.1

!)0()0( 5.1

05.1

==⋅

=⋅

==≤ −−−

ee

x

e p x p

xλ λ

553.0!1

5.1

!0

5.1)1()0()1(

15.105.1

=⋅

+⋅

=+=≤

−−ee

p p x p

C) Si deve ricalcolare il valore di λ = 30/60⋅5 = 2.5

P(x>5) = 1-p(x≤5) = 1-[p(0)+p(1)+p(2)+p(3)+p(4)+p(5)]

082.0!0

5.2)0(

05.2

=⋅

=−

e p

205.0)0(!1

5.2)1(

15.2

=⋅=⋅

=−

λ pe

p

-53-




256.02

)1(!2

5.2)2(

25.2

=⋅=⋅

=− λ

pe

p

214.03

)2(!3

5.2)3(

35.2

=⋅=⋅

=− λ

pe

p

134.04

)3(!4

5.2)4(

45.2

=⋅=⋅

=− λ

pe

p

Da cui:

067.05

)4(!5

5.2)5(

55.2

=⋅=⋅

=− λ

pe

p

p(x>5) = 0.042 = 4.2%

Documents

Eserciziario Di Statistica