Upload
vuliem
View
221
Download
1
Embed Size (px)
Citation preview
METODO DEI MINIMI QUADRATI
Torniamo al problema della crescita della radice di maisin funzione del contenuto di saccarosio nel terreno dicoltura. Ripetendo varie volte l’esperimento con diversequantità di saccarosio, abbiamo misurato le lunghezzedella radice, ottenendo i dati riportati nella seguentetabella:
80717456624433Lunghezza radice in mm: l
3530252015105Saccarosio in gr/l : s
METODO DEI MINIMI QUADRATI
Ci piacerebbe poter esprimere la dipendenza di l da smediante una funzione l(s). Abbiamo già controllato, pertre di questi dati, che non è possibile determinare unafunzione lineare che corrisponda esattamente ai datiraccolti. I punti (5,33), (15,62), (25,74) non sonoallineati!Tuttavia potremmo cercare una funzione lineare che, purnon potendo corrispondere esattamente ai dati, sia il più“vicino” possibile, in un senso che preciseremo a breve,ad essi.
MEDIA ARITMETICA DEI DATI
Alcune nozioni preliminari:Definiamo media aritmetica dei dati campionarix1 ,x2 ,…..,xn , il numero ottenuto facendo la somma deidati del campione e dividendo tale somma per n, dove nè la numerosità campionaria x*= (x1 + x2 + …..+ xn )/nEsempio: la quantità media di saccarosio presente nelterreno di coltura nei nostri esperimenti è (5+10+15+20+25+30+30) / 7 = 140/7 = 20 gr/l
MEDIA ARITMETICA DEI DATI
La lunghezza media della radice di mais, ottenuta neinostri esperimenti è (33+44+62+56+74+71+80)/7 = 420/7 = 60 mm
Proprietà della media aritmetica x*:
n Σ (x*-xi) = 0 (dimostralo per esercizio…) i=1
MEDIA ARITMETICA DEI DATI
La media aritmetica è l’unico punto di minimo dellafunzione nf(x) = Σ (x-xi)2 i=1
Sviluppando i quadrati, vediamo che f(x) è una funzionequadratica
n n nf(x) = Σ (x2 - 2xi x + xi
2) = nx2 - 2( Σ xi )x + Σ xi2
i=1 i=1 i=1
MEDIA ARITMETICA DEI DATI
f(x) = ax2 + bx + c, dove
n n a = n, b = − 2 Σ xi , c = Σ xi
2 i=1 i=1
Quindi il punto di minimo di f è n x* = −b/2a = (Σ xi )/n i=1
che è, appunto, la media aritmetica dei dati campionari
MEDIA ARITMETICA DEI DATI
Si osserva che per ottenere la media dei dati ax1 , ax2 ,….., axn , dove si è moltiplicatociascuno dato per una costante reale abasta (perché?) moltiplicare per a la media x* dei datioriginali.
Vale a dire che se cambiamo unità di misura ai dati, bastacambiare allo stesso modo l’unità di misura della loromedia.
MEDIA ARITMETICA DEI DATI
Esempio: Se x1, x2,…, xn , sono temperature misurate ingradi Fahrenheit e x* = 50°F, qual è la media delle stessetemperature in gradi centigradi?
I gradi °C si ottengono da quelli °F con la trasformazionex→ (x-32)100/180, la media subisce la stessatrasformazione, dunque
50°F = (50-32)100/180 °C = 10°C
MEDIA ARITMETICA DEI DATI
Si osserva che per ottenere la media dei dati
x1 + y1 , x2 + y2 , ….., xn + yn ,
basta (perché?) sommare la media dei dati x alla mediadei dati y.
VARIANZA DEI DATI
Definiamo la varianza campionaria, indicando con x* lamedia aritmetica dei dati campionari:
n Varx = Σ (xi - x*)2 / n i=1
La varianza campionaria è un indice di quanto i dati sonodispersi intorno alla media campionaria
La radice quadrata della varianza si chiama deviazionestandard
VARIANZA DEI DATI
ESEMPIO: determiniamo la varianza campionaria dellalunghezza della radice di mais.Abbiamo già calcolato la media l* = 60 mmPossiamo procedere applicando direttamente ladefinizione:Varl =[(33-60)2 + (44-60)2 + (62-60)2 + (56-60)2 + (74-60)2 + (71-60)2 + (80 - 60)2 ] /7 = 1722 /7 ≈ 246 mm2
La DS è √ Varl ≈ √ 246 mm2 ≈ 15.68 mm
VARIANZA DEI DATI
La varianza campionaria può essere calcolata in modo piùrapido tenendo conto che, se sviluppiamo i quadrati,otteniamo la differenza tra la media aritmetica dei dati alquadrato e la media aritmetica dei dati elevata alquadrato: n n Σ (xi - x*)2 / n = Σ (xi
2 -2xi x* + (x*)2)/n = i=1 i=1 n=( Σ xi
2 /n ) - (x*)2 i=1
Varx = (x2 )* - (x*)2
VARIANZA DEI DATI
Esempio:per determinare la varianza campionaria dellalunghezza della radice di mais avremmo potuto calcolaredapprima la media dei dati elevati al quadrato(x2 )* =[(33)2 + (44)2 + (62)2 + (56)2 + (74)2 + (71)2 +(80)2 ] /7 =3846A questo numero sottrarre (x*)2 = 602
Ottenendo Varl =3846 -3600 =246 mm2
Attenzione! La varianza non conserva l’unità di misura
COEFFICIENTE DI VARIAZIONE
Il rapporto tra la deviazione standard campionaria DS, ela media campionaria x*, si chiama coefficiente divariazione CV = DS/x*
ESEMPIO: Il coefficiente di variazione della lunghezzadella radice di mais CVl ≈ 15.68 / 60 ≈ 0.26
CV è una misura della dispersione dei dati intorno allamedia che non dipende dall’unità di misura e permettequindi di confrontare la dispersione di dati diversi.
COVARIANZA DEI DATI
Un indice di possibile correlazione tra due serie di datix1 ,x2 ,…..,xn , ed y1 ,y2 ,…..,yn , di medie aritmeticherispettivamente x* ed y*, è la covarianza, così definita:
n nCovx,y = Σ (xi -x*)·(yi - y*) / n = Σ xi·yi /n - x*·y*= i=1 i=1 (xy)*- x*· y*
COVARIANZA DEI DATI
Esempio: Abbiamo un campione di 10 comchiglie diSpaeronassa; per ogni unità del campione abbiamomisurato (in cm) l’altezza X, la larghezza Y, e l’altezzadella bocca Z, ottenendo i risultati riportati nella seguentetabella:
0.911.050.871.250.801.551.921.651.551.48Z
0.901.070.961.350.791.592.051.781.571.58Y
1.551.711.492.151.282.523.272.602.572.40X
COVARIANZA DEI DATI
Determiniamo la covarianza tra x ed y.1) Calcoliamo le medie aritmetiche di x e di y, si ottiene
x*= 2.154 cm, y*=1.364 cm2) Calcoliamo la media aritmetica del prodotto xy: (xy)*= [(2.40)(1.58) +(2.57)(1.57)+…..+(1.55)(0.90)]/10= 3.17343) Otteniamo Covx,y =3.1734 - (2.154)(1.364) ≈ 0.235
Calcola per esercizio: Covx,z e Covy,z
COVARIANZA DEI DATI
Che cosa ottieni se calcoli Covx,x ?
Si ottiene la varianza di x
Infatti dalla definizione di covarianza: nCovx,x = Σ (xi -x*)·(xi - x*) / n = Varx i=1
COEFFICIENTE DI CORRELAZIONE
La covarianza è un indice sensibile all’unità di misura,ad esso è preferibile il coefficiente di correlazione,ottenuto dalla covarianza dividendola per il prodottodelle deviazioni standard delle due serie di daticampionari (e quindi non più sensibile (perché?) alleunità di misura), vale a dire
rx,y = Covx,y /[(DSx )(DSy)]
rx,y = [(x·y)* - x*·y*]/{sqr[((x2)*-(x*)2)·((y 2)*-(y*)2 )]}
COEFFICIENTE DI CORRELAZIONE
Esempio: calcoliamo il coefficiente di correlazione tral’altezza X e la larghezza Y del campione diSpaeronassa.
Dobbiamo calcolare la varianza di X e di YVarx =(x2)*-(x*)2 ≈ 4.998 - (2.154)2 ≈ 0.36Vary =(y2)*-(y*)2 ≈ 2.018 - (1.364)2 ≈ 0.158Calcoliamo le deviazioni standard:DSx = sqr(0.36) = 0.6 , DSy = sqr(0.158) ≈ 0.397Poiché avevamo calcolato Covx,y ≈ 0.235, abbiamo rx,y ≈ 0.235/[(0.6)(0.397)] ≈ 0.987
COEFFICIENTE DI CORRELAZIONE
Osserviamo che rx,x = 1 per qualsiasi serie di daticampionari , …perché?…
Dalla definizione rx,y = Covx,y /[(DSx )(DSy)], dunque
rx,x = Covx,x /[(DSx )(DSx)] = Varx /Varx =1
METODO DEI MINIMI QUADRATI
Vogliamo determinare una funzione lineare che meglioapprossima i nostri dati sperimentali e poter decideresulla bontà di questa approssimazione.Sia f(x) = mx + q , la coppia di dati (xi , yi) appartiene algrafico di f(x) se e solo se vale la relazione yi = mxi + q;quindi l’errore δ i = mxi + q − yi misura la distanza chec’è tra il dato sperimentale (xi , yi) ed il dato teorico(xi , f(xi)).
METODO DEI MINIMI QUADRATI
Abbiamo quindi n errori δ 1 , δ 2, …., δ nPrendiamo come misura di quanto f(x) approssima i datila media aritmetica degli errori elevati al quadrato: n f(m,q)= Σ (mxi + q - yi)2 / n i=1
Vogliamo determinare m e q in modo tale da rendereminima f(m,q)
METODO DEI MINIMI QUADRATI
Abbiamo già visto che la media aritmetica è l’unico puntodi minimo della funzione nf(x) = Σ (x-xi)2 i=1
Possiamo quindi dire che, fissato m, abbiamo che q’ = y* -mx*è senz’altro il valore di q che rende minima la mediadegli errori al quadrato. Sostituiamo q’ nella media deglierrori al quadrato
METODO DEI MINIMI QUADRATI
n Σ (mxi - mx*+y* - yi)2 / n i=1
Dobbiamo ora determinare m in modo da rendereminima la precedente funzione Se sviluppiamo il quadrato, troviamo una funzionequadratica nell’incognita m f(m)= {[ Σ(xi-x*)2 ]·m2 −[2· Σ(xi -x*)(yi -y*)]·m + [ Σ(yi-y*)2 ]}/n Il punto di minimo si ha per m’= Σ(xi -x*)(yi -y*)/ Σ(xi-x*)2 = Covx,y / Varx
METODO DEI MINIMI QUADRATI
Possiamo anche scrivere:
m’= Σ(xi − x*)(yi − y*)/ Σ(xi−x*)2 = = [Σ(xi·yi )/n− x*·y*]/[Σ(xi)2/n− (x*)2]= = [(x·y)* − x*·y*]/[(x2 )* − (x*)2]
Abbiamo quindi trovato la funzione lineare che meglioapprossima i dati; rimane da stabilire la bontàdell’approssimazione…
METODO DEI MINIMI QUADRATI
Possiamo calcolare f(m*), il valore minimo assunto: vale a dire l’ordinata del vertice della parabola- graficodella funzione da minimizzare:
f(m’)=Σ(yi−y*)2 /n − [Σ(xi·yi )/n − x*·y*]2/[Σ(xi)2/n−(x*)2]= Σ(yi)2/n− (y*)2− [Σ(xi·yi )/n− x*·y*]2/[Σ(xi)2/n− (x*)2]
f(m’, q’)≥0 ed è f(m’, q’)=0 se e solo se le coppie deidati stanno tutte sulla retta, per cui più f(m’, q’) è vicino a0 e più l’approssimazione è buona
METODO DEI MINIMI QUADRATIPoiché f(m’,q’) misura la media degli errori (assoluti) alquadrato nelle ordinate, un indice migliore della bontàdell’adattamento della legge lineare ai dati è f(m’,q’)/VarySi ottiene 1 − {[(x·y)* − x*·y*]2 /[((x2 )* − (x*)2)·((y2 )* − (y*)2)]}
Dove{[(x·y)* − x*·y*]2 /[((x2 )* − (x*)2)·((y2 )* − (y*)2)]} ≤1
più è vicino a 1 migliore è l’approssimazione
METODO DEI MINIMI QUADRATILa radice quadrata di
{[(x·y)* − x*·y*]2 /[((x2 )* − (x*)2)·((y2 )* − (y*)2)]}
è|(x·y)* − x*·y*| / sqr([((x2 )* − (x*)2)·((y2 )* − (y*)2)]più vicina è a 1, migliore è l’approssimazione.Togliendo il valore assoluto al numeratore, otteniamo ilcoefficiente di correlazione o coefficiente di Pearson (CP)
CP= [(x·y)* − x*·y*]/ (DSx · DSy ) ∈[-1, 1]
METODO DEI MINIMI QUADRATIApplichiamo dunque il metodo dei minimi quadrati perdeterminare la retta di regressione che più si avvicina aidati sperimentali:
80717456624433Lunghezza radice in mm: l
3530252015105Saccarosio in gr/l : s
Abbiamo visto che il coefficiente angolare della retta diregressione è dato da m = [(l·s)* − l*·s*]/[(s2 )* − (s*)2] =Covs,l / Vars , mentre il termine noto q = l* -ms*Per determinare tutti gli indici necessari costruiamoun’opportuna tabella:
METODO DEI MINIMI QUADRATI
(s·l)*=1347.86(l2)*=3846(s2 )*=500l*=60s*=2028006400122580352130504190071301850547662574251120313640056209303844225621544019361004410165108925335s·ll2s2ls
METODO DEI MINIMI QUADRATI
Possiamo procedere al calcolo di m e di q:
m = (1347.68 − (20)·(60))/(500−(20)2 ) = 1.4786
q = 60 - (1.4786)·(20) = 30.428
Vediamo se la retta approssima bene i dati sperimentali,calcolando il coefficiente di correlazione, detto anchedi Pearson (CP):
METODO DEI MINIMI QUADRATI
CP =(s·l)* − s*·l* / sqr([((s2 )* − (s*)2)·((l2 )* − (l*)2)]=(1347.86 - (20)·(60)) / sqr [(500-(20)2 )·(3846 - (60)2)]= 0.94Dunque, essendo CP vicino ad 1, l’approssimazione èbuona.
METODO DEI MINIMI QUADRATI
METODO DEI MINIMI QUADRATI
Dall’analisi grafica si osserva una certa differenza tra idati del campione per i valori più grandi di s e quelliprevisti in base al modello di regressione lineare. Lacrescita sembra aumentare con l’aumentare del contenutodi saccarosio non linearmente, ma piuttosto con unarelazione che potrebbe essere, ragionevolmente, di radicequadrata. Possiamo determinare la retta di regressione peri dati trasformati in modo da prendere ancora y=l, mentrex=√s, vale a dire l(s) = m√s +q. Sostituiamo quindi nellatabella precedente le opportune colonne dei datitrasformati √s e √s·l
METODO DEI MINIMI QUADRATI
(√s·l)*=276.56(l2)*=3846(√s)*=4.31l*=60s*=20473.664005.928035389.0850415.487130
370547657425250.3231364.475620239.9438443.876215139.0419363.16441073.9210892.24335√s·ll2√sls
METODO DEI MINIMI QUADRATI
Nella tabella precedente i dati sono stati calcolatiarrotondando alla seconda cifra decimale.Calcoliamo coefficiente angolare m’ ed intercetta q’ perquesta nuova “retta” di regressionem’ = [(√s·l)* − √s*·l*]/[s * − ((√s)*)2] = 11.89q’ = 60 - 11.89·4.31 = 8.75Calcoliamo CPCP = [(√s·l)*- (√s)*·l* ]/sqr[(s * − ((√s)*)2)·((l2 )* − (l*)2)]= 17.96/350.28 = 0.96Quindi questa curva approssima meglio i dati.