METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

Torniamo al problema della crescita della radice di maisin funzione del contenuto di saccarosio nel terreno dicoltura. Ripetendo varie volte l’esperimento con diversequantità di saccarosio, abbiamo misurato le lunghezzedella radice, ottenendo i dati riportati nella seguentetabella:

80717456624433Lunghezza radice in mm: l

3530252015105Saccarosio in gr/l : s


Ci piacerebbe poter esprimere la dipendenza di l da smediante una funzione l(s). Abbiamo già controllato, pertre di questi dati, che non è possibile determinare unafunzione lineare che corrisponda esattamente ai datiraccolti. I punti (5,33), (15,62), (25,74) non sonoallineati!Tuttavia potremmo cercare una funzione lineare che, purnon potendo corrispondere esattamente ai dati, sia il più“vicino” possibile, in un senso che preciseremo a breve,ad essi.

MEDIA ARITMETICA DEI DATI

Alcune nozioni preliminari:Definiamo media aritmetica dei dati campionarix1 ,x2 ,…..,xn , il numero ottenuto facendo la somma deidati del campione e dividendo tale somma per n, dove nè la numerosità campionaria x*= (x1 + x2 + …..+ xn )/nEsempio: la quantità media di saccarosio presente nelterreno di coltura nei nostri esperimenti è (5+10+15+20+25+30+30) / 7 = 140/7 = 20 gr/l


La lunghezza media della radice di mais, ottenuta neinostri esperimenti è (33+44+62+56+74+71+80)/7 = 420/7 = 60 mm

Proprietà della media aritmetica x*:

n Σ (x*-xi) = 0 (dimostralo per esercizio…) i=1


La media aritmetica è l’unico punto di minimo dellafunzione nf(x) = Σ (x-xi)2 i=1

Sviluppando i quadrati, vediamo che f(x) è una funzionequadratica

n n nf(x) = Σ (x2 - 2xi x + xi

2) = nx2 - 2( Σ xi )x + Σ xi2

i=1 i=1 i=1


f(x) = ax2 + bx + c, dove

n n a = n, b = − 2 Σ xi , c = Σ xi

2 i=1 i=1

Quindi il punto di minimo di f è n x* = −b/2a = (Σ xi )/n i=1

che è, appunto, la media aritmetica dei dati campionari


Si osserva che per ottenere la media dei dati ax1 , ax2 ,….., axn , dove si è moltiplicatociascuno dato per una costante reale abasta (perché?) moltiplicare per a la media x* dei datioriginali.

Vale a dire che se cambiamo unità di misura ai dati, bastacambiare allo stesso modo l’unità di misura della loromedia.


Esempio: Se x1, x2,…, xn , sono temperature misurate ingradi Fahrenheit e x* = 50°F, qual è la media delle stessetemperature in gradi centigradi?

I gradi °C si ottengono da quelli °F con la trasformazionex→ (x-32)100/180, la media subisce la stessatrasformazione, dunque

50°F = (50-32)100/180 °C = 10°C


Si osserva che per ottenere la media dei dati

x1 + y1 , x2 + y2 , ….., xn + yn ,

basta (perché?) sommare la media dei dati x alla mediadei dati y.

VARIANZA DEI DATI

Definiamo la varianza campionaria, indicando con x* lamedia aritmetica dei dati campionari:

n Varx = Σ (xi - x*)2 / n i=1

La varianza campionaria è un indice di quanto i dati sonodispersi intorno alla media campionaria

La radice quadrata della varianza si chiama deviazionestandard

VARIANZA DEI DATI

ESEMPIO: determiniamo la varianza campionaria dellalunghezza della radice di mais.Abbiamo già calcolato la media l* = 60 mmPossiamo procedere applicando direttamente ladefinizione:Varl =[(33-60)2 + (44-60)2 + (62-60)2 + (56-60)2 + (74-60)2 + (71-60)2 + (80 - 60)2 ] /7 = 1722 /7 ≈ 246 mm2

La DS è √ Varl ≈ √ 246 mm2 ≈ 15.68 mm

VARIANZA DEI DATI

La varianza campionaria può essere calcolata in modo piùrapido tenendo conto che, se sviluppiamo i quadrati,otteniamo la differenza tra la media aritmetica dei dati alquadrato e la media aritmetica dei dati elevata alquadrato: n n Σ (xi - x*)2 / n = Σ (xi

2 -2xi x* + (x*)2)/n = i=1 i=1 n=( Σ xi

2 /n ) - (x*)2 i=1

Varx = (x2 )* - (x*)2

VARIANZA DEI DATI

Esempio:per determinare la varianza campionaria dellalunghezza della radice di mais avremmo potuto calcolaredapprima la media dei dati elevati al quadrato(x2 )* =[(33)2 + (44)2 + (62)2 + (56)2 + (74)2 + (71)2 +(80)2 ] /7 =3846A questo numero sottrarre (x*)2 = 602

Ottenendo Varl =3846 -3600 =246 mm2

Attenzione! La varianza non conserva l’unità di misura

COEFFICIENTE DI VARIAZIONE

Il rapporto tra la deviazione standard campionaria DS, ela media campionaria x*, si chiama coefficiente divariazione CV = DS/x*

ESEMPIO: Il coefficiente di variazione della lunghezzadella radice di mais CVl ≈ 15.68 / 60 ≈ 0.26

CV è una misura della dispersione dei dati intorno allamedia che non dipende dall’unità di misura e permettequindi di confrontare la dispersione di dati diversi.

COVARIANZA DEI DATI

Un indice di possibile correlazione tra due serie di datix1 ,x2 ,…..,xn , ed y1 ,y2 ,…..,yn , di medie aritmeticherispettivamente x* ed y*, è la covarianza, così definita:

n nCovx,y = Σ (xi -x*)·(yi - y*) / n = Σ xi·yi /n - x*·y*= i=1 i=1 (xy)*- x*· y*

COVARIANZA DEI DATI

Esempio: Abbiamo un campione di 10 comchiglie diSpaeronassa; per ogni unità del campione abbiamomisurato (in cm) l’altezza X, la larghezza Y, e l’altezzadella bocca Z, ottenendo i risultati riportati nella seguentetabella:

0.911.050.871.250.801.551.921.651.551.48Z

0.901.070.961.350.791.592.051.781.571.58Y

1.551.711.492.151.282.523.272.602.572.40X

COVARIANZA DEI DATI

Determiniamo la covarianza tra x ed y.1) Calcoliamo le medie aritmetiche di x e di y, si ottiene

x*= 2.154 cm, y*=1.364 cm2) Calcoliamo la media aritmetica del prodotto xy: (xy)*= [(2.40)(1.58) +(2.57)(1.57)+…..+(1.55)(0.90)]/10= 3.17343) Otteniamo Covx,y =3.1734 - (2.154)(1.364) ≈ 0.235

Calcola per esercizio: Covx,z e Covy,z

COVARIANZA DEI DATI

Che cosa ottieni se calcoli Covx,x ?

Si ottiene la varianza di x

Infatti dalla definizione di covarianza: nCovx,x = Σ (xi -x*)·(xi - x*) / n = Varx i=1

COEFFICIENTE DI CORRELAZIONE

La covarianza è un indice sensibile all’unità di misura,ad esso è preferibile il coefficiente di correlazione,ottenuto dalla covarianza dividendola per il prodottodelle deviazioni standard delle due serie di daticampionari (e quindi non più sensibile (perché?) alleunità di misura), vale a dire

rx,y = Covx,y /[(DSx )(DSy)]

rx,y = [(x·y)* - x*·y*]/{sqr[((x2)*-(x*)2)·((y 2)*-(y*)2 )]}


Esempio: calcoliamo il coefficiente di correlazione tral’altezza X e la larghezza Y del campione diSpaeronassa.

Dobbiamo calcolare la varianza di X e di YVarx =(x2)*-(x*)2 ≈ 4.998 - (2.154)2 ≈ 0.36Vary =(y2)*-(y*)2 ≈ 2.018 - (1.364)2 ≈ 0.158Calcoliamo le deviazioni standard:DSx = sqr(0.36) = 0.6 , DSy = sqr(0.158) ≈ 0.397Poiché avevamo calcolato Covx,y ≈ 0.235, abbiamo rx,y ≈ 0.235/[(0.6)(0.397)] ≈ 0.987


Osserviamo che rx,x = 1 per qualsiasi serie di daticampionari , …perché?…

Dalla definizione rx,y = Covx,y /[(DSx )(DSy)], dunque

rx,x = Covx,x /[(DSx )(DSx)] = Varx /Varx =1


Vogliamo determinare una funzione lineare che meglioapprossima i nostri dati sperimentali e poter decideresulla bontà di questa approssimazione.Sia f(x) = mx + q , la coppia di dati (xi , yi) appartiene algrafico di f(x) se e solo se vale la relazione yi = mxi + q;quindi l’errore δ i = mxi + q − yi misura la distanza chec’è tra il dato sperimentale (xi , yi) ed il dato teorico(xi , f(xi)).


Abbiamo quindi n errori δ 1 , δ 2, …., δ nPrendiamo come misura di quanto f(x) approssima i datila media aritmetica degli errori elevati al quadrato: n f(m,q)= Σ (mxi + q - yi)2 / n i=1

Vogliamo determinare m e q in modo tale da rendereminima f(m,q)


Abbiamo già visto che la media aritmetica è l’unico puntodi minimo della funzione nf(x) = Σ (x-xi)2 i=1

Possiamo quindi dire che, fissato m, abbiamo che q’ = y* -mx*è senz’altro il valore di q che rende minima la mediadegli errori al quadrato. Sostituiamo q’ nella media deglierrori al quadrato


n Σ (mxi - mx*+y* - yi)2 / n i=1

Dobbiamo ora determinare m in modo da rendereminima la precedente funzione Se sviluppiamo il quadrato, troviamo una funzionequadratica nell’incognita m f(m)= {[ Σ(xi-x*)2 ]·m2 −[2· Σ(xi -x*)(yi -y*)]·m + [ Σ(yi-y*)2 ]}/n Il punto di minimo si ha per m’= Σ(xi -x*)(yi -y*)/ Σ(xi-x*)2 = Covx,y / Varx


Possiamo anche scrivere:

m’= Σ(xi − x*)(yi − y*)/ Σ(xi−x*)2 = = [Σ(xi·yi )/n− x*·y*]/[Σ(xi)2/n− (x*)2]= = [(x·y)* − x*·y*]/[(x2 )* − (x*)2]

Abbiamo quindi trovato la funzione lineare che meglioapprossima i dati; rimane da stabilire la bontàdell’approssimazione…


Possiamo calcolare f(m*), il valore minimo assunto: vale a dire l’ordinata del vertice della parabola- graficodella funzione da minimizzare:

f(m’)=Σ(yi−y*)2 /n − [Σ(xi·yi )/n − x*·y*]2/[Σ(xi)2/n−(x*)2]= Σ(yi)2/n− (y*)2− [Σ(xi·yi )/n− x*·y*]2/[Σ(xi)2/n− (x*)2]

f(m’, q’)≥0 ed è f(m’, q’)=0 se e solo se le coppie deidati stanno tutte sulla retta, per cui più f(m’, q’) è vicino a0 e più l’approssimazione è buona

METODO DEI MINIMI QUADRATIPoiché f(m’,q’) misura la media degli errori (assoluti) alquadrato nelle ordinate, un indice migliore della bontàdell’adattamento della legge lineare ai dati è f(m’,q’)/VarySi ottiene 1 − {[(x·y)* − x*·y*]2 /[((x2 )* − (x*)2)·((y2 )* − (y*)2)]}

Dove{[(x·y)* − x*·y*]2 /[((x2 )* − (x*)2)·((y2 )* − (y*)2)]} ≤1

più è vicino a 1 migliore è l’approssimazione

METODO DEI MINIMI QUADRATILa radice quadrata di

{[(x·y)* − x*·y*]2 /[((x2 )* − (x*)2)·((y2 )* − (y*)2)]}

è|(x·y)* − x*·y*| / sqr([((x2 )* − (x*)2)·((y2 )* − (y*)2)]più vicina è a 1, migliore è l’approssimazione.Togliendo il valore assoluto al numeratore, otteniamo ilcoefficiente di correlazione o coefficiente di Pearson (CP)

CP= [(x·y)* − x*·y*]/ (DSx · DSy ) ∈[-1, 1]

METODO DEI MINIMI QUADRATIApplichiamo dunque il metodo dei minimi quadrati perdeterminare la retta di regressione che più si avvicina aidati sperimentali:

80717456624433Lunghezza radice in mm: l

3530252015105Saccarosio in gr/l : s

Abbiamo visto che il coefficiente angolare della retta diregressione è dato da m = [(l·s)* − l*·s*]/[(s2 )* − (s*)2] =Covs,l / Vars , mentre il termine noto q = l* -ms*Per determinare tutti gli indici necessari costruiamoun’opportuna tabella:


(s·l)*=1347.86(l2)*=3846(s2 )*=500l*=60s*=2028006400122580352130504190071301850547662574251120313640056209303844225621544019361004410165108925335s·ll2s2ls


Possiamo procedere al calcolo di m e di q:

m = (1347.68 − (20)·(60))/(500−(20)2 ) = 1.4786

q = 60 - (1.4786)·(20) = 30.428

Vediamo se la retta approssima bene i dati sperimentali,calcolando il coefficiente di correlazione, detto anchedi Pearson (CP):


CP =(s·l)* − s*·l* / sqr([((s2 )* − (s*)2)·((l2 )* − (l*)2)]=(1347.86 - (20)·(60)) / sqr [(500-(20)2 )·(3846 - (60)2)]= 0.94Dunque, essendo CP vicino ad 1, l’approssimazione èbuona.



Dall’analisi grafica si osserva una certa differenza tra idati del campione per i valori più grandi di s e quelliprevisti in base al modello di regressione lineare. Lacrescita sembra aumentare con l’aumentare del contenutodi saccarosio non linearmente, ma piuttosto con unarelazione che potrebbe essere, ragionevolmente, di radicequadrata. Possiamo determinare la retta di regressione peri dati trasformati in modo da prendere ancora y=l, mentrex=√s, vale a dire l(s) = m√s +q. Sostituiamo quindi nellatabella precedente le opportune colonne dei datitrasformati √s e √s·l


(√s·l)*=276.56(l2)*=3846(√s)*=4.31l*=60s*=20473.664005.928035389.0850415.487130

370547657425250.3231364.475620239.9438443.876215139.0419363.16441073.9210892.24335√s·ll2√sls


Nella tabella precedente i dati sono stati calcolatiarrotondando alla seconda cifra decimale.Calcoliamo coefficiente angolare m’ ed intercetta q’ perquesta nuova “retta” di regressionem’ = [(√s·l)* − √s*·l*]/[s * − ((√s)*)2] = 11.89q’ = 60 - 11.89·4.31 = 8.75Calcoliamo CPCP = [(√s·l)*- (√s)*·l* ]/sqr[(s * − ((√s)*)2)·((l2 )* − (l*)2)]= 17.96/350.28 = 0.96Quindi questa curva approssima meglio i dati.

Documents

METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura