37
METODO DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura. Ripetendo varie volte l’esperimento con diverse quantità di saccarosio, abbiamo misurato le lunghezze della radice, ottenendo i dati riportati nella seguente tabella: 80 71 74 56 62 44 33 Lunghezza radice in mm: l 35 30 25 20 15 10 5 Saccarosio in gr/l : s

METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

  • Upload
    vuliem

  • View
    221

  • Download
    1

Embed Size (px)

Citation preview

Page 1: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

Torniamo al problema della crescita della radice di maisin funzione del contenuto di saccarosio nel terreno dicoltura. Ripetendo varie volte l’esperimento con diversequantità di saccarosio, abbiamo misurato le lunghezzedella radice, ottenendo i dati riportati nella seguentetabella:

80717456624433Lunghezza radice in mm: l

3530252015105Saccarosio in gr/l : s

Page 2: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

Ci piacerebbe poter esprimere la dipendenza di l da smediante una funzione l(s). Abbiamo già controllato, pertre di questi dati, che non è possibile determinare unafunzione lineare che corrisponda esattamente ai datiraccolti. I punti (5,33), (15,62), (25,74) non sonoallineati!Tuttavia potremmo cercare una funzione lineare che, purnon potendo corrispondere esattamente ai dati, sia il più“vicino” possibile, in un senso che preciseremo a breve,ad essi.

Page 3: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

MEDIA ARITMETICA DEI DATI

Alcune nozioni preliminari:Definiamo media aritmetica dei dati campionarix1 ,x2 ,…..,xn , il numero ottenuto facendo la somma deidati del campione e dividendo tale somma per n, dove nè la numerosità campionaria x*= (x1 + x2 + …..+ xn )/nEsempio: la quantità media di saccarosio presente nelterreno di coltura nei nostri esperimenti è (5+10+15+20+25+30+30) / 7 = 140/7 = 20 gr/l

Page 4: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

MEDIA ARITMETICA DEI DATI

La lunghezza media della radice di mais, ottenuta neinostri esperimenti è (33+44+62+56+74+71+80)/7 = 420/7 = 60 mm

Proprietà della media aritmetica x*:

n Σ (x*-xi) = 0 (dimostralo per esercizio…) i=1

Page 5: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

MEDIA ARITMETICA DEI DATI

La media aritmetica è l’unico punto di minimo dellafunzione nf(x) = Σ (x-xi)2 i=1

Sviluppando i quadrati, vediamo che f(x) è una funzionequadratica

n n nf(x) = Σ (x2 - 2xi x + xi

2) = nx2 - 2( Σ xi )x + Σ xi2

i=1 i=1 i=1

Page 6: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

MEDIA ARITMETICA DEI DATI

f(x) = ax2 + bx + c, dove

n n a = n, b = − 2 Σ xi , c = Σ xi

2 i=1 i=1

Quindi il punto di minimo di f è n x* = −b/2a = (Σ xi )/n i=1

che è, appunto, la media aritmetica dei dati campionari

Page 7: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

MEDIA ARITMETICA DEI DATI

Si osserva che per ottenere la media dei dati ax1 , ax2 ,….., axn , dove si è moltiplicatociascuno dato per una costante reale abasta (perché?) moltiplicare per a la media x* dei datioriginali.

Vale a dire che se cambiamo unità di misura ai dati, bastacambiare allo stesso modo l’unità di misura della loromedia.

Page 8: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

MEDIA ARITMETICA DEI DATI

Esempio: Se x1, x2,…, xn , sono temperature misurate ingradi Fahrenheit e x* = 50°F, qual è la media delle stessetemperature in gradi centigradi?

I gradi °C si ottengono da quelli °F con la trasformazionex→ (x-32)100/180, la media subisce la stessatrasformazione, dunque

50°F = (50-32)100/180 °C = 10°C

Page 9: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

MEDIA ARITMETICA DEI DATI

Si osserva che per ottenere la media dei dati

x1 + y1 , x2 + y2 , ….., xn + yn ,

basta (perché?) sommare la media dei dati x alla mediadei dati y.

Page 10: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

VARIANZA DEI DATI

Definiamo la varianza campionaria, indicando con x* lamedia aritmetica dei dati campionari:

n Varx = Σ (xi - x*)2 / n i=1

La varianza campionaria è un indice di quanto i dati sonodispersi intorno alla media campionaria

La radice quadrata della varianza si chiama deviazionestandard

Page 11: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

VARIANZA DEI DATI

ESEMPIO: determiniamo la varianza campionaria dellalunghezza della radice di mais.Abbiamo già calcolato la media l* = 60 mmPossiamo procedere applicando direttamente ladefinizione:Varl =[(33-60)2 + (44-60)2 + (62-60)2 + (56-60)2 + (74-60)2 + (71-60)2 + (80 - 60)2 ] /7 = 1722 /7 ≈ 246 mm2

La DS è √ Varl ≈ √ 246 mm2 ≈ 15.68 mm

Page 12: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

VARIANZA DEI DATI

La varianza campionaria può essere calcolata in modo piùrapido tenendo conto che, se sviluppiamo i quadrati,otteniamo la differenza tra la media aritmetica dei dati alquadrato e la media aritmetica dei dati elevata alquadrato: n n Σ (xi - x*)2 / n = Σ (xi

2 -2xi x* + (x*)2)/n = i=1 i=1 n=( Σ xi

2 /n ) - (x*)2 i=1

Varx = (x2 )* - (x*)2

Page 13: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

VARIANZA DEI DATI

Esempio:per determinare la varianza campionaria dellalunghezza della radice di mais avremmo potuto calcolaredapprima la media dei dati elevati al quadrato(x2 )* =[(33)2 + (44)2 + (62)2 + (56)2 + (74)2 + (71)2 +(80)2 ] /7 =3846A questo numero sottrarre (x*)2 = 602

Ottenendo Varl =3846 -3600 =246 mm2

Attenzione! La varianza non conserva l’unità di misura

Page 14: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

COEFFICIENTE DI VARIAZIONE

Il rapporto tra la deviazione standard campionaria DS, ela media campionaria x*, si chiama coefficiente divariazione CV = DS/x*

ESEMPIO: Il coefficiente di variazione della lunghezzadella radice di mais CVl ≈ 15.68 / 60 ≈ 0.26

CV è una misura della dispersione dei dati intorno allamedia che non dipende dall’unità di misura e permettequindi di confrontare la dispersione di dati diversi.

Page 15: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

COVARIANZA DEI DATI

Un indice di possibile correlazione tra due serie di datix1 ,x2 ,…..,xn , ed y1 ,y2 ,…..,yn , di medie aritmeticherispettivamente x* ed y*, è la covarianza, così definita:

n nCovx,y = Σ (xi -x*)·(yi - y*) / n = Σ xi·yi /n - x*·y*= i=1 i=1 (xy)*- x*· y*

Page 16: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

COVARIANZA DEI DATI

Esempio: Abbiamo un campione di 10 comchiglie diSpaeronassa; per ogni unità del campione abbiamomisurato (in cm) l’altezza X, la larghezza Y, e l’altezzadella bocca Z, ottenendo i risultati riportati nella seguentetabella:

0.911.050.871.250.801.551.921.651.551.48Z

0.901.070.961.350.791.592.051.781.571.58Y

1.551.711.492.151.282.523.272.602.572.40X

Page 17: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

COVARIANZA DEI DATI

Determiniamo la covarianza tra x ed y.1) Calcoliamo le medie aritmetiche di x e di y, si ottiene

x*= 2.154 cm, y*=1.364 cm2) Calcoliamo la media aritmetica del prodotto xy: (xy)*= [(2.40)(1.58) +(2.57)(1.57)+…..+(1.55)(0.90)]/10= 3.17343) Otteniamo Covx,y =3.1734 - (2.154)(1.364) ≈ 0.235

Calcola per esercizio: Covx,z e Covy,z

Page 18: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

COVARIANZA DEI DATI

Che cosa ottieni se calcoli Covx,x ?

Si ottiene la varianza di x

Infatti dalla definizione di covarianza: nCovx,x = Σ (xi -x*)·(xi - x*) / n = Varx i=1

Page 19: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

COEFFICIENTE DI CORRELAZIONE

La covarianza è un indice sensibile all’unità di misura,ad esso è preferibile il coefficiente di correlazione,ottenuto dalla covarianza dividendola per il prodottodelle deviazioni standard delle due serie di daticampionari (e quindi non più sensibile (perché?) alleunità di misura), vale a dire

rx,y = Covx,y /[(DSx )(DSy)]

rx,y = [(x·y)* - x*·y*]/{sqr[((x2)*-(x*)2)·((y 2)*-(y*)2 )]}

Page 20: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

COEFFICIENTE DI CORRELAZIONE

Esempio: calcoliamo il coefficiente di correlazione tral’altezza X e la larghezza Y del campione diSpaeronassa.

Dobbiamo calcolare la varianza di X e di YVarx =(x2)*-(x*)2 ≈ 4.998 - (2.154)2 ≈ 0.36Vary =(y2)*-(y*)2 ≈ 2.018 - (1.364)2 ≈ 0.158Calcoliamo le deviazioni standard:DSx = sqr(0.36) = 0.6 , DSy = sqr(0.158) ≈ 0.397Poiché avevamo calcolato Covx,y ≈ 0.235, abbiamo rx,y ≈ 0.235/[(0.6)(0.397)] ≈ 0.987

Page 21: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

COEFFICIENTE DI CORRELAZIONE

Osserviamo che rx,x = 1 per qualsiasi serie di daticampionari , …perché?…

Dalla definizione rx,y = Covx,y /[(DSx )(DSy)], dunque

rx,x = Covx,x /[(DSx )(DSx)] = Varx /Varx =1

Page 22: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

Vogliamo determinare una funzione lineare che meglioapprossima i nostri dati sperimentali e poter decideresulla bontà di questa approssimazione.Sia f(x) = mx + q , la coppia di dati (xi , yi) appartiene algrafico di f(x) se e solo se vale la relazione yi = mxi + q;quindi l’errore δ i = mxi + q − yi misura la distanza chec’è tra il dato sperimentale (xi , yi) ed il dato teorico(xi , f(xi)).

Page 23: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

Abbiamo quindi n errori δ 1 , δ 2, …., δ nPrendiamo come misura di quanto f(x) approssima i datila media aritmetica degli errori elevati al quadrato: n f(m,q)= Σ (mxi + q - yi)2 / n i=1

Vogliamo determinare m e q in modo tale da rendereminima f(m,q)

Page 24: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

Abbiamo già visto che la media aritmetica è l’unico puntodi minimo della funzione nf(x) = Σ (x-xi)2 i=1

Possiamo quindi dire che, fissato m, abbiamo che q’ = y* -mx*è senz’altro il valore di q che rende minima la mediadegli errori al quadrato. Sostituiamo q’ nella media deglierrori al quadrato

Page 25: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

n Σ (mxi - mx*+y* - yi)2 / n i=1

Dobbiamo ora determinare m in modo da rendereminima la precedente funzione Se sviluppiamo il quadrato, troviamo una funzionequadratica nell’incognita m f(m)= {[ Σ(xi-x*)2 ]·m2 −[2· Σ(xi -x*)(yi -y*)]·m + [ Σ(yi-y*)2 ]}/n Il punto di minimo si ha per m’= Σ(xi -x*)(yi -y*)/ Σ(xi-x*)2 = Covx,y / Varx

Page 26: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

Possiamo anche scrivere:

m’= Σ(xi − x*)(yi − y*)/ Σ(xi−x*)2 = = [Σ(xi·yi )/n− x*·y*]/[Σ(xi)2/n− (x*)2]= = [(x·y)* − x*·y*]/[(x2 )* − (x*)2]

Abbiamo quindi trovato la funzione lineare che meglioapprossima i dati; rimane da stabilire la bontàdell’approssimazione…

Page 27: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

Possiamo calcolare f(m*), il valore minimo assunto: vale a dire l’ordinata del vertice della parabola- graficodella funzione da minimizzare:

f(m’)=Σ(yi−y*)2 /n − [Σ(xi·yi )/n − x*·y*]2/[Σ(xi)2/n−(x*)2]= Σ(yi)2/n− (y*)2− [Σ(xi·yi )/n− x*·y*]2/[Σ(xi)2/n− (x*)2]

f(m’, q’)≥0 ed è f(m’, q’)=0 se e solo se le coppie deidati stanno tutte sulla retta, per cui più f(m’, q’) è vicino a0 e più l’approssimazione è buona

Page 28: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATIPoiché f(m’,q’) misura la media degli errori (assoluti) alquadrato nelle ordinate, un indice migliore della bontàdell’adattamento della legge lineare ai dati è f(m’,q’)/VarySi ottiene 1 − {[(x·y)* − x*·y*]2 /[((x2 )* − (x*)2)·((y2 )* − (y*)2)]}

Dove{[(x·y)* − x*·y*]2 /[((x2 )* − (x*)2)·((y2 )* − (y*)2)]} ≤1

più è vicino a 1 migliore è l’approssimazione

Page 29: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATILa radice quadrata di

{[(x·y)* − x*·y*]2 /[((x2 )* − (x*)2)·((y2 )* − (y*)2)]}

è|(x·y)* − x*·y*| / sqr([((x2 )* − (x*)2)·((y2 )* − (y*)2)]più vicina è a 1, migliore è l’approssimazione.Togliendo il valore assoluto al numeratore, otteniamo ilcoefficiente di correlazione o coefficiente di Pearson (CP)

CP= [(x·y)* − x*·y*]/ (DSx · DSy ) ∈[-1, 1]

Page 30: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATIApplichiamo dunque il metodo dei minimi quadrati perdeterminare la retta di regressione che più si avvicina aidati sperimentali:

80717456624433Lunghezza radice in mm: l

3530252015105Saccarosio in gr/l : s

Abbiamo visto che il coefficiente angolare della retta diregressione è dato da m = [(l·s)* − l*·s*]/[(s2 )* − (s*)2] =Covs,l / Vars , mentre il termine noto q = l* -ms*Per determinare tutti gli indici necessari costruiamoun’opportuna tabella:

Page 31: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

(s·l)*=1347.86(l2)*=3846(s2 )*=500l*=60s*=2028006400122580352130504190071301850547662574251120313640056209303844225621544019361004410165108925335s·ll2s2ls

Page 32: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

Possiamo procedere al calcolo di m e di q:

m = (1347.68 − (20)·(60))/(500−(20)2 ) = 1.4786

q = 60 - (1.4786)·(20) = 30.428

Vediamo se la retta approssima bene i dati sperimentali,calcolando il coefficiente di correlazione, detto anchedi Pearson (CP):

Page 33: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

CP =(s·l)* − s*·l* / sqr([((s2 )* − (s*)2)·((l2 )* − (l*)2)]=(1347.86 - (20)·(60)) / sqr [(500-(20)2 )·(3846 - (60)2)]= 0.94Dunque, essendo CP vicino ad 1, l’approssimazione èbuona.

Page 34: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

Page 35: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

Dall’analisi grafica si osserva una certa differenza tra idati del campione per i valori più grandi di s e quelliprevisti in base al modello di regressione lineare. Lacrescita sembra aumentare con l’aumentare del contenutodi saccarosio non linearmente, ma piuttosto con unarelazione che potrebbe essere, ragionevolmente, di radicequadrata. Possiamo determinare la retta di regressione peri dati trasformati in modo da prendere ancora y=l, mentrex=√s, vale a dire l(s) = m√s +q. Sostituiamo quindi nellatabella precedente le opportune colonne dei datitrasformati √s e √s·l

Page 36: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

(√s·l)*=276.56(l2)*=3846(√s)*=4.31l*=60s*=20473.664005.928035389.0850415.487130

370547657425250.3231364.475620239.9438443.876215139.0419363.16441073.9210892.24335√s·ll2√sls

Page 37: METODO DEI MINIMI QUADRATI - Benvenuti | … DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura

METODO DEI MINIMI QUADRATI

Nella tabella precedente i dati sono stati calcolatiarrotondando alla seconda cifra decimale.Calcoliamo coefficiente angolare m’ ed intercetta q’ perquesta nuova “retta” di regressionem’ = [(√s·l)* − √s*·l*]/[s * − ((√s)*)2] = 11.89q’ = 60 - 11.89·4.31 = 8.75Calcoliamo CPCP = [(√s·l)*- (√s)*·l* ]/sqr[(s * − ((√s)*)2)·((l2 )* − (l*)2)]= 17.96/350.28 = 0.96Quindi questa curva approssima meglio i dati.