1276
1. ELEMENTI DI STATISTICA DESCRITTIVA PER DISTRIBUZIONI UNIVARIATE 1.1. La statistica nella ricerca ambientale 1.2. Il disegno sperimentale ed il campionamento 1.3. Tipi di dati e scale di misurazione 1.3.1 La scala nominale o classificatoria 1.3.2 La scala ordinale o per ranghi 1.3.3 La scala ad intervalli 1.3.4 La scala di rapporti 1.4. Classificazione in tabelle 1.5. Rappresentazioni grafiche di distribuzioni univariate 1.6. Le misure di tendenza centrale 1.6.1 Le misure di tendenza centrale o posizione 1.6.2 La mediana 1.6.3 La moda 1.7. Misure di dispersione o variabilità 1.7.1 Intervallo di variazione 1.7.2 La differenza interquartile 1.7.3 Lo scarto medio assoluto dalla media 1.7.4 Lo scarto medio assoluto dalla mediana 1.7.5 La devianza 1.7.6 La varianza 1.7.7 La deviazione standard 1.7.8 L'errore standard 1.7.9 Il coefficiente di variazione 1.7.10 La varianza in dati raggruppati: correzione di Sheppard 1.8. Indici di forma: simmetria e curtosi 1.9. Metodi per calcolare un generico quantile da una serie di dati 1.10. Rappresentazione semi-grafica delle distribuzioni: Box-and-Wisker, diagrammi Stem-and-Leaf 1.11. Esercizi sulle misure di tendenza centrale, dispersione, simmetria e curtosi 2. DISTRIBUZIONI E LEGGI DI PROBABILITA' 2.1. Elementi di calcolo combinatorio semplice 2.1.1 Permutazioni semplici 2.1.2 Disposizioni semplici 2.1.3 Combinazioni semplici 2.1.4 Risposte alle domande del paragrafo 2.1 2.2. Definizioni di probabilità: matematica, frequentista, bayesiana 2.3. Alcune distribuzioni discrete 2.3.1 Distribuzione binomiale 2.3.2 Distribuzione multinomiale 2.3.3 Distribuzione poissoniana 2.3.4 Distribuzione geometrica e distribuzione di Pascal 2.3.5 Distribuzione ipergeometrica 2.3.6 Distribuzione binomiale negativa 2.3.7 Distribuzione uniforme o rettangolare 2.4. Alcune distribuzioni continue 2.4.1 Distribuzione normale o di Gauss 2.4.2 Distribuzioni asintoticamente normali, con approssimazioni e trasformazioni 2.4.3 Dalla disuguaglianza di Tchebycheff all'uso della distribuzione normale 2.4.4 Approssimazioni e correzioni per la continuità 2.4.5 Distribuzione rettangolare 2.4.6 Distribuzione esponenziale negativa 2.4.7 Le curve di Pearson 2.4.8 La distribuzione gamma 2.5. Distribuzioni campionarie derivate dalla normale ed utili per l'inferenza: di Pearson, t di Student e F di Fisher 2.5.1 La distribuzione 2.5.2 La distribuzione t di Student 2.5.3 La distribuzione F di Fisher

Università - Statistica - Manuale Di Statistica

Embed Size (px)

Citation preview

1. ELEMENTI DI STATISTICA DESCRITTIVA PER DISTRIBUZIONI UNIVARIATE1.1. La statistica nella ricerca ambientale 1.2. Il disegno sperimentale ed il campionamento 1.3. Tipi di dati e scale di misurazione 1.3.1 La scala nominale o classificatoria 1.3.2 La scala ordinale o per ranghi 1.3.3 La scala ad intervalli 1.3.4 La scala di rapporti 1.4. Classificazione in tabelle 1.5. Rappresentazioni grafiche di distribuzioni univariate 1.6. Le misure di tendenza centrale 1.6.1 Le misure di tendenza centrale o posizione 1.6.2 La mediana 1.6.3 La moda 1.7. Misure di dispersione o variabilit 1.7.1 Intervallo di variazione 1.7.2 La differenza interquartile 1.7.3 Lo scarto medio assoluto dalla media 1.7.4 Lo scarto medio assoluto dalla mediana 1.7.5 La devianza 1.7.6 La varianza 1.7.7 La deviazione standard 1.7.8 L'errore standard 1.7.9 Il coefficiente di variazione 1.7.10 La varianza in dati raggruppati: correzione di Sheppard 1.8. Indici di forma: simmetria e curtosi 1.9. Metodi per calcolare un generico quantile da una serie di dati 1.10. Rappresentazione semi-grafica delle distribuzioni: Box-and-Wisker, diagrammi Stem-and-Leaf 1.11. Esercizi sulle misure di tendenza centrale, dispersione, simmetria e curtosi 2. DISTRIBUZIONI E LEGGI DI PROBABILITA'2.1. Elementi di calcolo combinatorio semplice 2.1.1 Permutazioni semplici 2.1.2 Disposizioni semplici 2.1.3 Combinazioni semplici 2.1.4 Risposte alle domande del paragrafo 2.1 2.2. Definizioni di probabilit: matematica, frequentista, bayesiana 2.3. Alcune distribuzioni discrete 2.3.1 Distribuzione binomiale 2.3.2 Distribuzione multinomiale 2.3.3 Distribuzione poissoniana 2.3.4 Distribuzione geometrica e distribuzione di Pascal 2.3.5 Distribuzione ipergeometrica 2.3.6 Distribuzione binomiale negativa 2.3.7 Distribuzione uniforme o rettangolare 2.4. Alcune distribuzioni continue 2.4.1 Distribuzione normale o di Gauss 2.4.2 Distribuzioni asintoticamente normali, con approssimazioni e trasformazioni 2.4.3 Dalla disuguaglianza di Tchebycheff all'uso della distribuzione normale 2.4.4 Approssimazioni e correzioni per la continuit 2.4.5 Distribuzione rettangolare 2.4.6 Distribuzione esponenziale negativa 2.4.7 Le curve di Pearson 2.4.8 La distribuzione gamma 2.5. Distribuzioni campionarie derivate dalla normale ed utili per l'inferenza:di Pearson, t di Student e F di Fisher 2.5.1 La distribuzione 2.5.2 La distribuzione t di Student 2.5.3 La distribuzione F di Fisher 3. CONFRONTI TRA TASSI E PROPORZIONI3.1. Confronti tra distribuzioni osservate e distribuzioni te attese 3.2. Condizioni di validit dele correzione di Yates 3.3. Il metodo di Kolmogorov-Smirnov per un campione 3.4. Il confronto tra due distribuzioni osservate, per test di indipendenza: le tabelle di contingenza 2 x 2 (fourfold tables) 3.5. Confronti tra frequenze relative con la distribuzione normale e sua correzione per la continuit 3.6. Confronto tra testper tabelle 2 x 2 e test z, senza e con le varie correzioni per la continuit 3.7. Confronto di una proporzione osservata con una attesa: il test z per grandi campioni; la distribuzione binomiale per piccoli campioni 3.8. Tabelle di contingenza 2 x 2 in piccoli campioni: il metodo esatto di Fisher 3.9. Le tabelle 2 x N con la formula generale e quella di Brandt-Snedecor. Le tabelle M x N 3.10. Il log-likelihood ratio o metodo G 3.10.1 Confronto tra una distribuzione osservata ed una attesa con la correzione di Williams 3.10.2 Tabelle 2 x 2, con la correzione di Williams e quella di Mantel-Haenszel 3.10.3 Tabelle M x N con la correzione di Williams 3.11. Il confronto tra due distribuzioni osservate: il metodo di Kolmogorov-Smirnov per 2 campioni indipendenti 3.12. Il chi quadro con il metodo di Cochran e di Mantel-Haenszel 3.13. Esercizi svolti per dati in tabelle di contingenza 4. VERIFICA DELLE IPOTESI4.1. Risultati significativi e non-significativi 4.2. Procedura di verifica delle ipotesi: vero o falso? utile o dannoso? 4.3. Potenza di un test 4.4. Numero di dati necessari in rapporto alla potenza, alla significativit del test e alla direzionalit dell'ipotesi. Il criterio di Cohen per la scelta di a e b 4.5. Dimensioni (n) del campione, nel caso di proporzioni 4.6. Le quattro propriet che deve avere uno stimatore: correttezza, efficienza, consistenza, sufficienza 4.7. Intervallo fiduciale di una media 4.8. Valutazione del rischio aggiuntivo (f) e intervallo fiduciale di una proporzione 4.9. Intervallo di confidenza di una varianza 5. INFERENZA SU UNA O DUE MEDIE CON IL TEST t DI STUDENT5.1. La distribuzione t di Student 5.2. Confronto tra una media osservata e una media attesa; calcolo dei limiti di confidenza di una media, conignota 5.3. Confronto tra una osservazione e la media di un campione 5.4. Il confronto tra le medie di due campioni 5.5. Il test t per 2 campioni dipendenti o per dati appaiati ed intervallo fiduciale della media delle differenze 5.6. Il test t per 2 campioni indipendenti o per dati non appaiati 5.7. Test F, test di Levene e test di Bartlett per ipotesi bilaterali e unilaterali sull'uguaglianza di due varianze 5.8. Significativit e intervallo fiduciale di una differenza 5.9. Potenza a priori e a posteriori del test t, con un campione e con due campioni dipendenti o indipendenti 5.10. Dimensione del campione e precisione nella stima sia di una media, sia della differenza tra due medie 5.11. Il bilanciamento di due campioni indipendenti: vantaggi e costi 5.12. Potenza a priori e a posteriori del test F per l'omoschedasticit 5.13. Correzione per campionamento in una popolazione finita e il concetto di superpopolazione 5.14. Test per la differenza tra due coefficienti di variazione con distribuzione z oppure distribuzione t di Student 6. METODI NON PARAMETRICI PER UN CAMPIONE6.1. Caratteristiche dei test non parametrici 6.2. Il test delle successioni per un campione 6.3. Il test dei segni per un campione 6.4. Intervallo di confidenza di una probabilit o frequenza relativa, secondo il metodo di Clopper e Pearson 6.5. Intervalli di confidenza non parametrici e intervalli di tolleranza 6.6. Il test dei segni per ranghi di Wilcoxon 6.7. Caratteristiche distintive dei test sulla bont di adattamento rispetto a quelli su un parametro 6.8. Il test di Lilliefors e il test di Cramr e Von Mises 7. METODI NON PARAMETRICI PER DUE CAMPIONI7.1. Test per 2 campioni dipendenti o per dati appaiati 7.2. Il test di McNemar 7.3. Il test dei segni 7.4. Il test dei segni per ranghi: test T di Wilcoxon 7.5. Test di casualizzazione per 2 campioni dipendenti 7.6. Test per 2 campioni indipendenti 7.7. Il test della mediana o test di Mood 7.8. Il test di Wilcoxon-Mann-Whitney della somma dei ranghi 7.9. Il test u di Mann-Whitney o dell'ordine robusto dei ranghi 7.10. Cenni del test S di Kendall e rapporti con T ed U; potenza-efficienza dei tre test 7.11. Test di casualizzazione per 2 campioni indipendenti 7.12. Il test delle successioni per due campioni o test di Wald-Wolfowitz 7.13. Test di Siegel-Tukey per l'uguaglianza della varianza: cenni del test di Freund-Ansari-Bradley e del test di Conover 7.14. Il test dei ranghi equivalenti di Moses per le differenze nella dispersione o variabilit 8. Analisi della varianza (ANOVA I) a UN criterio di classificazione E CONFRONTI TRA PIU'MEDIE8.1. Analisi della varianza ad un criterio di classificazione o a campionamento completamente randomizzato 8.2. Confronto tra analisi della varianza con due trattamenti e test t di Student per 2 campioni indipendenti 8.3. Test per l'omogeneit della varianza tra pi campioni: test di Hartley, Cochran, Bartlett, Levene 8.4. I confronti tra pi medie 8.4.1 Confronti a priori o pianificati od ortogonali 8.4.2 Test per confronti multipli o a posteriori: Bonferroni, snk di Neuman-Keuls, lsd di Fisher, step-up di Welsch, hsd di Tukey, Scheff, Dunnett, Duncan 8.5. Stima della dimensione N di k gruppi campionari per l'ANOVA

9. ANALISI DELLA VARIANZA A PIU' CRITERI DI CLASSIFICAZIONE9.1. Analisi della varianza a due criteri di classificazione o a blocchi randomizzati, con una sola osservazione per casella 9.2. Confronto tra analisi della varianza a due criteri e test t di Student per 2 campioni dipendenti 9.3. Analisi della varianza a tre o pi criteri 9.4. Quadrati latini e greco-latini 9.5. Dati mancanti o anomali in disegni a pi fattori 9.6. Efficienza relativa di due disegni sperimentali 9.7. Potenza a priori e a posteriori nell'ANOVA, con grafici di Pearson e Hartley 9.8. Appendice al capitolo: lettura di tabulati dell'analisi della varianza effettuata con un pacchetto statistico 10. ANALISI FATTORIALE, DISEGNI COMPLESSI: TRASFORMAZIONI DEI DATI10.1 Analisi fattoriale ed interazione 10.2. Interazione tra due fattori a pi livelli 10.3. Rappresentazione grafica per l'interpretazione dell'interazione a due fattori 10.4. Analisi della varianza a due fattori con repliche ineguali 10.5. Il test T di Tukey per il confronto tra le medie in disegni a due fattori con repliche 10.6. Esperimenti fattoriali 2 x 2 e 23 con i confronti ortogonali 10.7. Esperimenti fattoriali con P fattori a k livelli 10.8. Quadrati latini con repliche 10.9. Analisi gerarchica (Nested ANOVA) 10.10. Assunzioni di validit e trasformazioni dei dati 10.11. La scelta della trasformazione idonea: il metodo di Box-Cox 10.12. Lettura di due tabulati di programmi informatici 11. TEST NON PARAMETRICI PER PIU' CAMPIONI11.1. Test non parametrici analoghi all'analisi della varianza 11.2. Estensione del test della mediana 11.3. Cenni sul test di Nemenyi 11.4. Analisi della varianza per ranghi ad un criterio di classificazione: il test di Kruskal-Wallis 11.5. Confronti multipli nell'analisi della varianza per ranghi, con k campioni indipendenti 11.6. Test per l'eterogeneit della varianza con k campioni 11.7. Il test Q di Cochran 11.8. Estensione del test di McNemar a una tabella quadrata N x N: il test di Bowker. 11.9. Analisi della varianza per ranghi, a 2 criteri di classificazione: test di Friedman con una e con K repliche 11.10. I confronti multipli tra medie di ranghi nell'analisi della varianza non parametrica, a due criteri di classificazione 12. REGRESSIONE LINEARE SEMPLICE12.1. Regressione o correlazione? 12.2. Descrizione di distribuzioni bivariate 12.3. Modelli di regressione 12.4. La regressione lineare semplice 12.5. Valore predittivo della regressione 12.6. Significativit dei parametri b e a della retta di regressione 12.7. Potenza a priori e a posteriori nella regressione lineare 12.8. Intervallo di confidenza dei parametri b e a . 12.9. Limiti di confidenza per i valori medi di i stimati 12.10. Limiti di confidenza per singoli valori di i stimati 12.11. Errori delle variabili e limiti di tolleranza 12.12. Il coefficiente di determinazione: R2 e R2 adj (aggiustato) 12.13. La predizione inversa 12.14. Confronto tra due o pi rette di regressione 12.15. Confronti multipli tra pi coefficienti angolari 12.16. Analisi della relazione dose-effetto nel caso di Y ripetute: test per la linearit e calcolo della retta di regressione 12.17. Condizioni di validit della regressione, analisi dei residui e trasformazioni 13. CORRELAZIONE E COVARIANZA13.1. La correlazione 13.2. Condizioni di validit e significativit di r con r = 0 e con r diverso da 0 13.3. Significativit della retta con R2 ? 13.4. Intervallo di confidenza di r 13.5. Potenza a priori e a posteriori per la significativit di r 13.6. Differenza tra due coefficienti di correlazione in campioni indipendenti e calcolo del coefficiente comune 13.7. Potenza a priori e a posteriori del test per la significativit della differenza tra due coefficienti di correlazione 13.8. Test per la differenza tra pi coefficienti di correlazione; coefficiente di correlazione comune rw e sua significativit 13.9. Cenni sui confronti multipli tra pi r 13.10. La correlazione parziale o netta di primo ordine e di ordine superiore; la correlazione semiparziale 13.11. Analisi della covarianza (ancova) 13.12. Lettura di tre tabulati di programmi informatici 14. MISURE DI TENDENZA NON PARAMETRICA E DI ASSOCIAZIONE TRA VARIABILI14.1. Il test di Cox e Stuart 14.2. Test di Jonckheere o Jonckheere-Terpstra per alternative ordinate in k campioni indipendenti 14.3. Il test di Page per alternative ordinate 14.4. Le misure d'associazione o d'indipendenza 14.5. Associazione in tabelle 2 x 2 o fra variabili dicotomiche: il Q e l'Y di Yule, il j , il Dsim e il dxy di Somers, il tc; il f e il c di Pearson, il v di Cramer, il dt di Tschuprow 14.6. Il cross-product ratio (CPR) 14.7. Associazione per variabili categoriali in tabelle M x N: la PRE, il l simmetrico ed asimmetrico di Goodman e Kruskal, le misure fondate sul chi quadrato 14.8. Cograduazione per variabili ordinali in tabelle M x N: il g di Goodman e Kruskall, il tk di Kendall, il dba e il dab di Somers 14.9. Stima dell'accordo con scala nominale: il kappa di Cohen 14.10. Lettura dei tabulati di un pacchetto statistico 15. TEST NON PARAMETRICI PER CORRELAZIONE, CONCORDANZA E REGRESSIONE LINEARE15.1. La correlazione non parametrica(rho) di Spearman con la distribuzione di Hotelling-Pabst e il test di Daniels 15.2. Il coefficiente di correlazione(tau) di Kendall, con t a e tb. Il c 2 di Mantel-Haenszel 15.3. Il coefficiente di correlazione parziale(tau) di Kendall 15.4. Cenni su misure di concordanza tra pi valutatori: la W, la u di Kendall 15.5. Misure per dati d'intervallo con classi costanti: il coefficiente di correlazione r di Pearson e il coefficiente eta 15.6. Odds ratio: rapporto di probabilit o tra rischi 15.7. Regressione non parametrica 15.8. Calcolo della retta di regressione non parametrica con il metodo di Theil 15.9. Confronto fra la retta parametrica e la retta di Theil 15.10. Test di Theil per la significativit di b 15.11. Il test di Hollander 16. IL DISEGNO SPERIMENTALE NELLA RICERCA AMBIENTALE; METODI DI RICAMPIONAMENTO PER L'INFERENZA16.1. I motivi del disegno sperimentale 16.2. Concetti sull'analisi sequenziale 16.3. Campione e superpopolazione 16.4. Stimatori e loro propriet 16.5. Test di normalit, simmetria e curtosi: il test di Lilliefors e il c 2 per l'adattamento di un campione ad una distribuzione normale 16.6. Campioni non probabilistici e campioni probabilistici 16.7. Tipo di campionamento e varianza 16.8. La scelta del test 16.9. La perdita di soggetti nel corso dell'indagine 16.10. Metodi di ricampionamento per l'inferenza: il jackknife e il bootstrap 4-NUOVO. VERIFICA DELLE IPOTESI4.1.Risultati significativi e non-significativi4.2.Procedura di verifica delle ipotesi: vero o falso? utile o dannoso?4.3.Potenza di un test4.4.Numero di dati necessari in rapporto alla potenza, alla significativita del test e alla direzionalitadellipotesi. Il criterio di Cohen per la scelta di?e?4.5.Intervallo fiduciale di una media con ?2 nota4.6.Varianza di una proporzione campionaria, estratta da una popolazione infinita oppure finita; stimadel rischio aggiuntivo4.7.Intervallo di confidenza di una proporzione, in una popolazione infinita e in una popolazione finita 4.8.Stima del campione minimo, necessario per ottenere una proporzione con un errore massimo prefissat4.9.Test per ladattamento di una distribuzione di frequenze, ricavata da una singola proporzione nota o ignota4.10.Test per la significativita di una proporzione e sua potenza, con uso della distribuzione binomiale e della normale4.11. Differenza tra due proporzioni: test di significativita e intervallo fiduciale4.12. Potenza a posteriori (1-?) e a priori (n) dei test sulla differenza tra due proporzioni4.13. Intervallo di confidenza di una varianza4.14. Confronto tra una varianza campionaria (s2) e una varianza attesa (?2), con stima della potenza del te4.15. Confronto tra un coefficiente di variazione osservato ed uno teorico od atteso4.16. Parametri e statistiche: correttezza, efficienza, consistenza, sufficienza10-NUOVO. PARAGRAFO 9I10.9.1 Analisi gerarchica o nested in anova I, II e III10.9.2 Anova I o a effetti fissi10.9.3 Interazione: l'analisi gerarchica in esperimenti fattoriali

Lettere dell'alfabeto greco antico alpha beta gamma delta epsilon zeta eta , , theta iota kappa lambda mu (my, mi) nu (ny, ni) xi (csi) omicron pi rho , sigma tau upsilon (ypsilon) phi chi psi omega 1FONDAMENTIDISTATISTICAAPPLICATAALLANALISIEALLAGESTIONEDELLAMBIENTECAPITOLOIELEMENTI DI STATISTICADESCRITTIVAPERDISTRIBUZIONIUNIVARIATE1.1. LA STATISTICA NELLA RICERCA AMBIENTALE.Comeintuttalaricercascientificasperimentale,anchenellescienzeambientaliedinecologiaindispensabilelaconoscenzadeiconcettiedeimetodistatistici,siaperiproblemidigestionechediindagine. Per pubblicare i risultati di una ricerca, tutte le riviste scientifiche del settore richiedono chelapresentazionedeidati e laloroelaborazioneseguanocriteririconosciuticomeuniversalmentevalidi.Ilcomportamentonellafasediraccolta,ladescrizione,lanalisiedilriepilogodeidatisono in buona parte codificati, fino nei dettagli. Inviare ad una rivista uno studio od una relazione chedenotinounaconoscenzasommariadellastatisticacomportageneralmenteunacriticadeimetodiseguiti, che pu giungere fino al rifiuto delle conclusioni o almeno ad dichiarazione esplicita sulla lororidotta attendibilit.Conunaraccoltadidatinoncorretta,unaloropresentazioneinadeguataounanalisistatistica non appropriata diviene impossibile la verifica dei risultati da parte di altri studiosiedilconfrontoconaltrericercheedanalisidelsettore.Perilprogressodiqualsiasidisciplinasperimentale,anchelasemplicepossibilitdisommareleesperienzeeconfrontareirisultatidiricerchediverse,siaincondizionisimilichevolutamentedifferenti,unafinalitimportanteperlaccumulo delle conoscenze, per formulare nuove ipotesi o verificare teorie gi divulgate.Alfinedifacilitareailettorilacorrettacomprensionedeirisultati,perladivulgazionedellericerchepresentate le riviste internazionali e quelle di maggior prestigio richiedono tassativamente agli autori diseguire uno schema preciso che, in linea di massima, fondato sullo sviluppo di quattro elementi.1) Una introduzione,chepresentiinmodoaccuratosial' argomento affrontato, sia lefinalitdellaricerca, mediante citazione dei lavori scientifici pregressi e della letteratura specifica.2) La descrizione dimateriali e metodi, in cui devono essere definiti-(a) il tipo discala utilizzato,2-(b) le modalit delcampionamento o di raccolta dei dati,-(c)lemisuresintetichedellecaratteristichepiimportantidelladistribuzionedeidati,comemediaevarianza(piraramente,anchesimmetria,curtosi,coefficientedivariazione).Spesso,soprattutto per argomenti nuovi o quando siano stati pubblicati solo pochi dati, prassi richiedereladistribuzionetabellarecompletaedettagliata;tabelleefrequenzesonopreferiteallerappresentazioni grafiche, che possono essere anche particolareggiate, ma raramente permettonodi risalire ai dati originari, indispensabili per verificare i calcoli.3)Irisultati,chedevonocomprendereespressamentelacitazione,conbibliografianeicasimenonoti, deitest di inferenza utilizzati, allo scopo di permettere alla comunit scientifica di valutare se laloro scelta appropriata, in funzione-(a) delle ipotesi che si intendono verificare,-(b) del tipo di scala con cui sono state misurate le variabili analizzate,-(c) delle caratteristiche statistiche della distribuzione dei dati.4) La discussione, che deve riportare linterpretazionedeirisultatiottenuticonitestapplicati,oltreadeventualiconfronti,concordanzeodiscordanzeconanalisigipubblicate.Linterpretazionedevenonsolocomprenderelanalisistatistica,maessereestesaalsignificatoecologicoodambientaledeirisultatiottenuti;infattinonsempreunrisultatostatisticamenterilevanteassumeancheunimportantesignificatoecologicoodambientale.Nederivacheperanalizzareidatiambientali non possibile scindere lanalisi statistica dalla interpretazione ecologica.1.2. IL DISEGNO SPERIMENTALE ED IL CAMPIONAMENTOPercondurreinmodocorrettounaricercascientifica,otteneretuttiidatirichiestiedapplicareleanalisi secondo i criteri descritti, occorre seguire alcuni passaggi metodologici, riassumibili in 4 fasi:- il disegno sperimentale,- il campionamento,- la descrizione statistica,- la scelta dei test per linferenza.1-Ildisegnosperimentale,perfareinmodocheleosservazioniinnaturaeleripetizioniinlaboratoriononsianoraccolteacaso,mascelteeprogrammateinfunzionedellaricercaedelleipotesiesplicative.Ginellaprogrammazionedell'esperimento,nellafasechiamataconterminetecnicodisegnosperimentaledallingleseexperimentaldesign(tradottopicorrettamentein3italianoconprogrammazionedellesperimento),occorreaverechiaraapriorilaformulazionedell'ipotesi che si intende verificare, alternativa all'ipotesi nulla.Con essa si deve rispondere alle domande: Le eventuali differenze riscontrate tra due o pi gruppididati,oppurediunaseriediosservazioniconquantoeraatteso,possonoessereimputabiliafattoricausalispecificiosolamenteafattoricasualiignoti?Ledifferenzeriscontratesonogeneratedallanaturalevariabilitdellemisureedelmaterialeutilizzatooppureprobabilmenteesiste una causa specifica che le ha determinate?2-Ilcampionamento,chepermettediraccogliereidatiinfunzionedelloscopodellaricerca,rispettando le caratteristiche della popolazione o universo dei dati.Il problema fondamentale della statistica come raccogliere solamente un numero limitato didati(permotividirisparmio,ditempo,didatieffettivamentedisponibili),maattraversolaloroanalisipervenireugualmenteaconclusionigenerali,chepossanoessereesteseatuttalapopolazione.3 - Ladescrizione delle caratteristiche statistichedellinsiemedeidatiraccolti,inmodochetuttipossano verificare sia l'adeguatezza del disegno sperimentale e del campionamento, sia la correttezzadelle analisi attuate e dei risultati ottenuti.4-Lutilizzazionedeitestgiprogrammatineldisegnosperimentale,infunzionedeiqualistatoeffettuatoilcampionamento.Sitrattadiunprocessologico-matematicoche,medianteilcalcolodiprobabilitspecifiche,portaallaconclusionedinonpoterrespingereoppuredirespingerel'ipotesidella casualit.Chiamata ipotesi nulla ed indicata con H0, di norma tale ipotesi afferma che le differenze tra gruppioletendenzeriscontratesianoimputabiliessenzialmentealcaso.Pergiungereaquesteconclusionisidevericorrereallinferenza,chepuesseredefinitacomelacapacitditrarreconclusionigenerali (sulla popolazione od universo) utilizzando solo un numero limitato di dati variabili(campione).Il disegnosperimentaleedilcampionamentosonoleduefasipreliminarisiaallaraccoltadeidati in natura sia ad una corretta impostazione degli esperimenti in laboratorio, per quasi tuttele ricerche a carattere ambientale ed ecologico.Tuttavia, la presentazione didattica e la corretta comprensione di questi argomenti richiedono concetticomplessiemetodologiesofisticate,nonsemprefacilinintuitivi.Perquestimotivi,ildisegno4sperimentale ed il campionamento sono sempre trattati nella fase finale del corso, quando gi stataraggiuntasufficientefamiliaritconlaterminologiastatistica,iconcettiedimetodifondamentalidellinferenza.Nellapprendimento e nelluso della statistica, il primo passo comprendere come solamente con unacorrettaapplicazionedelcampionamentoedeitestdiconfrontostatistico,sceltiedorganizzatiaprioristicamenteneldisegnosperimentale,siapossibilerisponderealladomandainferenzialediverifica dell' ipotesi nulla. Con essa si pone il seguente quesito:"Nell'ipotesicheledifferenzefragruppidiosservazioniempirichesianodovuteafattoriesclusivamentecasuali,qualelaprobabilitchefratuttelealternativepossibilisipresentiproprio la situazione descritta dai dati raccolti o ancora pi estrema?"Selaprobabilitrisultaalta,convenzionalmenteugualeosuperioreal5%,siimputerannoledifferenzeafattoripuramentecasuali;alcontrario,selaprobabilitrisultabassa,inferiorealvaloreprefissato,siaccettacomepiverosimilecheledifferenzesianodovuteafattorinoncasuali,rientranti tra i criteri con cui i dati sono stati raggruppati.Laproceduradellinferenzastatisticasemplice,nellelineelogichegenerali.Tuttavia,leanalisieleconclusionitrovanocomplicazioniperlelevatavariabilitdeidatiambientali,amotivofondamentalmente di tre cause che, in ordine crescente dimportanza, sono:- glierrori di misurazione, generati da strumenti e da differenze nell'abilit dei ricercatori;- l' operare su campioni, per cui i dati utilizzati in una ricerca non sono mai identici a quelli rilevati inqualsiasi altra;-lapresenzadivarifattoricontingentididisturboche,comeiltempoelalocalit,possonoincidere diversamente sul fenomeno in osservazione, con intensit e direzioni ignote.Pureseespressiinmodosintetico,questiconcettidefinisconoilcontenutodellastatisticamoderna:laraccolta,lapresentazioneelaelaborazionenumericadelleinformazioni,peragevolare l'analisi dei dati ed i processi decisionali.Inscindibile nella conduzione di una ricerca, sotto l'aspetto didattico lastatisticamodernavienedatempo distinta in due parti:1-lastatisticadescrittiva,checomprendel'insiemedeimetodicheriguardanolaraccolta,lapresentazione e la sintesi di un insieme di dati per descriverne le caratteristiche essenziali;52 - lastatisticainferenziale, che comprendel'insiemedeimetodiconcuisipossonoelaborareidati dei campioni per dedurne omogeneit o differenze nelle caratteristiche analizzate, al fine diestendere le conclusioni alla popolazione.Inaltritermini,lastatisticainferenzialepermetteditrarreconclusionisututtiidatidiunapopolazione,quandosiconosconosolamentepochidati,raggruppatiinunoopicampioni.Supponiamodivolerconoscerelavelocitd'accrescimentosomaticodiunadeterminataspecieanimaleovegetale.Eovviochenonpossibilerintracciareemisuraretuttigliindividuidiquellaspecie, la popolazione od universo; se non altro per il tempo e le risorse necessari ed il suo continuorinnovamentopernasciteemorti.Epossibileutilizzareperlaricercasolamentealcuneunit,unafrazione limitatissima della popolazione, in termini tecnici un campione.Quandopoisitrattassedimisurarerapportitraorganidiunaspecieanimale,ovviochenonpossibilesezionaretuttigliindividuidellaspecie.Nellostessomodo,percontareiglobulirossioquellibianchidiunapersona,nonpossibileestrarretuttoilsangueperunconteggiototale,masieffettua un prelievo limitato a pochi centimetri cubici.Tuttavialeconclusioninondevonoesserelimitateaipochi(oanchemolti)casirealmenteraccolti, misurati ed analizzati; ma devono essere generali,esteseatuttigliindividuidellaspecieo a tutto lorganismo.Ricopronoeffettivointeressenonleconclusionicherestanolimitateaicasidelcampioneutilizzato, ma quelle che sono estese a tutta la popolazione o universo.Soloinquestomodo,laricercarivesteunaimportanzageneraleecontribuisceallacostruzionediteoriescientifiche,dimodelli o semplicemente di ipotesi che possono essere universalmente validi.Una condizione essenziale e preliminare alluso dei metodi di statistica inferenziale che il campionesiacorretto,chenonriportiinmododistortoodalteratolafrequenzadellecaratteristichepresenti nella popolazione.La teoria della probabilit permette poi di verificare la verosimiglianza che i risultati del campionenonsidiscostinodaglieventualirisultatiraggiunti,analizzandotuttalapopolazioneol'universodeidati.Inuncorsocompletodistatisticaapplicataallaricercaeallagestionedellambiente,importanteavereinognimomentounavisionecomplessivadegliargomentigidiscussiediquelliancoradaaffrontare.Illoroelencoutileanchepercomprenderelediversepartiincuivienedistintalastatistica:61-lastatisticadescrittivachetrattacomeidatiraccoltidevonoessereriportatiintabella,rappresentatiingrafici,sintetizzatiinindicimatematiciperindividuarelecaratteristichefondamentali della distribuzione dei dati;2lastatisticamatematicaopresentazionedelledistribuzioniteoriche,perevidenziarequalisianolecaratteristichefondamentalidialcunefondamentalidistribuzioniteorichesiadiscretesiacontinue, quali relazioni esistano tra esse, quali usi abbiano nella ricerca ambientale;3-linferenza statistica, la parte nettamente prevalente del corso, che pu essere distinta in variesezioni, in rapporto alle caratteristiche dei dati (se permettono o meno il ricorso alla distribuzionenormale) e al fatto di considerare una sola variabile (distribuzioniunivariate)oppuredianalizzarelerelazionitraduevariabili(distribuzionibivariate)otrapivariabilicontemporaneamente(statistica multivariata).Laprimapartedellinferenzalastatisticaunivariataparametrica,checomprendeiltesttdiStudent e il test F diFisher-Snedecoroanalisidellavarianza:ilprimoservesiaperconfrontarelamedia di un campione con una media attesa o teorica, sia per confrontare le medie di due campioni;ilsecondorappresentalasuageneralizzazioneepermetteilconfrontosimultaneotrapimedie,considerando contemporaneamente sia uno sia pi fattori di variabilit. Appunto perch fondati sulladistribuzionenormale,richiedonocondizionidivaliditrestrittive(discusseneicapitolisuccessivi),che non sempre i dati raccolti e la misura utilizzata permettono di rispettare.E una situazione che si presenta con frequenza elevata nella ricerca ecologia e in quella ambientale,a causa della estrema variabilit dei dati e la presenza di valori anomali; si ricorre allora allastatisticaunivariata non parametrica, che formata dal una serie innumerevole di test, di norma raggruppatisulla base dei campioni ai quali viene applicata: test per un campione, per due campioni dipendenti eindipendenti, test per k campioni dipendenti e indipendenti.Quando per ogni individuo o situazione si raccolgono informazioni relative a due variabili, possibileanalizzarelerelazionicheintercorronotraesse,mediantesialaregressioneelacorrelazioneparametrichesialaregressioneelacorrelazionenonparametriche.Siparlaalloradistatisticabivariataparametricaedistatisticabivariatanonparametrica.Quandoidatiraccoltisonorelativi a pi variabili, si deve ricorrere alla statistica multivariata, che per molte analisi solamenteparametrica.Inquestocorso,verrannopresentatiimetodirelativiallastatisticaunivariataebivariatasiaparametricachenonparametrica.Laseriecompletadegliargomentiedilloroordinesonoriportatinellindice del volume.71.3.TIPI DI DATI E SCALE DI MISURAZIONENellanalisistatistica,gialprimoapprocciooccorreporresempremoltaattenzioneallecaratteristichedeidati,poichdaessedipendonosiaimetodididescrizione,siaitestdaapplicare.Esistonofondamentalmenteduetipidivariabilicasuali,allequalisonoassociatiduetipididati: qualitativi e quantitativi.Idatiqualitativisonogeneratidarispostecategoriali(es.:conuntestsullatossicit,lecaviemuoiono o sopravvivono; con un farmaco, entro un tempo prefissato i pazienti guariscono o restanoammalati; con esperimenti sulle leggi dellereditariet di Mendel, si possono ottenere fiori rossi o fioribianchi).Idatiquantitativisonoilrisultatodirispostenumeriche(es.:perunanalisideldimorfismoanimale, le dimensioni di organi o il peso di alcuni maschi e di alcune femmine).I dati quantitativi possono essere discreti o continui: i primi derivano da un conteggio (es.: quantefogliesonoattaccateadunramoscello);isecondidaunprocessodimisurazioneconunostrumento(es.: la lunghezza di un ramoscello; ilpeso una cavia; iltempodireazioneallasomministrazionediuna sostanza tossica).Questa suddivisione, ormai storica nella presentazione ed elaborazione statistica dei dati, stata resapichiaraefunzionaledallaclassificazionedellescaledimisurazionepropostadallopsicologoS.S.Stivens nel 1946, aggiornata nel 1951 con le operazioni statistiche ammissibili e in seguito divulgatasoprattutto da S. Siegel, nel suo manuale di "Statistica non parametrica" del 1956.Lemisurepossonoessereraggruppatein4tipidiscale,chegodonodiproprietformalidifferenti;diconseguenza,esseammettonooperazionidifferenti.Comeperlealtrediscipline,unascala di misurazione dei fenomeni ecologici ed ambientali pu essere:1) nominale o classificatoria;2) ordinale o per ranghi;3) ad intervalli;4) di rapporti.1.3.1-Lascalanominaleoclassificatoriaillivellopibassodimisurazione;vieneutilizzataquandoirisultatipossonoessereclassificatioraggruppatiincategoriequalitative,nominali,eventualmenteidentificaticonsimboli.Icaratterinominali,dettianchesconnessi,costituisconovariabililecuimodalitoattributinonassumonoalcunordineprecostituito.Inunapopolazioneanimalesipossonodistingueregliorganismiinmaschiefemmineecontarequantiappartengonoai8due gruppi; oppure possono essere suddivisi e contati secondo la loro specie, con una classificazionea pi voci.Nellascalanominaleoqualitativa,esisteunasolarelazione,quelladiidentit:gliindividuiattribuitiaclassidiversesonotralorodifferenti,mentretuttiquellidellastessaclassesonotra loro equivalenti, rispetto alla propriet utilizzata nella classificazione.Uncasoparticolarequellodeicaratteridicotomiodicotomicichepossonoassumeresoloduemodalit, spesso indicate in modo convenzionale con 0 e 1.L'attribuzionedinumeriperidentificarelevariecategorienominali,comeavvieneperindividuareigiocatorineigiochidisquadra,solamenteunartificiochenonpucertamenteautorizzareadelaborarequeinumericomesefosseroreali,adesempiocalcolandonelamedia.Quandoperlaclassificazionedeigruppialpostodinomivengonousatinumeri,siutilizzasololafunzionediidentificazionedeglielementinumericicomesefosserosimboli;macontaletrasformazionenonsidetermina una informazione diversa.Loperazione ammessa ilconteggiodegliindividuiodeidatipresentiinognicategoria.Iquesitistatisticichepossonoessereposticorrettamenteriguardanolefrequenze,siaassolutecherelative.Sonopossibiliconfrontitrafrequenzeosservate(es.:Unaclassesignificativamentepinumerosadellaltra? Le varie classi hanno tutte lo stesso numero di individui, escludendo le variazioni casuali?)oppure tra le frequenze osservate e le rispettive frequenze attese sulla base di leggi biologiche, ipotesiodaltro(es.:IrisultatiottenutidaunesperimentosulleleggidiMendelsonoinaccordoconlasuadistribuzione teorica?).1.3.2 - Lascalaordinaleoperranghirappresentaunamisurazionechecontieneunaquantitdiinformazioneimmediatamentesuperioreaquellanominale,assumendomodalitlogicamentesequenziali,nonimportaseinordinecrescenteodecrescente;allaproprietprecedentediequivalenzatragliindividuidellastessaclasse,siaggiungeunagradazionetraleclassiotraindividui con misure diverse.Conlaprecedentescalanominale,sihalasolainformazionechegliindividuiappartenentiagruppidifferenti sono tra loro diversi , ma non possibilestabilireunordine.Conlascalaperranghi,ledifferenti classi possono essere ordinate sulla base dellintensit del fenomeno. (es.: Si supponga cheil risultato di un reagente sia di colorare in verde una serie di provette, secondo la quantit di sostanzacontenuta.Epossibilemettereinordineleprovettesecondol'intensitdelcolore,peravereunastimaapprossimatadellaquantitdisostanzacontenuta.Sesiconfrontanotreopiprovetteconintensit di colore differente, facile stabilirne l'ordine; rimane impossibile confrontare e misurare laquantit di differenza esistente tra esse).9In una scala ordinale, non possibile quantificare le differenze di intensit tra le osservazioni.Alcune risposte, apparentemente definite a livello qualitativo o nominale, in realt possono contenereunascalaordinaleodirango,seppureconmolteripetizioni.Eilcasodellasuddivisioneingiovane,adultoedanzianoperl'et,oppuredellaclassificazioneininsufficiente,sufficiente,discreto,buonoedottimoinvalutazionidimerito.Contengonounascalaordinaleanchemisurechesonorappresentate con simboli, come --,-,=,+,++.Restalimpossibilitdivalutarequantosialadistanzatrainsufficienteesufficiente,oppuresesiainferiore o superiore alla distanza tra buono ed ottimo.Lascalaordinaleoperranghipertantounascalamonotonica.Allevariabilicosmisuratepossibile applicare una serie ditestnonparametrici,manonquelliparametrici.Inquesticasi,nonsarebbe possibile utilizzare quei test che fanno riferimento alla distribuzione normale, i cui parametriessenzialisonolamediaelavarianza,poichsifondanosulledifferenzediogniosservazionedallamedia.Tuttavia,questaindicazionedimassimaspessosuperatadall'osservazionechevariabilidiscreteonominalitendonoadistribuirsiinmodoapprossimativamentenormale,quandoilnumerodidatisufficientementeelevato.Percolorochesononellafaseinizialedelleapplicazionistatistiche,permanesempremoltaincertezzasullasceltadeitestpiappropriati;infatti,traglistudiosipermaneunampiavarietdiopinionisuquandoilnumerodiosservazionisiasufficientementeelevatoperottenereunadistribuzionenormale.Nelseguitodelvolume,largomentosardiscussoinmoltesituazioni.1.3.3-Lascalaadintervallialleduecaratteristichedellascalaordinaleaggiungequelladimisurareledistanzeodifferenzetratuttelecoppiedivalori.Lascaladiintervallisifondasuuna misura oggettiva e costante, anche se il punto di origine e l'unit di misura sono arbitrari. Esempiclassici di scale ad intervalli sono la temperatura (misurata in gradiCelsiusoFahrenheit)ediltempo(misurato secondo calendari differenti). Valori di temperatura, oltre a poter essere facilmente ordinatisecondolintensitdelfenomeno,godonodellaproprietcheledifferenzetralorosonodirettamente confrontabili e quantificabili; le date in un calendario gregoriano, islamico, ebraico ocinese possono essere tra loro ordinate dalla pi antica a quella pi recente e ledifferenzetemporalisono misurate con precisione oggettiva.Ma la scala ad intervalli ha alcuni limiti, non gode di altre propriet.Adesempio,unatemperaturadi80gradinonildoppiodiunadi40gradi,quandoriferitaallatemperatura corporea: se una persona ponesse la mano destra in una bacinella con acqua a 80 gradi e10la mano sinistra in una con acqua a 10 gradi, non direbbe certamente che la prima scotta 8 volte pidella seconda, ma solo che la prima bollente e la seconda fredda.In una scala ad intervalli, solo le differenze tra i valori sono quantit continue ed isomorficheallastrutturadell'aritmetica.Soloperledifferenzesonopermessetutteleoperazioni:possonoesseretralorosommate,elevateapotenzaoppuredivise,determinandolequantitchestannoallabase della statistica parametrica.Daunascaladintervallipossibilescendereadunascaladiranghi(es.:utilizzandosololinformazione dellordine dei valori) oppure ad una scala nominale (es.: suddividendo in misure alteebasse,sopraosottounvaloreprefissato).Pertanto,lascaladintervalligodeanchedelleproprietdefinite per le due scale precedenti.Nellapresentazionedeitestnonparametriciverrannodiscusselesituazioniincuiconveniente scendere nel tipo di scala,puravendodatimisuratisuscaledintervalliodirapporti,con una apparente perdita dinformazione.1.3.4-Lascaladirapportihailvantaggiodiavereunoriginereale.Sonotipichescaledirapportil'altezza,ladistanza,l'et,ilpeso,ilreddito,piingeneraletuttequellemisureincui0(zero)significaquantitnulla.Nonsololedifferenze,maglistessivaloripossonoesseremoltiplicatiodivisiperquantitcostanti,senzachel'informazionedimaggioreimportanza,ilrapporto tra essi, ne risulti alterata.Alle variabili misurate con una scala di rapporti, il tipo di misurazione pi sofisticato e completo, puessereapplicatoqualsiasiteststatistico.Possonoessereutilizzatianchelamediageometricaedilcoefficiente di variazione, i quali richiedono che il punto 0 (zero) sia reale e non convenzionale.Pure con una scala di rapporti possibile scendere nella scala di misurazione, trasformandola in unascaladirangooaddiritturaqualitativa.Ovviamente,sihaunaperditaancorpirilevantedellaquantitdinformazione,rispettoallescaleprecedenti;diconseguenza,rappresentaunoperazionechedeveessereevitata,quandononimpostadaaltrecondizionidellanalisistatisticaodallecaratteristiche della distribuzione dei dati.Riassumendo i concetti fondamentali esposti,- nella scala nominale, esistono solo relazioni diequivalenza;- in quella ordinale, si aggiungono relazioni diminore o maggiore di;- in quella ad intervalli si aggiunge la relazione dirapporto tra ogni coppia dintervalli;- nella scala di rapporti si ha anche la relazione dirapporto conosciuto tra ogni coppia di valori.11Comesarpivoltediscussoneiprossimicapitoli,anchenellaricercaenellagestioneambientalioccorreporreestremaattenzionealrealesignificatodaattribuireaivalorinumericichevengonoutilizzati.Sipossonoaverenumericheapparentementehannolestessecaratteristiche;mainrealtessirichiedonoelaborazionidiverseedimpongonoilricorsoatestdifferenti,perrispondereaimedesimiquesiti.Peresempio,igrammidiunadeterminatasostanzainquinantescioltainunlitrodacqua, la percentuale di questa sostanza sul peso complessivo, il punteggio della qualit dellacquasonomisurecheutilizzanoscalediverse.Nelprimocaso,sihaunaclassicascaladirapportiedpossibileusaretestparametrici,seladistribuzionedeidatinormale;nelsecondocaso,possibileutilizzarelestesseprocedurestatisticheeglistessitestparametricisolamentedopoappositatrasformazione dei valori; nel terzo, si ha una scala di ranghi, poich la reale informazione fornita daquestaseriedipunteggisoloquelladiunagraduatoriadellaqualit,nellaqualenonhannorealesignificato n i rapporti n le differenze tra loro.1.4. CLASSIFICAZIONE IN TABELLEUn insieme di misure detto serie statistica o serie dei dati. Quando la serie non ordinata, si haun insieme disordinato di numeri che non evidenzia le caratteristiche fondamentali del fenomeno.Unasuaprimaedelementareelaborazionepuessereunadistribuzioneordinatadituttiivalori,inmodo crescente o decrescente, detta seriazione.Il valore minimo e ilvalore massimo insieme permettono di individuare immediatamente ilcampo(od intervallo) di variazione.Successivamente,laseriepuessereraggruppatainclassi,contandoquantivaloriodunitstatistiche appartengono ad ogni gruppo o categoria.Si ottiene una distribuzione di frequenza o di intensit, detta anche semplicemente distribuzione.Comeprimaapplicazione,utileconsiderareuncasosemplice:unavariabilediscretaottenutadaun conteggio del numero di foglie, germogliate su 45 giovani rami di lunghezza uguale.Tabella 1. Numero di foglie contate su 45 rami.5 6 3 4 7 2 3 2 3 2 6 4 3 9 32 0 3 3 4 6 5 4 2 3 6 7 3 4 25 1 3 4 3 7 0 2 1 3 1 5 0 4 512Il primo passaggio, quasi intuitivo in una distribuzione discreta, consiste neldefinire le classi:- sufficiente identificare ilvalore minimo (0, nei dati della tabella) e quello massimo (9),-contando quante volte compare ognimodalitdiespressione(cioquantisonoiramiconunnumero di foglie uguali).Queste informazioni di norma sono presentate in una tabella impostata come la seguente: Tabella 2. Distribuzione di frequenze assolute e relative delle foglie in 45 rami.Classe x 0123456789freq.assoluta n 337 12754301freq.relativa f 0,070,070,150,270,150,110,090,070,000,02freq. cumulata 0,070,140,290,560,710,820,910,980,981,00in cui:-la classe una modalit di espressione (in questo caso un valore o conteggio);-la frequenza assoluta della classe il numero di volte con la quale compare ogni valore;-lafrequenza relativa della classe la sua frequenza assoluta divisa per il numero totale;-la frequenza cumulata di una classe (che pu essere stimata con quelle assolute e/o con quellerelative) la somma di tutte le frequenze delle classi minori con quella della classe stessa.Latrasformazionedafrequenzaassolutaafrequenzarelativarisultautilequandosivoglionoconfrontare due o pi distribuzioni, che hanno un differente numero complessivo di osservazioni.Lafrequenzacumulataoffreinformazioniimportantiquandosiintendestimareilnumerototalediosservazioniinferiore(osuperiore)adunvaloreprefissato(ades.:il71%deiramihamenodi5foglie; il 56% ha un massimo di 3 foglie).Ladistribuzionedeidatieladistribuzionedellefrequenzecumulatefornisconoinformazioninondissimili, essendo possibile passare con facilit dalluna allaltra. Sono diverse nella loro forma, comesivedrconmaggioreevidenzanellerappresentazionigrafiche.Laprimahaunaformaacampana,lasecondaunaformaaS,ditipoasintotico;siprestanoadanalisidifferentielascelta fatta sulla base del loro uso statistico.13Ladistribuzionedifrequenzaoffreunaletturarapidadellecaratteristichepiimportantidellaseriedidati.Nellatabellaprecedente,ilramotipicoha3foglie;sedovessimosintetizzareconunsolovaloreilnumerodifogliepresentisuiramiraccoltidiremmo3,cherappresentalatendenzacentrale.Altracaratteristicaimportanteilnumerominimoeilnumeromassimo,0e9,cheinsiemefornisconoilcampodivariazione,unaindicazionedellavariabilitodispersione.Ladistribuzionedelnumerodifoglietendeaddiminuireinmodosimileallontanandosida3,seppuremantengafrequenzepialtenelleclassiconunnumeromaggioredifoglie:sonoindicazionisullaformadelladistribuzione,cheinquestoesempiononsimmetrica(maasimmetrica)rispettoallatendenza centrale, a causa di un eccesso dei valori pi alti.Nella costruzione di tabelle sintetiche (come la tabella 2 rispetto alla 1) uno dei problemi pi rilevantiquanteclassidifrequenzacostruire.LasceltadipendestrettamentedalnumerototaleNdiosservazioni e, in misura minore, dalla variabilit dei dati.Se,inriferimentoalladimostrazioneprecedente,idatifosserostatiinnumeroinferioreai45presentati(adesempioi15valoridellaprimariga),ilcampodivariazionesarebbestatopiridotto(nonpida0a9,mada2a9).Leclassinonsarebberostate10comeprima,masolamente8.Tuttavia,comesipuosservaredaidati,8classiper15osservazionisarebberougualmenteunnumerotroppoalto,perriuscireadevidenziareerappresentareinmodocorrettolecaratteristicheprincipali e la forma reale della distribuzione.Ledistribuzionidifrequenzatendonoamostrareladistribuzionerealedelfenomenosoloquando possibile utilizzare un numero sufficientemente elevato di osservazioni.Lesperienzahainsegnatocheilnumerodiclassiabitualmentevariadaunminimodi4-5(conN=10-15)adunmassimodi15-20(conN>100),infunzionedelnumerocomplessivodi osservazioni.Unnumerotroppobassodiclassi,raggruppandoeccessivamenteidati,determinaunaperditadiinformazione sulle caratteristiche della distribuzione e la rende non significativa; intuitivo che una oduesoleclassideterminanolimpossibilitdievidenziarequalunquecaratteristicadelladistribuzione.Inversamente, ma con un risultato finale simile, un numero troppo elevato di classi disperde i valori enon rende manifesta la forma della distribuzione.Perstimareinmodooggettivoilnumerodiclassi,sonostatipropostivarimetodi;traessiutilericordarne due:141-quellodiH.Sturgeschenel1926,sullabasedelnumerodiosservazioniN,haindicatoilnumero ottimale di classi CconC N = + 110310log ( )2 - quello diD. Scott che nel 1979 ha determinato lampiezzaottimalehdelleclassi(dallaqualeovviamente dipende direttamente anche il numero di classi C), mediante la relazionehsN= 3 5 ,dove- s la deviazione standard,che sar presentata pi avantitra le misure di variabilit dei dati.Nellacostruzionedidistribuzionidifrequenza,nonstrettamenteobbligatorioutilizzareintervalliuguali,ancheseprassiconsolidataperunaletturapisemplice.Nelcasodiclassidiampiezzadiversa,larappresentazionegraficaedilcalcolodeiparametrifondamentaliesigonoalcuneavvertenze, non sempre intuitive (di seguito presentate).Nel caso di una variabile continua,ilraggruppamentoinclassirichiedealcuniaccorgimentiulterioririspetto a quelli utilizzati per una variabile discreta. Si supponga che sia stata misurata laltezza in cm.di 40 giovani piante della stessa specie, arrotondata allunit per semplificazione.Tabella 3. Altezza in cm. di 40 giovani piante.107 83 100 128 143 127 117 125 64 11998 111 119 130 170 143 156 126 113 127130 120 108 95 192 124 129 143 198 131163 152 104 119 161 178 135 146 158 17615Eevidentecomenonsiaconvenientefareunaclasseperognicm.,inanalogiaaquantofattoconidati della tabella 1. In questo caso, il numero di modalit sarebbe nettamente superiore al numero diosservazioni,ancheseilcampioneavesseunnumerodiosservazionidoppiootriplo.Diconseguenza,siimponelanecessitdiunraggruppamentoinclassi,checomprendanopimodalitdi espressione.Unavoltaindividuatoilvaloreminimoequellomassimo(64e198),sistabiliscel'intervallodivariazione(198-64=134).Nellaformazionedelleclassi,illimiteinferioredellaprimaclasseedillimite superiore dellultima classe non devono essere necessariamente i valori osservati, ma li devonoovviamentecomprendere.Equindipossibilecostruireuncampodivariazione,adesempiodi140cm.(semprepiampiodiquellocalcolato),partendodacm.60earrivandoacm.199compresi.Sulla base del numero di dati (40), si decide il numero di classi. Nel caso specifico, potrebbero essere7 classi, con unampiezza di 20 cm. ognuna.E necessariodefinireconprecisioneilvaloreminimoequellomassimodiogniclasse,ondeevitare incertezze nell'attribuzione di un singolo dato tra due classi contigue. Con i dati dellesempio,le classi possono essere 60-79 la prima, 80-99 la seconda, 100-119 la terza e cos via fino a 180-199per lultima.E da evitare la suddivisioni in classi come 60-80, 80-100, 100-120, Poichlascalacontinua,icm.riportatidevonoessereintesiconalmeno2cifredecimali,percuinella classe 60-79 il primo numero deve essere inteso come60,00 cm. e 79 come 79,99; nello stessomodo la classe 180-199 deve essere intesa tra i cm. 180,00 e 199,99.Nonostante le indicazioni di massima presentate, la determinazione dei valori estremi, del numero diclassiedell'intervallodiogniclasseampiamentesoggettiva.Nellacostruzionediunatabella,lasceltasoggettivadiunaparticolareserieodiun'altraputradursiinunarappresentazionecompletamente diversa degli stessi dati. Per piccoli campioni, l'alterazione e le differenze possonoesseresensibili;maall'aumentaredelnumerodiosservazioni,glieffettidellesceltesoggettive,quando non siano estreme, incidono sempre meno sulla concentrazione dei valori e sulla forma delladistribuzione.Tra le altre avvertenze importanti, da ricordare che la classe iniziale e quella terminale non devonoessereclassiaperte (come< 80 quella iniziale e180quellafinale).Conclassiestremeaperte,siperdel'informazionedellorovaloreminimoomassimoequindidelvalorecentralediquellaclasse;laconseguenzalaperditadiundatoindispensabile,percalcolarelamediadellaclasseequellatotale,nonchtuttiglialtriparametridaessaderivati.Comeverrsuccessivamentechiarito,contabelleincuileclassiestremesonoapertevieneimpeditaoresasoggettivaanchelaloro16rappresentazionegrafica,perlaqualeindispensabileconoscereconprecisioneilvaloreinizialeequello terminale.I dati della tabella 3 possono essere riportati in modo pi schematico e pi comprensibile, come nellaseguente tabella 4.Tabella 4. Distribuzione di frequenza assoluta e relativa (in %) dell'altezza di 40 giovani piante.classe xi60-79 80-99 100-19 120-39 140-59 160-79 180-99freq.ass. ni1 3 10 127 52freq.rel. fi 2,57,525,030,017,512,5 5,0freq.cumulata 2,5 10,035,065,082,595,0100,0Rispettoall'elencogrezzodeidati,latabelladidistribuzionedellefrequenzefornisceinmodopichiaro le indicazioni elementari contenute, in particolare la loro-posizione o dimensione (gi chiamata anche tendenza centrale) e-la variabilit o dispersione.Perevidenziaresiaquestechealtrecaratteristichedelladistribuzionedeidatiraccolti,soventediaiuto una rappresentazione grafica che mostra in modo sintetico soprattutto- la forma, come la simmetria e la curtosi, quando si tratti di grandi gruppi di dati.Ritornandoalproblemadellarappresentazionetabellaredeidatiriportatiintabella3,secondoleindicazioni di Sturges il numero di classi C avrebbe dovuto essereC N = + = + = 1103110340 6 3410 10log ( ) log ( ) ,uguale a 6,34dal quale si deduce anche unampiezza h = 1406 3422,circa 22 centimetri.Secondo le indicazioni di Scott, lampiezza h delle classi avrebbe dovuto essere17hsN===3 5 3 5 28 6186 324615 837, , ,,,uguale a circa 16,dalla quale si deduce un numero di classi C = 14015 8378 84,, =uguale a 9 (8,84).Ovviamente, il numero di classi calcolato (C = 8,84) deve essere arrotondato allunit.Secondoiduemetodiproposti,conidatidellatabella3ilnumerodiclassipuragionevolmentevariareda6a9;sievidenzialacorrettezzadellasceltadifare7classi,suggeritadallasemplicitdiformare classi con unampiezza di 20 cm.La rappresentazione dei dati in una tabella di frequenza offre i vantaggi descritti; ma soffre anche dialcunecontroindicazioni.Losvantaggiomaggiorederivadalnonpoterconoscerecomesonodistribuiti i dati entro ogni classe.Per stimare i parametri della distribuzione (media, varianza, simmetria, curtosi), viene quindi usatoilvalore centrale di ogni classe, nellipotesi che in quellintervallo i dati siano distribuiti in modouniforme.Rispettoalladistribuzionedellesingoleosservazioni,questaproceduracomportaunapprossimazione, poichtaleipotesioperativaimplicitanonvera(ilconcettosarripresoedimostrato in paragrafi successivi).1.5. RAPPRESENTAZIONI GRAFICHE DI DISTRIBUZIONI UNIVARIATELe rappresentazioni grafiche servono per evidenziare in modo semplice,acolpodocchio,lequattrocaratteristichefondamentalidiunadistribuzionedifrequenza(tendenzacentrale,variabilit,simmetriaecurtosi).Insiemeconivantaggidifornireunavisionesinteticaediesseredifacilelettura,hannoperlinconvenientefondamentaledimancarediprecisioneesoprattuttodiesseresoggettive,quindidipermettereletturediversedeglistessidati.Pertanto,aifinidiunaelaborazionemedianteitestediunconfrontodettagliatodeiparametri,semprepreferibilelatabella, che riporta i dati esatti.Lerappresentazionigrafichepropostesononumerose.Essedebbonoesserescelteinrapportoaltipo di dati e quindi alla scala utilizzata.18Perdatiquantitativi,riferitiavariabilicontinuemisuratesuscaleadintervalliodirapporti,dinorma si ricorre a istogrammi o poligoni.Gli istogrammi sono grafici a barre verticali (per questo detti anche diagrammi a rettangoli accostati).Lemisuredellavariabilecasualesonoriportatelungol'asseorizzontale,mentrel'asseverticalerappresenta il numero assoluto, oppure la frequenza relativa o quella percentuale, con cui compaionoi valori di ogni classe.I lati dei rettangoli sono costruiti in corrispondenza degli estremi di ciascuna classe.00.050.10.150.20.250.3024681012146080100120140160180Figura 1. Istogramma dei dati di Tab. 2 Figura 2. Istogramma dei dati di Tab. 4 ( frequenze relative) (Valore iniz. =60; Valore finale =199; Passo =20; Classi=7 )Unistogrammadeveessereintesocomeunarappresentazioneareale:sonolesuperficideivarirettangolichedevonoessereproporzionaliallefrequenzecorrispondenti.Quandoleclassihannolastessaampiezza,lebasideirettangolisonouguali;diconseguenza,leloroaltezzerisultanoproporzionaliallefrequenzecherappresentano.Soloquandolebasisonouguali,indifferenteragionareinterminidialtezzeodiareediognirettangolo;maseleampiezzedelleclassisonodiverse,bisognaricordareilconcettogeneralechelefrequenzesonorappresentatedallesuperficiequindi necessario rendere l'altezza proporzionale. Tale proporzione facilmente ottenuta dividendoil numero di osservazioni per il numero di classi contenute nella base, prima di riportare la frequenzasull'asse verticale.Per esempio, con i dati della precedente figura 2, si supponga di avere raggruppato in una classe solale frequenze della classe da 80 a 99 e da 100 a 119, per un totaledi 13 osservazioni (3 + 10)190246810121460 80 100 120 140 160 18002468101260 80 100 120 140 160 180Figura 3.Istogrammi dei dati di Tab. 4 Somma errata di due classi : 2a e 3aSomma corretta di due classi : 2a e 3a della figura precedentedella figura precedenteNellafigura3,talesommarappresentatanelprimocasoconungraficoerratoenelsecondocasonella sua versione corretta, che richiede il valore medio delle classi raggruppate.Un'altra avvertenza importante nella costruzione degli istogrammi che l'asse verticale, che riporta lefrequenze, deve mostrare lo zero reale od "origine", onde non distorcere o travisare le caratteristichedei dati ed i rapporti tra essi. In relazione alle caratteristiche della distribuzione dei dati,lalarghezzaobasedelrettangolononhaalcunsignificatoepuesseresceltaapiacimento;dipendesolamente dal numero di classi che si vogliono rappresentare sullasse delle ascisse.Ancheilrapportotralaltezzadellassedelleordinateelalunghezzadelleascissepuesserescelto a piacimento e non ha alcun significato statistico.Tuttavia,sullaprassidicostruirefiguregraficamenteeleganti,ledimensioniutilizzatedaiprogrammiinformaticiseguonounoschemacheormai uguale per tutti. E quasi sempre praticato un accorgimento che ha una finalit esclusivamenteestetica:percostruireunarelazionearmonicatraglielementidelgrafico,usocorrentechetutto il disegno dellistogramma debba essere contenuto in un rettangolo virtuale, in cuilaltezza sia i2/3dellabaseo,comeriportanoaltritestiperfornirelostessoconcetto,labasesia1,5voltelaltezza.(Gliesempiriportatisonostaticostruiticonprogrammiinformaticiagrandediffusioneinternazionale, che seguono questa regola estetica).Larappresentazionegraficapermettedivalutareconimmediatezzaseilnumerodiclassicostruiteadeguatoallecaratteristichedelladistribuzioneoriginaledeidati.Conpocheeccezioni,levariabiliquantitativedifenomeniecologiciodambientalievidenzianounadistribuzionenormale,con20caratteristichespecifichediaddensamentoversoivaloricentraliedidispersionepiomenosimmetrica, ma con declino regolare verso i due estremi.La rappresentazione grafica deve essere in grado di non alterare od interrompere la regolaritdelladistribuzione,comepuavvenireinparticolarequandoilnumerodiclassitroppoaltorispetto al numero di dati.Listogramma che segue una chiara dimostrazione di una suddivisione in classi eccessiva: uno o pigruppidimisure(duenellesempio)compreseentrogliestremihannofrequenzazeroedalteranolarappresentazionediunadistribuzionenormale.Lafrequenzadelleclassielaltezzadeirettangoliadessaproporzionalitendonoadecrescereinmodorelativamenteregolare;unafortealterazione,chescompareconsuddivisioniinclassimenoframmentate,unaindicazionediunpossibileerroretecnico di rappresentazione dei dati.01234567860 80 100 120 140 160 180Figura 4.Istogramma dei dati di Tab. 4(Valore iniziale = 60;Valore finale = 199;Passo = 10;Classi = 14)(Rappresentazione grafica non adeguata, per eccessiva suddivisione in classi)Ipoligonisonofiguresimiliagliistogrammiesonoutilizzatidinormaperlarappresentazionedivalori relativi o di percentuali, in quanto implicito che larea totale sottesa sia uguale a 1 o 100%.Comenelcasodegliistogrammi,l'asseorizzontalerappresentailfenomeno,mentrel'asseverticalerappresenta la proporzione o percentuale di ogni classe.Unpoligonopuessereottenutoapartiredalrelativoistogramma,unendoconunalineaspezzataipunticentralidiogniclasse.Lalineaspezzatadeveessereunitaall'asseorizzontale,siaall'iniziosiaallafine,perracchiuderel'areadelladistribuzione.Questoprocedimentovieneottenutocon un artificio, utilizzando un istogramma come punto di partenza. Si unisce il valore centrale della21primaclasseconilvalorecentralediunaprecedenteclassefittiziadivalore0;lultimosegmentovieneottenutounendoilvalorecentraledell'ultimaclasserealeconilvalorecentralediunaclassesuccessiva, fittizia, di valore 0.Ilprimopoligonodiseguitoriportato(figura5)corrispondeallistogrammadellafigura2edstatocostruito con i dati della tabella 4, spostando le classi sullasse delle ascisse per comprendere i nuoviestremi della distribuzione.00.050.10.150.20.250.350 70 90 110 130 150 170 190 21000.10.20.30.40.50.60.70.80.9150 70 90 110 130 150 170 190 210Figura 5.Poligono dei dati di Tab. 4 Figura 6.Poligono cumulato di Tab. 4Ledistribuzionicumulatesonorappresentatesiaconistogrammicumulatisiaconpoligonicumulati.Nonfornisconoinformazionidifferentidaquelledeirelativiistogrammiepoligonigidescritti,poichpossibilepassareconfacilitdaunadistribuzionedifrequenzaallasuacumulatacon semplici operazioni di somme o di sottrazioni tra classi.La figura 6 rappresenta il poligono cumulato corrispondente al poligono della figura 5.2200.10.20.30.40.50.60.70.80.910 1 2 3 4 5 6 7 8 9Figura 7.Istogramma cumulato dei dati di Tab. 2Tuttavia,perladiversaprospettivacheessioffronoapartiredaglistessidati,gliistogrammiedipoligonicumulatisonounaltrometodoutilesiaperpresentarelecaratteristichedidatiquantitativiriportatiintabelle,siaperfacilitarel'interpretazioneel'analisi.Servonosoprattuttoperevidenziare,conletturaimmediata,quantesonointotalelemisurechesonoinferioriosuperioriaduncertovalore.Ilvaloredell'asseorizzontalechecorrispondeal50%deivaloriidentificalamediana(riportatocomelineatratteggiatanellafigura7cherappresentaunistogrammacumulato);unparametroditendenzacentraleestremamenteimportante,quandoladistribuzionenonsimmetrica(il suo uso e le sue caratteristiche saranno descritte in modo dettagliato nei prossimi paragrafi).Per le distribuzioni di frequenza didati qualitativi, le rappresentazioni grafiche pi frequenti sono- i diagrammi a rettangoli distanziati,- gli ortogrammi,- i diagrammi a punti,- gli areogrammi (tra cuii diagrammi circolari),-i diagrammi a figure (o diagrammi simbolici).Idiagrammiarettangolidistanziati,dettianchegraficiacolonne,sonoformatidarettangoliconbasiugualiedaltezzeproporzionalialleintensit(ofrequenze)deivarigruppiconsiderati.Adifferenzadegliistogrammi,irettangolinonsonotralorocontigui,madistaccati;diconseguenza,sullasse delle ascisse non vengono riportati misure ordinate ma nomi, etichette o simboli, propri delleclassificazioni qualitative.23Condatiqualitativionominali,lebasideirettangolisonosempreidenticheavendosolounsignificato simbolico.Sipuricorrequindisiaadiagrammiapuntiolineplot,incuiipuntisonodispostiunosopralaltrofinoadunaltezzaproporzionaleallafrequenzadellaclasse,siaadiagrammiabarre,chesonounaltrarappresentazionefrequente,incuialpostodirettangoliocolonnedipuntivengonousate linee continue pi o meno spesse (figura 8).0500001000001500002000001 2 3 40 100000 200000 300000135Figura 8.Rettangoli distanziatiFigura 9.OrtogrammaNel caso didati qualitativi o nominali, non esiste una logica specifica nell'ordine delle classi.Per convenzione, i rettangoli o le colonne sovente (manonobbligatoriamente)vengonodispostiin modo ordinato dal maggiore al minore o viceversa.Seleclassiqualitativesonocompostedasottoclassi,possibileunarappresentazionegraficapiarticolata,dividendoognirettangoloinpiparti,conaltezzeproporzionaliallefrequenzedellesottoclassi(figura10).Avendobasiuguali,leareesonoproporzionaliallealtezze;pertanto,ancheidiagrammi a rettangoli distanziati sono rappresentazioni areali.Gliortogrammiograficianastrisonougualiairettangolidistanziati;lunicadifferenzachegliassi sono scambiati, per una lettura pi facile (figura 9 e figura 11).2401000002000003000004000005000001 2 3 40 100000 200000 300000 400000 5000001234Figura 10.Rettangoli distanziatiFigura 11.OrtogrammaAncheinquestocasopossibilesostituireairettangoliunalinea,eventualmentepunteggiata;siottengonodiagrammiabarreoapuntielintensitofrequenzadellevarieclassivienelettaconunaproiezionesullassedelleascisse.Secondoalcuniespertidipercezionedeigrafici,questefigurevengono lette con maggiore facilit rispetto ai rettangoli distanziati (locchio leggerebbe con maggiorefacilitlaproiezioneverticaleediquellaorizzontale)equindimegliorappresentanoleinformazionicontenute in distribuzioni di frequenza di dati qualitativi.Gliareogrammisonograficiincuilefrequenzeolequantitdiunavariabilequalitativasonorappresentatedasuperficidifigurepiane,comequadrati,rettangolio,pifrequentemente,cerchioppureloroparti.Larappresentazionepuesserefattasiaconpifiguredellostessotipo,aventisuperficiproporzionaliallefrequenzeoquantit,siaconun'unicafigurasuddivisainpartiproporzionali.Nel caso deidiagrammicircolarioatorta,sidivideuncerchioinpartiproporzionalialleclassidifrequenza.Gliareogrammivengonousatisoprattuttoperrappresentarefrequenzepercentuali;hannoilvantaggiodifarecapireconimmediatezzachelasommaditutteleclassiugualeallunit(1o100%);hannolinconvenientecheevidenzianoconestremadifficoltledifferenzechenonsonomolto marcate. Per differenze piccole, si dimostrano meno efficaci degli ortogrammi.25135%28%341%48%58%

Figura 12.Diagrammi circolariIdiagrammicircolarisonoutilizzatiperdistribuzionidivariabilinominali,alfinedievitaredistabilireancheinvolontariamenteunordine,chenonesistetravariabiliqualitative.Mettonoinevidenzacomesonodistribuitelesingoleparti,rispettoallintero:ilcerchiorappresentalintero fenomeno ed i componenti sono rappresentati da settori che sono distinti da tratteggi, colori ogradazioni di colore differenti.Gliangoli(a,nellaformulasuccessiva)devonoessereproporzionaliallepercentuali(Yin%)chevogliono rappresentare,in accordo con la relazionea : 360 =Y in % : 100Con idiagrammiafigure, detti anchediagrammisimbolici opittogrammi,lafrequenzadiognicaratterequalitativovienerappresentatadaunafigura,soventestilizzata,oppuredasimbolichericordano facilmente l'oggetto. E una specie di istogramma costruito con figure, dovelaltezzadellafigura deve essere proporzionale alla frequenza, quando le basi sono uguali.Questi diagrammi a figure hanno tuttavia il grave inconveniente di prestarsi a trarre in ingannoconfacilitillettoreinespertodistatistica,quandosonostaticostruiticonmalizia;purefacilecheunricercatorenonsufficientementeespertolicostruiscainmodosbagliato,generandononvolutamenteilsospettocheegliabbiavolutofornireunaimpressionedidifferenza tra i gruppi a confronto non supportata dai dati.Peresempio,unapopolazioneconunnumerotriplodipersonerispettoadun'altraspessorappresentata da una figura umana proporzionata, di altezza tripla rispetto allaltra.26L'occhiocogliecomplessivamentenonlaltezzadiognifiguramalasuperficiecheessaoccupa,cheilquadratodelvalorechesiintenderappresentare:senericaval'impressionedistorta di un rapporto di 9 a 1 e non di 3 a 1, come dicono in realt i dati.Epossibileovviareall'inconveniente,costruendononunafiguraimprobabiledialtezzavariabileeconbaseuguale(poichrisulterebbeunafiguraalterataedunarappresentazioneforseincomprensibile), ma ricorrendo all'artificio difigure identiche, ripetute tante volte quante sono leproporzioni. Per esempio, se l'unit di misura convenuta 20 individui, 50 persone possono essererappresentate in modo corretto da due figure umane e mezza e 105 persone da 5 figure intere pi unquarto di figura.Inquestomodosirispettalaregolapercostruiregliistogrammiinmodocorretto:laltezzadelleduefigure proporzionale al numero di dati dei due gruppiFigura 13. Pittogramma della produzione mensile di auto di 3 case automobilistiche: la prima haprodotto 100 mila auto, la seconda 180 mila e la terza 320 mila.La parte superiore della figura fornisce una rappresentazione corretta.La parte inferiore, fondata sulla proporzione della lunghezza, fornisce una rappresentazione errata: la superficie coperta dalla figura che deve essere proporzionale, non la lunghezza27Acausadegliinconvenienti,idiagrammisimbolicioafiguresonousatimoltoraramentenellepubblicazionispecializzateemaiinquellescientifiche.Sonoriservatiapubblicazionidivulgative,quandopiimportantelimpressionedellaprecisione,ciooccorreevidenziarelimportanzadelfenomenoapersonechenonconosconoesattamenteilproblema.Glispecialistipreferisconoidati,poich da essi sanno valutare il fenomeno.Moltedisciplinericorronoarappresentazionigrafichespecifiche,chepossonoessereutiliallambientalista.Perrappresentareilnumerodisoggettipresentiinvarilocalit,ingeografiasiricorre al cartogramma.Figura 13b.Esempio tratto da un quotidiano sulle manovre finanziarie in Italia, dal 1992 al 2000 Notare come i numeri diano uninformazione differente dai volumi rappresentati.28Ilcartogrammaevidenziadistribuzioniterritorialimediantecartegeografiche,incuinellelocalitinteressatesonoriportaticerchiproporzionaliallefrequenze.Eilcasodellecittsegnatesucartegeograficheconcerchididimensioniproporzionalialnumerodiabitanti.Questicerchispessosonosolosimboli,illustratinelledidascalie:percuiunsolocerchiobiancospessoindicaunaquantitdibase (es.: 1.000 persone), due cerchi concentrici indicano una quantit maggiore, anche in modo nonproporzionale(es.:20.000persone),trecerchiouncerchioanneritounaquantitancorasuperiore(es.:100.000persone)ecosvia.Eimportantericordareche,quandocostruitiinmodoproporzionale,anchequesterappresentazionigrafichesonoessenzialmenteareogrammiequindipossono trarre in inganno se ad essere proporzionale alle frequenze il raggio.Unaltrarappresentazionegraficachehaunusospecificoperalcuniargomentiildiagrammapolareodiagrammaacoordinatepolari.Serveperrappresentarelevariabilicicliche(mensili,settimanali,giornaliere),comelaquantitdipioggiaelatemperaturamediamensile;oppurelaquantit di inquinanti presenti nellaria in un ciclo di 24 ore. A partire da un punto centrale, chiamatopolo,sitracciaunaseriedicerchiconcentrici,lacuidistanzadalcentromisuralintensitdelfenomeno.Perrappresentarelavariabileciclica,sidividelangologirointantepartiquantesonolemodalit (es.: 12 per i mesi, 24 per le ore). Si devono poi collocare punti nei vari cerchi concentrici,per individuare insieme la modalit (es.: il mese o lora) e lintensit del fenomeno (es.: la quantit dipioggia,latemperatura,lamisuradinquinamentoatmosfericoodiuncorsodacqua).Ildiagrammapolareottenutocongiungendoivaripuntielintensitdelfenomenorappresentatadalladistanzadal centro.Le figure relative riportano due differenti impostazioni grafiche di costruire un diagramma polare suivalori medi mensili in Italia della radioattivit beta totale nellanno 1993.Per la rappresentazione didatinumerici, possibile ricorrere anche adiagrammicartesiani.Essisaranno illustrati nel capitolo dedicato ai datibivariati;sonoutilizzatiquandoperogniindividuosonorilevati contemporaneamente 2 variabili, come il peso e laltezza. Ma possono essere usati anche perunasolavariabile,collocandoipuntidiunadistribuzionecumulatasuunpianocartesiano:laperpendicolaresullassedelleascissecoincideconilvaloredellavariabileequellasullassedelleordinateforniscelecorrispondentiquantitofrequenze;ipuntisonounitidasegmentisecondolordinestabilitodalvaloreriportatoinascissa.Ediparticolareutilitildiagrammaquantile,cherisultagraficamentesimilealdiagrammacumulato,soprattuttoquandosidisponedipocheunitelavariabile di tipo continuo: vengono eliminate le anomale presenze di classi nulle entro gli estremi.29Figura 14.Valorimedi mensilidellaradioattivit beta totale nellaria alivello del suolo in Italianellanno 1993 (mBq per metro cubo).MesemBq 1 Gennaio1.37 2 Febbraio 1.24 3 Marzo1.03 4 Aprile 0.47 5 Maggio 0.60 6 Giugno 0.48 7 Luglio 0.74 8 Agosto 0.98 9 Settembre0.8110 Ottobre0.5011 Novembre 0.9712 Dicembre 1.4500.511.512345678910111200.511.512345678910111230Perlasceltadelmetodograficoconilqualepresentareidati,sideveprendereinconsiderazioneiltipo di dati (qualitativi o quantitativi), la misura (discreta o continua), il dettaglio che si vuole ottenerenellaformadelladistribuzione.Imetodinonaggiungonoalcunainformazionecheginonsiacontenutaneidati;magarantisconounarappresentazionepiefficace,inparticolareapersonenonesperte dellargomento trattato.1.6. LE MISURE DI TENDENZA CENTRALELe rappresentazioni grafiche forniscono una sintesi visivadellecaratteristichefondamentalidelledistribuzioni di frequenza. Rispetto alle cifre,lefigurefornisconoimpressionichesonopercepiteconmaggiorefacilit;manelcontempohannoillimitediesseremenopreciseemenoricchediparticolari.Per icaratteri qualitativi, la tabella e le rappresentazioni grafiche esauriscono quasi completamentegli aspetti descrittivi, quando sia possibile leggere con esattezza le frequenze delle varie classi.Per icaratteriquantitativi,siponeilproblemadisintesioggettivechepossanoessereelaboratematematicamente e quindi che sianonumeriche, al fine diun'analisiobiettivachedevecondurretutti i ricercatori, con gli stessi dati, alle medesime conclusioni.Una serie di dati numerici compiutamente descritta da 3 propriet principali:1) la tendenza centrale o posizione;2) la dispersione o variabilit;3) la forma.Queste misure descrittive sintetiche, riassuntive dei dati tabellari, sono chiamate-statistiche, quando sono calcolate su un campione di dati,- parametri, quando descrivono la popolazione od universo dei dati.I ricercatori in ecologia e nelle scienze ambientali molto raramente conoscono tutta la popolazione; diconseguenza,imetodistatisticidinormautilizzatisonoriferitiquasiesclusivamentealladescrizione,allanalisi e al confronto dicampioni.311.6.1Lemisureditendenzacentraleoposizioneservonoperindividuareilvaloreintornoalqualeidatisonoraggruppati;latendenzacentralelamisurapiappropriatapersintetizzarel'insieme delle osservazioni, se una distribuzione di dati dovesse essere descritta con un solo valore; laprima indicazione della dimensione del fenomeno.Le misure proposte sono essenzialmente 3:lamedia,lamodaelamediana.Piraramenteedindiscipline specifiche si utilizzano altre misure, come l'intervallo medio.Lasceltadellamisuraditendenzacentralediunaseriedidatidipendedallecaratteristichedelladistribuzione e dal tipo di scala.La media aritmetica semplice la misura di tendenza centrale pi comunemente utilizzata. Quandosi parla solo dimedia, si intende la media aritmetica semplice. E' definita come la somma del valoredi tutte le osservazioni, diviso il numero di unit. Con simboli, x x +x +... + xn1 2 n=e, con una notazione pi generale, diventaxxnii 1n==dove: x = media del campione xi = i-esima osservazione della variabile Xn = numero di osservazioni del campione

i 1n== sommatoria di tutti glixidel campione.Lamediapuesserevistacomeilbaricentrodelladistribuzionecampionaria,quandoognisingolaosservazionerappresentatadaunpesoconvenzionale,identicopertutte,lungol'assecheriportaivalori su una scala di intervalli o di rapporti.Per dimostrare graficamente che la media aritmetica corrisponde al punto di bilanciamento o diequilibrio dei dati, si supponga di avere 5 misure: 10,911,512,312,815,4.La loro mediaX =+ + + +=10 9 11 5 12 3 12 8 15 4512 58, , , , ,, uguale a 12,58.32La rappresentazione grafica dei dati e della media, riportata nella figura seguente, mostra otticamentecomelasommadelladistanzadallamediadeivaloricollocatiprimasiaugualeallasommadelladistanza dei valori collocati dopo.10 11 12 13 14 15 16mediav10.9 11.5 12.3 12.815.4 (12.58)Figura 15.Rappresentazione grafica di 5 dati e della loro media aritmetica.Inunadistribuzionedifrequenzaraggruppatainclassi,comevalorerappresentativodiogniclassesiprende il dato centrale, nellassunzione che entro ognuna i dati siano distribuiti in modo uniforme.Lamediaaritmeticadidistribuzionidifrequenzaraggruppateinclassi,dettamediaaritmeticaponderata, calcolata pi rapidamente conxf xfiiniiin===11dove: x =media della distribuzione in classi,xi =valore medio della i-esima classe di intervallo,fi =numero di osservazioni della classe i-esima classe,n =numero di classi,

= sommatoria per tutte le n classi.ESEMPIO.Da un gruppo di 25 dati, raggruppati nella seguente distribuzione in classiClassexi150-159 160-169 170-179 180-189 190-199Frequenzafi3 5 8 6 3calcolare la media.33Risposta.Con la formula della media ponderata(media) x = + + + + + + + += =( ) ( ) ( ) ( ) ( ),155 3 165 5 175 8 185 6 195 33 5 8 6 3438525175 4risulta uguale a 175,4.Leapplicazionidellamediaaritmeticasempliceediquellaponderatasononumeroseederivanodaalcune loro propriet:- le grandezze additive sono le pi frequenti in natura;- la media aritmetica effettua la correzione degli errori accidentali d'osservazione, per cui essa la stima pi precisa di misure ripetute;- la media aritmetica la pi semplice delle medie algebriche.Quandolequantitodifattoricausalinonsonoadditivioppureidatisonoottenutidarapporti,siricorreadaltritipidimedie;inquesticasi,trovanounusorelativamentefrequentenellescienzeambientali la media geometrica, la media armonica e la media quadratica.Lamediageometricasempliceutilizzataquandolevariabilinonsonorappresentatedavalorilineari,maottenutidaprodottiodarapportidivalorilineari.Serveperilconfrontodisuperficiovolumi,ditassidiaccrescimentoodisopravvivenza,perqueivaloriappuntochesonoespressidarapporti.Per il calcolo della media geometrica, condizione necessaria che le quantit siano tutte positive. Sealcune fossero negative, si deve ricorrere al valore assoluto.Lamediageometricadindatiugualeallaradicediordinen(solopositiva)delprodottodegli n dati: con simbologia matematica xg= x x xnn1 2...e pu essere scritta anche comexg==xiinn134Una propriet importante cheil logaritmo della media geometrica (logx ) uguale alla media aritmetica dei logaritmi dei dati (nxnii =1log):log log xnxiin==11Eunaproprietcherisultautilequandosidevericorrereallatrasformazionedeidatineilorologaritmi, allo scopo di normalizzare la distribuzione ed applicare in modo corretto i test di inferenza.(Le trasformazioni dei dati sono discusse ampiamente nel capitolo finale dellanalisi della varianza).Lamediaarmonicalastimapicorrettadellatendenzacentrale,perdistribuzionididatiincuidevonoessereusatigliinversi.EutilizzataquandoivaloridiXsonoespressicomerapportidiuntotale costante od in misure di tempi di reazione.La media armonica data damnxhi in==11La media quadratica la radice quadrata della media aritmetica dei quadrati:mxnqiin==21Sotto l'aspetto matematico pu essere calcolata per valori positivi, nulli o negativi; ma essa ha sensocomemisuraditendenzacentralesolamenteseivalorisonopositivionulli.E'unindicechetrovaapplicazioni quando si analizzano superfici.351.6.2 La mediana il valore che occupa la posizione centrale in un insieme ordinato di dati.Eunamisurarobusta,inquantopocoinfluenzatadallapresenzadidatianomali.Lasuautilizzazione indispensabile nel caso di scale ordinali o di ranghi.La sue caratteristiche pi importante sono due:- calcolata sul numero di osservazioni; si ricorre al suo uso quando si vuole attenuare l'effetto divalori estremi o comunque prendere in considerazione solo linformazione fornita dai ranghi;-inunadistribuzioneoseriedidati,ognivaloreestrattoacasohalastessaprobabilitdiessereinferiore o superiore alla mediana.Comelamedialamisuraditendenzacentralenellastatisticaparametrica,lamedianalamisura di posizione o tendenza centrale utilizzata in quasi tutti i test non parametrici.Per calcolare la mediana di un gruppo di dati, occorre1-disporreivaloriinunafilaordinatainmodocrescenteoppuredecrescenteecontareilnumerototale n di dati;2-seilnumero(n)didatidispari,lamedianacorrispondealvalorenumericodeldatocentrale,quello che occupa la posizione (n+1)/2;3 se il numero (n) di dati pari, la mediana stimata utilizzando i due valori centrali che occupanole posizionin/2 e n/2+1; con poche osservazioni, come mediana viene assunta la media aritmetica diquestedueosservazioniintermedie;conmolteosservazioniraggruppateinclassi,siricorretalvoltaalle proporzioni.ESEMPIO. Calcolare la mediana nella serie di 6 dati: 10,1 10,8 13,1 13,9 14,2 14,5 .Risposta:Ilnumerodiosservazioniparieiduevaloricentralisono13,1e13,9;lamedianaindividuata dalla loro media aritmetica e quindi uguale a 13,5.Permegliocomprendereledifferenzetramediaaritmeticaemediana,conlastessaseriedi6dati (10,1 10,8 13,1 13,9 14,2 14,5 ) in cui-la media 12,85 e-la mediana 13,5larappresentazionegraficaevidenziacomelamediasiailbaricentrodelladistribuzioneelamedianasia collocata tra i valori pi addensati.3610 11 12 13 14 15I I I I I I10.1 10.813.113.9 14.214.5media (12.85)mediana13.5Figura 16.Rappresentazione grafica della media e della mediana di 6 dati.Nellaprecedentefigura16,ilgraficomostracome,nelcasodidatidistribuitiinmodononsimmetrico,lamedianarappresentiinmodopiadeguatodellamedialaddensamentodeidati,ilvalorenormaleotipicodellaserie.Lamediainfattimaggiormenteinfluenzatadallapresenzadeidue valori pi distanti, che la allontanano dal gruppo dei valori pi frequenti e la rendono diversa daessi.Seiduevalorianomalifosseropivicini(opilontani)rispettoaglialtri4,lamediacambierebbe mentre la mediana rimarrebbe invariata.1.6.3Lamoda(dettapiraramenteanchedatoprevalente)ilvalorepifrequentediunadistribuzione.Essanoninfluenzatadallapresenzadinessunvaloreestremo;tuttaviavieneutilizzata solamente a scopi descrittivi, perchmenostabileemenooggettivadellealtremisureditendenzacentrale.Puinfattidifferirenellastessaseriedidati,quandosiformanoclassididistribuzioneconampiezzadifferente.Perindividuarelamodaentrounaclassedifrequenza,nonconoscendo come i dati sono distribuiti, si ricorre all'ipotesi della uniforme ripartizione.Oltrealledistribuzionidifrequenzachehannounasolamodaechesichiamanodistribuzioniunimodali,sitrovanodistribuzionidifrequenzachepresentanodueopimode;sonodenominatedistribuzioni bimodali o plurimodali.Ledistribuzioniplurimodalipossonoessereilrisultatodellascarsitdiosservazioniodellarrotondamentodeidati;dinorma,sonodovuteallasovrapposizionedipidistribuzionicontendenza centrale differente. Per esempio, misurando le altezze di un gruppo di giovani in cui la partemaggioresiaformatadafemmineelaminoredamaschisiottieneunadistribuzionebimodale,conuna moda principale ed una secondaria, come la seguente.3700.050.10.150.20.250.30.350.40.450.5-3.98 -1.98 0.02 3.38Figura 17.Distribuzione bimodaleQuando la distribuzione dei dati evidenzia due o pi mode,ilricercatoredevequindisospettarecheidatinonsianoomogenei,maformatidaaltrettantigruppicondifferentitendenzecentrali.Epertantoerratofondareleanalisisullamediageneraledelladistribuzione,poichnonveralassunzionefondamentalechesianodatitrattidallostessouniversoopopolazioneconunasola tendenza centrale.La media di una distribuzionebimodale,formatainquotaparidamaschiedafemmine,sarebbeunvaloreassurdochenondescrivenimaschinlefemmine,maunindividuoinesistente,nonessendo n maschio n femmina.L'intervallo medio semplicemente la media aritmetica tra il valore minimo e quello massimo. Ha ilgrande vantaggio di essere calcolato molto rapidamente, anche con un numero molto elevato di dati.Deve essere utilizzato con estrema cautela e solamente quando non esistono valori erratici o anomali:lapresenzadiunsolodatochesidifferenziasensibilmentedatuttiglialtrideterminaunvaloredell'intervallo medio molto distorto, come misura della tendenza centrale.Inquesticasi,puessereusataconmaggiorecorrettezzalamediainterquartile,definitacomelamedia fra il 1 e il 3 quartile, che risente in misura molto pi ridotta della presenza di valori estremi.Nellescienzechestudianolambiente,l'intervallomedioerautilizzatoinalcunedisciplinecomelameteorologia. Poteva essere utile nel caso di una serie di dati sulla temperatura, ove non esistono maivalorianomali;infattisupponendocheinunagiornatalatemperaturaminimasiastatadi10gradiequellamassimadi20gradi,ilcalcolodellamediarapidissimo(15)edilvaloresiavvicina38notevolmenteallamediaaritmetica,cherichiederebbeunnumeroelevatodiosservazionieundisegno sperimentale accurato.Peranalogia,inmeteorologiasoventequestometodostatoutilizzatoancheperilcalcolodellaprecipitazionemediamensile.Eunprocedimentocriticabile,addiritturaerrato:inquestocasositrattadiunfenomenoconelevatissimavariabilit,conlapresenzadivalorichepossonoessereanomali e che influenzano fortemente sia lintervallo medio che lamedia interquartile.Oltre alla media, alla mediana e alla moda, insieme all'intervallo medio e alla media interquartile tra lemisure di tendenza centrale pu essere ricordata anche la trimedia, proposta da TuckeyecalcolatacomeT = (Q1 + 2Q2+ Q3)/4doveQ2 la mediana,Q1eQ3sonorispettivamentelemedianedellaprimametedellasecondamet dei dati ordinati, detti anche primo e terzo interquartile.E'unmetodochepotrebbeessereutilequandosidisponedimaterialemoltovariabileoconunadistribuzionemoltoasimmetrica.Peresempio,lemisuredell'inquinamentoatmosfericopresentanovaripicchianomali;latendenzacentralepotrebbeessereespressadallatrimediadiTuckey.Maanche questa misura rientra tra le proposte che hanno avuto scarso seguito.Lemisureclassiche,presentiinquasitutteledisciplineedutilizzatesenzasollevareobiezioni,sonomedia (aritmetica), mediana e moda.1.7. MISURE DI DISPERSIONE O VARIABILITA'Ladispersioneovariabilitlasecondaimportantecaratteristicadiunadistribuzionedidati.Essadefiniscelaformapiomenoraccoltadelladistribuzioneintornoalvalorecentraleefornisceindicazioni sul tipo di test da applicare; nei capitoli successivi verr dimostrato come per confrontarele medie di due o pi campioni sia richiesta lomogeneit della varianza.1.7.1Laprimamisuraadesserestatastoricamenteutilizzataperdescrivereladispersioneovariabilit dei dati il campo o intervallo divariazione, definito comeladifferenzatrailvaloremassimo e quello minimo.Intervallo di variazione = Valore massimo - valore minimoHailgrandevantaggiodiessereunmetodointuitivoemoltosemplice,inparticolarequandoidatisono ordinati.39Tra gli inconvenienti di questa misura sono da prendere in considerazione:-l'incapacit di sapere come i dati sono distribuiti entro l'intervallo, in particolare di dedurre lapresenza di valori anomali;-lasuadipendenzadalnumerodiosservazioni.Allaumentaredelnumerodeidati,cresceanchelaprobabilitditrovareunvaloreminoredelminimoprecedenteedunomaggiorediquello massimo precedente.Lintervallodivariazionequindiunamisurapocoefficientedelladispersionedeidati:perunconfronto omogeneo tra distribuzioni, sarebbe necessario avere campioni delle stesse dimensioni, unacondizione operativa eccessivamente limitante per la ricerca e lanalisi dei dati.1.7.2 La differenza interquartile (figura 18), la differenza tra il 3 (Q3)edil1(Q1)quartilehailvantaggio di eliminare i valori estremi, ovviamente collocati nelle code della distribuzione. Tuttavia lepropriet di questasemi-differenza, chiamata anchescartointerquartile,nonsonosostanzialmentedifferenti da quelle del campo di variazione.014123411 2 3Q Q QFigura 18.Differenza interquartile = 3quartile (Q3) - 1quartile (Q1)Comemisurediposizionenon-centrale,maconfinalitesclusivamentedescrittive,sonospessousati iquantili,chiamatianchefrattili,inquantoognisottogruppocontienelastessafrazionediosservazioni. Quelli pi comunemente usati sono idecili, che classificano i dati ordinati in decine, edi percentili, che li suddividono in centesimi. Con i quantili, si possono individuare quali sono i valorichedelimitano,nelmargineinferioreosuperioredelladistribuzione,unapercentualeofrazionestabilitadivaloriestremi.Peresempio,nellostudiodell'inquinamento,comediqualunquealtrofenomeno,puessereutilevederequalisonolezoneoiperiodicherientranonell1,nel5onel10percentodeivalorimassimiominimi.Avaloricosrari,facilmentecorrispondonocauseanomale,chedinormainteressanteanalizzareinmodopidettagliato.Nellostudiodiqualunquefenomenobiologicoodecologico,lemisureparticolarmentepiccoleoeccezionalmentegrandirispettoaivalorinormaliquasisempreevidenzianocausespecifiche,meritevoli di attenzione.40Quandolaformadelladistribuzioneignotaorisultafortementeasimmetrica,l'usodeiquantilifornisceindicazionioperativesemplicierobusteperindividuareivaloripifrequenti,daritenersinormali e quellimeno frequenti od anomali.Gliscartidallamediasonolamisurapiappropriatadellavariabilitdiuninsiemedidati.Mapoichlalorosommasemprenullaperdefinizione,inquantolamediailbaricentrodelladistribuzione, necessaria una trasformazione che potrebbe essere attuata in due modi:a) gli scarti assoluti dalla media;b) i quadrati degli scarti dalla media.1.7.3 Lo scarto medio assoluto( ) Sm dalla media ( )xper dati semplici dato daSx xnmi=e per raggruppamenti in classi ottenuto conSx x nnmi i= dovexi = valore delli-esimo dato in una distribuzione semplice,x=valore centrale della classe in una distribuzione di frequenza,n = numero totale di dati,ni = numero di dati della classe i in una distribuzione di frequenza.Unindiceanalogo,usatonelledisciplinesocialiedeconomichepervalutareladiversittraduedistribuzioni di frequenze relative, lindice semplice di dissomiglianza (D)D = 212 1 =kii if fdove 1 e 2 sono i due gruppi e k sono le classi.D uguale a 0 quando le due distribuzioni di frequenza relativa sono identiche e uguale a 1 quando laprima distribuzione tutta concentrata in una classe e laltra distribuzione in una classe diversa.411.7.4Inalcunitestdistatisticanonparametrica,comemisuradidispersioneutilizzatoloscarto medio assoluto dalla mediana,chelamediadegliscartiassolutideisingolidatidallaloromediana; le formule sono uguali alle due precedenti, sostituendo la mediana alla media.Eproprietspecificadellamedianarendereminimalasommadegliscartiassoluti.Diconseguenza,loscartomedioassolutodallamedianasempreinferiorealloscartomedioassolutodalla media; i due valori sono uguali solamente quando la distribuzione simmetrica e quindi media emediana coincidono.1.7.5 La Devianza oSommadeiQuadrati(SQ)degliscartidallamedia(SS =SumofSquares,ininglese)labasedellemisuredidispersionedeidati,utilizzateintuttalastatisticaparametrica. Tutta la statistica parametrica fondata sulla devianza e sulle misure da essa derivate.(1 )( )( )devianza SQ x xi= 2L'equazioneprecedentelaformuladidefinizioneodeuristica.Spessopocopratica,inparticolarequandolamediaunvalorefrazionale,convaridecimali.Divienealloraconvenientericorrereaun'altraformula,algebricamenteequivalente,chepermettedieffettuareicalcolimanualiintempipibrevieconunasolaapprossimazionefinale,chiamataformulaempiricaodabbreviata:(2) ( )devianza SQ xxn( ) = 22dove:x2=sommatoria dei valori dopo che ogni osservazione stata elevata al quadrato,( )x2 =sommatoria di tutti i dati, elevata al quadrato,n=numero di osservazioni sulle quali stata calcolata la somma.ESEMPIO. Calcolare con la formula euristica (1) e con quella abbreviata (2)la devianza (SQ) dei6 numeri seguenti: 5, 6, 7, 7, 8, 10.Risposta.1.Con la formula euristica, si deve calcolare dapprima la media:x =+ + + + += =5 6 7 7 8 1064367 16 ,ed in seguito la devianza (SQ),42intesa come Somma dei Quadrati degli scarti di ogni valore dalla media:( )8356 , 14 0656 , 8 7056 , 0 0256 , 0 0256 , 0 3456 , 1 665 , 4) 6 1 , 7 10 ( ) 6 1 , 7 8 ( ) 6 1 , 7 7 ( ) 6 1 , 7 7 ( ) 6 1 , 7 6 ( ) 6 1 , 7 5 () (2 2 2 2 2 22= + + + + + == + + + + + == =x x SQ devianzai2.Conlaformulaabbreviata,calcolaredirettamenteilvaloredelladevianza(SQ),dopoaverfattosialasommadeidatiprecedentementeelevatialquadrato,siailquadratodellasommadeidati,secondo lannotazione algebrica seguente( )devianza SQ xxn( )( ) , ,= == + + + + + = = =22225 36 49 49 64 10043632318496323 30816 14 84Iduevaloridelladevianzaspessononrisultanoidentici,inparticolarequandostimaticonpicifredecimali,acausadellapprossimazioneconlaqualecalcolatalamedia,senonrisultaunvaloreesatto. In questi casi, da ritenersi corretta la stima fornita dalla formula abbreviata, che non richiedeapprossimazioni nei calcoli intermedi.E utile ricordare che, per distribuzioni di dati raggruppati in classi, la formula euristica diventa( )i in x x SQ devianza2) ( =doveix il valore centrale di ogni classe ex la media generale della distribuzione.Ilvaloredelladevianzadipendeda2caratteristichedelladistribuzione:gliscartidiognivaloredallamedia ed il numero di dati. La prima una misura della dispersione o variabilit dei dati ed leffettochesiintendestimare;lasecondaunfattorelimitanteperlusodelladevianza,inquantounconfrontotra2opidevianzerichiederebbecampioniconlostessonumerodidati.Pertanto,perunamisuradidispersionedeidatichesiaindipendentedalnumerodiosservazioni,siricorreallavarianza.1.7.6LavarianzaoQuadratoMedio(QM,initaliano;MSdaMeanSquare,ininglese)unadevianza media o devianza rapportata al numero di osservazioni.43La varianza di una popolazion