Click here to load reader

AMBIENTE in FORMAZIONE Il trattamento dei dati analitici ambientali (elementi di chemiometria) Rossano Piazza Istituto tecnico Industriale Statale “Enrico

  • View
    216

  • Download
    1

Embed Size (px)

Text of AMBIENTE in FORMAZIONE Il trattamento dei dati analitici ambientali (elementi di chemiometria)...

  • Slide 1
  • AMBIENTE in FORMAZIONE Il trattamento dei dati analitici ambientali (elementi di chemiometria) Rossano Piazza Istituto tecnico Industriale Statale Enrico Fermi, Treviso Liceo Scientifico Leonardo da Vinci, Treviso
  • Slide 2
  • Che cos la Chemiometria ? La chemiometria un settore della chimica che studia l'applicazione dei metodi matematici o statistici ai dati chimici La chemiometria pu essere definita come la branca della chimica che si serve di metodi matematici, statistici e logici per: progettare, selezionare ed ottimizzare procedure ed esperimenti; estrarre la massima informazione possibile sul sistema in esame attraverso lanalisi dei dati; fornire una rappresentazione grafica di questa informazione. Appare chiaro come la chemiometria accompagni il processo chimico, ed in particolare chimico-analitico, lungo tutte le sue fasi a partire dal campionamento fino allottimizzazione.
  • Slide 3
  • Fino a poco tempo fa le indagini chimico-fisiche riguardavano essenzialmente una sola determinazione analitica o la misura di poche variabili che si determinavano una alla volta. Oggi, luso delle moderne strumentazioni analitiche, come ad esempio i vari tipi di tecniche cromatografiche e spettroscopiche, consente lacquisizione in tempi brevi di un gran numero di determinazioni (informazioni) su un unico campione. Un sistema complesso, quale un sistema ambientale, per essere studiato richiede lacquisizione e lindagine di (su) molti campioni, ed ognuno di essi, a sua volta, pu essere descritto da molte informazioni (variabili). Di conseguenza, lelaborazione e linterpretazione dei dati da UNIVARIATA necessariamente diventata MULTIVARIATA per poter utilizzare CONTEMPORANEAMENTE tutte le informazioni disponibili.
  • Slide 4
  • PATTERN RECOGNITION Aumento del numero di campioni atti a caratterizzare un sistema: + Aumento del potenziale scientifico di conoscenza sul sistema - Diminuzione della nostra capacit di vedere la struttura dei dati
  • Slide 5
  • obiettivi: 1. LA SCELTA DELLE CONDIZIONI OTTIMALI PER LAPPLICAZIONE DI METODOLOGIE SPERIMENTALI (OTTIMIZZAZIONE ED EXPERIMENTAL DESING); 2. LESTRAZIONE DELLE INFORMAZIONI CONTENUTE IN SERIE O TABELLE DI DATI SPERIMENTALI (PATTERN RECOGNITION). Lo scopo finale quello di contribuire in maniera determinante a risolvere i problemi ad alta complessit, semplicemente semplificandoli, estraendo linformazione rilevante ai fini della comprensione dei problemi, e scartando la parte di informazione ridondante e rumorosa.
  • Slide 6
  • DATI La strategia chemiometrica I metodi chemiometrici vengono utilizzati per lesplorazione dei dati, cio per aprire una finestra sulla complessit di un sistema reale, al fine di gettare luce sulla struttura dei dati, sulle relazioni e correlazioni tra essi esistenti, sulla congruit, sulla rilevanza e sulla ridondanza con cui il problema stato descritto.
  • Slide 7
  • Lapproccio scientifico tradizionale mirato alla soluzione dei problemi, attraverso lo sviluppo di un processo cognitivo che porta alla costruzione di teorie pi o meno formali; il tutto porta alla progettazione di esperimenti (produzione controllata di fatti nuovi), allo scopo di verificare le asserzioni meno ovvie che discendono dallelaborazione della teoria stessa; linterpretazione degli esperimenti consente la soluzione dei problemi evidenziati, oppure la modifica di parti della teoria stessa.
  • Slide 8
  • S Schema di strategia su cui si basa lo sviluppo della scienza tradizionale LA CHEMIOMETRIA NEL CONTESTO SCIENTIFICO: APPROCCIO SOFT E APPROCCIO HARD (Soft models and Hard models)
  • Slide 9
  • Cosa un sistema? Cosa un sistema relazionale empirico? Cosa la rappresentazione di un sistema? Oggetti (i campioni atti a rappresentare il sistema) Variabili (il modo con cui si decide di rappresentare il sistema). Rilevanza Correlazione Rappresentazione in uno spazio multivariato
  • Slide 10
  • Una volta che serie di dati polidimensionali siano facilmente acquisibili o costruibili, lanalisi statistica multivariata lo strumento necessario per poter usare contemporaneamente tutte le informazioni disponibili. Si pu facilmente dimostrare che luso di informazioni parziali (ad esempio considerare le modificazioni dovute a ciascuna variabile presa una alla volta) pu portare a risultati completamente distorti. Per una comprensione immediata del significato dei vari metodi di analisi multivariata, estremamente utile averne una rappresentazione grafica. Un campione su cui siano state misurate p variabili rappresentato da un punto dello spazio p- dimensionale in cui ciascuna variabile misurata rappresenta un asse ortogonale
  • Slide 11
  • La struttura multivariata dei dati Come si pu descrivere un oggetto rappresentato da p variabili?
  • Slide 12
  • Le Variabili Sono le grandezze che utilizziamo per studiare un dato fenomeno e per descrivere complessivamente le osservazioni; possono essere di natura sperimentale o numerica (calcolabili per via teorica). Le variabili sono il modo con cui si descrive il sistema relazionale empirico, e le scale di misura sono il modo con cui linformazione empirica viene trasformata in informazione numerica.
  • Slide 13
  • Il Trattamento Preliminare dei dati
  • Slide 14
  • Definizione di gruppo e di classe, e differenze -Metodi di Clustering -Metodi di classificazione I metodi di Pattern Recognition sono basati sul concetto di analogia: 1) metrica (distanza, similarit) 2) aderenza ad un modello matematico
  • Slide 15
  • Nei metodi di classificazione esiste una serie di campioni la cui appartenenza ad una classe conosciuta a priori (training set). Ciascun oggetto del training set a priori assegnato alla sua classe. Il metodo serve per trovare delle regole che permettono di distinguere le varie classi. Una volta trovate, queste regole servono per classificare campioni incogniti (test set) Nei metodi di clustering non si hanno, invece, conoscenze di sorta sui dati da elaborare. (le classi non sono note a priori). Lobiettivo, in questo caso, quello di verificare se i punti nello spazio sono dispersi omogeneamente o formano dei gruppi (clusters). Se al termine dellanalisi riteniamo di dare ai gruppi un significato, i gruppi saranno definiti classi. () Cluster Analysis
  • Slide 16
  • Ciascun metodo di analisi multivariata si basa sullutilizzo di un criterio di similitudine. Sotto questo profilo, i vari metodi sviluppati fino ad oggi si possono suddividere in due categorie. I primi (storicamente) usano come criterio di similitudine la distanza Euclidea (ed altri tipi di distanze geometriche): due campioni sono tanto pi simili quanto pi sono vicini nello spazio p-dimensionale. Dati n oggetti e p variabili, con X = x n,p ( matrice di n oggetti per p variabili), si definisce distanza Euclidea delloggetto k-esimo dalloggetto l-esimo d k,l: d kl = [ j (x kj x lj ) 2 ] 0.5 (j= 1, 2,.p) Nel semplice caso bidimensionale (p=2 ), dati 2 oggetti P1 e P2 di coordinate P1(x 11, x 12 ) e P2(x 21,x 22 ), la distanza d 12 sar (x 21 -x 11 ) 2 + (x 22 -x 12 ) 2. x1x1 x2x2 x 11 x 21 P2 P1 x 22 x 12
  • Slide 17
  • Nel caso bidimensionale, si pu semplicemente verificare la validit della formula sulla base del Teorema di Pitagora. La misura della distanza Euclidea a rigore linverso di una misura di similtudine in quanto, per oggetti identici (o, meglio, per oggetti diversi, ma non distinguibili attraverso la nostra caratterizzazione multivariata), si ha che d = 0. Di questo gruppo fanno parte i metodi di classificazione [LDA (Analisi Discriminante Lineare), K-NN (K intorni pi vicini], e la Cluster Analysis.Nel secondo gruppo di metodi il criterio di similitudine invece rappresentato dalladerenza ad un unico modello matematico. Fra questi metodi, regna sovrana lAnalisi delle Componenti Principali (PCA).
  • Slide 18
  • Similarit : trasposizione del concetto di analogia. Significato opposto al concetto di distanza euclidea. Il concetto di similarit di oggetti insito nel concetto di distanza. Dalla definizione di distanza Euclidea, discende quella di similarit : s kl = 1- d kl /d max (0 s 1 )
  • Slide 19
  • Metodi di Raggruppamento: CLUSTER ANALYSIS
  • Slide 20
  • METODI DI CLUSTER ANALYSIS -Metodi gerarchici (single linkage, average linkage, complete linkage) Caratterizzazione dei Clusters: la loro posizione nello spazio p dimensionale definita da: centroide (vettore delle medie delle variabili calcolate per gli oggetti assegnati al cluster); centrotipo (oggetto di riferimento fra tutti gli oggetti facenti parte del cluster, il pi vicino al centroide);.dimensione (n. di oggetti in esso contenuti).
  • Slide 21
  • Strategia di una Cluster Analysis
  • Slide 22
  • Slide 23
  • Questo avviene andando ad eliminare dalla matrice di similarit le righe e le colonne relative ai due cluster (oggetti) che sono stati uniti, e mettendo al loro posto una nuova riga ed una nuova colonna relativa alle nuove similarit del nuovo cluster con tutti i restanti cluster (oggetti). Cos facendo, la dimensione della matrice di similarit si riduce di uno ad ogni passo successivo. Ma come si calcola la distanza del nuovo cluster f (ottenuto dalla fusione del cluster s con il cluster t) con un altro cluster k ?
  • Slide 24
  • s (ns) t (nt) k (nk) f (ns+nt) ?????
  • Slide 25
  • Algoritmi di Cluster Se ns la dimensione del cluster s, nt la dimensione del cluster t, nk quella del cluster k, ed ovviamente nf = ns + nt la dimensione del nuovo cluster f, si ha: 1. d kf = 0.5 ( d ks + d kt ) ( Average Linkage) 2. d kf = ( ns d ks + nt d kt ) \ nf (weighted Average Linkage) 3.d kf = min (d ks, d kt ) (Single Linkage) 4.d kf = max (d ks, d kt ) (Complete Linkage)
  • Slide 26
  • Cluster Analisys: Dendrogramma
  • Slide 27
  • Limiti della Cluster Analysis -Rumore sperimentale legato alla imprecisione delle misure sperimentali -Interpretazione incompleta delle informazioni ottenute (La Cluster Analysis non da informazioni sul ruolo discriminante delle variabili)
  • Slide 28
  • CASO DI STUDIO Confronto fra acque potabili (con la genesi di potabilizzazione, a partire dai pozzi di falda) ed acque minerali Stima della qualit delle acque Indice di qualit di unacqua che possa essere confrontabile Le acque potabili sono diverse da quelle minerali? (Conoscenza preliminare)dellaspetto Chimico-Fisico, biologico, microbiologico, geografico, legislativo Lacquedotto di Venezia dispone di fonti di approvigionamento molto differenti, per cui immette in rete acque dalle caratteristiche diverse. Non si pu, dunque, parlare di un'unica acqua potabile. Le acque bevute dai veneziani 94% FALDA6% FIUME SILE
  • Slide 29
  • CENTRALI DI SPINTA (ASPIV) : Venezia Urbe : Centrale S. Andrea (VE) (1884) Mestre :Centrale GAZZERA (GA) Centrale Marghera (MA) C Solaro: Centrale omonima (CA) (1974) Identificazione di 20 parametri (variabili) per lidentificazione della qualit e della diversit Obiettivo: scelta dell'acqua "migliore" (basso contenuto di sostanze indesiderabili, parametri costanti nel tempo) da confrontare con le principali acque minerali distribuite al dettaglio E' possibile imbottigliare l'acqua dell' ASPIV ? (direttiva 96/70/CE sul riavvicinamento delle legislazioni degli stati membri sull' uso e la commercializzazione delle acque minerali).
  • Slide 30
  • ASPIV: Centrali di potabilizzazione
  • Slide 31
  • Utilizzo della Cluster Analysis per un primo screening: valutazione della diversit fra i campioni analizzati dalle 4 centrali di spinta Analisi di 100 campioni per ogni centrale di spinta: totale 400 campioni, 20 variabili (variabilit stagionale) Matrice 400 obj x 20 vars Autoscaling
  • Slide 32
  • Risultati della Cluster Analysis sui dati autoscalati -C Solaro appare lacqua pi diversa (si unisce per ultima) -I campioni di Gazzera appaiono i pi simili tra loro -Marghera e Venezia non solo distinguibili a nessun livello (stesse fonti) - Ipotesi: Marghera e Venezia: stesse fonti (permeabilit di falda) -Lacqua di Gazzera sembra essere la pi omogenea No informazioni sulla variabili
  • Slide 33
  • Roberto Todeschini: Introduzione alla Chemiometria, EdiSES, Napoli D.L. Massart et al:Chemometrics:a Textbook, Data Handling in Science and Technology, 2, ELSEVIER, Amsterdam.