Upload
phungcong
View
221
Download
0
Embed Size (px)
Citation preview
TRATTAMENTI PRELIMINARI
DEI DATI•“Pulizia dei dati” (data cleaning) =processo capace di garantire, con unacerta soglia di affidabilità, la correttezzad’un insieme di dati (dataset, database,data warehouse).
QUALITA’ DEI DATI• definita con riguardo alle seguenti caratteristiche:• rilevanza, cioè la capacità di soddisfare le reali esigenze
conoscitive degli utilizzatori;• accuratezza, cioè la corrispondenza tra le stime ottenute ed i
valori veri (ma ignoti) nella popolazione di riferimento;• tempestività, cioè la capacità di fornire i risultati in tempi
ravvicinati rispetto all’esecuzione dell’indagine;• accessibilità, cioè la possibilità per l’utente di reperire
facilmente e comprendere l’informazione richiesta;• confrontabilità, che fa riferimento alla validità dei raffronti
dei dati nel tempo o nello spazio.
PROBLEMI NEL DATA CLEANING
• Le unità statistiche non rilevate (casi mancanti);
• i valori mancanti di singole variabili;• la tipologia degli errori;• i valori anomali e le osservazioni influenti.
CASI MANCANTI
• Se le unità statistiche campionarieeffettivamente rilevate sono in numero di m,invece delle n originariamente previste (m<n), sipuò procedere in due modi:
• i) si considera la matrice dei dati formata dalle munità disponibili;
• ii) si rilevano (n-m) unità ulteriori, sostituendociascuna unità mancante con un’altra.
• DISTORSIONI, AUTOSELEZIONE
MISSING VALUES
• Matrice dei dati formata da n righe, ma con vuoti (blank) in alcune caselle.
• i) Carattere non pertinente per la singola unità
• ii) Risposta “non so” in una domanda riguardante un’opinione
• iii) Rifiuto di singole risposte• iv) Mancata rilevazione dovuta a cause
esterne
PROCESSO GENERATORE DEI MISSING VALUES
• X con tutti i dati, Y con dati mancanti• i) Missing Completely at Random (MCAR)• La probabilità di riscontrare un valore mancante è
indipendente dai valori di X e di Y, per cui i dati omessi sonocompletamente casuali.
• ii) Missing at Random (MAR)• I valori mancanti dipendono da X ma non da Y; se
s’individuano opportune classi o categorie di X la probabilitàd’un dato mancante di Y non è uguale per tutte le classi (ocategorie), ma nell’ambito di ciascuna di esse i valorimancanti sono casuali.
• iii) Missing not at Random• La probabilità di riscontrare un dato mancante dipende dai
valori che assume Y ed eventualmente anche da quelli di X.
STRATEGIE POSSIBILI
• Analisi solo dei casi completi(esclusione listwise),
• Analisi dei casi disponibili perciascun fenomeno (criteriocolumnwise) o per ciascuna coppiadi variabili (criterio pairwise)
• Altri criteri: ponderazione,imputazione
File di esempio
• TAGLIAT40.SAV oppure TAGLIAT40(MIS).xlsx
• Effettuare un’analisi dei dati mancanti e dei valori estremi univariati (ossia esterni all’intervallo [Q1-1.5*IQR Q3+1.5*IQR])
• Calcolare medie e deviazioni standard escludendo i dati mancanti
Traccia di soluzione in SPSS
Traccia di soluzione in SPSS
Traccia di soluzione in SPSS
Traccia di soluzione in SPSS
• Es. l’unità 15 è mancante per la variabile «rotte» ed è un valore estremo univariatosuperiore per la variabile «umidit» (simbolo +)
X= simbolo di variabile
esclusa
• Es. se si esclude la variabile ceneri il numero di casi completi è 30. Se si considerano tutte e tre le variabili le unità con tutti i valori sono 23 (esclusione listwise)
n=40
Per ottenere le statistiche descrittive con criterio listwise e a coppie selezionare le relative caselle di controllo (v. schermata
di seguito)
Output
Traccia di soluzione in Excel
• Si calcolano i punti di troncamento inferiori e superiori Q1-1.5IQR Q3+1.5IQR
• Tramite la funzione «SE» e la funzione «E» si stabilisce se ogni unità è un valore anomalo inferiore o superiore
• Osservazione. Si utilizza la funzione E poiché le condizioni in input sono 2 (inferiore della soglia e non vuoto)
• =SE(E(A4<M$11;A4<>"");1;0)
Suggerimenti per la scelta della STRATEGIA
• Poche unità con dati mancanti (<5%): LISTWISE
• Variabile con molti dati mancanti: SI ELIMINA
• Unità con molti valori mancanti: SI ELIMINA
COMPITO VECCHIO• Si è effettuata un’indagine campionaria su
quattrocento individui, mediante un questionarioche prevedeva 10 domande con rispostequantitative. Per sei di queste variabili si sonoottenute risposte complete, mentre le restantiquattro presentano rispettivamente 3, 5, 12 e 316dati mancanti. Volendo effettuare analisi bivariatee analisi multivariate di questo data set:
• quali strategie può ragionevolmente adottare il ricercatore per il trattamento dei missing values?
• Quali conseguenze comporta ciascuna delle scelte effettuate?
RISOLUZIONE• Si deve osservare in primo luogo che la decima
domanda presenta ben 316 dati mancanti su untotale di 400 individui partecipanti all’indagine. Ai finidelle analisi multivariate, la decisione più ragionevoleè dunque quella di eliminarla, effettuando leelaborazioni sul data set costituito dalla restanti 9variabili (vedi il testo: ZANI – CERIOLI, 2007, p. 77, n.2).
• La matrice dei dati di dimensioni 400×9 può oraessere trattata con il criterio pairwise o con il criteriolistwise. Quest’ultimo è preferibile poiché i datimancanti nelle variabili considerate sono pochi
TIPI DI ERRORI
• Errori campionari• Errori non campionari
• Errore totale• La stima delle componenti dell’errore
totale attribuibili ad ogni singola fonte dierrore è denominata profilo dell’errore erende possibile l’attività di convalida(validation) dell’informazione ottenuta.
ERRORI DI MISURA(parte dell’errore non campionario)
• Costituiti dalla differenza tra il valore vero(ma ignoto!) del fenomeno in un certaunità statistica ed il valore rilevatodall’indagine:
• valori inammissibili o dati fuori dominio;• valori anomali (outliers);• errori non facilmente individuabili, in
quanto non corrispondono a valoriinammissibili o anomali.
VALORI ANOMALI
• Definizione. Un valore anomalo è un’osservazione che, essendo atipica o erronea, si scosta decisamente dal comportamento degli altri dati, con riferimento al tipo di analisi considerata.
RICHIAMI SUL BOXPLOT
Boxplot di 16 punti
Boxplot di 16 punti
Il punto di troncamento superiore è in corrispondenza del valore più grande ≤ x75%+1.5DI
Il punto di troncamento inferiore si colloca in corrispondenza del valore più piccolo ≥ x25%-1.5DI
Boxplot dei 20 valori della tabella 4.2 libro STAT
Tasso di disoccupazione
5 10 15 20 25
020
40
60
80
ili 2001 d t[ 9]
Fre
q.
rel. p
erc
entu
ale
51
01
52
02
5
Tasso di attività
25 30 35 40 45 50 55
01
02
03
04
0
Fre
q.
rel. p
erc
en
tuale
30
35
40
45
50
55
Boxplot e istogrammi delle 3 variabili presenti dentro TAGLIAT40(MIS).xlsx
Boxplots in Excel 2016• Excel 2016 ha introdotto i grafici a scatola
ed i grafici ad istogramma
Boxplots in Excel
• Aprire il file HT_box.xls. Utilizzando il componente aggiuntivo boxplot.xla costuire il boxplot per le variabili prezzo e potenza. Aggiungere le etichette alle unità che risultano anomale
SOLUZIONE
Output
Boxplots in SPSS• Una variabile: boxplot• Esempio: home theatre, prezzo e potenza
Esercizio
• Nel file ex23.sav analizzare tramite boxplot come varia la distribuzione della retribuzione al variare del titolo di studio (identificare i valori anomali)
Licenza media Diplomato Laureato
Titolo di studio
2000000
3000000
4000000
Retr
ibu
zio
ne lo
rda
me
se d
i g
iug
no
AA
S
S
18
16
Separare la precedente analisi per maschi e femmine
Licenza media Diplomato Laureato
Titolo di studio
2000000
3000000
4000000
Ret
ribuz
ione
lord
a m
ese
di g
iugn
o A
AS
Femmina Maschio
Licenza media Diplomato Laureato
Titolo di studio
A
Esercizio
• Nel file ex23.sav analizzare tramite boxplot come varia la distribuzione della retribuzione al variare del titolo di studio, inserendo come variabile di gruppo lo stato civile
Soluzione
Boxplot in SPSS: riepilogo opzioni
• Vai al caso• Etichetta ID punti• Modalità etichette valori• Variabile riquadro
righe/colonne• Variabile di gruppo su X
Boxplot per sottogruppi di unità
• File ex23box.xlsx
TestoObiettivo: analizzare come varia la retribuzione al variare del sesso e del titolo di studio
Osservazione: inserire tutto l'output in nuovo foglio denominato SOLUZIONE
1) Costruire una tabella che riporti sulle righe la variabile sesso, sulle colonne la variabile titolo di studio e all'incrocio delle righe e delle colonne la retribuzione media. Partendo dalla tabella pivot costruire (e commentare) il grafico a barre associato. 2) Analizzare tramite boxplot come varia la retribuzione al variare del titolo di studio prima per l'intero campione (mostrando la linea della media) e poi per sesso. 3) Analizzare tramite boxplot come varia la retribuzione al variare del titolo di studio tenendo separati i maschi dalle femmine. Commentare i risultati ottenuti.4) Esplorare come variano i boxplot ottenuti al punto 3) utilizzando le due formule alternative mediana inclusiva e mediana esclusiva e commentare i risultati ottenuti.5) Copiare il grafico ottenuto al punto in nuovo grafico. Aggiungere al grafico copiato le etichette dei dati.
INDIVIDUAZIONE DEGLI OUTLIERS BIVARIATI
• Diagramma di dispersione
OUTLIERS BIVARIATI
TIPI DI OUTLIERS (p. 81)
40,0020,000,00
60,00
40,00
20,00
DCBA1
TIPOLOGIA
TRATTAMENTO DEGLI OUTLIERS
• Se esso è dovuto ad un errore di rilevazione noncorreggibile: eliminazione (trattandolo come undato mancante).
• Se è attribuibile ad una distribuzione differente:esclusione listwise della corrispondente unitàstatistica.
• Se è dovuto alla variabilità intrinseca delfenomeno: conservarlo (eventualmentetrasformazione della corrispondente variabile, adesempio logaritmica).
Trattamento degli outliers
OSSERVAZIONI INFLUENTI
• Il vettore dei dati di un’unità statistica è unaosservazione influente se incide in misura moltorilevante sul valore numerico d’un certo indicestatistico oppure sui parametri osull’adattamento d’uno specifico modello.
• Omission approach: calcolo delle variazionidell’indice o dei parametri del modelloeliminando una singola unità fra le nconsiderate.
rxy = 0.6, senza outlier rxy = 0 (p. 85)
12.0010.008.006.004.002.00
12.00
10.00
8.00
6.00
4.00
2.00
rxy = 0.6, senza outlier rxy = 0.98 (p. 85)
35.0030.0025.0020.0015.0010.00
40.00
35.00
30.00
25.00
20.00
15.00
Teorema (di Sastry and Nag, 1990).
• Considerando n coppie di dati (xi, yi), i = 1, 2, …, n, di due variabili X e Y, delle quali (n -1) assumono valori prefissati, risulta:
• lim r2xy = 1 per x2
n → +∞ e y2n → +∞
• Una sola osservazione molto più grande delle altre fa tendere ad 1 il coefficiente di correlazione!
ESERCIZIO
• Si disegni un diagramma di dispersione riferito a 12 unità ed a due variabili X e Ycon forte correlazione lineare inversa.
• Si inserisca in tale grafico un’ulteriore unità, che risulta anomala per la variabile X, ma non per la variabile Y.
• Si dica quale effetto produce sul coefficiente di correlazione l’inserimento della suddetta tredicesima unità
Esercizio
• Generare 50 osservazioni y in base al modello di regressione
• Generare i dati x in base alla distribuzione uniforme [0 1] e i disturbi epsilon in base alla distribuzione normale N(0, σ). Stimare i parametri a e b del modello di regressione.
Esercizio (continua)
• Verificare empiricamente il teorema di Sastry and Nag, 1990, ossia aggiungere un’osservazione molto distante dalla nuvola dei punti e vedere come cambia r2
xy