ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

ANALISI DEI DATIPER IL MARKETING

2018

Marco [email protected]

http://www.riani.it

mailto:[email protected]

http://www.riani.it/

TRATTAMENTI PRELIMINARI

DEI DATI•“Pulizia dei dati” (data cleaning) =processo capace di garantire, con unacerta soglia di affidabilità, la correttezzad’un insieme di dati (dataset, database,data warehouse).

QUALITA’ DEI DATI• definita con riguardo alle seguenti caratteristiche:• rilevanza, cioè la capacità di soddisfare le reali esigenze

conoscitive degli utilizzatori;• accuratezza, cioè la corrispondenza tra le stime ottenute ed i

valori veri (ma ignoti) nella popolazione di riferimento;• tempestività, cioè la capacità di fornire i risultati in tempi

ravvicinati rispetto all’esecuzione dell’indagine;• accessibilità, cioè la possibilità per l’utente di reperire

facilmente e comprendere l’informazione richiesta;• confrontabilità, che fa riferimento alla validità dei raffronti

dei dati nel tempo o nello spazio.

PROBLEMI NEL DATA CLEANING

• Le unità statistiche non rilevate (casi mancanti);

• i valori mancanti di singole variabili;• la tipologia degli errori;• i valori anomali e le osservazioni influenti.

CASI MANCANTI

• Se le unità statistiche campionarieeffettivamente rilevate sono in numero di m,invece delle n originariamente previste (m<n), sipuò procedere in due modi:

• i) si considera la matrice dei dati formata dalle munità disponibili;

• ii) si rilevano (n-m) unità ulteriori, sostituendociascuna unità mancante con un’altra.

• DISTORSIONI, AUTOSELEZIONE

MISSING VALUES

• Matrice dei dati formata da n righe, ma con vuoti (blank) in alcune caselle.

• i) Carattere non pertinente per la singola unità

• ii) Risposta “non so” in una domanda riguardante un’opinione

• iii) Rifiuto di singole risposte• iv) Mancata rilevazione dovuta a cause

esterne

PROCESSO GENERATORE DEI MISSING VALUES

• X con tutti i dati, Y con dati mancanti• i) Missing Completely at Random (MCAR)• La probabilità di riscontrare un valore mancante è

indipendente dai valori di X e di Y, per cui i dati omessi sonocompletamente casuali.

• ii) Missing at Random (MAR)• I valori mancanti dipendono da X ma non da Y; se

s’individuano opportune classi o categorie di X la probabilitàd’un dato mancante di Y non è uguale per tutte le classi (ocategorie), ma nell’ambito di ciascuna di esse i valorimancanti sono casuali.

• iii) Missing not at Random• La probabilità di riscontrare un dato mancante dipende dai

valori che assume Y ed eventualmente anche da quelli di X.

STRATEGIE POSSIBILI

• Analisi solo dei casi completi(esclusione listwise),

• Analisi dei casi disponibili perciascun fenomeno (criteriocolumnwise) o per ciascuna coppiadi variabili (criterio pairwise)

• Altri criteri: ponderazione,imputazione

File di esempio

• TAGLIAT40.SAV oppure TAGLIAT40(MIS).xlsx

• Effettuare un’analisi dei dati mancanti e dei valori estremi univariati (ossia esterni all’intervallo [Q1-1.5*IQR Q3+1.5*IQR])

• Calcolare medie e deviazioni standard escludendo i dati mancanti

Traccia di soluzione in SPSS




• Es. l’unità 15 è mancante per la variabile «rotte» ed è un valore estremo univariatosuperiore per la variabile «umidit» (simbolo +)

X= simbolo di variabile

esclusa

• Es. se si esclude la variabile ceneri il numero di casi completi è 30. Se si considerano tutte e tre le variabili le unità con tutti i valori sono 23 (esclusione listwise)

n=40

Relatore

Note di presentazione

Se si esclude la variabile rotte il numero di unità che rimangono senza dati mancanti è pari a 33

Per ottenere le statistiche descrittive con criterio listwise e a coppie selezionare le relative caselle di controllo (v. schermata

di seguito)

Output

Traccia di soluzione in Excel

• Si calcolano i punti di troncamento inferiori e superiori Q1-1.5IQR Q3+1.5IQR

• Tramite la funzione «SE» e la funzione «E» si stabilisce se ogni unità è un valore anomalo inferiore o superiore

• Osservazione. Si utilizza la funzione E poiché le condizioni in input sono 2 (inferiore della soglia e non vuoto)

• =SE(E(A4<M$11;A4<>"");1;0)

Suggerimenti per la scelta della STRATEGIA

• Poche unità con dati mancanti (<5%): LISTWISE

• Variabile con molti dati mancanti: SI ELIMINA

• Unità con molti valori mancanti: SI ELIMINA

COMPITO VECCHIO• Si è effettuata un’indagine campionaria su

quattrocento individui, mediante un questionarioche prevedeva 10 domande con rispostequantitative. Per sei di queste variabili si sonoottenute risposte complete, mentre le restantiquattro presentano rispettivamente 3, 5, 12 e 316dati mancanti. Volendo effettuare analisi bivariatee analisi multivariate di questo data set:

• quali strategie può ragionevolmente adottare il ricercatore per il trattamento dei missing values?

• Quali conseguenze comporta ciascuna delle scelte effettuate?

RISOLUZIONE• Si deve osservare in primo luogo che la decima

domanda presenta ben 316 dati mancanti su untotale di 400 individui partecipanti all’indagine. Ai finidelle analisi multivariate, la decisione più ragionevoleè dunque quella di eliminarla, effettuando leelaborazioni sul data set costituito dalla restanti 9variabili (vedi il testo: ZANI – CERIOLI, 2007, p. 77, n.2).

• La matrice dei dati di dimensioni 400×9 può oraessere trattata con il criterio pairwise o con il criteriolistwise. Quest’ultimo è preferibile poiché i datimancanti nelle variabili considerate sono pochi

TIPI DI ERRORI

• Errori campionari• Errori non campionari

• Errore totale• La stima delle componenti dell’errore

totale attribuibili ad ogni singola fonte dierrore è denominata profilo dell’errore erende possibile l’attività di convalida(validation) dell’informazione ottenuta.

ERRORI DI MISURA(parte dell’errore non campionario)

• Costituiti dalla differenza tra il valore vero(ma ignoto!) del fenomeno in un certaunità statistica ed il valore rilevatodall’indagine:

• valori inammissibili o dati fuori dominio;• valori anomali (outliers);• errori non facilmente individuabili, in

quanto non corrispondono a valoriinammissibili o anomali.

VALORI ANOMALI

• Definizione. Un valore anomalo è un’osservazione che, essendo atipica o erronea, si scosta decisamente dal comportamento degli altri dati, con riferimento al tipo di analisi considerata.

RICHIAMI SUL BOXPLOT

Boxplot di 16 punti

Boxplot di 16 punti

Il punto di troncamento superiore è in corrispondenza del valore più grande ≤ x75%+1.5DI

Il punto di troncamento inferiore si colloca in corrispondenza del valore più piccolo ≥ x25%-1.5DI

Boxplot dei 20 valori della tabella 4.2 libro STAT

Tasso di disoccupazione

5 10 15 20 25

020

40

60

80

ili 2001 d t[ 9]

Fre

q.

rel. p

erc

entu

ale

51

01

52

02

5

Tasso di attività

25 30 35 40 45 50 55

01

02

03

04

0

Fre

q.

rel. p

erc

en

tuale

30

35

40

45

50

55

Boxplot e istogrammi delle 3 variabili presenti dentro TAGLIAT40(MIS).xlsx

Boxplots in Excel 2016• Excel 2016 ha introdotto i grafici a scatola

ed i grafici ad istogramma

Boxplots in Excel

• Aprire il file HT_box.xls. Utilizzando il componente aggiuntivo boxplot.xla costuire il boxplot per le variabili prezzo e potenza. Aggiungere le etichette alle unità che risultano anomale

SOLUZIONE

Output

Boxplots in SPSS• Una variabile: boxplot• Esempio: home theatre, prezzo e potenza

Esercizio

• Nel file ex23.sav analizzare tramite boxplot come varia la distribuzione della retribuzione al variare del titolo di studio (identificare i valori anomali)

Licenza media Diplomato Laureato

Titolo di studio

2000000

3000000

4000000

Retr

ibu

zio

ne lo

rda

me

se d

i g

iug

no

AA

S

S

18

16

Separare la precedente analisi per maschi e femmine


Titolo di studio

2000000

3000000

4000000

Ret

ribuz

ione

lord

a m

ese

di g

iugn

o A

AS

Femmina Maschio


Titolo di studio

A

Esercizio

• Nel file ex23.sav analizzare tramite boxplot come varia la distribuzione della retribuzione al variare del titolo di studio, inserendo come variabile di gruppo lo stato civile

Soluzione

Boxplot in SPSS: riepilogo opzioni

• Vai al caso• Etichetta ID punti• Modalità etichette valori• Variabile riquadro

righe/colonne• Variabile di gruppo su X

Boxplot per sottogruppi di unità

• File ex23box.xlsx

TestoObiettivo: analizzare come varia la retribuzione al variare del sesso e del titolo di studio

Osservazione: inserire tutto l'output in nuovo foglio denominato SOLUZIONE

1) Costruire una tabella che riporti sulle righe la variabile sesso, sulle colonne la variabile titolo di studio e all'incrocio delle righe e delle colonne la retribuzione media. Partendo dalla tabella pivot costruire (e commentare) il grafico a barre associato. 2) Analizzare tramite boxplot come varia la retribuzione al variare del titolo di studio prima per l'intero campione (mostrando la linea della media) e poi per sesso. 3) Analizzare tramite boxplot come varia la retribuzione al variare del titolo di studio tenendo separati i maschi dalle femmine. Commentare i risultati ottenuti.4) Esplorare come variano i boxplot ottenuti al punto 3) utilizzando le due formule alternative mediana inclusiva e mediana esclusiva e commentare i risultati ottenuti.5) Copiare il grafico ottenuto al punto in nuovo grafico. Aggiungere al grafico copiato le etichette dei dati.

INDIVIDUAZIONE DEGLI OUTLIERS BIVARIATI

• Diagramma di dispersione

OUTLIERS BIVARIATI

TIPI DI OUTLIERS (p. 81)

40,0020,000,00

60,00

40,00

20,00

DCBA1

TIPOLOGIA

TRATTAMENTO DEGLI OUTLIERS

• Se esso è dovuto ad un errore di rilevazione noncorreggibile: eliminazione (trattandolo come undato mancante).

• Se è attribuibile ad una distribuzione differente:esclusione listwise della corrispondente unitàstatistica.

• Se è dovuto alla variabilità intrinseca delfenomeno: conservarlo (eventualmentetrasformazione della corrispondente variabile, adesempio logaritmica).

Trattamento degli outliers

OSSERVAZIONI INFLUENTI

• Il vettore dei dati di un’unità statistica è unaosservazione influente se incide in misura moltorilevante sul valore numerico d’un certo indicestatistico oppure sui parametri osull’adattamento d’uno specifico modello.

• Omission approach: calcolo delle variazionidell’indice o dei parametri del modelloeliminando una singola unità fra le nconsiderate.

rxy = 0.6, senza outlier rxy = 0 (p. 85)

12.0010.008.006.004.002.00

12.00

10.00

8.00

6.00

4.00

2.00

rxy = 0.6, senza outlier rxy = 0.98 (p. 85)

35.0030.0025.0020.0015.0010.00

40.00

35.00

30.00

25.00

20.00

15.00

Teorema (di Sastry and Nag, 1990).

• Considerando n coppie di dati (xi, yi), i = 1, 2, …, n, di due variabili X e Y, delle quali (n -1) assumono valori prefissati, risulta:

• lim r2xy = 1 per x2

n → +∞ e y2n → +∞

• Una sola osservazione molto più grande delle altre fa tendere ad 1 il coefficiente di correlazione!

ESERCIZIO

• Si disegni un diagramma di dispersione riferito a 12 unità ed a due variabili X e Ycon forte correlazione lineare inversa.

• Si inserisca in tale grafico un’ulteriore unità, che risulta anomala per la variabile X, ma non per la variabile Y.

• Si dica quale effetto produce sul coefficiente di correlazione l’inserimento della suddetta tredicesima unità

Esercizio

• Generare 50 osservazioni y in base al modello di regressione

• Generare i dati x in base alla distribuzione uniforme [0 1] e i disturbi epsilon in base alla distribuzione normale N(0, σ). Stimare i parametri a e b del modello di regressione.

Esercizio (continua)

• Verificare empiricamente il teorema di Sastry and Nag, 1990, ossia aggiungere un’osservazione molto distante dalla nuvola dei punti e vedere come cambia r2

xy

Documents

ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare