55
ANALISI DEI DATI PER IL MARKETING 2018 Marco Riani [email protected] http://www.riani.it

ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Embed Size (px)

Citation preview

Page 1: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

ANALISI DEI DATIPER IL MARKETING

2018

Marco [email protected]

http://www.riani.it

Page 2: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

TRATTAMENTI PRELIMINARI

DEI DATI•“Pulizia dei dati” (data cleaning) =processo capace di garantire, con unacerta soglia di affidabilità, la correttezzad’un insieme di dati (dataset, database,data warehouse).

Page 3: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

QUALITA’ DEI DATI• definita con riguardo alle seguenti caratteristiche:• rilevanza, cioè la capacità di soddisfare le reali esigenze

conoscitive degli utilizzatori;• accuratezza, cioè la corrispondenza tra le stime ottenute ed i

valori veri (ma ignoti) nella popolazione di riferimento;• tempestività, cioè la capacità di fornire i risultati in tempi

ravvicinati rispetto all’esecuzione dell’indagine;• accessibilità, cioè la possibilità per l’utente di reperire

facilmente e comprendere l’informazione richiesta;• confrontabilità, che fa riferimento alla validità dei raffronti

dei dati nel tempo o nello spazio.

Page 4: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

PROBLEMI NEL DATA CLEANING

• Le unità statistiche non rilevate (casi mancanti);

• i valori mancanti di singole variabili;• la tipologia degli errori;• i valori anomali e le osservazioni influenti.

Page 5: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

CASI MANCANTI

• Se le unità statistiche campionarieeffettivamente rilevate sono in numero di m,invece delle n originariamente previste (m<n), sipuò procedere in due modi:

• i) si considera la matrice dei dati formata dalle munità disponibili;

• ii) si rilevano (n-m) unità ulteriori, sostituendociascuna unità mancante con un’altra.

• DISTORSIONI, AUTOSELEZIONE

Page 6: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

MISSING VALUES

• Matrice dei dati formata da n righe, ma con vuoti (blank) in alcune caselle.

• i) Carattere non pertinente per la singola unità

• ii) Risposta “non so” in una domanda riguardante un’opinione

• iii) Rifiuto di singole risposte• iv) Mancata rilevazione dovuta a cause

esterne

Page 7: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

PROCESSO GENERATORE DEI MISSING VALUES

• X con tutti i dati, Y con dati mancanti• i) Missing Completely at Random (MCAR)• La probabilità di riscontrare un valore mancante è

indipendente dai valori di X e di Y, per cui i dati omessi sonocompletamente casuali.

• ii) Missing at Random (MAR)• I valori mancanti dipendono da X ma non da Y; se

s’individuano opportune classi o categorie di X la probabilitàd’un dato mancante di Y non è uguale per tutte le classi (ocategorie), ma nell’ambito di ciascuna di esse i valorimancanti sono casuali.

• iii) Missing not at Random• La probabilità di riscontrare un dato mancante dipende dai

valori che assume Y ed eventualmente anche da quelli di X.

Page 8: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

STRATEGIE POSSIBILI

• Analisi solo dei casi completi(esclusione listwise),

• Analisi dei casi disponibili perciascun fenomeno (criteriocolumnwise) o per ciascuna coppiadi variabili (criterio pairwise)

• Altri criteri: ponderazione,imputazione

Page 9: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

File di esempio

• TAGLIAT40.SAV oppure TAGLIAT40(MIS).xlsx

• Effettuare un’analisi dei dati mancanti e dei valori estremi univariati (ossia esterni all’intervallo [Q1-1.5*IQR Q3+1.5*IQR])

• Calcolare medie e deviazioni standard escludendo i dati mancanti

Page 10: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Traccia di soluzione in SPSS

Page 11: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Traccia di soluzione in SPSS

Page 12: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Traccia di soluzione in SPSS

Page 13: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Traccia di soluzione in SPSS

• Es. l’unità 15 è mancante per la variabile «rotte» ed è un valore estremo univariatosuperiore per la variabile «umidit» (simbolo +)

Page 14: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

X= simbolo di variabile

esclusa

• Es. se si esclude la variabile ceneri il numero di casi completi è 30. Se si considerano tutte e tre le variabili le unità con tutti i valori sono 23 (esclusione listwise)

n=40

Relatore
Note di presentazione
Se si esclude la variabile rotte il numero di unità che rimangono senza dati mancanti è pari a 33
Page 15: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Per ottenere le statistiche descrittive con criterio listwise e a coppie selezionare le relative caselle di controllo (v. schermata

di seguito)

Page 16: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Output

Page 17: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Traccia di soluzione in Excel

• Si calcolano i punti di troncamento inferiori e superiori Q1-1.5IQR Q3+1.5IQR

• Tramite la funzione «SE» e la funzione «E» si stabilisce se ogni unità è un valore anomalo inferiore o superiore

• Osservazione. Si utilizza la funzione E poiché le condizioni in input sono 2 (inferiore della soglia e non vuoto)

• =SE(E(A4<M$11;A4<>"");1;0)

Page 18: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Suggerimenti per la scelta della STRATEGIA

• Poche unità con dati mancanti (<5%): LISTWISE

• Variabile con molti dati mancanti: SI ELIMINA

• Unità con molti valori mancanti: SI ELIMINA

Page 19: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

COMPITO VECCHIO• Si è effettuata un’indagine campionaria su

quattrocento individui, mediante un questionarioche prevedeva 10 domande con rispostequantitative. Per sei di queste variabili si sonoottenute risposte complete, mentre le restantiquattro presentano rispettivamente 3, 5, 12 e 316dati mancanti. Volendo effettuare analisi bivariatee analisi multivariate di questo data set:

• quali strategie può ragionevolmente adottare il ricercatore per il trattamento dei missing values?

• Quali conseguenze comporta ciascuna delle scelte effettuate?

Page 20: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

RISOLUZIONE• Si deve osservare in primo luogo che la decima

domanda presenta ben 316 dati mancanti su untotale di 400 individui partecipanti all’indagine. Ai finidelle analisi multivariate, la decisione più ragionevoleè dunque quella di eliminarla, effettuando leelaborazioni sul data set costituito dalla restanti 9variabili (vedi il testo: ZANI – CERIOLI, 2007, p. 77, n.2).

• La matrice dei dati di dimensioni 400×9 può oraessere trattata con il criterio pairwise o con il criteriolistwise. Quest’ultimo è preferibile poiché i datimancanti nelle variabili considerate sono pochi

Page 21: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

TIPI DI ERRORI

• Errori campionari• Errori non campionari

• Errore totale• La stima delle componenti dell’errore

totale attribuibili ad ogni singola fonte dierrore è denominata profilo dell’errore erende possibile l’attività di convalida(validation) dell’informazione ottenuta.

Page 22: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

ERRORI DI MISURA(parte dell’errore non campionario)

• Costituiti dalla differenza tra il valore vero(ma ignoto!) del fenomeno in un certaunità statistica ed il valore rilevatodall’indagine:

• valori inammissibili o dati fuori dominio;• valori anomali (outliers);• errori non facilmente individuabili, in

quanto non corrispondono a valoriinammissibili o anomali.

Page 23: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

VALORI ANOMALI

• Definizione. Un valore anomalo è un’osservazione che, essendo atipica o erronea, si scosta decisamente dal comportamento degli altri dati, con riferimento al tipo di analisi considerata.

Page 24: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

RICHIAMI SUL BOXPLOT

Page 25: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Boxplot di 16 punti

Page 26: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Boxplot di 16 punti

Il punto di troncamento superiore è in corrispondenza del valore più grande ≤ x75%+1.5DI

Il punto di troncamento inferiore si colloca in corrispondenza del valore più piccolo ≥ x25%-1.5DI

Page 27: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Boxplot dei 20 valori della tabella 4.2 libro STAT

Page 28: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Tasso di disoccupazione

5 10 15 20 25

020

40

60

80

ili 2001 d t[ 9]

Fre

q.

rel. p

erc

entu

ale

51

01

52

02

5

Page 29: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Tasso di attività

25 30 35 40 45 50 55

01

02

03

04

0

Fre

q.

rel. p

erc

en

tuale

30

35

40

45

50

55

Page 30: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Boxplot e istogrammi delle 3 variabili presenti dentro TAGLIAT40(MIS).xlsx

Page 31: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Boxplots in Excel 2016• Excel 2016 ha introdotto i grafici a scatola

ed i grafici ad istogramma

Page 32: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Boxplots in Excel

• Aprire il file HT_box.xls. Utilizzando il componente aggiuntivo boxplot.xla costuire il boxplot per le variabili prezzo e potenza. Aggiungere le etichette alle unità che risultano anomale

Page 33: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

SOLUZIONE

Page 34: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Output

Page 35: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Boxplots in SPSS• Una variabile: boxplot• Esempio: home theatre, prezzo e potenza

Page 36: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Esercizio

• Nel file ex23.sav analizzare tramite boxplot come varia la distribuzione della retribuzione al variare del titolo di studio (identificare i valori anomali)

Licenza media Diplomato Laureato

Titolo di studio

2000000

3000000

4000000

Retr

ibu

zio

ne lo

rda

me

se d

i g

iug

no

AA

S

S

18

16

Page 37: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Separare la precedente analisi per maschi e femmine

Licenza media Diplomato Laureato

Titolo di studio

2000000

3000000

4000000

Ret

ribuz

ione

lord

a m

ese

di g

iugn

o A

AS

Femmina Maschio

Licenza media Diplomato Laureato

Titolo di studio

A

Page 38: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare
Page 39: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Esercizio

• Nel file ex23.sav analizzare tramite boxplot come varia la distribuzione della retribuzione al variare del titolo di studio, inserendo come variabile di gruppo lo stato civile

Page 40: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Soluzione

Page 41: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Boxplot in SPSS: riepilogo opzioni

• Vai al caso• Etichetta ID punti• Modalità etichette valori• Variabile riquadro

righe/colonne• Variabile di gruppo su X

Page 42: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Boxplot per sottogruppi di unità

• File ex23box.xlsx

Page 43: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

TestoObiettivo: analizzare come varia la retribuzione al variare del sesso e del titolo di studio

Osservazione: inserire tutto l'output in nuovo foglio denominato SOLUZIONE

1) Costruire una tabella che riporti sulle righe la variabile sesso, sulle colonne la variabile titolo di studio e all'incrocio delle righe e delle colonne la retribuzione media. Partendo dalla tabella pivot costruire (e commentare) il grafico a barre associato. 2) Analizzare tramite boxplot come varia la retribuzione al variare del titolo di studio prima per l'intero campione (mostrando la linea della media) e poi per sesso. 3) Analizzare tramite boxplot come varia la retribuzione al variare del titolo di studio tenendo separati i maschi dalle femmine. Commentare i risultati ottenuti.4) Esplorare come variano i boxplot ottenuti al punto 3) utilizzando le due formule alternative mediana inclusiva e mediana esclusiva e commentare i risultati ottenuti.5) Copiare il grafico ottenuto al punto in nuovo grafico. Aggiungere al grafico copiato le etichette dei dati.

Page 44: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

INDIVIDUAZIONE DEGLI OUTLIERS BIVARIATI

• Diagramma di dispersione

Page 45: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

OUTLIERS BIVARIATI

Page 46: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

TIPI DI OUTLIERS (p. 81)

40,0020,000,00

60,00

40,00

20,00

DCBA1

TIPOLOGIA

Page 47: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

TRATTAMENTO DEGLI OUTLIERS

• Se esso è dovuto ad un errore di rilevazione noncorreggibile: eliminazione (trattandolo come undato mancante).

• Se è attribuibile ad una distribuzione differente:esclusione listwise della corrispondente unitàstatistica.

• Se è dovuto alla variabilità intrinseca delfenomeno: conservarlo (eventualmentetrasformazione della corrispondente variabile, adesempio logaritmica).

Page 48: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Trattamento degli outliers

Page 49: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

OSSERVAZIONI INFLUENTI

• Il vettore dei dati di un’unità statistica è unaosservazione influente se incide in misura moltorilevante sul valore numerico d’un certo indicestatistico oppure sui parametri osull’adattamento d’uno specifico modello.

• Omission approach: calcolo delle variazionidell’indice o dei parametri del modelloeliminando una singola unità fra le nconsiderate.

Page 50: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

rxy = 0.6, senza outlier rxy = 0 (p. 85)

12.0010.008.006.004.002.00

12.00

10.00

8.00

6.00

4.00

2.00

Page 51: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

rxy = 0.6, senza outlier rxy = 0.98 (p. 85)

35.0030.0025.0020.0015.0010.00

40.00

35.00

30.00

25.00

20.00

15.00

Page 52: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Teorema (di Sastry and Nag, 1990).

• Considerando n coppie di dati (xi, yi), i = 1, 2, …, n, di due variabili X e Y, delle quali (n -1) assumono valori prefissati, risulta:

• lim r2xy = 1 per x2

n → +∞ e y2n → +∞

• Una sola osservazione molto più grande delle altre fa tendere ad 1 il coefficiente di correlazione!

Page 53: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

ESERCIZIO

• Si disegni un diagramma di dispersione riferito a 12 unità ed a due variabili X e Ycon forte correlazione lineare inversa.

• Si inserisca in tale grafico un’ulteriore unità, che risulta anomala per la variabile X, ma non per la variabile Y.

• Si dica quale effetto produce sul coefficiente di correlazione l’inserimento della suddetta tredicesima unità

Page 54: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Esercizio

• Generare 50 osservazioni y in base al modello di regressione

• Generare i dati x in base alla distribuzione uniforme [0 1] e i disturbi epsilon in base alla distribuzione normale N(0, σ). Stimare i parametri a e b del modello di regressione.

Page 55: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · TRATTAMENTI PRELIMINARI DEI DATI ... Esercizio • Nel file ex23.sav analizzare tramite boxplot come varia la ... • Generare

Esercizio (continua)

• Verificare empiricamente il teorema di Sastry and Nag, 1990, ossia aggiungere un’osservazione molto distante dalla nuvola dei punti e vedere come cambia r2

xy