Upload
liadownload
View
216
Download
0
Embed Size (px)
Citation preview
7/24/2019 Aula4-AED-2
1/71
INE 5644 Minerao de Dados Anlise Exploratria de Dados
Luis Otavio Alvares
Apresentao aseada e! slides dos pro"s#$os% Leo!ar &odes'o e Maur('io )eis
7/24/2019 Aula4-AED-2
2/71
O o*etivo da anlise exploratria de dados %exa!inar a estrutura su*a'ente dos dados eaprender sore os rela'iona!entos siste!ti'osentre !uitas variveis#
A anlise exploratria de dados in'lui u! 'on*untode "erra!entas +r"i'as e des'ritivas, para explorar
os dados, 'o!o pr%-re.uisito para u!a anlise dedados !ais "or!al /0redio, 0reviso, Esti!ao,1lassi"i'ao e &estes de 2ipteses3, e 'o!o parteinte+ral "or!al da 'onstruo de !odelos#
1one'endo os dados
7/24/2019 Aula4-AED-2
3/71
A AED "a'ilita a des'oerta de 'one'i!ento noesperado, 'o!o ta!%! a*uda a 'on"ir!ar oesperado#
1o!o u!a i!portante etapa e! Data Minin+, a
AED e!pre+a t%'ni'as estat(sti'as des'ritivas e+r"i'as para estudar o 'on*unto de dados,dete'tando outliers e ano!alias, e testando assuposies do !odelo#
A AED % u! i!portante pr%-re.uisito para seal'anar o su'esso e! .ual.uer pro*eto de data!inin+#
Anlise Exploratria de Dados
7/24/2019 Aula4-AED-2
4/71
Distriuies de re.78n'ias
or+ani9ao dos dados de a'ordo 'o! aso'orr8n'ias dos di"erentes resultadososervados#
0ode ser apresentada: e! taela ou e! +r"i'o; 'o! "re.78n'ias asolutas, relativas ou
por'enta+ens#
7/24/2019 Aula4-AED-2
5/71
Exe!plo /'o! varivel .ualitativa3
7/24/2019 Aula4-AED-2
6/71
Exe!plo /'o! varivel .ualitativa3
7/24/2019 Aula4-AED-2
7/71
= 4 B @C @6 C= C4
7/24/2019 Aula4-AED-2
8/71
7/24/2019 Aula4-AED-2
9/71
7/24/2019 Aula4-AED-2
10/71
Exe!plo /'o! varivel dis'reta3
Nu!a rede de 'o!putadores, a .uantidade de!.uinas li+adas, por dia
C= C6 C@ C@ C= C@ C CC C4 CC
CC CC C C C CC C CC C4 C@
7/24/2019 Aula4-AED-2
11/71
Distriuio de re.78n'ias
M.uinase! uso
C=
C@CCCC4
C5C6&otal
re.78n'ia/asoluta3
C
465C
=@C=
0roporo /3
=,@= /@=3
=,C= /C=3=,= /=3=,C5 /C53=,@= /@=3
=,== /= 3=,=5 / 53
@,== /@==3
7/24/2019 Aula4-AED-2
12/71
7/24/2019 Aula4-AED-2
13/71
5,C 6,4 5,F B, F,= 5,4 4,B ,@5,5 6,C 4, 5,F 6, 5,@ B,4 6,CB, F, 5,4 4,B 5,6 6,B 5,= 6,FB,C F,@ 4, 5,= B,C , 5,4 5,65,F 6,C 4, 5,@ 6,= 4,F @B,@ 5,
4, 5,= 5,F 6, 6,= 6,B F, 6,6,5 5,
&e!po /e! se+undos3 para 'ar+a de u!apli'ativo nu! siste!a 'o!partilado /5=oservaes3:
Exe!plo /'o! varivel 'ont(nua3
7/24/2019 Aula4-AED-2
14/71
5,C 6,4 5,F B, F,= 5,4 4,B ,@5,5 6,C 4, 5,F 6, 5,@ B,4 6,CB, F, 5,4 4,B 5,6 6,B 5,= 6,FB,C F,@ 4, 5,= B,C , 5,4 5,6
5,F 6,C 4, 5,@ 6,= 4,F @B,@ 5,4, 5,= 5,F 6, 6,= 6,B F, 6,6,5 5,
DADO?
4,F @B,@
4 @5 6 F ...
7/24/2019 Aula4-AED-2
15/71
te!po
nH!erodeoserva5es
=
C
4
6
B
@=
@C
@4
@6
@B
C=
4 6 B @= @C @4 @6 @B
Histograma do tempo (em segundos) para carga
de um aplicativo num sistema compartilhado
(50 observaes) - discretizao
2isto+ra!a
7/24/2019 Aula4-AED-2
16/71
17
7/24/2019 Aula4-AED-2
17/71
18
7/24/2019 Aula4-AED-2
18/71
Medidas Des'ritivas
Existe! !edidas .uantitativas .ue
serve! para des'rever, resu!ida!ente,
'ara'ter(sti'as das distriuies#As !ais utili9adas so a mdia e o
desvio padro#
7/24/2019 Aula4-AED-2
19/71
M%dia /3
A !%dia arit!%ti'a si!ples / 3 % a so!a dosvalores dividida pelo nH!ero de oservaes#
J
n
7/24/2019 Aula4-AED-2
20/71
Exe!plo
Dese*a-se estudar o nH!ero de "alas noenvio de !ensa+ens, 'onsiderando tr8sal+orit!os di"erentes para o envio dos
pa'otes: Al+orit!o A /B oservaes3
Al+orit!o G /B oservaes3Al+orit!o 1 /F oservaes3
7/24/2019 Aula4-AED-2
21/71
Exe!plo
NH!ero de "alas a 'ada @=#=== !ensa+ensenviadas#
A: C= C@ C@ CC CC C C C4
G: @6 @B C= CC CC C4 C6 CB
1: @5 CC C C C C4 C4
1 d t 8 l it l
7/24/2019 Aula4-AED-2
22/71
1o!parao dos tr8s al+orit!os pela!%dia
al+orit!o "alas !%dia
A C= C@ C@ CC CC C C C4 CC
G @6 @B C= CC CC C4 C6 CB CC
1@5 CC C C C C4 C4
CC
7/24/2019 Aula4-AED-2
23/71
@5 @6 @F @B @ C= C@ CC C C4 C5 C6 CF CB C
AG
1
NH!ero de "alas
Dia+ra!as de 0ontos
Al+orit!o
7/24/2019 Aula4-AED-2
24/71
1o!o !edir a dispersoK
Exe!plo: A / C= C@ C@ CC CC C C C4 3
C= C@ 22 C C4
distn'ia /desvio3 e! relao !%dia
7/24/2019 Aula4-AED-2
25/71
Desvios
>alores C= C@ C@ CC CC C C C4
M%dia CC
Desvios / - 3 -C -@ -@ = = @ @ C
7/24/2019 Aula4-AED-2
26/71
Desvios
C= C@ 22 C C4
-C -@ = @ CDesvios: ?o!a J =
7/24/2019 Aula4-AED-2
27/71
Desvios uadrti'os
?o!a
>alores C= C@ C@ CC CC C C C4 @F6
M%dia CC -
Desvios - -C -@ -@ = = @ @ C =
Desvios.uadrti'os
/-3C
4 @ @ = = @ @ 4 @C
7/24/2019 Aula4-AED-2
28/71
>arin'ia /?C3
A varin'ia /?C3 % u!a !%dia dos desvios
.uadrti'os# sa-se no deno!inador n-@ aoinv%s de n .uando traala!os 'o! a!ostrase no a populao 'o!pleta#
No exe!plo apresentado /al+orit!o A3, a varin'ia %:
( )1
2
2
=
n
XXS
?CJ
F
@CJ @,F@
7/24/2019 Aula4-AED-2
29/71
Desvio 0adro /?3
O desvio padro /?3 % a rai9 .uadrada davarin'ia#
No exe!plo apresentado /al+orit!o A3, o desvio padro %:
? J ?C
? J @,F@ J @,@
1o!parao dos tr8s al+orit!os pela
7/24/2019 Aula4-AED-2
30/71
1o!parao dos tr8s al+orit!os pela!%dia e desvio padro
Al+orit!o alas ?
A C= C@ C@ CC CC C C C4 CC @,@G @6 @B C= CC CC C4 C6 CB CC 4,==
1 @5 CC C C C C4 C4 CC ,@6
7/24/2019 Aula4-AED-2
31/71
@5 @6 @F @B @ C= C@ CC C C4 C5 C6 CF CB C
NH!ero de "alas
Algoritmo A
(S !"#!$
Algoritmo %
(S &"''$
Algoritmo
(S #"!)$
Dia+ra!as de pontos e valores de ?
7/24/2019 Aula4-AED-2
32/71
TA!"AMedidas des'ritivas das notas "inaisdos alunos de tr8s tur!as
&ur!a NH!ero dealunos M%dia Desviopadro
A
G1
C=
4==
6,=
B,=,=
,
@,5C,6
Exe!plo
7/24/2019 Aula4-AED-2
33/71
Medida relativa de disperso - Exe!plo
*!+ ! 2 #
*2+ !'' !'! !'2
*#+ !'' 2'' #''
!%dia J Cdesvio padro J @'oe"i'iente de variao J =,5
!%dia J @=@desvio padro J @
'oe"i'iente de variao J =,=@!%dia J C==desvio padro J @=='oe"i'iente de variao J =,5
oe,iciente de variao desvio padro - mdia
1on*unto de dados: so C oservaes relativas
7/24/2019 Aula4-AED-2
34/71
1on*unto de dados: so C oservaes relativas preos de auto!veis#
O&LIE)?
7/24/2019 Aula4-AED-2
35/71
I 1art; variale: PC
2isto+ra! o" Oservations
=
5
@=
@5
C=
C5
D=
D5
4=
45
5=
55
-C=
-@=
=
@=
C=
D=
4=
5=
6=
F=
I: @A,6DC /@A,6DC3; ?i+!a: =,==== /A,65A=3; n: @,
@= C= D= 4= 5= 6= F= B= A=
-A,D455
@A,6DC
4B,6=A
Q>eri"i'ar avariailidade
Qoutliers
O&LIE)?:
SX 2O
SX 3
O&LIE)?
1on*unto de dados: preos de "e'a!ento de aes
7/24/2019 Aula4-AED-2
36/71
1on*unto de dados: preos de "e'a!ento de aesda telers
7/24/2019 Aula4-AED-2
37/71
I 1art; variale: &eleras
2isto+ra! o" Oservations
= C 4 6 B @= @C @4
@C
@4
@6
@B
C=
CC
C4
C6
CB
D=
DC
D4
D6
DB
I: C5,FC5 /C5,FC53; ?i+!a: =,==== /4,5=B=3; n: @,
@= C= D= 4= 5=
@6,F=A@6,F=A
C5,FC5
D4,F4@D4,F4@
?%riete!poral
( )S2X
( )S2X+
M did d d d d d
7/24/2019 Aula4-AED-2
38/71
2/2/
2/
2/
Medidas aseadas na ordenao dos dados
#$
uartilIn"erior
/@0
.uartil3
%d
!ediana
#&
uartil?uperior/0 .uartil3
o nH!ero deele!entos % o!es!o e! 'ada
.uartil /C53
1l l d di
7/24/2019 Aula4-AED-2
39/71
Dados:
{2, 0, 5, 7, 9, 1, 3, 4, 6, 8}
1d &"
= @ C 4 5 6 F B
1l'ulo da !ediana
n J @=; /n R @3 S C J 5,5
1l'ulo dos uartis
7/24/2019 Aula4-AED-2
40/71
i 2 s 3
= @ C 4 5 6 F B
1d &"
1l'ulo dos uartis
4i ' 4s 5
7/24/2019 Aula4-AED-2
41/71
1l'ulo da !ediana
Dados:
{2, 0, 5, 7, 9, 1, 3, 4, 6, 8, 100}
1d
= @ C 4 5 6 F B @==
Exer'('io:
n J @@; /n R @3 S C J 6
E ( i
7/24/2019 Aula4-AED-2
42/71
i 2"
s 3"
1l'ulo dos .uartis
4i ' 1d
= @ C 4 5 6 F B @==
4s !''
Exer'('io:
1edida de disperso+
7/24/2019 Aula4-AED-2
43/71
1edida de disperso+
6ist7ncia interquart8lica
O desvio inter-.uart(li'o % u!a !edida rousta de
disperso# Ele % 'al'ulado por:
13 QQ
Onde Q3% o per'entil F5, ta!%! 'a!ado de .uartil superior, e o Q1% o per'entil
C5, ta!%! 'a!ado de .uartil in"erior# Ele % u!a oa !edida de disperso paradistriuies assi!%tri'as# 0ara dados nor!al!ente distriu(dos, o desvio inter-.uart(li'o % aproxi!ada!ente i+ual a @,5 ve9es o desvio padro#
Medidas da varivel IDADE de "un'ionrios de u!a e!presa,
do setor de te'idos:
Distriuio da varivel IDADE de "un'ionrios
7/24/2019 Aula4-AED-2
44/71
Distriuio da varivel IDADE de "un'ionriosde u! e!presa,setor te'idos:
M%dia e Mediana
7/24/2019 Aula4-AED-2
45/71
= @= C= = 4= 5= 6= F=
1dJ CC,5 'J C4,F
5= dos valores 5= dos valores
M%dia e Mediana
M%dia e Mediana
7/24/2019 Aula4-AED-2
46/71
5=E5=E
!%dia J !ediana
/a3 distriuiosi!%tri'a5=E
5=E
!ediana !%dia
/3 distriuio
assi!%tri'a
M%dia e Mediana
Dia+ra!a e! 'aixas /Gox 0lot3
7/24/2019 Aula4-AED-2
47/71
Dia+ra!a e! 'aixas /Gox 0lot3
2/
2/2/
2/
2/ 2/2/
2/
Dia+ra!a e! 1aixas
7/24/2019 Aula4-AED-2
48/71
Dia+ra!a e! 1aixas
B
@
@B
C
CB
Monte
>erde
En'osta
do Morro
)enda
"a!iliar
/sal# !(n#3
outlier
9lc lo dos : tliers
7/24/2019 Aula4-AED-2
49/71
9lculo dos :utliers
( )( )ISS
ISI
QQQQQQ
+
5,1
5,1
Onde QI% o .uartil in"erior ou pri!eiro .uartil da
distriuio; QS% o .uartil superior ou ter'eiro .uartil da
distriuio# O valor @,5 pode ser alterado#
&)AN?O)MATUO DE DADO?
7/24/2019 Aula4-AED-2
50/71
51
&)AN?O)MATUO DE DADO?
O*etivo: oter os dados e! u!a "or!a !aisapropriada para os al+orit!os de !inerao
QAlisa!entoQ
7/24/2019 Aula4-AED-2
51/71
52
Alisa!ento
Eli!inao de ru(dos, ex'ees, ouliers, .ue sopre*udi'iais a !uitos al+orit!os de !inerao
7/24/2019 Aula4-AED-2
52/71
53
7/24/2019 Aula4-AED-2
53/71
O propsito da nor!ali9ao % !ini!i9ar os prole!asoriundos do uso de unidades e disperses distintas entre asvariveis#
Al+uns al+orit!os de !inerao so ene"i'iados 'o! anor!ali9ao /redes neurais, VNN, V-!edias, ###3
Nor!ali9ao
Nor!ali9ao
7/24/2019 Aula4-AED-2
54/71
55
:;
7/24/2019 Aula4-AED-2
55/71
56
=ormali>ao linear no intervalo ?'"!@
Nor!ali9ao
Nor!ali9ao
7/24/2019 Aula4-AED-2
56/71
57
=ormali>ao por desvio padro
O*etivo: 'onsidera a posio !%dia dos valores e os +raus dedisperso e! relao posio !%dia
Ytil .uando !(ni!o e !xi!o so des'one'idos
"/3 J / - !%dia3 S Z
onde Z J desvio padro
!%dia J @B5=
Z J @@@,6C
Nor!ali9ao
Nor!ali9ao
7/24/2019 Aula4-AED-2
57/71
58
=ormali>ao pelo valor m9imo dos elementos
Dividir 'ada valor pelo !aior valor )esultado si!ilar nor!ali9ao linear
QI+ual se !(ni!o J = /9ero3
"/3 J S !xi!o
Nor!ali9ao
Nor!ali9ao
7/24/2019 Aula4-AED-2
58/71
59
=ormali>ao por escala decimal
Deslo'ar o ponto de'i!al dos valores
sendoj = menor inteiro tal que Max( |f(X)|) 1
Nor!ali9ao
&rans"or!ao nu!%ri'o 'ate+ri'o
7/24/2019 Aula4-AED-2
59/71
60
&rans"or!ao nu!%ri'o 'ate+ri'o
QMapea!ento diretoQMapea!ento e! intervalos /dis'reti9ao3
O*etivo: trans"or!ao de valores nu!%ri'ospara 'ate+ri'os ou dis'retos
&rans"or!ao nu!%ri'o 'ate+ri'o
7/24/2019 Aula4-AED-2
60/71
61
&rans"or!ao nu!%ri'o 'ate+ri'o
1apeamento diretoQO*etivo: sustituio de valores nu!%ri'ospor valores 'ate+ri'os
Exe!plo: sexo@ M=
&rans"or!ao nu!%ri'o 'ate+ri'o
7/24/2019 Aula4-AED-2
61/71
62
1apeamento em intervalos (discreti>ao$ O*etivo: sustituio de valores dentro de u!
intervalo por u! identi"i'ador
Identi"i'ador de intervalo: 1ate+ri'o: no!e /su+esto: !neu![ni'o3 Nu!%ri'o
Exe!plo: nH!ero de dependentes
&rans"or!ao nu!%ri'o 'ate+ri'o
&rans"or!ao nu!%ri'o 'ate+ri'o
7/24/2019 Aula4-AED-2
62/71
63
1apeamento em intervalos (discreti>ao$+ ,ormas
Bntervalos com tamanCo prDde,inidos /do!(nio daapli'#3= a @ ' " C a 5 ! " 6 a 2
Bntervalos de igual tamanCo /'one'i!ento dos li!itesdo intervalo3C intervalos S @= valores: = a 4 ' " 5 a !
Bntervalos com o mesmo nEmero de elementos Bntervalos por meio de clusteri>ao
tili9a al+u! al+orit!o de a+rupa!ento de dados para des'orirauto!ati'a!ente a distriuio dos dados
&rans"or!ao nu!%ri'o 'ate+ri'o
&rans"or!ao 'ate+ri'o nu!%ri'o
7/24/2019 Aula4-AED-2
63/71
64
O*etivo: trans"or!ao de valores 'ate+ri'ose! nu!%ri'os
QMapea!ento direto
Q)epresentao inria @-de-N
&rans"or!ao 'ate+ri'o nu!%ri'o
&rans"or!ao 'ate+ri'o nu!%ri'o
7/24/2019 Aula4-AED-2
64/71
65
&rans"or!ao 'ate+ri'o nu!%ri'o
1apeamento direto
Mapea!ento e! valores de @ a N
&rans"or!ao 'ate+ri'o nu!%ri'o
7/24/2019 Aula4-AED-2
65/71
66
&rans"or!ao 'ate+ri'o nu!%ri'o
1apeamento direto
uando o atriuto 'ate+ri'o "or ordinal, %
i!portante .ue os valores nu!%ri'os si+a! a!es!a orde!
conceito mapeamento
)ui! @
)e+ular C
Go!
\ti!o 4
&rans"or!ao 'ate+ri'o nu!%ri'o
7/24/2019 Aula4-AED-2
66/71
67
&rans"or!ao 'ate+ri'o nu!%ri'o
epresentao ;in9ria !DdeD=
QMapea!ento e! nH!ero 'u*a representaoinria tena N d(+itos
?o!ente u! d(+ito % ]@^
Outros tipos de dados: outras trans"or!aes
7/24/2019 Aula4-AED-2
67/71
Outros tipos de dados: outras trans"or!aes
&exto /ex: 'ate+ori9ao de textos; ]exa!e^ de e-!ails, ###3 internet 'onteHdo estrutura uso
i!a+ens se.78n'ias de +enes s%ries te!porais
dados de tra*etrias dados de redes so'iais #####
7/24/2019 Aula4-AED-2
68/71
Exer'('ios
7/24/2019 Aula4-AED-2
69/71
1onverter os dados aaixo para valoresnu!%ri'os e nor!ali9-los e! W=, @X
70
Exer'('ios
Exer'('ios
7/24/2019 Aula4-AED-2
70/71
Dis'reti9ar o atriuto .ue possui os valores aaixoe! intervalos
=, @, @, @, C, C, C, , 4, 6, 6, , @=, @, C=, C=, C@, C@, CC, C, C
sar: &a!anos i+uais re.78n'ias i+uais
71
Exer'('ios
0rxi!a Aula
7/24/2019 Aula4-AED-2
71/71
0rxi!a Aula
1lassi"i'ao
Bntroduo+De"inio, o*etivos e 'ara'ter(sti'as da 'lassi"i'ao;
A;ordagem Sim;lica+rvore de de'iso, teoria da in"or!ao,al+orit!os ID e 14#5;