41
Estatistica Ricardo Ehlers [email protected] Departamento de Matem´ atica Aplicada e Estat´ ıstica Universidade de S˜ ao Paulo

Estatistica - icmc.usp.brEstatistica Ricardo Ehlers [email protected] Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Estatistica

Ricardo [email protected]

Departamento de Matematica Aplicada e Estatıstica

Universidade de Sao Paulo

Page 2: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Introducao

Page 3: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

O que e Estatıstica

• Ciencia de aprendizagem a partir de dados.

• Envolve a coleta e analise de dados e sua consequentetransformacao em informacao.

• Objetivos: postular, refutar ou validar hipoteses cientıficassobre um fenomeno observavel.

• Analogamente: tomada de decisao nos mais variadosproblemas onde existe incerteza.

• Usando Teoria das Probabilidades, os estatısticos formalizameste processo de forma a aperfeicoa-lo.

• Os metodos estatısticos tem um forte embasamentomatematico.

Informacao Dados → Analise → Tomada de Decisao

1

Page 4: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Probabilidade nao existe.

Bruno de Finetti

Todos os modelos estao errados, mas alguns sao uteis.

George P. Box

2

Page 5: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Velocidades de 82 galaxias em Km/seg na constelacao de Coroa

Boreal

0 10 20 30 40

0.0

00

.05

0.1

00

.15

0.2

0

velocity of galaxy (1000km/s)

de

nsity

3

Page 6: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

• Quantos grupos de galaxias existem?

• Os valores mais afastados formam outro grupo ou sao’outliers’?

• Como tratar problemas de identificacao do modelo?

• Se uma nova galaxia for descoberta ela pertencera a qualgrupo com qual probabilidade?

4

Page 7: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Analise Temporal

Page 8: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Analise e Previsao de Series Temporais.

0 50 100 150 200 250

−4

−2

02

46

Time

se

rie

s

Page 9: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

• Existem padroes temporais ?

• Como fazer boas previsoes? (O que e uma“boa”previsao?)

• Como construir os intervalos de previsao?

• Quao longe no futuro e seguro prever?

6

Page 10: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Taxas de cambio diarias em relacao ao Dolar Americano.

Franco Marco

Libra Dolar Canadense

0 500 1000 1500 2000 0 500 1000 1500 2000

1.1

1.2

1.3

1.4

1.5

1.4

1.5

1.6

1.7

1.8

1.9

0.50

0.55

0.60

0.65

0.70

5.0

5.5

6.0

Time 7

Page 11: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Retornos diarios em relacao ao Dolar Americano.

Franco Marco

Libra Dolar Canadense

0 500 1000 1500 2000 0 500 1000 1500 2000

−0.01

0.00

0.01

−0.02

0.00

0.02

−0.02

0.00

0.02

−0.02

−0.01

0.00

0.01

0.02

Time 8

Page 12: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Contagio Financeiro

• Aumento significativo da probabilidade de crise em um paıscondicional a crise em outro paıs.

• Por exemplo, a ocorrencia de crise cambial em um paısaumenta a probabilidade de ataques especulativos em outrospaıses.

9

Page 13: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Precos diarios, alguns indices de mercado europeu

1992 1993 1994 1995 1996 1997 1998

20

00

30

00

40

00

50

00

60

00

70

00

80

00

DAX

SMI

CAC

FTSE

10

Page 14: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Ozonio (em PPB) e radiacao solar em NY 1/5/1973 a 30/9/1973

05

01

00

15

0

Ozo

ne

0 50 100 150

Index

01

00

20

03

00

So

lar

11

Page 15: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Dados peso versus idade (em dias) de frangos sob diferentes dietas.

100

200

300

0 5 10 15 20

Time

we

igh

t

Diet

1

2

3

4

12

Page 16: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

0 5101520 0 5101520 0 5101520 0 5101520 0 5101520

0 5101520 0 5101520 0 5101520 0 5101520

100

200

300

100

200

300

100

200

300

100

200

300

100

200

300

100

200

300

we

igh

t

13

Page 17: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Tendencia de precos de casas por estado americano (1975 a 2013).

0

250000

500000

750000

1980 1990 2000 2010

Date

Ho

me.V

alu

e

State

AK

AL

AR

AZ

CA

CO

CT

DC

DE

FL

GA

HI

IA

ID

IL

IN

KS

KY

LA

MA

MD

ME

MI

MN

MO

MS

MT

NC

ND

NE

NH

NJ

NM

NV

NY

OH

OK

OR

PA

RI

SC

SD

TN

TX

UT

VA

VT

WA

WI

WV

WY

14

Page 18: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

VA VT WA WI WV WY

OK OR PA RI SC SD TN TX UT

NC ND NE NH NJ NM NV NY OH

LA MA MD ME MI MN MO MS MT

FL GA HI IA ID IL IN KS KY

AK AL AR AZ CA CO CT DC DE

198019902000201019801990200020101980199020002010198019902000201019801990200020101980199020002010

198019902000201019801990200020101980199020002010

0

250000

500000

750000

0

250000

500000

750000

0

250000

500000

750000

0

250000

500000

750000

0

250000

500000

750000

0

250000

500000

750000

Ho

me.V

alu

e

15

Page 19: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Alguns Tipos de Associacao

Page 20: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Medidas de Associacao para Valores Extremos (Dados simulados)

−5.0

−2.5

0.0

2.5

−4 0 4

x

y

16

Page 21: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Valores Extremos (minimos e maximos)

−5.0

−2.5

0.0

2.5

−4 0 4

x

y

17

Page 22: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Dados de peso, altura e idade (questionario estudantil)

50

60

70

80

90

1.5 1.6 1.7 1.8

Alt

Peso

17

19

21

23

25Idade

18

Page 23: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Dados de peso, altura e sexo (questionario estudantil)

50

60

70

80

90

1.5 1.6 1.7 1.8

Alt

Peso

Sexo

F

M

19

Page 24: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Dados de peso, altura, idade e sexo (questionario estudantil)

50

60

70

80

90

1.5 1.6 1.7 1.8

Alt

Peso

17

19

21

23

25Idade

Sexo

F

M

20

Page 25: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Dados de peso, altura, idade e sexo (questionario estudantil)

AlturaPeso

Idade

21

Page 26: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Afghanistan

Argentina Barbados

Bhutan

Botswana

Brazil

Britain

Cape Verde

China

Congo

FranceGermany

Greece

IndiaIraq

ItalyJapan

Myanmar

New Zealand

Norway

Russia

Rwanda

Singapore

South Africa

Sudan

United States

Venezuela

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

1 2 3 4 5 6 7 8 9 10

Corruption Perceptions Index, 2011 (10=least corrupt)

Hu

ma

n D

eve

lop

me

nt

Ind

ex,

20

11

(1

=B

est)

Corruption and Human development

22

Page 27: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Analise Espacial

Page 28: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Medidas de associacao em 2 dimensoes

X

Y

2

4

6

8

10

2 4 6 8 10

0

1

2

3

4

5

23

Page 29: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Taxa de Desemprego por condado nos EUA, 2009

2−4% 4−6% 6−8% 8−10% >10%

24

Page 30: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Abalos sismicos (MB > 4) em torno das Ilhas Fiji desde 1964

100 120 140 160 180

−4

0−

30

−2

0−

10

0

25

Page 31: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

xxxxx

26

Page 32: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Modelos e Inferencia

Page 33: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Um modelo e uma simplificacao da realidade(e alguns sao uteis)

Quantidades observaveis Quantidades nao observaveis(podem ser medidas) (parametros e variaveis latentes)

Abordagens: Classica e Bayesiana

Intuicao sem base teorica e reflexao em geral resulta em erro.

Dados: os valores observados das quantidades observaveis.

27

Page 34: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Inferencia estatıstica

Processo de tirar conclusoes sobre um conjunto maior (populacao)usando informacao de um conjunto menor (amostra).

PopulacaoTodos os casos ou situacoes sobre as quais o pesquisador querfazer inferencias.

Exemplos,

• Fazer inferencias sobre concentracao de poluentes numdeterminado lencol freatico,

• Predizer a quantidade de petroleo num poco a ser perfurado,

• Estimar o tempo de vida util de um componente eletronico.

28

Page 35: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

AmostraUm subconjunto qualquer da populacao.

Por que nao observar a populacao inteira?

• Alto custo.

• Tempo muito longo.

• Impossibilidade fısica (e.g. estudo de poluicao amosferica).

• Impossıvel logica (e.g. em ensaios destrutivos).

29

Page 36: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

• Variaveis: caracterısticas de uma populacao que diferem deum indivıduo para outro e as quais queremos estudar.

• Observacoes: medidas de uma ou mais variaveis de umindivıduo na amostra.

• Censo: estudo que inclui todos os elementos de umapopulacao.

30

Page 37: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Dados Brutos

Page 38: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Exemplo. Dados parciais de um questionario estudantil.

http://www.ime.usp.br/~noproest/dados/questionario.txt

Turma Sexo Idade Alt Peso Filhos Fuma Toler Exerc Cine OpCine TV OpTV

A F 17 1.60 60.50 2 NAO P 0 1 B 16 RA F 18 1.69 55.00 1 NAO M 0 1 B 7 RA M 18 1.85 72.80 2 NAO P 5 2 M 15 RA M 25 1.85 80.90 2 NAO P 5 2 B 20 RA F 19 1.58 55.00 1 NAO M 2 2 B 5 RA M 19 1.76 60.00 3 NAO M 2 1 B 2 RA F 20 1.60 58.00 1 NAO P 3 1 B 7 RA F 18 1.64 47.00 1 SIM I 2 2 M 10 RA F 18 1.62 57.80 3 NAO M 3 3 M 12 RA F 17 1.64 58.00 2 NAO M 2 2 M 10 RA F 18 1.72 70.00 1 SIM I 10 2 B 8 NA F 18 1.66 54.00 3 NAO M 0 2 B 0 RA F 21 1.70 58.00 2 NAO M 6 1 M 30 RA M 19 1.78 68.50 1 SIM I 5 1 M 2 NA F 18 1.65 63.50 1 NAO I 4 1 B 10 R

31

Page 39: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Id: identificac~ao do aluno.

Turma: turma a que o aluno foi alocado (A ou B).

Sexo: F se feminino, M se masculino.

Idade: idade em anos.

Alt: altura em metros.

Peso: peso em quilogramas.

Filhos: numero de filhos na familia.

Fuma: habito de fumar, sim ou n~ao.

Toler: tolerancia ao cigarro:

(I) indiferente, (P) incomoda pouco e (M) incomoda muito.

Exerc: horas de atividade fisica, por semana.

Cine: numero de vezes em que vai ao cinema por semana.

OpCine: opini~ao a respeito das salas de cinema na cidade:

(B) regular a boa e (M) muito boa.

TV: horas gastas assistindo TV, por semana.

OpTV: opini~ao a respeito da qualidade da programac~aoo na TV:

(R) ruim, (M) media, (B) boa e (N) n~ao sabe.

32

Page 40: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

Exemplo. Dados de incidencia de cancer.

http://www.ime.usp.br/~noproest/dados/cancer.txt

Grupo Idade AKP P LDH ALB N GL

1 71 8.00 3.20 7.80 62 6 1131 66 10.50 5.10 50.10 57 9 931 83 8.50 3.30 15.30 53 21 1091 52 12.80 3.20 18.80 45 14 911 61 7.40 4.30 12.90 69 19 781 54 8.10 2.70 15.90 57 10 1221 27 3.80 3.20 24.90 64 14 881 91 7.80 3.50 30.10 61 28 1041 74 8.20 3.20 20.70 66 21 911 67 14.00 2.90 15.80 60 15 1031 43 7.30 3.90 11.80 68 15 931 40 5.50 2.80 18.10 63 16 961 64 6.30 3.20 22.40 56 14 1271 23 3.30 2.40 24.20 61 13 931 58 10.30 3.00 14.90 62 14 1021 18 9.30 2.70 12.50 55 6 99

33

Page 41: Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica Aplicada e Estat´ıstica Universidade de S˜ao Paulo

coluna 1: Identificac~ao do paciente.

coluna 2: Diagnostico:

1 = Falso-negativo: diagnosticados como n~ao tendo a

doenca quando na verdade a tinham.

2 = Negativo: diagnosticados como n~ao tendo a doenca

quando de fato n~ao a tinham.

3 = Positivo: diagnosticados corretamente como tendo a doenca.

4 = Falso-positivo: diagnosticados como tendo a doenca

quando na verdade n~ao tinham.

coluna 3: Idade.

coluna 4: Espectro quımico da analise do sangue:

alkaliine phosphatose (AKP).

coluna 5: Concentrac~ao de fosfato no sangue (P).

coluna 6: Enzima, lactate dehydrogenase (LDH).

coluna 7: Albumina (ALB).

coluna 8: Nitrogenio na ureia (N).

coluna 9: Glicose (GL).

34