91
Universidade Federal de Mato Grosso Instituto de Ciências Exatas e da Terra Departamento de Estatística Notas de aula de Probabilidade e Estatística Anderson Castro Soares de Oliveira 2011

Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Embed Size (px)

Citation preview

Page 1: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Universidade Federal de Mato GrossoInstituto de Ciências Exatas e da Terra

Departamento de Estatística

Notas de aula de Probabilidade e Estatística

Anderson Castro Soares de Oliveira

2011

Page 2: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

SUMÁRIO

1 Introdução 41.1 Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.1 Amostragem Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.1.2 Amostragem Sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.1.3 Amostragem Estratificada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2 Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Estatística Descritiva 92.1 Tipo de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2 Variáveis Qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.3 Variáveis Quantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.4 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.4.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.4.1.1Propriedades da média . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.4.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.4.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.4.4 Comparação entre Média, Mediana e Moda . . . . . . . . . . . . . . . . . . . 202.4.5 Simetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.4.6 Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.4.6.1Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.4.6.2Percentis ou Centis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.4.7 Dados agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.4.7.1Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.4.7.2Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.4.7.3Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.4.7.4Quartil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.4.7.5Percentil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.4.7.6Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.5 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.6 Medidas de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.6.1 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.6.2 Variância e Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.6.2.1Propriedades da Variância . . . . . . . . . . . . . . . . . . . . . . . . 312.6.2.2Propriedades do Desvio Padrão . . . . . . . . . . . . . . . . . . . . . 32

2.6.3 Coeficiente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.6.4 Erro Padrão da Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.7 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.7.1 Dados Agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3 Noções de Probabilidade 353.1 Espaço Amostral e Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.1.1 Operação com eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.2 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.2.1 Probabilidade Condicional e Independência de Eventos . . . . . . . . . . . . 383.2.2 Árvores de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.3 Variável Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.3.1 Função de Probabilidade Discreta . . . . . . . . . . . . . . . . . . . . . . . . 41

Page 3: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

3.3.1.1Esperança Matemática e Variância de uma VAD . . . . . . . . . . . . 423.3.2 Função de probabilidade contínua ou função de densidade de probabilidade

(fdp). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.3.2.1Esperança Matemática e Variância de uma fdp . . . . . . . . . . . . . 45

3.4 Distribuições Discretas de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . 463.4.1 Distribuição Uniforme Discreta . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.4.1.1Parâmetros Característicos da Distribuição Uniforme . . . . . . . . . 463.4.2 Distribuição Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.4.2.1Parâmetros Característicos da Distribuição Uniforme . . . . . . . . . 473.4.3 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.4.3.1Parâmetros Característicos da Distribuição Binomial . . . . . . . . . 493.4.4 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.4.4.1Parâmetros Característicos da Distribuição Hipergeométrica . . . . . 513.4.5 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.4.5.1Parâmetros Característicos da Distribuição Geométrica . . . . . . . . 523.4.6 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.4.6.1Parâmetros Característicos da Distribuição de Poisson . . . . . . . . . 533.5 Distribuições Contínuas de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . 54

3.5.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.5.1.1Parâmetros Característicos da Distribuição Uniforme . . . . . . . . . 56

3.5.2 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563.5.2.1Parâmetros Característicos da Distribuição Exponencial . . . . . . . . 57

3.5.3 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573.5.3.1Aproximação Normal das Distribuições Binomial e de Poisson . . . . 60

3.6 Distribuições Amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.6.1 Distribuição Amostral da Média (X) . . . . . . . . . . . . . . . . . . . . . . 63

3.6.1.1Teorema do Limite Central (TLC) . . . . . . . . . . . . . . . . . . . . 633.6.1.2Distribuição t de student . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.6.2 Distribuição amostral para proporção . . . . . . . . . . . . . . . . . . . . . . 663.6.3 Distribuição Amostral da Variância . . . . . . . . . . . . . . . . . . . . . . . 67

3.6.3.1Distribuição Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . 673.6.3.2Distribuição F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4 Inferência Estatística 744.1 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.1.1 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 754.1.2 Estimação Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.1.2.1 Intervalo de Confiança para proporção p . . . . . . . . . . . . . . . . 754.1.2.2 Intervalo de Confiança para média µ com variância σ2 conhecida . . . 764.1.2.3 Intervalo de Confiança para média µ com variância σ2 desconhecida . 784.1.2.4 Intervalo de Confiança para variância σ2 e para o desvio padrão σ . 79

4.2 Teoria da Decisão Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 804.2.1 Teste de Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 804.2.2 Teste para médias, variância conhecida . . . . . . . . . . . . . . . . . . . . . 804.2.3 Teste para médias, variância desconhecida . . . . . . . . . . . . . . . . . . . 824.2.4 Teste de hipóteses para proporção . . . . . . . . . . . . . . . . . . . . . . . . 844.2.5 Resumo das etapas aplicadas a qualquer teste de hipóteses . . . . . . . . . 84

4.3 Regressão e Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

Page 4: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

1

INTRODUÇÃO

Estatística é um conjunto de conceitos e métodos científicos para coleta, organização, descri-ção, análise e interpretação de dados experimentais, que permitem conclusões válidas e tomadasde decisões razoáveis.

Classificação: Usualmente, a estatística se divide em:

• Estatística descritiva - é a parte que tem por objetivo organizar, apresentar e sintetizardados observados de determinada população, sem pretenções de tirar conclusões de caráterextensivo.

• Teoria de probabilidade - objetiva descrever e prever as características de populações infi-nitas

• Inferência Estatística é a parte que, baseando-se em estudos realizados sobre os dados deuma amostra, procura inferir, induzir ou verificar leis de comportamento da população daqual a amostra foi retirada. A estatística inferencial tem sua estrutura fundamentada nateoria matemática das probabilidades. É, também definida como um conjunto de métodospara a tomada de decisões.

No estudo da estatística alguns conceitos são importantes:

• População (N) - Conjunto de todos os elementos relativos a um determinado fenômeno quepossuem pelo menos uma característica em comum, a população é o conjunto Universo.Exemplos:

– Todos os clientes de uma determinada empresa;

– Todos os produtos fabricados em uma determinada empresa;

• Amostra (n) - um subconjunto da população e deverá ser considerada finita, a amostra deveser selecionada seguindo certas regras e deve ser representativa, de modo que ela representetodas as características da população como se fosse uma fotografia desta.

• Pesquisa Estatística: É qualquer informação retirada de uma população ou amostra, po-dendo ser através de Censo ou Amostragem

• Censo - atividade de inspecionar (observar) todos os elementos de uma população, objeti-vando conhecer, com certeza suas características;

Page 5: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Introdução 5

• Amostragem - É o processo de retirada de informações dos "n"elementos amostrais, noqual deve seguir um método criterioso e adequado (tipos de amostragem).

Figura 1.1: Representação de População×Amostra

• Dados estatísticos: é qualquer característica que possa ser observada ou medida de algumamaneira. As matérias-primas da estatística são os dados observáveis.

• Variável: É aquilo que se deseja observar para se tirar algum tipo de conclusão, geralmenteas variáveis para estudo são selecionadas por processos de amostragem. Os símbolos uti-lizados para representar as variáveis são as letras maiúsculas do alfabeto, tais como X, Y,Z, ... que pode assumir qualquer valor de um conjunto de dados. As variáveis podem serclassificadas dos seguintes modos:

1.1 AMOSTRAGEM

Na realização de qualquer estudo quase nunca é possível examinar todos os elementos dapopulação de interesse. Temos usualmente de trabalhar com uma amostra da população. Ainferência estatística nos dá elementos para generalizar, de maneira segura, as conclusões obtidasda amostra para a população.

É errôneo pensar que, caso tivéssemos acesso a todos os elementos da população, seríamosmais preciosos. Os erros de coleta e manuseio de um grande número de dados são maiores doque as imprecisões a que estamos sujeitos quando generalizamos, via inferência, as conclusões deuma amostra bem selecionada.

Em se tratando de amostra, a preocupação central é que ela seja representativa. Assim quedecidimos obter informações através de um levantamento amostral, temos imediatamente doisproblemas:

• Definir cuidadosamente a população de interesse

• Selecionar a característica que iremos pesquisar.

Page 6: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Introdução 6

Há duas grandes divisões no processo de amostragem: a probabilística e a não-probabilística.A amostragem probabilística também é chamada de amostragem aleatória ou ao acaso. Este

tipo de amostragem é submetida a tratamento estatístico que permite compensar erros amostrais.Hoje, dificilmente se aceita uma amostragem não-probabilistica, exceto nos casos em que aamostragem probabilística não pode ser feita.

A amostragem não-probabilística, por não fazer uso de forma aleatória de seleção, não aceitadiversas aplicações estatísticas e, por isto, é preterida.

Pontos importantes:

• É muito dispendioso entrevistar cada pessoa de toda uma população; recorremos, então,as amostras;

• Usa-se a proporção de pessoas em uma amostra, portadoras de determinada característica,para estimar a proporção, na população das que tem essa característica.

• O melhor método de escolha de uma amostra é a escolha aleatória, isto é, que toda amostrapossível tenha a mesma chance de ser escolhida.

• Antes de se proceder a observação de uma determinada população surge a questão se aamostragem será com ou sem reposição. Se o tamanho da amostra é insignificante emrelação à população o impacto da reposição será desprezível, porém, se a amostra forgrande então a reposição ou não pode causar um impacto significativo no resultado daprobabilidade.

• Como as características das populações estatísticas variam, às vezes, é necessário se adequaresta população estatística para submetê-la a um critério de seleção possível, sem, contudo,perder seu caráter aleatório.

1.1.1 Amostragem Simples

Objetivo: Obter uma amostra representativa quando os elementos da população são todoshomogêneos. Neste processo de amostragem todos os elementos da população têm a mesmaprobabilidade de serem amostrados. A característica principal é que todos os elementos dapopulação têm igual probabilidade de pertencer á amostra.

Procedimento: Na prática a amostragem aleatória simples pode ser realizada numerando-sea população de 1 a N e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, knúmeros dessa seqüência, os quais corresponderão aos elementos pertencentes á amostra.

Exemplo: Vamos obter uma amostra representativa, de 10% dos valores, para obtermos aestatura média de noventa alunos de uma escola:

• Numeramos os alunos de 01 a 90

• Sorteamos os números, de 01 a 90, um a um, nove números que formarão a amostra.

1.1.2 Amostragem Sistemática

Objetivo: Aumentar a representatividade da amostra dando maior cobertura à população. Éusada quando todos os elementos são homogêneos.

Page 7: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Introdução 7

Procedimento: Quando os elementos da população já estão ordenados, não há necessidadede construirmos um sistema de referência, para selecionarmos a amostra. São exemplos osprontuários médicos de um hospital, os prédios de uma rua, uma linha de produção, os nomesem uma lista telefônica, etc. Nestes casos a seleção dos elementos que constituirão a amostra podeser feita por um sistema imposto pelo pesquisador. A esse tipo de amostragem denominamos desistemática.

Exemplo: Consideremos uma população, com elementos ordenados, de tamanho N e delatiramos uma amostra de tamanho n, através de uma amostragem sistemática, da seguinte ma-neira:

• Definimos FS como fator de sistematização, dado por FS = N/n.

• Sorteamos um número entre 1 e FS. Esse número é simbolizado por m, que será o primeiroelemento da amostra.

• O segundo elemento da amostra é o de número FS +m.

• O terceiro elemento da amostra é o de número 2FS +m.

• O k-ésimo elemento da amostra é o número (k − 1)FS +m

Exemplo: Uma rua contém 1000 prédios, dos quais desejamos obter uma amostra sistemáticaformada por 100 deles.

FS = 1000/100 = 10

m será um número entre 1 e 10. Vamos supor que m = 7. Então temos:

• 1o elemento da amostra = (1− 1)10 + 7 = 7 »> 7o elemento da população.

•...

• 100o elemento da amostra = (100− 1)10 + 7 = 997 »> 997o elemento da população.

1.1.3 Amostragem Estratificada

Objetivo: Melhorar a representatividade da amostra quando os elementos da população sãoheterogêneos, porém, podem ser agrupados em subpopulações (ESTRATOS) contendo elementoshomogêneos.

Procedimento: A população é dividida em grupos ou estratos contendo elementos homogêneose as amostras são retiradas separadamente de cada um desses grupos.

Exemplo; Dada a população de 50.000 operários da indústria, selecionar uma amostra pro-porcional estratificada de 5% de operários para estimar seu salário médio. Usando a variávelcritério "cargo"para estratificar essa população, e considerando amostras de 5% de cada estratoobtido, chegamos ao seguinte quadro:

1.2 MÉTODO ESTATÍSTICO

O Método Estatístico pode ser descrito pelas etapas a seguir:

Page 8: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Introdução 8

CARGO POPULAÇÃO 5% AMOSTRAChefes de seção 5000 5(5000)/100 = 250 250

Operários especializados 15000 5(15000)/100 = 750 750Operários não especializados 30000 5(30000)/100 = 1500 1500

TOTAL 50000 5(50000)/100 = 2500 2500

• Definição do problema - Consiste na:

– formulação correta do problema;

– examinar outros levantamentos realizados no mesmo campo (revisão da literatura);

– saber exatamente o que se pretende pesquisar definindo o problema corretamente(variáveis, população, hipóteses, etc.)

• Planejamento -Determinar o procedimento necessário para resolver o problema:

– Como levantar informações;

– Tipos de levantamentos: Por Censo (completo); Por Amostragem (parcial).

– Cronograma, Custos, etc.

• Coleta da dados - Consiste na obtenção dos dados referentes ao trabalho que desejamosfazer.;

– A coleta pode ser: Direta - diretamente da fonte ou Indireta - feita através de outrasfontes.

– Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no registrode terceiros (secundários).

• Apuração dos dados - Consiste em resumir os dados, através de uma contagem e agrupa-mento. É um trabalho de coordenação e de tabulação.

• Apresentação dos dados -É a fase em que vamos mostrar os resultados obtidos na coleta ena organização. Esta apresentação pode ser:

– Tabular (apresentação numérica)

– Gráfica (apresentação geométrica)

• Análise e interpretação dos dados - É a fase mais importante e também a mais delicada.Tira conclusões que auxiliam o pesquisador a resolver seu problema.

Page 9: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

2

ESTATÍSTICA DESCRITIVAA estatística descritiva é parte da estatística que lida com a organização, resumo e apresentação

de dados. Esta é feita por meio de:• Tabelas;

• Gráficos;

• Medidas Descritivas (média, variância, entre outras).

2.1 TIPO DE VARIÁVEIS

As variáveis podem ter valores numéricos ou não numéricos.

• Variáveis Qualitativas (ou categóricas) - são as características que não possuem valoresquantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representamuma classificação dos indivíduos

– Variáveis nominais: não existe ordenação dentre as categorias.Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio.

– Variáveis ordinais: existe uma ordenação entre as categorias.Exemplos: escolaridade (1o, 2o, 3o graus), estágio da doença (inicial, intermediário,terminal), mês de observação (janeiro, fevereiro,..., dezembro).

• Variáveis Quantitativas - são as características que podem ser medidas em uma escalaquantitativa, ou seja, apresentam valores numéricos

– Variáveis discretas: são aquelas variáveis que pode assumir somente valores inteirosnum conjunto de valores. É gerada pelo processo de contagemExemplos: número de filhos, número de empregados, número de processos.

– Variáveis contínuas: são aquelas variáveis que podem assumir um valor dentro de umintervalo de valores. É gerada pelo processo de mediçãoExemplos: pressão arterial, idade, salário, atraso de transmissão de bytes por umarede de internet.

2.2 VARIÁVEIS QUALITATIVAS

Para resumir dados qualitativos, utiliza-se contagens, proporções, porcentagens, taxas por1000, taxas por 1.000.000, etc, dependendo da escala apropriada. Por exemplo, se encontrar-

Page 10: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 10

mos que 7 empresas com faturamento mensal acima de R$20.000,00 em uma amostra de 500propriedades, poderíamos expressar isto como uma proporção (0,014) ou percentual (1,4%).

Freqüentemente o primeiro passo da descrição de dados é criar uma tabela de freqüências.Antes de montar a tabela de distribuição de freqüências temos algumas definições:

• Freqüência - medida que quantifica a ocorrência dos valores de uma variável a um dadoconjunto de dados. As freqüências podem ser:

– Absoluta (fa) - contagem das observações de uma variável;

– Relativa (fr) - divisão da freqüência absoluta pelo total de observações

fr =fa

n

– Percentual (fp) - é a freqüência relativa multiplicada por 100

fp = 100× fr

Exemplo: Para adequar os produtos às preferências dos clientes, um provedor fez uma pes-quisa sobre os provedores a qualidade dos serviços prestados utilizando uma amostra de 20clientes, obtendo as seguintes variáveis:

Tabela 2.1: Variáveis observadas de 20 clientes de um provedor.Amostra Sexo Qualidade Amostra Sexo Qualidade

1 feminino Boa 11 feminino Ruim2 feminino Boa 12 feminino Ruim3 feminino Boa 13 masculino Boa4 feminino Boa 14 masculino Boa5 feminino Boa 15 masculino Ótimo6 feminino Ótimo 16 masculino Regular7 feminino Ótimo 17 masculino Regular8 feminino Regular 18 masculino Ruim9 feminino Regular 19 masculino Ruim10 feminino Ruim 20 masculino Ruim

Neste é apresentado duas variáveis qualitativas sendo:

• Sexo - variável qualitativa nominal;

• Qualidade - variável qualitativa ordinal;

Para resumir separadamente cada variável podemos utilizar a tabelas simples, que são namaioria das vezes suficientes para descrever dados qualitativos especialmente quando existempoucas categorias.

Para a variável sexo, podemos utilizar as freqüências apresentadas na tabela 2.2:Para a variável qualidade no atendimento, além das freqüências utilizadas para a variável

sexo, podemos utilizar mais duas freqüências:

• Freqüência Acumulada (FA)- obtida pelo soma das freqüências absolutas;

Page 11: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 11

Tabela 2.2: Distribuição de freqüência do sexo de 20 clientes de um provedor.Sexo Freqüência Freqüência Freqüência

Absoluta Relativa Percentual(fa) (fr) (fp)

feminino 12 0,60 60%masculino 8 0,40 40%

20 1,00 100%

• Freqüência Percentual Acumulada (FP) - obtida pela soma das freqüências percentuais.

Tabela 2.3: Distribuição de freqüência qualidade no atendimento de um provedor de acordo com20 clientes

Qualidade no Freqüência Freqüência Freqüência Freqüência FreqüênciaAtendimento Absoluta Relativa Percentual Acumulada Percentual

(fa) (fr) (fp) (FA) Acumulada(FP)

Ótima 3 0,15 15% 3 15%Boa 7 0,35 35% 10 50%Regular 4 0,20 20% 14 70%Ruim 6 0,30 30% 20 100%Total 20 1,00 100% - -

Dados qualitativos são usualmente bem ilustrados num simples gráfico de barras onde a alturada barra é igual à freqüência. O gráfico na Figura 2.1 apresenta as freqüências percentuais daTabela 2.2.

Figura 2.1: Qualidade no atendimento de um provedor de acordo com 20 clientes

Em alguns casos podemos estar interessados em resumir duas variáveis qualitativas ao mesmotempo, neste caso vamos estudar a relação entre duas variáveis qualitativas que pode ser repre-sentada em uma tabulação cruzada. Nesta tabela conta-se quantos valores correspondem a cadapar de possíveis resultados, para as duas variáveis. O resultado pode ser apresentado comofreqüência absoluta ou relativa, em relação as colunas ou as linhas (nunca ambas).

Tabela 2.4: Distribuição de freqüência absoluta de 20 clientes de um provador de acordo com aqualidade de atendimento e o sexo

Qualidade Sexo TotalFeminino Masculino

Boa 5 2 7Ótimo 2 1 3Regular 2 2 4Ruim 3 3 6Total 12 8 20

Page 12: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 12

O gráfico de barras, com barras justapostas de acordo com categorias diferentes, pode serusado para apresentar a relação entre duas variáveis qualitativas.

Figura 2.2: Distribuição de freqüência absoluta de 20 clientes de um provador de acordo com aqualidade de atendimento e o sexo

2.3 VARIÁVEIS QUANTITATIVAS

Da mesma forma que as variáveis qualitativas, podemos resumir dados quantitativos pormeio de tabelas de freqüências, entretanto a distinção entre as variáveis quantitativas discretase contínuas na forma de preparação destas tabelas.

A tabela de distribuição de freqüências de uma variável discreta é, em geral bastante seme-lhante à das variáveis qualitativas ordinais, pois os valores inteiros que a variável assume podemser considerados como "categorias", ou "classes naturais".

Exemplo: Sejam dados referentes a um levantamento onde observou-se o numero de peçasdefeituosas em 25 maquinas de uma empresas.

Tabela 2.5: Número de peças defeituosas em 25 maquinas de uma empresa3 5 7 1 36 5 5 5 38 5 2 6 24 4 4 3 56 2 2 4 5

Observa-se que a disposição da variável número de de peças defeituosas é semelhante a deuma variável qualitativa ordinal com 8 categorias e sua distribuição de freqüência pode ser vistana tabela 2.6. A representação gráfica pode ser feita por meio de um gráfico de barras conformefigura 2.4.

Page 13: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 13

Tabela 2.6: Distribuição de freqüências do número de peças defeituosas de 25 maquinas de umaempresa

Número de Freqüência Freqüência Freqüência Freqüência FreqüênciaMinerais Absoluta Relativa Percentual Acumulada Percentual

(fa) (fr) (fp) (FA) Acumulada(FP)

1 1 0,04 4% 1 4%2 4 0,16 16% 5 20%3 4 0,16 16% 9 36%4 4 0,16 16% 13 52%5 7 0,28 28% 20 80%6 3 0,12 12% 23 92%7 1 0,04 4% 24 96%8 1 0,04 4% 25 100%

Total 25 1 100%

Figura 2.3: Número número de peças defeituosas de 25 maquinas de uma empresa

A construção de tabelas de distribuição de freqüências para variáveis quantitativas contínuasé feita agrupando os dados em classes e obtendo as freqüências observadas em cada classe. Éimportante notar que ao resumir dados referentes a uma variável contínua sempre se perde algumainformação já que não temos idéia de como se distribuem as observações dentro de cada classe.Para isso temos duas definições:

• Amplitude (A) - corresponde a diferença enter o maior valor e o menor valor de um conjuntode dados;

• Amplitude da classe (c) - consiste na diferença entre o limite superior e o limite inferior deuma classe em uma distribuição de freqüência.

O procedimento para construir tabelas de distribuição freqüências para variáveis quantitativascontínuas envolve os seguintes passos (algoritmo):

Page 14: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 14

• Decidir sobre o numero de classes k, entre 5 e 20. Para que a decisão não seja totalmentearbitrária pode-se usar a raiz quadrada do total de valores como o número de classes, ouseja, k ∼=

√n

• Determinar a amplitude dos dados: A = Max - Min.

• Determinar a amplitude de classe c:

c =A

k − 1

• Determinar o limite inferior da primeira classe LI1:

LI1 = Min− c

2

• Determinar o limite superior da primeira classe LS1:

LS1 = LI1 + c

sendo que o limite inferior da segunda classe LI2 é igual ao LS1, e assim

LS2 = LI2 + c

e assim, sucessivamente todas as classes vão sendo construídas.

• Após a construção das classes, são contados quantos dados estão contidos em cada classee se obtem as freqüências.

Tabela 2.7: Dados ordenados, relativos ao tempo em segundos para carga de um aplicativo numsistema compartilhado (30 observações).

6,94 7,27 7,46 7,97 8,03 8,378,56 8,66 8,88 8,95 9,30 9,339,55 9,76 9,80 9,82 9,98 9,9910,14 10,19 10,42 10,44 10,66 10,8810,88 11,16 11,80 11,88 12,25 12,34

k =√

30 = 5, 47 ≈ 5

A = Max−Min = 12, 34− 6, 94 = 5, 40

c =A

k − 1=

5, 40

4= 1, 35

LI1 = Min− c

2= 6, 94− 1, 35

2= 6, 94− 0, 67 = 6, 27

Uma forma de representar graficamente à distribuição de freqüência das variáveis contínuasé por meio do histograma e do polígono de freqüência . Para elaboração deste gráfico é comum

Page 15: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 15

Tabela 2.8: Distribuição de freqüências, relativa ao ao tempo em segundos para carga de umaplicativo num sistema compartilhado.

Classes Freqüência Freqüência Freqüência Freqüência FreqüênciaAbsoluta Relativa Percentual Acumulada Percentual

(fa) (fr) (fp) (FA) Acumulada(FP)

6,27 ` 7,62 3 0,10 10% 3 10%7,62 ` 8,97 7 0,23 23% 10 33%8,97 ` 10,32 10 0,33 33% 20 67%10,32 ` 11,67 6 0,20 20% 26 87%11,67 ` 13,02 4 0,13 13% 30 100%

30 1,00 100%

utilizar a chamada densidade de freqüência absoluta (dfa)

dfa =fr

c

O histograma é semelhante ao gráfico de barras verticais, no eixo vertical pode-se utilizar asfreqüências ou densidades de freqüências e no eixo horizontal as classes. O polígono de freqüênciasé um gráfico de linhas em que no eixo vertical pode-se utilizar as freqüências ou densidades defreqüências e no eixo horizontal o ponto médio de cada classe.

Figura 2.4: Histograma e Polígono de freqüências do relativa ao tempo em segundos para cargade um aplicativo num sistema compartilhado

Muitas vezes, a análise da distribuição de freqüências acumuladas é mais interessante do quea de freqüências simples, representada pelo histograma. O gráfico usado na representação gráficada distribuição de freqüências acumuladas de uma variável contínua é a ogiva, apresentada naFigura 2.5. Para a construção da ogiva, são usadas as freqüências acumuladas (absolutas oupercentuais) no eixo vertical e os limites superiores de classe no eixo horizontal.

Page 16: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 16

O primeiro ponto da ogiva é formado pelo limite inferior da primeira classe e o valor zero,indicando que abaixo do limite inferior da primeira classe não existem observações. Daí pordiante, são usados os limites superiores das classes e suas respectivas freqüências acumuladas,até a última classe, que acumula todas as observações. Assim, uma ogiva deve começar no valorzero e, se for construída com as freqüências relativas acumuladas, terminar com o valor 100.

Figura 2.5: Ogiva para o tempo em segundos para carga de um aplicativo num sistema compar-tilhado

Page 17: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 17

2.4 MEDIDAS DE POSIÇÃO

Medidas de Posição - São medidas de tendência central, ou seja, representativas do valorcentral, ao redor do qual se agrupam a maioria dos valores.

2.4.1 Média Aritmética

Amédia de uma população ou amostra é a soma de todos os elementos da população (amostra)dividida pelo número de elementos. Esta medida apresenta a mesma unidade dos dados.

• Para a população a média é representada por

µ =

N∑i=1

xi

N

em que N é o tamanho da população

• Para a amostra a média é representada por

X =

n∑i=1

xi

n

em que n é o tamanho da amostra.

A média calculada dos dados originais e dados agrupados podem ser diferentes, devido aoerro de agrupamento. O erro de agrupamento é obtido fazendo a diferença entre o valor obtidopelos dados originais e o valor obtido pelos dados agrupados.

Exemplo: O tempo de vida útil (em horas) de uma amostra de 6 lâmpadas incadescentes é:612, 983, 623, 883, 666 , 970. A média amostral do tempo de vida é dado por:

X =

n∑i=1

xi

n=

612 + 983 + 623 + 883 + 666 + 970

6=

4737

6= 789, 5

2.4.1.1 Propriedades da média

A média aritmética de uma amostra apresenta um conjunto vasto de propriedades, todaselas, sem dúvida, de grande utilidade no cálculo do seu valor.

1. Adição ou Subtração por uma constanteSeja (X1, X2, X3, ..., Xn) uma amostra aleatória detamanho n, k uma constante e X a média da amostra. Se somarmos ou subtrairmos todosos valores de uma variável X pela constante k, o valor de X MÉDIA fica multiplicada ou

Page 18: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 18

dividida pela constante.

X∗

=

n∑i=1

(Xi + k)

n

=

n∑i=1

Xi +

n∑i=1

k

n

=

n∑i=1

Xi

n+

n∑i=1

k

n

= X +nk

n= X + k

Se no exemplo das lâmpadas somarmos a constante 2 a cada um dos valores da variáveltemos 614, 985, 625, 885, 667,972

X∗

=614 + 985 + 625 + 885 + 668 + 972

6=

4749

6= 791, 5

Utilizando a propriedade,

X∗

= X + k = 789, 5 + 2 = 791, 5

2. Multiplicação ou divisão por uma constanteSeja (X1, X2, X3, ..., Xn) uma amostra aleatória de tamanho n, k uma constante e X amédia da amostra. Se multiplicarmos ou dividirmos todos os valores de uma variável Xpela constante k, o valor de X MÉDIA fica multiplicada ou dividida pela constante.

X∗

=

n∑i=1

kxi

n

= k

n∑i=1

xi

n= kX

Se no exemplo das lâmpadas multiplicarmos a constante 2 a cada um dos valores da variáveltemos 1224, 1966, 1246, 1766, 1332, 1940.

X∗

=1224 + 1966 + 1246 + 1766 + 1332 + 1940

6=

9474

6= 1579

Page 19: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 19

Utilizando a propriedade,

X∗

= kX = 2× 789, 5 = 1579

3. Soma dos desviosSeja (X1, X2, X3, ..., Xn) uma amostra aleatória de tamanho n e X a média da amostra.Se subtrairmos cada valor da variável X pelar média obtemos os desvios. A soma algébricados desvios é igual a zero

n∑i=1

(Xi −X

)n

=

n∑i=1

Xi −n∑i=1

X

n

=

n∑i=1

Xi

n−

n∑i=1

X

n

= X − nX

n= X −X = 0

No exemplo da lampâda, temos:

Amostra X Desvio612 789,5 -177,5983 789,5 193,5623 789,5 -166,5883 789,5 93,5666 789,5 -123,5970 789,5 180,5

soma dos desvios 0

2.4.2 Mediana

Num conjunto de dados ordenados, a mediana (Md) é o valor que deixa metade da freqüênciaabaixo dele. A mediana, como a média, possui a mesma unidade de cada observação.

A mediana pode ser obtida por meio da expressão:

Md =

Xn+1

2se n for ímpar

Xn2+Xn+2

22 se n for par

Exemplo: Considere o conjunto de dados: 5, 2, 6, 13, 9, 15, 10.Primeiro é necessário ordenar os dados: 2, 5, 6, 9, 10, 13, 15. Como se de uma conjunto com

n = 7 (ímpar), então:Md = Xn+1

2= X 7+1

2= X4

Page 20: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 20

Logo a Mediana é igual ao elemento que está na quarta posição do conjunto de dados, assim

Md = 9

Exemplo: Considere o conjunto de dados: 1, 3, 8, 6, 2, 4.Primeiro é necessário ordenar os dados: 1, 2, 3, 4, 6, 8. Como se de uma conjunto com n = 6

(par), então

Md =Xn

2+Xn+2

2

2=X 6

2+X 6+2

2

2=X3 +X4

2

Logo para obter a mediana é necessário obter os elementos que estão na terceira e quartaposição do conjunto de dados, assim:

Md =3 + 4

2= 3, 5

2.4.3 Moda

A moda Mo de um conjunto de dados é o valor mais freqüente e também tem a mesmaunidade dos dados. Para obter a moda basta observar qual o dado que mais se repete.

Exemplo: No conjunto de dados 7 , 8 , 9 , 10 , 10 , 10 , 11 , 12 a moda é igual a 10, pois éúnico que se repete.

Exemplo: No conjunto de dados 3 , 5 , 8 , 10 , 12 não apresenta moda. O conjunto é amodalExemplo: No conjunto de dados 2 , 3 , 4 , 4 , 4 , 5 , 6 , 7 , 7 , 7 , 8 , 9 temos duas modas:

4 e 7. O conjunto é bimodal.

2.4.4 Comparação entre Média, Mediana e Moda

• Média

– Definição: Soma de todos os valores dividido pelo total de elementos do conjunto.

– Vantagens: Reflete cada valor;Possui propriedades matemáticas atraentes.

– Limitações: É influenciada porvalores externos.

– Quando usar:

1. Deseja-se obter a medida de posição que possui a maior estabilidade;

2. Houver necessidade de um tratamento algébrico posterior.

• Mediana

– Definição: Valor que divide o conjunto em duas partes iguais.

– Vantagens: Menos sensível a valores extremos que a média.

– Limitações: Difícil de determinar para grande quantidade de dados

– Quando usar:

1. Deseja-se obter o ponto que divide o conjunto em partes iguais;

2. Há valores extremos que afetam de maneira acentuada a média;

• Moda

Page 21: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 21

– Definição: Valor mais freqüente.

– Vantagens: Valor "típico"; Maior quantidade de valores concentrados neste ponto

– Limitações: Não se presta a análise matemática; Pode não haver moda para certosconjuntos de dados

– Quando usar:

1. Deseja-se obter uma medida rápida e aproximada da posição;

2. A medida de posição deve ser o valor mais típico da distribuição.

2.4.5 Simetria

A determinação das medidas de posição permite discutir sobre a simetria da distribuição dosdados.

• Distribuição simétrica - X = Md = Mo

• Distribuição assimétrica - ocorrem diferenças entre os valores da média, mediana e moda.A assimetria pode ser:

– à direita - X > Md > Mo

– à esquerda - X < Md < Mo

2.4.6 Separatrizes

Além das medidas de posição que estudamos, há outras que, consideradas individualmente,não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua carac-terística de separar a série em duas partes que apresentam o mesmo número de valores. Essasmedidas - os quartis, os decis e os percentis - são, juntamente com a mediana, conhecidas pelonome genérico de separatrizes.

2.4.6.1 Quartis

Denominamos quartis os valores de uma série que a dividem em quatro partes iguais.

Q1: 1o quartil. Deixa 25% dos elementos antes do seu valor;Q2: 2o quartil. Deixa 50% dos elementos antes do seu valor. Coincide com a mediana;Q3: 3o quartil. Deixa 75% dos elementos antes do seu valor. (Consequentemente, 25% dos

elementos acima do seu valor.)Genericamente, para determinar a ordem ou posição do quartil a ser calculado, usaremos a

seguinte expressão:

EQi =in

4

em que

Page 22: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 22

• i = número do quartil a ser calculado;

• n = número de observações;

Exemplo: Calcule os quartis do conjunto de dados 5, 2, 6, 9, 10, 13, 15O primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: 2, 5,

6, 9, 10, 13, 151o quartil

EQ1 =1× 7

4= 1, 75

Logo o quartil 1 está entre o 1o e o 2o elemento (1o antecede 1,75o e 2o é posterior a ele.). Assim,o 1o quartil será dado pela média entre os 1o e o 2o elemento.

Q1 =2 + 5

2= 4, 5

2o quartil

EQ2 =2× 7

4= 3, 5

Logo o quartil 2 está entre o 3o e o 4o elemento (3o antecede 3,5o e 4o é posterior a ele.). Assim,o 2o quartil será dado pela média entre os 3o e o 4o elemento.

Q2 =6 + 9

2= 10, 5

3o quartil

EQ3 =3× 7

4= 5, 25

Logo o quartil 3 está entre o 5o e o 6o elemento (5o antecede 5,25o e 6o é posterior a ele.). Assim,o 3o quartil será dado pela média entre os 5o e o 6o elemento.

Q2 =10 + 13

2= 16, 5

2.4.6.2 Percentis ou Centis

São as medidas que dividem a amostra em 100 partes iguais. Assim:

O elemento que definirá a ordem do percentil será encontrado pelo emprego da expressão:

EPi =in

100

em que:

• i = número identificador do percentil;

• n = número total de observações;

Page 23: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 23

Relação entre percentil, quuartil e mediana

• P25 = Q1

• P50 = Q2 = Md

• P75 = Q3

Exemplo: Calcule os percentil 90 do conjunto de dados 1,4,2,4,7,9,2O primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: 1, 2, 2,

4, 4, 7, 9Perdential 90

EP90 =90× 7

100= 6, 3

Logo o percentil 90 está entre o 6o e o 7o elemento (6o antecede 6,3o e 7o é posterior a ele.).Assim, o 90o percentil será dado pela média entre os 6o e o 7o elemento.

P90 =7 + 9

2= 8

2.4.7 Dados agrupados

2.4.7.1 Média

Quando os dados são agrupados (Distribuição de freqüência) a média é representada por

X =

n∑i=1

faixi

n∑i=1

fai

em que

• para variáveis contínuas xi é o ponto médio da classe

• fai é o freqüência absoluta de xi

A média calculada dos dados originais e dados agrupados podem ser diferentes, devido aoerro de agrupamento. O erro de agrupamento é obtido fazendo a diferença entre o valor obtidopelos dados originais e o valor obtido pelos dados agrupados.

2.4.7.2 Mediana

Para calcular a mediana em dados agrupados é necessário observar a freqüência acumuladapara definir a classe mediana.

A posição da mediana EMd é definida da seguinte forma

EMd =

n+12 se n for ímpar

n2 se n for par

Page 24: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 24

Definida a classe mediana utiliza-se a expressão abaixo para obter a mediana

Md = LIi +n1n2c

em que:

• LIi é o limite inferior da classe mediana

• c é a amplitude da classe mediana

• n1 é a diferença entre a Posição da mediana e a freqüência acumulada da classe anterior aclasse mediana

• n2 é a freqüência absoluta da classe mediana

2.4.7.3 Moda

A moda Mo de um conjunto de dados é o valor mais freqüente e também tem a mesmaunidade dos dados. Para obter a moda basta observar qual o dado que mais se repete.

Para dados agrupados de variáveis continuas a moda se localiza na classe de maior freqüência(classe modal) e é obtida por meio da expressão:

Mo = LIi +∆1

∆1 + ∆2c

• LIi é o limite inferior da classe modal;

• c é a amplitude da classe modal;

• ∆1 é a diferença da freqüência da classe modal e a freqüência da classe imediatamenteanterior;

• ∆2 é a diferença da freqüência da classe modal e a freqüência da classe imediatamenteposterior.

2.4.7.4 Quartil

Para calcular o quartil em dados agrupados é necessário observar a freqüência acumuladapara definir a classe quartílica.

A posição da mediana EQi é definida da seguinte forma

EQi =in

4

Definida a classe quartílica utiliza-se a expressão abaixo para obter o quartil

Qi = LIi +n1n2c

em que:

• LIi é o limite inferior da classe quartílica

Page 25: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 25

• c é a amplitude da classe quartílica

• n1 é a diferença entre a Posição do quartil e a freqüência acumulada da classe anterior aclasse quartílica

• n2 é a freqüência absoluta da classe quartílica

2.4.7.5 Percentil

Para calcular o percentil em dados agrupados é necessário observar a freqüência acumuladapara definir a classe percentílica.

A posição da mediana EPi é definida da seguinte forma

EPi =in

100

Definida a classe percentílica utiliza-se a expressão abaixo para obter o percentil

Pi = LIi +n1n2c

em que:

• LIi é o limite inferior da classe percentílica

• c é a amplitude da classe percentílica

• n1 é a diferença entre a Posição do percentílica e a freqüência acumulada da classe anteriora classe percentílica

• n2 é a freqüência absoluta da classe percentílica

2.4.7.6 Exemplo

Tabela 2.9: Dados ordenados, relativos ao tempo em segundos para carga de um aplicativo numsistema compartilhado (30 observações).

6,94 7,27 7,46 7,97 8,03 8,378,56 8,66 8,88 8,95 9,30 9,339,55 9,76 9,80 9,82 9,98 9,9910,14 10,19 10,42 10,44 10,66 10,8810,88 11,16 11,80 11,88 12,25 12,34

Assim,

X =

n∑i=1

faixi

n∑i=1

fai

=290, 55

30= 9, 685 ∼= 9, 68

Para dados agrupados, primeiro vamos obter a classe mediana

n

2=

30

2= 15

Page 26: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 26

Tabela 2.10: Resumo da distribuição de freqüências, relativa ao ao tempo em segundos paracarga de um aplicativo num sistema compartilhado.

Classes x Frequencia fa× x FrequenciaAbsoluta Acumulada

(fa) (FA)6,27 ` 7,62 6,94 3 20,82 37,62 ` 8,97 8,29 7 58,03 108,97 ` 10,32 9,64 10 96,4 2010,32 ` 11,67 10,99 6 65,94 2611,67 ` 13,02 12,34 4 49,36 30

Total 30 290,55

Assim a classe mediana é a que contém a freqüência acumulada 15, ou seja é a classe 8, 97 ` 10, 32.Então temos:

• LIi = 8, 97

• c=1,35

• n1 = 15− 10 = 5

• n2 = 10

Substituindo nas formula, temos

Md = LIi +n1n2c = 8, 97 +

5

101, 35 = 8, 97 + 0, 67 = 9, 64

Para obter a moda, primeiro vamos obter a classe modal.A maior freqüência absoluta é 10, assim a classe modal é 8, 97 ` 10, 32. Assim, temos

Mo = LIi +∆1

∆1 + ∆2c

• LIi = 8, 97;

• c = 1, 35;

• ∆1 = 10− 7 = 3;

• ∆2 = 10− 6 = 4

Mo = LIi +∆1

∆1 + ∆2c = 8, 97 +

3

3 + 41, 35 = 8, 97 + 0, 58 = 9, 55

2.5 BOXPLOT

O gráfico Boxplot (ou desenho esquemático) é uma análise gráfica que oferece a ideia daposição, dispersão, assimetria, caudas e dados discrepantes. Para construí-lo, desenhamos uma"caixa"com o nível superior dado pelo terceiro quartil (Q3) e o nível inferior pelo primeiro quartil

Page 27: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 27

(Q1). A mediana (Q2) é representada por um traço no interior da caixa e segmentos de reta sãocolocados da caixa até dos limites inferior (LI) e superior (LS), dados por

LI = Q1 − 1.5dq

LS = Q3 + 1.5dq

em que dq = Q3 −Q1 denominando diferença quartilica.Para traçarmos o boxplot utilizamos as seguintes etapas:

• Contruir um retângulo de tal maneira que suas bases têm alturas correspondentes aosprimeiro e terceiro quartis da distribuição.

• Cortar o retângulo por um segmento paralelo às bases, na altura correspondente à mediana;

• Traçar um segmento paralelo ao eixo, partindo do ponto médio da base superior do retân-gulo até o maior valor observado que NÃO supere LS;

• Traçar um segmento paralelo ao eixo, partindo do ponto médio da base inferior do retân-gulo, até o menor valor que NÃO é menor LI;

• Case tenha valores que superior a LS ou inferior a LI, marcar os pontos, este valores sãoconsiderados observações discrepantes.

• Podemos opcionalmente marca o valor da média;

Para o conjunto de dados do tempo de carga de um aplicativo temos:

Md = 9, 81

Q1 = 8, 71

Q3 = 10, 61

dq = 10, 61− 8, 71 = 1, 9

LI = 8, 71− 1, 5× 1, 9 = 5, 86

LS = 10, 61 + 1, 5× 1, 9 = 13, 46

Page 28: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 28

Figura 2.6: Boxplot para o tempo em segundos para carga de um aplicativo num sistema com-partilhado

Page 29: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 29

2.6 MEDIDAS DE DISPERSÃO

As medidas de posição são importantes para caracterizar um conjunto de dados, mas nãosão suficientes para caracterizar completamente a distribuição dos dados. Para isso é necessárioobter as medidas de dispersão, que medem a variabilidade dos dados.

Por exemplo: Considere as amostras referentes a altura, em cm, de dois grupos de pessoas.Grupo A: 185 185 185Grupo B: 187 183 185A média para os dois grupos é a mesma XA = 185 e XB = 185.Os 2 conjuntos não diferem entre si e consideramos somente a média, pois se basearmos

somente por essa medida os dois grupos são considerados como de mesma altura. Entretanto ogrupo A tem todas as observações iguais a média. Já no grupo B ocorre uma certa dispersão nosdados.

As medidas de variabilidade ou dispersão possibilitam que façamos distinção entre os con-juntos quanto à sua homogeneidade, isto é, o grau de concentração em torno de uma medida detendência central.

2.6.1 Amplitude Total

Amplitude Total (A) é a diferença entre o maior e o menor valor da amostra. Essa medida ébastante simples, e obtida pela expressão:

A = Max−Min

Para dados agrupados a amplitude total é a diferença entre o ponto médio da última e daprimeira classe.

Para expressar variabilidade a amplitude total não é muito usada, pois baseia-se em apenasdois dados.

2.6.2 Variância e Desvio Padrão

A variância é baseada pela quadrado dos desvios dos dados em relação à média. Esta medidaé expressa na unidade dos dados ao quadrado.

• Para a população a variância é representada por

σ2 =

N∑i=1

(xi − µ)2

N

em que N é o tamanho da população

• Para a amostra a variância é representada por

S2 =

n∑i=1

(xi −X

)2n− 1

Page 30: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 30

em que n é o tamanho da população

Para dados agrupados, a variância é obtida por meio da expressão:

• Para a população a variância é representada por

σ2 =

k∑i=1

(xi − µ)2 fai

k∑i=1

fai

• Para a amostra a variância é representada por

S2 =

n∑i=1

(xi −X

)2fai

k∑i=1

fai − 1

O desvio padrão é a raíz quadrada positiva da variância. Esta medida é expressa na mesmaunidade dos dados.

• Para a população o desvio padrão é representada por

σ =√σ2

• Para a amostra o desvio padrão é representada por

S =√S2

em que n é o tamanho da população

Nota:

• O desvio padrão e a variância são medidas de dispersão ou variabilidade, a opção do usode um ou outro, depende da finalidade da informação.

• A variância tem pouca utilidade na estatística descritiva, porém é muito importante nainferência estatística e em combinações de amostras.

• O desvio padrão é muito usado na estatística descritiva.

• É importante notar que, se os dados representarem uma amostra e não toda a população,a expressão matemática da variância deve ter (n− 1) no denominador em substituição aofator n, esta mudança é chamada de fator de correção de Bessel ou conforme os estatísticos,número de graus de liberdade. Dessa forma temos a variância da amostra.

Page 31: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 31

2.6.2.1 Propriedades da Variância

A variância apresenta um conjunto vasto de propriedades, todas elas, sem dúvida, de grandeutilidade no cálculo do seu valor.

1. A variância de uma constante k é nula;

S2∗ =

n∑i=1

(k −X

)2n− 1

=

n∑i=1

(k − k)2

n− 1

=

n∑i=1

(0)2

n− 1= 0

2. Somando-se ou subtraindo-se uma constante k a todos os dados a variância não se altera.

X∗i = Xi + k

X∗

= X + k

S2∗ =

n∑i=1

(X∗i −X

∗)2

n− 1

=

n∑i=1

(Xi + k − (X + k)

)2n− 1

=

n∑i=1

(Xi + k −X − k

)2n− 1

=

n∑i=1

(Xi −X

)2n− 1

= S2

Page 32: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 32

3. Multiplicando-se todos os dados por uma constante k, a variância fica multiplicada por k2.

X∗i = kXi

X∗

= kX

S2∗ =

n∑i=1

(X∗i −X

∗)2

n− 1

=

n∑i=1

(kXi − kX

)2n− 1

=

n∑i=1

(k(Xi −X

))2n− 1

=

n∑i=1

k2(Xi −X

)2n− 1

= k2S2

2.6.2.2 Propriedades do Desvio Padrão

1. Somando-se ou subtraindo-se uma constante k a todos os dados o desvio padrão não sealtera.

X∗i = Xi + k

S2∗ = S2

S =√S2

2. Multiplicando-se todos os dados por uma constante k, a variância fica multiplicada por k2.

X∗i = kXi

S2∗ = k2S2

S =√k2S2 = kS

2.6.3 Coeficiente de Variação

O coeficiente de variação (CV ) é uma medida de dispersão que expressa o desvio padrão emtermos da média de forma percentual

CV = 100S

X

Se as amostras tiverem unidade diferentes ou médias diferentes o CV pode ser utilizado paracomparar a variabilidade entre duas amostras.

Page 33: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 33

2.6.4 Erro Padrão da Média

O erro padrão da média é uma medida de dispersão que dá a precisão com que a médiapopulacional está sendo estimada. É obtido pela fórmula

S(X) =S√n

em que:

• S é o desvio padrão da amostra;

• n é o tamanho da amostra.

2.7 EXEMPLOS

Sejam dados referentes a um levantamento onde observou-se o numero de peças defeituosasem 25 maquinas de uma empresas.

Tabela 2.11: Número de peças defeituosas em 25 maquinas de uma empresa1 3 4 5 62 3 4 5 62 3 4 5 62 3 5 5 72 4 5 5 8

A amplitude totalA = Max−Min = 8− 1 = 7

Temos que a média é X = 4 e como se trata de uma amostra temos:

S2 =

n∑i=1

(xi −X

)2n− 1

=

((1− 4)2 + (2− 4)2 + ...+ (8− 4)2

)25− 1

= 3, 041666667 ∼= 3, 04

O desvio padrãoS =

√S2 =

√3, 04 = 1, 7435595 ∼= 2

O coeficiente de variação

CV = 100S

X= 100

2

4= 50%

O erro padrão da médio

S(X) =S√n

=2√25

= 0, 4

2.7.1 Dados Agrupados

Assim, Amplitude total

A = Max−Min = 12, 34− 6, 94 = 5, 40

Page 34: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Estatística Descritiva 34

Tabela 2.12: Resumo da distribuição de freqüências, relativa ao tempo em segundos para cargade um aplicativo num sistema compartilhado (30 observações)

Classes x Frequencia x−X (x−X)faAbsoluta

(fa)6,27 ` 7,62 6,94 3 7,5076 22,52287,62 ` 8,97 8,29 7 1,9321 13,52478,97 ` 10,32 9,64 10 0,0016 0,01610,32 ` 11,67 10,99 6 1,7161 10,296611,67 ` 13,02 12,34 4 7,0756 28,3024

Total 30 74,6625

Temos que a média é X = 9, 68 e como se trata de uma amostra temos:

S2 =

n∑i=1

(xi −X

)2fai

k∑i=1

fai − 1

=74, 6625

29= 2, 5745689 ∼= 2, 5746

O desvio padrãoS =

√S2 =

√2, 5746 = 1, 604556 ∼= 1, 60

O coeficiente de variação

CV = 100S

X= 100

1, 60

9, 68= 16, 53%

O erro padrão da média

S(X) =S√n

=1, 60√

30= 0, 29

Page 35: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

3

NOÇÕES DE PROBABILIDADEJá vimos que para se obter informações sobre alguma característica da população, podemos

utilizar uma amostra. Estudaremos agora a probabilidade, que é uma ferramenta usada e neces-sária para se fazer ligações entre a amostra e a população, de modo que a partir de informaçõesda amostra se possa fazer afirmações sobre características da população.

As probabilidades são utilizadas para exprimir a chance de ocorrência de determinado evento.O estudo das probabilidades é importante pois elas são a base para o estudo estatístico

A teoria de probabilidades tem por objetivo o estudo de fenômenos aleatórios. Um fenômenoé chamado de aleatório se ele tem a seguinte propriedade: quando observado repetidamente sobas mesmas condições ele produz resultados diferentes. Mesmo que a chance da ocorrência sejaalta, os resultados não são conhecidos antes de ocorrer, mas de certa forma, mantém uma certaregularidade, o que permite determinar a chance de ocorrência; a Probabilidade.

Exemplos:

• Jogar uma moeda repetidamente e observar o resultado da face de cima;

• Jogar um dado e observar o número mostrado na face superior;

• Número de filhos de um casal;

Observação: quando a possibilidade de repetir o fenômeno está na mão do experimentador,este fenômeno aleatório é chamado de experimento aleatório.

3.1 ESPAÇO AMOSTRAL E EVENTOS

Espaço amostral (Ω) - é o conjunto de todos os possíveis resultados de um experimento.Um espaço amostral éExemplo:

• Lançamento de um dado não viciado. Neste caso o espaço amostral é

Ω = 1, 2, 3, 4, 5, 6

• Lançar uma moeda duas vezes e observar as faces obtidas

Ω = (Ca,Co), (Ca,Ca), (Co,Ca), (Co,Co)

Page 36: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 36

No lançamento de um dado pode-se interessar, por exemplo, somente na ocorrência de númeroímpares. O subconjunto A = 1, 3, 5 do espaço amostral Ω representa o evento A definido pelaocorrência de números ímpares.

Evento - é um subconjunto do espaço amostral que representa um resultado definido.Ponto amostral - é apenas um elemento do espaço amostral.

3.1.1 Operação com eventos

Sejam A e B dois eventos de um mesmo espaço amostral O evento intersecção de A e B,denotado A ∩B, e o evento em que A e B ocorrem simultaneamente.

Dois eventos A e B são mutuamente exclusivos ou disjuntos se eles não podem ocorrer simul-taneamente A ∩B = ∅.

O evento União de A e B, denotado A ∪ B, e o evento em que A ocorre ou B ocorre (ouambos).

O evento complementar de A, denotado Ac, é o evento em que A não ocorre.

Exemplo: Seja o espaço amostral Ω = 1, 2, 3, 4, 5, 6 e considere os eventos:

A = 1, 3, 5 B = 2, 4, 6 C = 3, 4, 5, 6

Vamos fazer as seguintes operações:

A ∩B = ∅ Conjuntos mutuamente exclusivos ou disjunto

A ∩ C = 3, 5

A ∪B = 1, 2, 3, 4, 5, 6 = Ω

A ∩Bc = 1, 3, 5 = A os elementos de Ω que não estão no conjunto B⇒ Bc1, 3, 5

Page 37: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 37

3.2 PROBABILIDADE

Probabilidade - freqüência relativa associada a um variável descritora de uma população.Num espaço amostral Ω, a probabilidade de ocorrer um evento A, representado por P (A), édado pela medida de A em Ω nas seguintes condições: Exemplo: A probabilidade de ocorrer faceímpar no lançamento de um dado não viciado é

P (A) =n

N=

3

6=

1

2= 0, 5 = 50%

Algumas propriedades de probabilidade:

• A probabilidade de ocorrência de Ω vale 1, ou seja, P (Ω) = 1

• Probabilidade de em evento certo e de um evento impossível

P (Ω) = 1; P (∅) = 0

• A probabilidade de ocorrência do evento A é não negativa, ou seja, P (A) ≥ 0

• Domínio da Probabilidade0 ≤ P (A) ≤ 1

• Regra da Adição de probabilidades de dois eventos A e B:

P (A ∪B) = P (A) + P (B)− P (A ∩B)

No exemplo do lançamento de um dado seja os eventos A = 2, 4, 6 e B = 3, 4, 5, 6. Aunião entre os dois conjuntos daria 2, 3, 4, 5, 6. Assim:

P (A ∪B) =5

6= 0, 83 = 83%

Utilizando a regra da adição teriamos:

P (A ∪B) = P (A) + P (B)− P (A ∩B) =3

6+

4

6− 2

6=

5

6= 0, 83 = 83%

em que A ∩B = 4, 6

• Probabilidade complementarP (Ac) = 1− P (A)

No exemplo do lançamento de um dado seja o evento A = 3, 4, 5, 6, então Ac = 1, 2,logo

P (A) =4

6e P (Ac) =

2

6

utilizando a regra da probabilidade complementar teriamos:

P (Ac) = 1− P (A) = 1− 4

6=

6− 4

6=

2

6

Page 38: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 38

3.2.1 Probabilidade Condicional e Independência de Eventos

A probabilidade condicional surge, por exemplo, quando se deseja calcular a probabilidadede um evento A ocorrer sabendo que um evento B já ocorreu.

Sejam A e B dois eventos associados a um mesmo espaço amostral Ω. Denota-se por P (A|B)

a probabilidade condicionada do evento A, quando o evento B tiver ocorrido.Sempre que calculamos P (A|B), estamos essencialmente calculando P (A) em relação ao

espaço amostral reduzido devido a B ter ocorrido, em lugar de faze-lo em relação ao espaçoamostral original Ω.

Dados dois eventos A e B , a probabilidade condicional de A dado que ocorreu B é represen-tada por P (A|B) e definida por

P (A|B) =P (A ∩B)

P (B), P (B) 6= 0.

Isso significa que a probabilidade de A ocorrer, dado que B ocorreu, é igual à probabilidadede ocorrência simultânea de A e B dividida pela probabilidade de ocorrência de B.

Exemplo: Na tabela a seguir temos dados referentes a alunos matriculados em três cursos deuma universidade em dado ano.

Tabela 3.1: Dados referentes a alunos de uma dada universidade.Cursos Sexo Total

Feminino MasculinoAdministração 70 40 110Psicologia 10 20 30Geologia 20 15 35Total 100 75 175

Qual a probabilidade de escolhermos um aluno ao acaso e ele ser:

• Homem (H) e da Administração (Adm)?

P (H ∩Adm) =40

175= 0, 2285

b) Homem (H) ou da Administração (Adm)?

P (H ∪Adm) = P (H) + P (Adm)− P (H ∩Adm)

=75

175+

110

175− 40

175=

145

175= 0, 8285

• Psicologia (Psi) ou Geologia (Geo)?

P (Psi ∪Geo) = P (Psi) + P (Geo)− P (Psi ∩Geo)

=30

175+

35

175− 0 =

65

175= 0, 3714

Page 39: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 39

• De ser um aluno da psicologia dado que é mulher.

P (Psi|M) =P (Psi ∩M)

P (M)

=10175100175

=10

175

175

100=

10

100= 0, 10

Das expressões acima resulta a regra do produto, que se refere ao cálculo da probabilidadedo evento interseção,

P (A ∩B) = P (A|B).P (B)

A ordem do condicionamento pode ser invertida. Para três eventos, por exemplo, pode-seescrever:

P (A ∩B ∩ C) = P (A).P (B|A).P (C|A ∩B) (3.1)

Dois eventos A e B são independentes se a ocorrência de um não altera a probabilidadede ocorrência do outro, isto é, P (A|B) = P (A) ou P (B|A) = P (B), ou ainda, a seguinte formaequivalente:

P (A ∩B) = P (A).P (B)

3.2.2 Árvores de probabilidade

A contrução de uma árvore de probabilidade fornece uma ferramenta muito útil para asolução de problemas envolvendo duas ou mais etapas. A árvore consiste em uma representaçãográfica na qual diversas possibilidades são representadas, juntamente com as respectivas proba-bilidades condicionadas a cada situação. Isso permite, pela utilização direta da regra do produtodas probabilidades, associar a cada nó terminal da árvore a respectiva probabilidade.

O uso das árvores de probabilidade ajudam e simplificam o entendimento da aplicação dedois teoremas que serão apresentados a seguir, conforme será visto no exemplo.

Exemplo: Em certo colégio, 5% dos homens e 2% das mulheres têm mais de 1,80m de altura.Por outro lado, 40% dos estudantes são homens. Sorteando-se um estudante aleatoriamente,qual a probabilidade de:

• Ser mulher (M) e ter mais de 1,80m?

P (M∩ > 1, 80) = 0, 60× 0, 02 = 0, 012

• Ter mais de 1,80m?

P (> 1, 80) = P (M∩ > 1, 80) + P (H∩ > 1, 80)

P (H∩ > 1, 80) = 0, 40× 0, 05 = 0, 02

P (> 1, 80) = 0, 012 + 0, 02 = 0, 032

Page 40: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 40

• Um estudante é escolhido ao acaso e tem mais de 1,80m. Qual a probabilidade de que oestudante seja mulher?

P (M | > 1, 80) =P (M∩ > 1, 80)

P (> 1, 80)=

0, 012

0, 032= 0, 375

3.3 VARIÁVEL ALEATÓRIA

Variável Aleatória - variável descritora de populações, cujos valores são associados a proba-bilidades de ocorrência.

Exemplo: Um estudante é submetido a três questões de múltipla escolha, em cada questãotinha cinco alternativas. Logo a chance de acerta uma questão no chute é 20%

• Correto (C) - P (C) = 20% = 15

• Errado (E) - P (E) = 80% = 45

A questões e resultados possíveis são:

Page 41: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 41

Ω = CCC,CCE,CEC,CEE,ECC,ECE,EEC,EEE

Supondo que sua variável aleatória é acertar a questão, temos que o ocorrência no espaçoamostral pode ser:

Ω =

CCC

3,CCE

2,CEC

2,CEE

1,ECC

2,ECE

1,EEC

1,EEE

0

As probabilidade dos pontos amostrais são:

P (CCC) =1

5

1

5

1

5=

1

125

P (CCE) =1

5

1

5

4

5=

4

125

P (CEC) =1

5

4

5

1

5=

4

125

P (CEE) =1

5

4

5

4

5=

16

125

P (ECC) =4

5

1

5

1

5=

4

125

P (ECE) =4

5

1

5

4

5=

16

125

P (EEC) =4

5

4

5

1

5=

16

125

P (EEE) =4

5

4

5

4

5=

64

125

Pode-se construir uma tabela, em que X é o número de questões corretas e f(x) é a probabi-lidade de ocorrer o resultado X.

x 0 1 2 3f(x) 64/125 48/125 12/125 1/125

Nesta tabela X assume os valores (X = 0, 1, 2, 3) que são valores numéricos que descrevemos resultados da experiência, logo os valores de X são de uma variável aleatória.

Uma função que transforma em resultados de um espaço amostral em números reais, chama-sevariável aleatória.

• X é o nome da variável aleatória definida. Ex. número de questões corretas;

• x são os valores assumidos pela variável. Ex. x = 0, 1, 2, 3.

3.3.1 Função de Probabilidade Discreta

É uma função f(x) que associa a cada valor x da variável aleatória a sua respectiva proba-bilidade. Esta função deve atender duas condições:

1. f(x) ≥ 0;

2.∑

f(x) = 1

Page 42: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 42

x 0 1 2 3f(x) 64/125 48/125 12/125 1/125

Ex.: Para a três questões, considerando X número de acertos e x=(0,1,2,3)Verificação da duas condições:

1. f(x) ≥ 0;

• Para x < 0→ f(x) = 0

• Para 0 ≤ x ≤ 2→ f(x) > 0

• Para x > 2→ f(x) = 0

2.∑

f(x) =64

125+

48

125+

12

125+

1

125=

125

125= 1

Uma função de probabilidade discreta pode ser representada por

f(x) ouP (x) ouP (X = x)

Outra forma de representar uma distribuição de probabilidade de uma variável aleaória é pormeio de sua função de distribuição acumulado, que é definida por

F (x) = P (X ≤ x) =

n∑i=1

P (X = xi)

Utilizando o exemplo das questões, temos que a função de distribuição é

x 0 1 2 3f(x) 64/125 48/125 12/125 1/125

Assim a função de distribuição acumulado é dada por

x 0 1 2 3F(x) 64/125 112/125 124/125 125/125

E sua representação gráfica:

3.3.1.1 Esperança Matemática e Variância de uma VAD

Definição: Seja X uma V.A.D., com valores possíveis x1, x2, ..., xn; Seja P (xi) = P (X =

xi), i = 1, 2, ..., n. Então, o valor esperado de X (ou Esperança Matemática de X), denotado porE(X) é definido como

E(X) =∞∑i=1

xiP (xi)

esta expressão é também denominado o valor médio de X.

Page 43: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 43

Definição: Seja X uma V.A.D. . Define-se a variância de X, denotada por V (X) ou σ2X , daseguinte maneira:

V (X) =

∞∑i=1

(xi − E(X))2 P (xi) = ou V (X) = E(X2)− (E(X))2

e a raiz quadrada positiva de V(X) é denominada o desvio-padrão de X, e denotado por σX .No exemplo das questões

E(X) =

4∑i=1

xiP (xi) = 064

125+ 1

48

125+ 2

12

125+ 3

1

125= 0 +

48

125+

24

125+

3

125= 0, 60

V (x) =

4∑i=1

(xi − E(X))2 P (xi) = (0− 0, 60)264

125+ (1− 0, 60)2

48

125+ (2− 0, 60)2

12

125+ (3− 0, 60)2

1

125

= 0, 3664

125+ 0, 16

48

125+ 1, 96

12

125+ 5, 76

1

125

=23, 04

125+

7, 68

125+

23, 52

125+

5, 76

125=

60

125= 0, 48

V (X) = E(X2)− (E(X))2

E(X2) =4∑i=1

x2iP (xi) = 0264

125+ 12

48

125+ 22

12

125+ 32

1

125= 0

64

125+ 1

48

125+ 4

12

125+ 9

1

125

= 0 +48

125+

48

125+

9

125=

105

125= 0, 84

V (X) = 0, 84− (0, 60)2 = 0, 84− 0, 36 = 0, 48

3.3.2 Função de probabilidade contínua ou função de densidade de probabilidade(fdp).

Se a variável aleatória é contínua a sua função de probabilidade é uma função contínuaconhecida por função de densidade de probabilidade (fdp). Esta função atende duas condições:

1. f(x) ≥ 0 ∀x ∈ R

2.∫Rf(x)dx = 1

Page 44: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 44

Das duas condições verifica-se que

P (a < x < b) =

∫ b

af(x)dx

No casa das variáveis contínuas a função de distribuição acumulada, que é definida por

F (x) = P (X ≤ x) =

∫ x

−∞f(x)dx

E sua representação gráfica:

Ex.: O tempo gasto, em minutos, por um estudante para responder a uma questão de umteste é uma variável aleatória contínua com função dada por

f(x) =

x4 para 1 ≤ x ≤ 3

0 para outros valores

Pela notação verifica-se que o estudante gasta um tempo entre 1 e 3 minutos.Verificar as duas condições

1. f(x) ≥ 0 ∀x ∈ R

• Para x < 1→ f(x) = 0

• Para 1 ≤ x ≤ 3→ f(x) > 0

• Para x > 3→ f(x) > 0

2.∫Rf(x)dx = 1

∫ ∞−∞

f(x)dx =

∫ ∞−∞

x

4dx =

∫ 3

1

x

4dx =

1

4

∫ 3

1xdx =

1

4

x2

2

]31

=1

4

(32

2− 12

2

)=

1

4

(9

2− 1

2

)=

1

4

8

2= 1

Page 45: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 45

Para obter a probabilidade utiliza-se a integral, por exemplo,

P (2 < x < 3) =

∫ 3

2

x

4dx

=1

4

∫ 3

2xdx

=1

4

x2

2

]32

=1

4

(32

2− 22

2

)=

1

4

(9

2− 4

2

)=

1

4

5

2=

5

8= 0, 625

3.3.2.1 Esperança Matemática e Variância de uma fdp

Definição: Seja X uma V.A. continua, com fdp f(x). Então, o valor esperado de X (ouEsperança Matemática de X), denotado por E(X) é definido como

E(X) =

∫ ∞−∞

xf(x)dx

esta expressão é também denominado o valor médio de X.Definição: Seja X uma V.A.D. . Define-se a variância de X, denotada por V (X) ou σ2X , da

seguinte maneira:

V (X) =

∫ ∞−∞

(x− E(X))2 f(x)dx ou V (X) = E(X2)− (E(X))2

em que

E(X2) =

∫ ∞−∞

x2f(x)dx

e a raiz quadrada positiva de V(X) é denominada o desvio-padrão de X, e denotado por σX .No exemplo da o tempo gasto, em minutos, por um estudante para responder a uma questão

de um teste, temos que:

E(X) =

∫ ∞−∞

xf(x)dx =

∫ 3

1xx

4dx = 2, 17

V (X) =

∫ ∞−∞

(x− E(X))2 f(x)dx =

∫ 3

1(x− 2, 17)2

x

4dx = 0, 30

E(X2) =

∫ ∞−∞

x2f(x)dx =

∫ 3

1x2x

4dx = 5, 00

V (X) = E(X2)− (E(X))2 = 5− (2, 17)2 = 0, 30

Page 46: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 46

3.4 DISTRIBUIÇÕES DISCRETAS DE PROBABILIDADE

A distribuição discreta descreve quantidades aleatórias (dados de interesse) que podem as-sumir valores particulares e os valores são finitos. Por exemplo, uma variável aleatória discretapode assumir somente os valores 0 e 1, ou qualquer inteiro não negativo, etc.

Exemplos

1. Lança-se uma moeda 10 vezes e anota-se o número de caras. Este número pode ser 0, 1, 2...10.

2. Em uma pesquisa de mercado feita com 200 pessoas, perguntam-se estes compram umdeterminado produto. O número de pessoas que compram o produto varia de 0 a 200.

3. Conta-se o número de acidentes que ocorrem em uma rodovia num feriado prolongado. Onúmero de acidentes em questão pode ser: 0, 1, 2... Como não temos um valor que limiteesse número, supomos que o número de acidentes é qualquer inteiro não negativo.

4. Número de chamadas telefônicas que chegam a uma central em um intervalo de tempo.

Existem várias distribuições discretas ou modelos probabilísticos discretos que podem serusados em diversas situações práticas. O problema é determinar qual modelo é mais adequadopara a situação em estudo, e como aplicá-lo adequadamente.

3.4.1 Distribuição Uniforme Discreta

É a mais simples das distribuições discretas e recebe o nome de uniforme porque todos osvalores da variável aleatória são assumidos com a mesma probabilidade.

Exemplo o lançamento de um dado não viciado, definindo como X, a variável aleatória querepresenta a face voltada para cima, X assume os valores x = 1, 2, 3, 4, 5, 6 com a mesma proba-bilidade 1/6.

A distribuição uniforme neste caso é dada por

f(x) =1

6para x = 1, 2, 3, 4, 5, 6

Generalizado obtém-se a função de probabilidade

f(x) =1

kpara x = x1, x2, x3, ..., xk

k numero de termos.Verifica-se então que f(x) depende de k.

3.4.1.1 Parâmetros Característicos da Distribuição Uniforme

1. Média µ = k+12

No exemplo dos dados µ = 6+12 = 3, 5

2. Variância σ2 = k2−112

No exemplo dos alérgicos sigma2 == 62−112 = 2, 92 s

Page 47: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 47

3.4.2 Distribuição Bernoulli

Na prática existem muitos experimentos que admitem apenas dois resultados. Exemplos:

1. Uma peça é classificada como boa ou defeituosa;

2. Um entrevistado concorda ou não com a afirmação feita;

3. Um servidor de internet está ativo ou não;

4. Numa linha de produção observa-se se um item é defeituoso ou não.

Situações com alternativas dicotômicas podem ser representadas genericamente por respostasdo tipo sucesso-fracasso.

Esses experimentos recebem o nome de ensaio de Bernoulli e originam uma variável alea-tória com distribuição Bernoulli. Neste caso, consideramos uma experiência com dois possíveisresultados

• Sucesso → P (sucesso) = p;

• Fracasso → P (fracasso) = q.

Temos que:

Ω = Sucesso, Fracasso ∴ P (Ω) = 1

p+ q = 1 q = 1− p

3.4.2.1 Parâmetros Característicos da Distribuição Uniforme

1. Média µ = p

No exemplo dos dados µ = 6+12 = 3, 5

2. Variância σ2 = pq

No exemplo dos alérgicos sigma2 == 62−112 = 2, 92 s

3.4.3 Distribuição Binomial

Na maior parte das vezes, são realizados n ensaios de Bernoulli. O interesse está no númeroX de ocorrências de sucessos.

Exemplos:

1. lançar uma moeda cinco vezes e observar o número de caras;

2. numa linha de produção, observar dez itens, e verificar quantos são defeituosos;

3. verificar, num dado instante, o número de processadores ativos, num sistema com multi-processadores;

Uma experimento binomial é dado da seguinte forma:

1. consiste em n ensaios de Bernoulli;

Page 48: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 48

2. cujos ensaios são independentes; e

3. para o qual a probabilidade de sucesso em cada ensaio é sempre igual a p, 0 < p < 1

A variável aleatória X, correspondente ao número de sucessos num experimento binomial,tem distribuição binomial com parâmetros n e p, com função de probabilidade dada por

P (X = x) = Cnx pxqn−x

A fórmula de cálculo de uma combinação é a seguinte:

Cnx =

(n

x

)=

n!

x! (n− x)!

A função f(x) permite calcular a probabilidade de acontecer o resultado x (número de sucessosda variável aleatória), não importando a ordem de ocorrência de x dentro da experiência.

Exemplo: Numa família com n = 5 filhos, qual a probabilidade de não haver homens? Quala probabilidade de haver dois homens? n = 5, p = 1

2 , q = 12

f(x) = C5xpxq5−x; x = 0, 1, 2, 4, 5

A variável aleatória representa o número de homens (filhos do sexo masculino) encontradoem famílias de 5 filhos

1. x = 0 homem

f(x) = C50p

0q5−0

=5!

0! (5− 0)!

(1

2

)0(1

2

)5

=1

32= 0, 0313 ou 3, 13%

2. x = 2 homens

f(x) = C52p

2q5−2

=5!

2! (5− 2)!

(1

2

)2(1

2

)3

=20

2

1

4

1

8=

10

32= 0, 3125 ou 31, 25%

Exemplo: Lançada oito moedas (ou uma moeda oito vezes), qual a chance de obter

• Três caras?

• no máximo três caras?

• no mínimo quatro caras?

Page 49: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 49

A variável aleatória x neste caso é o número de caras obtidos no lançamento, logo neste casoo sucesso sair cara nas moedas lançadas. Assim temos:

n = 8, p =1

2= 0, 5 q = 1− q = 1− 0, 5 = 0, 5

A função de probabilidadef(x) = Cnx p

xqn−x

Probabilidade de sair três caras

P [X = 3] = C83p

3q8−3

=8!

3! (8− 3)!(0, 5)3(0, 5)5

= 56× 0, 125× 0, 03125 = 0, 2187 ou 21, 87%

Probabilidade de sair no máximo três caras

P [X ≤ 3] = P [X = 0] + P [X = 1] + P [X = 2] + P [X = 3]

P [X = 0] = C80p

0q8−0 = 0, 0039

P [X = 1] = C81p

1q8−1 = 0, 0313

P [X = 2] = C82p

2q8−2 = 0, 1094

P [X = 3] = 0, 2187

P [X ≤ 3] = 0, 0039 + 0, 0313 + 0, 1094 + 0, 2187 = 0, 3633 ou 36, 33%

Probabilidade de sair no mínimo quatro caras

P [X ≥ 4] = P [X = 4] + P [X = 5] + P [X = 6] + P [X = 7] + P [X = 8]

ou

P [X ≥ 4] = 1− P [X < 4] = 1− (P [X = 0] + P [X = 1] + P [X = 2] + P [X = 3])

= 1− 0, 3633 = 0, 6367 ou 63, 67%

3.4.3.1 Parâmetros Característicos da Distribuição Binomial

1. Média µ = np

2. Variância σ2 = npq

3. Desvio Padrão σ =√npq

Utilizando o exemplo das moedas temos:

1. Média µ = np = 8× 0, 5 = 4

Page 50: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 50

2. Variância σ2 = 8× 0, 5× 0, 5 = 2

3. Desvio Padrão σ =√npq =

√2 = 1, 41

3.4.4 Distribuição Hipergeométrica

A distribuição hipergeométrica é intimamente relacionada à distribuição binomial. Enquantoa distribuição binomial é o modelo aproximado de amostragem sem reposição de uma população,dicotômica finita, a distribuição hipergeométrica é o modelo de probabilidade para o númerode sucessos em uma amostra. As hipóteses que levam à distribuição hipergeométrica são asseguintes:

1. 1. A população ou o conjunto de onde é retirada a amostra consiste de N indivíduos,objetos ou elementos (população finita).

2. Cada indivíduo é classificado como sucesso (p) ou fracassos (q) e há M sucessos na popu-lação.

3. É selecionada uma amostra sem reposição de n indivíduos de forma que cada subconjuntode tamanho n seja igualmente provável de ser escolhido.

A distribuição hipergeométrica tem a seguinte função de probabilidade

f(x) =CkxC

(N−k)(n−x) ,

CNnx = 0, 1, 2, 3, ....

em que:

• x é uma variável aleatória discreta;

• N quantidade de itens;

• n tamanho da amostra;

• k numero de sucessos;

Exemplo: Pequenos motores elétricos são expedidos em lotes de 50 unidades. Antes queuma remessa seja aprovada, um inspetor escolhe 5 desses motores e os inspeciona. Se nenhumdos motores inspecionados for defeituoso, o lote é aprovado. Se um ou mais forem verificadosdefeituosos, todos os motores da remessa são inspecionados. Suponha que existam, de fato,três motores defeituosos no lote. Qual a probabilidade de que a inspeção de todo o lote sejanecessária?

Se fizermos igual a X o numero de motores defeituosos encontrados, inspeção de todo o loteseja necessária se X ≥ 1

Page 51: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 51

Neste caso temos k = 3 n = 5 N = 50;

P [X = x] =CkxC

(N−k)(n−x) ,

CNnP [X ≥ 1] = 1− P [X < 1] = 1− P [X = 0])

P [X = 0] = =C30C

(50−3)(5−0) ,

C505

=C30C

475 ,

C505

= 0, 7239

P [X ≥ 1] = 1− 0, 7239 = 0, 2761

Quando se tem nN < 0, 1, pode-se utilizar a distribuição binomial para aproximar a distribui-

ção hipergeométrica.

3.4.4.1 Parâmetros Característicos da Distribuição Hipergeométrica

1. Considerando p =k

Ne q = 1− p

2. Média µ = np

3. Variância σ2 = npqN − nN − 1

3.4.5 Distribuição Geométrica

A distribuição geométrica está também associada à seqüência de uma prova de Bernoulliexcetuando-se que o número de provas não é fixada, e, na verdade, a variável aleatória de interesseX é definida como o número de provas necessárias para obter o primeiro sucesso.

Exemplos:

• numero de vezes que uma pessoa estaciona num certo local proibido até apanhar umamulta;

• numero de tentativas até acertar no alvo (jogo de tiro ao alvo);

• numero de lançamentos de uma moeda até sair cara;

A distribuição geométrica tem a seguinte função de probabilidade

f(x) = pqx x = 0, 1, 2, 3, ....

em que:

• x é uma variável aleatória discreta;

• p probabilidade de sucesso;

• q probabilidade de fracasso.

Exemplo: Se 0, 05 é a probabilidade de uma fábrica produzir uma peça defeituosa, qual éa probabilidade de pelo menos 2 peças boas sejam produzidas antes de se produzir a primeiradefeituosa.

Page 52: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 52

X o numero peças boas, então pelo menos 2 peças boas X ≥ 2

Neste caso temos p = 0, 05 q = 0, 95;

P [X = x] = pqx

P [X ≥ 2] = 1− P [X < 2] = 1− (P [X = 0] + P [X = 1])

P [X = 0] = (0, 05)(0, 95)0 = 0, 05

P [X = 1] = (0, 05)(0, 95)1 = 0, 0475

P [X ≥ 2] = 1− (0, 05 + 0, 0475) = 1− 0, 0975

3.4.5.1 Parâmetros Característicos da Distribuição Geométrica

1. Média µ =q

p

2. Variância σ2 =q

p2

3.4.6 Distribuição de Poisson

A distribuição de Poisson é empregada em experimentos nos quais não se está interessado nonúmero de sucessos obtido em n tentativas, como ocorre no caso da distribuição binomial, massim no número de sucessos ocorridos durante um intervalo contínuo, que pode ser um intervalode tempo, espaço, comprimento, área, ou volume. Alguns exemplos de variáveis que podem tera distribuição de Poisson são:

1. número de defeitos por centímetro quadrado;

2. número de acidentes por dia;

3. número de clientes por hora;

4. número de chamadas telefônicas recebidas por minuto;

5. número de falhas de um computador num dia de operação;

6. número de relatórios de acidentes enviados a uma companhia de seguros numa semana.

A distribuição de Poisson tem a seguinte função de probabilidade

f(x) = e−λλx

x!, x = 0, 1, 2, 3, ....

em que:

• x é uma variável aleatória discreta;

• e base dos logaritmos neperianos (2,718...)

• λ - média da distribuição (λp)

Page 53: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 53

Exemplo: O número médio de dias por ano que ocorrem chuvas acima de 50mm.h−1 em umadeterminada região é 1,5. Qual a probabilidade de haver mais de dois dias com chuvas acimadessa intensidade.

P [X = x] = e−λλx

x!P [X > 2] = 1− P [X ≤ 2] = 1− (P [X = 0] + P [X = 1] + P [X = 2])

P [X = 0] = = e−1,51, 50

0!= 0, 2231

P [X = 1] = = e−1,51, 51

1!= 0, 3347

P [X = 2] = = e−1,51, 52

2!= 0, 2510

P [X > 2] = 1− (0, 2231 + 0, 3347 + 2510) = 1− 0, 8088 = 0, 1912 ou 19, 12%

A distribuição de Poisson também é conhecida na prática com lei dos eventos raros. Eventoraro pode ser considerado quando n ≥ 50 e p ≤ 0, 10.Nestes casos podemos utilizar a distribuiçãode Poisson para probabilidades de situações que seriam utilizadas uma distribuição binomial.

Exemplo: A probabilidade de que um indivíduo apresente reação alérgica após a aplicaçãode um soro é de 0,002. Esse mesmo soro foi aplicado a um grupo de 1800 pessoas, qual aprobabilidade de que duas pessoas apresentem reação alérgica? n=1800 p=0,002

λ = 1800× 0, 002 = 3, 6 alérgicos

P [X = x] = e−λλx

x!

P [X = 2] = = e−3,63, 62

2!0, 1770ou 17, 70%

3.4.6.1 Parâmetros Característicos da Distribuição de Poisson

1. Média µ = λ

No exemplo dos alérgicos µ = 3, 6

2. Variância σ2 = λ

No exemplo dos alérgicos σ2 = 3, 6 s

3. Desvio Padrão σ =√λ

No exemplo da sementes σ =√

3, 6 = 1, 9

Page 54: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 54

3.5 DISTRIBUIÇÕES CONTÍNUAS DE PROBABILIDADE

São distribuições de variáveis aleatórias contínuas. Uma variável aleatória contínua tomaum numero infinito não numerável de valores (intervalos de números reais), os quais podem serassociados com medidas numa escala contínua. Exemplos:

1. Mede-se a altura de uma mulher em uma cidade. O valor encontrado é um número real.Aqui também sabemos que esse número não passa de 3 metros, mas é conveniente considerarqualquer numero real positivo.

2. Em um exame físico para selecionar um jogador de futebol é medido o peso de cada candi-dato; aqui também consideramos que o resultado pode ser qualquer número real positivo.

3. Em campanhas preventivas de hipertensão arterial é comum de tempos em tempos medir-seo nível de colesterol. O valor de cada medida pode ser um número real não negativo.

4. Para pacientes que se apresentam num hospital a primeira atitude é medir-se a temperatura;o valor da temperatura é um número real que se pode considerar compreendido entre 35o

e 42oC.

5. Retira-se uma lâmpada da linha de produção e coloca-se a mesma em um soquete acendendo-a; observa-se a mesma até que se queime. O tempo de duração da lâmpada é um numeroreal não negativo.

As variáveis continuas ficam completamente definidas por qualquer uma das seguintes funções

• Função densidade de probabilidade f(x) - definida para todo o x em que a variável estádefinida.

• Função Acumulada ou de distribuição F (x) - representa a probabilidade acumulada até x

F (x) = P (X ≤ x)

Calculo de probabilidades em variáveis continuas

P (X ≤ a) = F (a) =

∫ a

−∞f(x)dx

P (a ≤ X ≤ b) = F (b)− F (a) =

∫ b

af(x)dx

P (X > a) = 1− F (a)

P (X = a) = 0, para todo o valor de a

3.5.1 Distribuição Uniforme

Se X é uma V. A. C. assumindo qualquer valor num intervalo (a, b) pertencente a R, com amesma probabilidade, diz-se que X tem distribuição uniforme.

Page 55: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 55

A função de densidade da distribuição uniforme é dada por

f(x) =

1b−a parax ∈ (a, b)

0 parax 6∈ (a, b)

em que:

• a é o menor valor assumido por x;

• b é o maior valor assumido por x;

A representação gráfica de f(x) é a seguinte:

A função de distribuição é dada por:

F (x) =

0 sex < ax−ab−a se a ≤ x ≤ b1 sex > b

Área de um retângulo

A = B.h

= (b− a)

(1

b− a

)A = 1

Outra forma de ver a área:

A =

∫ b

a

1

b− adx

=1

b− a

∫ b

adx

=1

b− ax

]ba

=1

b− a(b− a) = 1

Realmente é uma função de densidade, pois a f(x) ≥ 0 e a área é igual a 1.

Page 56: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 56

Exemplo. Se uma VAC assume qualquer valor no intervalo (−2, 3) com a mesma probabili-dade, a distribuição uniforme tem a seguinte função de densidade:

f(x) =

1

3−(−2) = 15 parax ∈ (−2, 3)

0 parax 6∈ (−2, 3)

Qual a probabilidade de x estar entre 0 e 2?

P (0 ≤ x ≤ 2) = b.h = 2.1

5=

2

5= 0, 4

P (0 ≤ x ≤ 2) = F (2)− F (0)

F (2) =2 + 2

5=

4

5

F (0) =0 + 2

5=

2

5

P (0 ≤ x ≤ 2) =4

5− 2

5=

2

5= 0, 4

3.5.1.1 Parâmetros Característicos da Distribuição Uniforme

1. Média µ =a+ b

2

No exemplo µ =−2 + 3

2= 0, 5

2. Variância σ2 =(b− a)2

12

No exemplo σ2 =(3− (−2))2

12=

25

12= 2, 08

3. Desvio Padrão σ =b− a√

12

No exemplo σ =3− (−2)√

12=

5√12

= 1, 44

3.5.2 Distribuição Exponencial

A distribuição exponencial está ligada à de Poisson; ela analisa inversamente o experimento:um intervalo ou espaço para ocorrência de um evento.

Exemplos:

1. O tempo para carregar um caminhão considerando que em média gasta-se 15 minutos pararealizar esta tarefa;

2. O tempo de espera em restaurantes, caixas de banco;

3. O tempo de vida de aparelhos eletrônicos.

A função de densidade da distribuição exponencial é dada por

f(x) = λe−λx, x ≥ 0

em que:

Page 57: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 57

• λ taxa de falha no intervalo de tempo.

A representação gráfica de f(x) é a seguinte:

A função de distribuição é dada por:

F (x) = 1− e−λx, x ≥ 0

Exemplo: Suponha que uma máquina falhe em média uma vez a cada dois anos. Calcule aprobabilidade da máquina falhar durante o próximo ano. Tempos λ = 1

2 = 0, 5, e X tempo parafalhar, temos P (X ≤ 1)

P (X ≤ 1) = F (1) = 1− e−0,5 = 0, 3935

3.5.2.1 Parâmetros Característicos da Distribuição Exponencial

1. Média µ =1

λ

2. Variância σ2 = 1λ2

3.5.3 Distribuição Normal

A distribuição Normal corresponde a mais importante distribuição de variáveis aleatóriascontínuas, em razão da sua enorme aplicação nos mais variados campos do conhecimento. Suafunção de densidade de probabilidade é dada por:

f(x) =1√

2πσ2exp

−(x− µ)2

2σ2

, −∞ < x <∞

em que os parâmetros µ e σ2 são respectivamente a média e a variância da distribuição.A distribuição normal apresenta a seguinte propriedades:

1. É simétrica em relação a µ;

2. O ponto máximo de f(x) ocorre em x = µ. Neste ponto as três medidas de posição (média,moda e mediana) se confundem;

3. A área compreendida abaixo da curva normal e a acima do eixo x vale 1 ou 100%;

Page 58: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 58

A distribuição Normal com média µ = 0 e variância σ2 = 1 é conhecida como distribuiçãoNormal reduzida ou padronizada. Uma variável aleatória com essa distribuição geralmente ésimbolizada pela letra Z.

O cálculo de probabilidades de uma distribuição Normal é feito pela integral definida nointervalo da variável objeto de estudo:∫ b

a

1√2πσ2

exp

−(x− µ)2

2σ2

dx

Devido a dificuldade de resolução dessa integral, procurou-se métodos alternativos para obten-ção das probabilidades. Uma das formas mais utilizadas é por meio de tabela de probabilidadesde uma distribuição Normal padrão (Z).

Uma propriedade interessante de uma variável aleatória X que segue qualquer distribuiçãoNormal é a de que ela pode ser transformada em uma variável normal padrão Z, por meio daexpressão

z =x− µσ

As áreas referentes à variável Z são geralmente tabeladas do tipo

P (0 < Z < z)

Exemplo: A produção diária de uma fabricante de tintas é uma variável aleatória X comdistribuição normal com média µ = 10000galões e variância σ2 = 1000000galões2. A direçãodessa fabrica quer criar um bônus de incentivo aos funcionários, que será pago se a produçãomédia diária exceder 11000galões. Qual a probabilidade da empresa pagar o bônus? Quero saberP (X > 11000), primeiro vamos padronizar esta variável, sendo σ =

√σ2 =

√1000000 = 1000

Primeiro vamos padronizar esta variável

z =x− µσ

=11000− 10000

1000= 1, 0

Assim,P (X > 11000) = (Z > 1, 0)

Page 59: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 59

Como a tabela me fornece apenas o valor de que está entre 0 e z, então temos

P (X > 11000) = P (Z > 1, 0) = 0, 5− P (0 < Z < 1, 0) = 0, 5− 0, 3413 = 0, 1587

Assim a probabilidade da empresa pagar o bonus é de 0,1587.Um membro da direção da fábrica diz que se a empresa tiver produção média diária entre

9000 e 9500 galões em um mês anterior, não tem como pagar o bônus mesmo que o funcionáriostenha excedido os 11000galões. Nesse caso Qual a probabilidade não pagar o bônus.

Quero saber P (9000 < x < 9500), primeiro vamos padronizar esta variável

z1 =x1 − µσ

=9000− 10000

1000= −1 z2 =

x2 − µσ

=9500− 10000

1000= −0, 5

EntãoP (9000 < x < 9500) = P (−1 < z < −0, 5)

Como na tabela tem apenas valores positivos e a distribuição normal é simétrica temos que

P (−1 < z < −0, 5) = P (0, 5 < z < 1, 0)

Utilizando a tabela temos que

P (0, 5 < z < 1, 0) = P (0 < z < 1, 0)− P (0 < z < 0, 5) = 0, 3413− 0, 1915 = 0, 1498

Assim, a probabilidade de P (9000 < x < 9500) = 0, 1498

Page 60: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 60

Qual a probabilidade da empresa produzir entre 9500 e 11000 galões por dia. Utilizando aspadronizações já realizadas temos que

P (9000 < x < 11000) = P (−0, 5 < z < 1, 0)

Assim,

P (−0, 5 < z < 1, 0) = P (0 < z < 1, 0) + P (0 < z < 0, 5) = 0, 3413 + 0, 1915 = 0, 5328

3.5.3.1 Aproximação Normal das Distribuições Binomial e de Poisson

A distribuição normal pode ser utilizada como uma aproximação das distribuições Binomial ede Poisson. Esta aproximação se torna cada vez melhor quando o tamanho da amostra n cresce.

Recomenda-se usar a aproximação normal, quando:

• Distribuição Binomial - se np e nq ≥ 5

• Distribuição Poisson - se np ≥ 5

No uso da aproximação normal deve-se lembrar que as distribuições Binomial e de Poissonsão de variáveis aleatórias discretas (só existe probabilidade para valores inteiros). Nestes casosrecomenda-se utilizar a correção de continuidade x− 0, 5 e x+ 0, 5.

Exemplo: Sabe-se que o poder germinativo das sementes de uma certa variedade de milho éde 30%. Semeando 30 destas sementes, qual a probabilidade de germinar mais de cinco semente.

Temos n = 30 e p = 0, 30 e q = 0, 7

A média µ = np = 30× 0, 30 = 9 e a variância σ2 = npq = 100× 0, 30× 0, 70 = 6, 3

Page 61: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 61

Queremos P (X > 5), utilizando a correção de continuidade P (X > 5, 5). Vamos padronizar

z =x− µσ

=5, 5− 9√

6, 3= −1, 39

Assim,

P (X > 5, 5) = P (Z > −1, 39) = 0, 5 + P (0 < Z < 1, 39) = 0, 5 + 0, 4177 = 0, 9177

Exemplo: Numa lâmina verificou-se que existiam em média 27,6 bactérias/cm2. Qual aprobabilidade de se encontrar mais de 35 bactérias por centímetro quadrado?

Temos λ = 27, 6

Queremos P (X > 35), utilizando a correção de continuidade P (X > 35, 5). Vamos padroni-zar

z =x− µσ

=35, 5− 27, 6√

27, 6= 1, 50

Assim,

P (X > 35, 5) = P (Z > 1, 50) = 0, 5− P (0 < Z < 1, 50) = 0, 5− 0, 4332 = 0, 0668

Page 62: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 62

Tabela 3.2: Distribuição Normal - probabilidade do valor de z padronizado estar entre 0 e o valortabulado nas margens

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,090,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,03590,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,07530,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,11410,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,15170,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,18790,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,22240,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,25490,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,28520,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,31330,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,33891,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,36211,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,38301,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,40151,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,41771,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,43191,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,44411,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,45451,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,46331,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,47061,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,47672,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,48172,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,48572,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,48902,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,49162,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,49362,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,49522,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,49642,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,49742,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,49812,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,49863,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,49903,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,49933,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,49953,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,49973,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,49983,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,49983,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,49993,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,49993,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,49993,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000

Page 63: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 63

3.6 DISTRIBUIÇÕES AMOSTRAIS

Ao retirarmos uma amostra aleatória de uma população e calcularmos a partir desta amostraqualquer quantidade, encontramos a estatística, ou seja, chamaremos os valores calculados emfunção dos elementos da amostra de estatísticas.

3.6.1 Distribuição Amostral da Média (X)

Se considerarmos o processo de seleção de uma amostra aleatória simples como um experi-mento, a média da amostra X é a descrição numérica do resultado do experimento. Assim, amédia da amostra X é uma variável aleatória. Como resultado, tal como outras variáveis aleató-rias, X tem uma média ou um valor esperado, uma variância e uma distribuição de probabilidade.Como os valores possíveis de X são os resultados de diferentes amostras aleatórias simples, adistribuição da probabilidade de X é chamada de distribuição amostral. Pode-se assim dizer quea média aleatória X é o valor esperado de , isto é, E(X) = µ, em que µ é a média da população.

Seja σ2X

a variância da distribuição de amostragem de X; por propriedade da variância está

sera σ2X

=σ2

n

3.6.1.1 Teorema do Limite Central (TLC)

Ao selecionar amostras aleatórias simples de tamanho n a partir de uma população comparâmetros (µ, σ2) a distribuição amostral da média das amostras X pode ser aproximada peladistribuição normal de probabilidade à medida que o tamanho de amostra se torna maior.Assim:

• Se a população tem distribuição normal, então a média amostral terá uma distribuiçãoaproximadamente normal, independentemente da forma da distribuição de frequências dapopulação de onde foi retirada a amostra;

• Se o tamanho n da amostra for suficientemente grande maior ou igual a 30 elementos),então a média de uma amostra aleatória retirada de uma população terá uma distribuiçãoaproximadamente normal, independentemente da forma da distribuição de frequências dapopulação de onde foi retirada a amostra.

Portanto, a distribuição da média amostral é aproximadamente normal e seus valores de

média e desvios padrão estão relacionados com média µX = µ e variância σ2X

=σ2

n

Page 64: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 64

Como a distribuição da média amostral é uma distribuição normal, podemos transforma-laem uma variável normal padrão Z, por meio da expressão

z =x− µσ√n

Exemplo: Uma industria elétrica fabrica lâmpadas que têm vida útil distribuída com médiade 800horas e variância igual 1600(horas)2. Qual a probabilidade de uma amostra aleatória detamanho n = 64 ter vida útil superio a 806, 65horas

Temos que µ = 800 e σ2 = 1600 e σ = 40, então µX = 800 e σ2X

= 160064 ,

Queremos P (X > 10, 0), primeiro vamos padronizar

z =x− µσ√n

=806, 65− 800

40√64

=6, 65408

= 1, 33

Então:

P (X > 806, 65) = P (z > 1, 33) = 0, 5− P (0 < z < 1, 33) = 0, 5− 0, 4082 = 0, 0918

3.6.1.2 Distribuição t de student

A distribuição t de Student aparece naturalmente no problema de se determinar a média deuma população (que segue a distribuição normal) a partir de uma amostra. Neste problema, nãose sabe qual é a média ou o desvio padrão da população, mas ela deve ser normal.

A variável aleatória T dada por:

t =X − µS/√n

segue uma distribuição t de Student com ν = n− 1 graus de liberdade, e a função de densidadeé dada por

f(t) =Γ(ν+1

2 )√νπ Γ(ν2 )

(1 +

t2

ν

)−( ν+12

)

,

Grau de liberdade pode ser entendido como número de termos independentes (dimensão daamostra) a serem avaliados na população.

Algumas características da distribuição t de student:

Page 65: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 65

• É simétrica em relação a zero;

• Todas curvas tem máximo em t = 0;

• Existe uma curva para cada tamanho de amostra (n) e o valor ν = n− 1 (número de grausde liberdade) é usado para obtenção de valores na tabela;

• A medida que n cresce a distribuição t se aproxima da normal padrão z;

Valores de probabilidade de t são obtidos em tabelas. A tabela de t informa o valor acimado qual se encontra a area α

Exemplo: Seja uma amostra n = 15. Qual é o valor de t acima do qual tem-se 5% deprobabilidade. α = 0, 05, ν = 15− 1 = 14, pela tabela temos que t=1,761

Exemplo: Qual é o valor de t acima do qual tem-se 90% de probabilidade α = 0, 90; ν =

15 − 1 = 14, pela simetria da distribuição o valor que deixa 10% da área à sua esquerda com osinal negativo.

α = 0, 10; ν = 15 − 1 = 14, então t = 1, 345, pela simetria α = 0, 90; ν = 15 − 1 = 14,t = −1, 345

Page 66: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 66

3.6.2 Distribuição amostral para proporção

Considere que uma população a proporção de elementos que portadores de certa característicaé p . Definindo uma variável aleatória, da seguinte maneira

X =

1 se o indivíduo for portador da caractéristica0 se o indivíduo nãofor portador da caractéristica

Logo E(X) = p e V ar(X) = σ2.Como os resultados individuais são 0 (fracasso) ou 1 (sucesso), temos que Y =

∑ni=1 xi

é o total de indivíduos de resultados em n ensaios, que correspondem aos sucessos (indivíduofor portador da característica), porque aos resultados que correspondem aos fracassos, estãoassociados o valor zero.

Assim, Y tem distribuição binomial com parâmetros n (tamanho da amostra) e p (proporçãode indivíduos portadores da característica), em que:

p =Y

n=

n∑i=1

xi

n

ou seja,p é igual à média da variável aleatória XComo Y tem distribuição binomial b(n, p), com média µ = np e variância σ2 = npq. Conse-

quentemente,

E[p] = E

[Y

n

]=

1

nE[Y ] =

1

nnp = p

V ar[p] = E

[Y

n

]=

1

n2E[Y ] =

1

n2npq =

pq

n

Assim, pelo Teorema Limite Central, quando n é grande (n > 30), a proporção amostral p desucessos em n ensaios de Bernoulli tem distribuição aproximadamente normal com média µ = p

e variância σ2 = pqn , e assim podemos utilizar a padronização:

z =p− µσ

=p− p√

pqn

exemplo:

Page 67: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 67

3.6.3 Distribuição Amostral da Variância

3.6.3.1 Distribuição Qui-Quadrado

Há casos em que se está mais interessado na variância do que na média da amostra. Porexemplo, em filas de espera. Mesmo conhecendo-se o tempo médio de espera, a informação dograu de variabilidade deste tempo é importante. A distribuição usada neste caso é conhecidacomo Distribuição Qui-Quadrado, definida como:

χ2 =(n− 1)S2

σ2

e a função de densidade é dada por

f(x) =1

2ν/2Γ(ν/2)xν/2−1e−x/2 Ix≥0,

Da mesma forma que a distribuição t, existe uma curva para distribuição Qui-quadrado paracada tamanho de amostra (n) e o valor ν = n− 1 (número de graus de liberdade) é usado paraobtenção de valores na tabela.

A tabela de χ2 fornece o valor acima do qual encontra-se a área α

Exemplo: Uma amostra com n = 15. Qual o valor que deixa à sua direita 5% da área?α = 0, 05, ν = 15− 1 = 14, pela tabela temos que t=1,761

3.6.3.2 Distribuição F

A distribuição F está entre aquela distribuições de probabilidade mais importantes na esta-tística, tem maior destaque na área de experimentação agrícola. Essa distribuição é definida pela

Page 68: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 68

variável resultante da razão duas variâncias:

F =S21σ

21

S22σ

22

e a função de densidade é dada por

f(x) =Γ(ν1+ν2

2

) (ν1ν2

) ν12xν12−1

Γ(ν12

)Γ(ν22

) (1 + ν1x

ν2

) ν1+ν22

Para se obter valores tabelados da distribuição F, é necessário observar dois graus de libera-dade ν1 = n1 − 1 e ν2 = n2 − 1, o primeiro associado à variância amostral do numerador, e osegundo associado à variância amostral do denominador.

A tabela de F informa o valor acima do qual se encontra a area α e existe uma tabela paracada valor α e diferentes combinações de ν1 e ν2.

Exemplo: Para duas amostras de F

Page 69: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 69

Tabela 3.3: Distribuição t de student - valores para P (t > tc) = α, considerando α =0, 250; 0, 200; 0, 150; 0, 100; 0, 050; 0, 025; 0, 010; 0, 005; 0, 001.

GL αν = n− 1 0,250 0,200 0,150 0,100 0,050 0,025 0,010 0,005 0,001

1 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,656 318,2892 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 22,3283 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841 10,2144 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 7,1735 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 5,8946 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 5,2087 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 4,7858 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 4,5019 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 4,29710 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 4,14411 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 4,02512 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 3,93013 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 3,85214 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 3,78715 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 3,73316 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 3,68617 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,64618 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,61019 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,57920 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,55221 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,52722 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,50523 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,48524 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,46725 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,45026 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,43527 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,42128 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,40829 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,39630 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,38540 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 3,30750 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678 3,26160 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660 3,23280 0,678 0,846 1,043 1,292 1,664 1,990 2,374 2,639 3,195100 0,677 0,845 1,042 1,290 1,660 1,984 2,364 2,626 3,174120 0,677 0,845 1,041 1,289 1,658 1,980 2,358 2,617 3,160240 0,676 0,843 1,039 1,285 1,651 1,970 2,342 2,596 3,125480 0,675 0,842 1,038 1,283 1,648 1,965 2,334 2,586 3,107700 0,675 0,842 1,037 1,283 1,647 1,963 2,332 2,583 3,1021000 0,675 0,842 1,037 1,282 1,646 1,962 2,330 2,581 3,098

Page 70: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 70

Tabela 3.4: Disitruição Qui-quadrado - Valores de χ2 para P (χ2 > χ2c com α =

0, 995; 0, 9900, 975; 0, 950; 0, 900; 0, 750; 0, 500; 0, 250; 0, 100; 0, 050; 0, 025; 0, 010; 0, 005.n α

0,995 0,990 0,975 0,950 0,900 0,750 0,500 0,250 0,100 0,050 0,025 0,010 0,0051 3,93E-05 1,57E-04 0,001 0,004 0,016 0,102 0,455 1,323 2,706 3,841 5,024 6,635 7,8792 0,010 0,020 0,051 0,103 0,211 0,575 1,386 2,773 4,605 5,991 7,378 9,210 10,5973 0,072 0,115 0,216 0,352 0,584 1,213 2,366 4,108 6,251 7,815 9,348 11,345 12,8384 0,207 0,297 0,484 0,711 1,064 1,923 3,357 5,385 7,779 9,488 11,143 13,277 14,8605 0,412 0,554 0,831 1,145 1,610 2,675 4,351 6,626 9,236 11,070 12,832 15,086 16,7506 0,676 0,872 1,237 1,635 2,204 3,455 5,348 7,841 10,645 12,592 14,449 16,812 18,5487 0,989 1,239 1,690 2,167 2,833 4,255 6,346 9,037 12,017 14,067 16,013 18,475 20,2788 1,344 1,647 2,180 2,733 3,490 5,071 7,344 10,219 13,362 15,507 17,535 20,090 21,9559 1,735 2,088 2,700 3,325 4,168 5,899 8,343 11,389 14,684 16,919 19,023 21,666 23,58910 2,156 2,558 3,247 3,940 4,865 6,737 9,342 12,549 15,987 18,307 20,483 23,209 25,18811 2,603 3,053 3,816 4,575 5,578 7,584 10,341 13,701 17,275 19,675 21,920 24,725 26,75712 3,074 3,571 4,404 5,226 6,304 8,438 11,340 14,845 18,549 21,026 23,337 26,217 28,30013 3,565 4,107 5,009 5,892 7,041 9,299 12,340 15,984 19,812 22,362 24,736 27,688 29,81914 4,075 4,660 5,629 6,571 7,790 10,165 13,339 17,117 21,064 23,685 26,119 29,141 31,31915 4,601 5,229 6,262 7,261 8,547 11,037 14,339 18,245 22,307 24,996 27,488 30,578 32,80116 5,142 5,812 6,908 7,962 9,312 11,912 15,338 19,369 23,542 26,296 28,845 32,000 34,26717 5,697 6,408 7,564 8,672 10,085 12,792 16,338 20,489 24,769 27,587 30,191 33,409 35,71818 6,265 7,015 8,231 9,390 10,865 13,675 17,338 21,605 25,989 28,869 31,526 34,805 37,15619 6,844 7,633 8,907 10,117 11,651 14,562 18,338 22,718 27,204 30,144 32,852 36,191 38,58220 7,434 8,260 9,591 10,851 12,443 15,452 19,337 23,828 28,412 31,410 34,170 37,566 39,99721 8,034 8,897 10,283 11,591 13,240 16,344 20,337 24,935 29,615 32,671 35,479 38,932 41,40122 8,643 9,542 10,982 12,338 14,041 17,240 21,337 26,039 30,813 33,924 36,781 40,289 42,79623 9,260 10,196 11,689 13,091 14,848 18,137 22,337 27,141 32,007 35,172 38,076 41,638 44,18124 9,886 10,856 12,401 13,848 15,659 19,037 23,337 28,241 33,196 36,415 39,364 42,980 45,55825 10,520 11,524 13,120 14,611 16,473 19,939 24,337 29,339 34,382 37,652 40,646 44,314 46,92826 11,160 12,198 13,844 15,379 17,292 20,843 25,336 30,435 35,563 38,885 41,923 45,642 48,29027 11,808 12,878 14,573 16,151 18,114 21,749 26,336 31,528 36,741 40,113 43,195 46,963 49,64528 12,461 13,565 15,308 16,928 18,939 22,657 27,336 32,620 37,916 41,337 44,461 48,278 50,99429 13,121 14,256 16,047 17,708 19,768 23,567 28,336 33,711 39,087 42,557 45,722 49,588 52,33530 13,787 14,953 16,791 18,493 20,599 24,478 29,336 34,800 40,256 43,773 46,979 50,892 53,67240 20,707 22,164 24,433 26,509 29,051 33,660 39,335 45,616 51,805 55,758 59,342 63,691 66,76650 27,991 29,707 32,357 34,764 37,689 42,942 49,335 56,334 63,167 67,505 71,420 76,154 79,49060 35,534 37,485 40,482 43,188 46,459 52,294 59,335 66,981 74,397 79,082 83,298 88,379 91,95270 43,275 45,442 48,758 51,739 55,329 61,698 69,334 77,577 85,527 90,531 95,023 100,425 104,21580 51,172 53,540 57,153 60,391 64,278 71,145 79,334 88,130 96,578 101,879 106,629 112,329 116,32190 59,196 61,754 65,647 69,126 73,291 80,625 89,334 98,650 107,565 113,145 118,136 124,116 128,299100 67,328 70,065 74,222 77,929 82,358 90,133 99,334 109,141 118,498 124,342 129,561 135,807 140,170

Page 71: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 71

Tabela 3.5: Limites unilaterais de F ao nível de 10% de probabilidade com os graus de liberdadeν1 e ν2ν2 ν1

1 2 3 4 5 6 7 8 9 10 111 39,863 49,500 53,593 55,833 57,240 58,204 58,906 59,439 59,858 60,195 60,4732 8,526 9,000 9,162 9,243 9,293 9,326 9,349 9,367 9,381 9,392 9,4013 5,538 5,462 5,391 5,343 5,309 5,285 5,266 5,252 5,240 5,230 5,2224 4,545 4,325 4,191 4,107 4,051 4,010 3,979 3,955 3,936 3,920 3,9075 4,060 3,780 3,619 3,520 3,453 3,405 3,368 3,339 3,316 3,297 3,2826 3,776 3,463 3,289 3,181 3,108 3,055 3,014 2,983 2,958 2,937 2,9207 3,589 3,257 3,074 2,961 2,883 2,827 2,785 2,752 2,725 2,703 2,6848 3,458 3,113 2,924 2,806 2,726 2,668 2,624 2,589 2,561 2,538 2,5199 3,360 3,006 2,813 2,693 2,611 2,551 2,505 2,469 2,440 2,416 2,39610 3,285 2,924 2,728 2,605 2,522 2,461 2,414 2,377 2,347 2,323 2,30211 3,225 2,860 2,660 2,536 2,451 2,389 2,342 2,304 2,274 2,248 2,22712 3,177 2,807 2,606 2,480 2,394 2,331 2,283 2,245 2,214 2,188 2,16613 3,136 2,763 2,560 2,434 2,347 2,283 2,234 2,195 2,164 2,138 2,11614 3,102 2,726 2,522 2,395 2,307 2,243 2,193 2,154 2,122 2,095 2,07315 3,073 2,695 2,490 2,361 2,273 2,208 2,158 2,119 2,086 2,059 2,03720 2,975 2,589 2,380 2,249 2,158 2,091 2,040 1,999 1,965 1,937 1,91330 2,881 2,489 2,276 2,142 2,049 1,980 1,927 1,884 1,849 1,819 1,79440 2,835 2,440 2,226 2,091 1,997 1,927 1,873 1,829 1,793 1,763 1,73750 2,809 2,412 2,197 2,061 1,966 1,895 1,840 1,796 1,760 1,729 1,70360 2,791 2,393 2,177 2,041 1,946 1,875 1,819 1,775 1,738 1,707 1,680120 2,748 2,347 2,130 1,992 1,896 1,824 1,767 1,722 1,684 1,652 1,625240 2,727 2,325 2,107 1,968 1,871 1,799 1,742 1,696 1,658 1,625 1,598ν2 ν1

12 13 14 15 20 30 40 50 60 120 2401 60,705 60,903 61,073 61,220 61,740 62,265 62,529 62,688 62,794 63,061 63,1942 9,408 9,415 9,420 9,425 9,441 9,458 9,466 9,471 9,475 9,483 9,4873 5,216 5,210 5,205 5,200 5,184 5,168 5,160 5,155 5,151 5,143 5,1384 3,896 3,886 3,878 3,870 3,844 3,817 3,804 3,795 3,790 3,775 3,7685 3,268 3,257 3,247 3,238 3,207 3,174 3,157 3,147 3,140 3,123 3,1146 2,905 2,892 2,881 2,871 2,836 2,800 2,781 2,770 2,762 2,742 2,7327 2,668 2,654 2,643 2,632 2,595 2,555 2,535 2,523 2,514 2,493 2,4828 2,502 2,488 2,475 2,464 2,425 2,383 2,361 2,348 2,339 2,316 2,3049 2,379 2,364 2,351 2,340 2,298 2,255 2,232 2,218 2,208 2,184 2,17210 2,284 2,269 2,255 2,244 2,201 2,155 2,132 2,117 2,107 2,082 2,06911 2,209 2,193 2,179 2,167 2,123 2,076 2,052 2,036 2,026 2,000 1,98612 2,147 2,131 2,117 2,105 2,060 2,011 1,986 1,970 1,960 1,932 1,91813 2,097 2,080 2,066 2,053 2,007 1,958 1,931 1,915 1,904 1,876 1,86114 2,054 2,037 2,022 2,010 1,962 1,912 1,885 1,869 1,857 1,828 1,81315 2,017 2,000 1,985 1,972 1,924 1,873 1,845 1,828 1,817 1,787 1,77120 1,892 1,875 1,859 1,845 1,794 1,738 1,708 1,690 1,677 1,643 1,62630 1,773 1,754 1,737 1,722 1,667 1,606 1,573 1,552 1,538 1,499 1,47840 1,715 1,695 1,678 1,662 1,605 1,541 1,506 1,483 1,467 1,425 1,40250 1,680 1,660 1,643 1,627 1,568 1,502 1,465 1,441 1,424 1,379 1,35460 1,657 1,637 1,619 1,603 1,543 1,476 1,437 1,413 1,395 1,348 1,321120 1,601 1,580 1,562 1,545 1,482 1,409 1,368 1,340 1,320 1,265 1,232240 1,573 1,552 1,533 1,516 1,451 1,376 1,332 1,302 1,281 1,219 1,180

Page 72: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 72

Tabela 3.6: Limites unilaterais de F ao nível de 5% de probabilidade com os graus de liberdadeν1 e ν2ν2 ν1

1 2 3 4 5 6 7 8 9 10 111 161,448 199,500 215,707 224,583 230,162 233,986 236,768 238,883 240,543 241,882 242,9832 18,513 19,000 19,164 19,247 19,296 19,330 19,353 19,371 19,385 19,396 19,4053 10,128 9,552 9,277 9,117 9,013 8,941 8,887 8,845 8,812 8,786 8,7634 7,709 6,944 6,591 6,388 6,256 6,163 6,094 6,041 5,999 5,964 5,9365 6,608 5,786 5,409 5,192 5,050 4,950 4,876 4,818 4,772 4,735 4,7046 5,987 5,143 4,757 4,534 4,387 4,284 4,207 4,147 4,099 4,060 4,0277 5,591 4,737 4,347 4,120 3,972 3,866 3,787 3,726 3,677 3,637 3,6038 5,318 4,459 4,066 3,838 3,687 3,581 3,500 3,438 3,388 3,347 3,3139 5,117 4,256 3,863 3,633 3,482 3,374 3,293 3,230 3,179 3,137 3,10210 4,965 4,103 3,708 3,478 3,326 3,217 3,135 3,072 3,020 2,978 2,94311 4,844 3,982 3,587 3,357 3,204 3,095 3,012 2,948 2,896 2,854 2,81812 4,747 3,885 3,490 3,259 3,106 2,996 2,913 2,849 2,796 2,753 2,71713 4,667 3,806 3,411 3,179 3,025 2,915 2,832 2,767 2,714 2,671 2,63514 4,600 3,739 3,344 3,112 2,958 2,848 2,764 2,699 2,646 2,602 2,56515 4,543 3,682 3,287 3,056 2,901 2,790 2,707 2,641 2,588 2,544 2,50720 4,351 3,493 3,098 2,866 2,711 2,599 2,514 2,447 2,393 2,348 2,31030 4,171 3,316 2,922 2,690 2,534 2,421 2,334 2,266 2,211 2,165 2,12640 4,085 3,232 2,839 2,606 2,449 2,336 2,249 2,180 2,124 2,077 2,03850 4,034 3,183 2,790 2,557 2,400 2,286 2,199 2,130 2,073 2,026 1,98660 4,001 3,150 2,758 2,525 2,368 2,254 2,167 2,097 2,040 1,993 1,952120 3,920 3,072 2,680 2,447 2,290 2,175 2,087 2,016 1,959 1,910 1,869240 3,880 3,033 2,642 2,409 2,252 2,136 2,048 1,977 1,919 1,870 1,829ν2 ν1

12 13 14 15 20 30 40 50 60 120 2401 243,906 244,690 245,364 245,950 248,013 250,095 251,143 251,774 252,196 253,253 253,7832 19,413 19,419 19,424 19,429 19,446 19,462 19,471 19,476 19,479 19,487 19,4923 8,745 8,729 8,715 8,703 8,660 8,617 8,594 8,581 8,572 8,549 8,5384 5,912 5,891 5,873 5,858 5,803 5,746 5,717 5,699 5,688 5,658 5,6435 4,678 4,655 4,636 4,619 4,558 4,496 4,464 4,444 4,431 4,398 4,3826 4,000 3,976 3,956 3,938 3,874 3,808 3,774 3,754 3,740 3,705 3,6877 3,575 3,550 3,529 3,511 3,445 3,376 3,340 3,319 3,304 3,267 3,2498 3,284 3,259 3,237 3,218 3,150 3,079 3,043 3,020 3,005 2,967 2,9479 3,073 3,048 3,025 3,006 2,936 2,864 2,826 2,803 2,787 2,748 2,72710 2,913 2,887 2,865 2,845 2,774 2,700 2,661 2,637 2,621 2,580 2,55911 2,788 2,761 2,739 2,719 2,646 2,570 2,531 2,507 2,490 2,448 2,42612 2,687 2,660 2,637 2,617 2,544 2,466 2,426 2,401 2,384 2,341 2,31913 2,604 2,577 2,554 2,533 2,459 2,380 2,339 2,314 2,297 2,252 2,23014 2,534 2,507 2,484 2,463 2,388 2,308 2,266 2,241 2,223 2,178 2,15515 2,475 2,448 2,424 2,403 2,328 2,247 2,204 2,178 2,160 2,114 2,09020 2,278 2,250 2,225 2,203 2,124 2,039 1,994 1,966 1,946 1,896 1,87030 2,092 2,063 2,037 2,015 1,932 1,841 1,792 1,761 1,740 1,683 1,65440 2,003 1,974 1,948 1,924 1,839 1,744 1,693 1,660 1,637 1,577 1,54450 1,952 1,921 1,895 1,871 1,784 1,687 1,634 1,599 1,576 1,511 1,47660 1,917 1,887 1,860 1,836 1,748 1,649 1,594 1,559 1,534 1,467 1,430120 1,834 1,803 1,775 1,750 1,659 1,554 1,495 1,457 1,429 1,352 1,307240 1,793 1,761 1,733 1,708 1,614 1,507 1,445 1,404 1,375 1,290 1,237

Page 73: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Noções de Probabilidade 73

Tabela 3.7: Limites unilaterais de F ao nível de 2,5% de probabilidade com os graus de liberdadeν1 e ν2ν2 ν1

1 2 3 4 5 6 7 8 9 10 111 647,789 799,500 864,163 899,583 921,848 937,111 948,217 956,656 963,285 968,627 973,0252 38,506 39,000 39,165 39,248 39,298 39,331 39,355 39,373 39,387 39,398 39,4073 17,443 16,044 15,439 15,101 14,885 14,735 14,624 14,540 14,473 14,419 14,3744 12,218 10,649 9,979 9,605 9,364 9,197 9,074 8,980 8,905 8,844 8,7945 10,007 8,434 7,764 7,388 7,146 6,978 6,853 6,757 6,681 6,619 6,5686 8,813 7,260 6,599 6,227 5,988 5,820 5,695 5,600 5,523 5,461 5,4107 8,073 6,542 5,890 5,523 5,285 5,119 4,995 4,899 4,823 4,761 4,7098 7,571 6,059 5,416 5,053 4,817 4,652 4,529 4,433 4,357 4,295 4,2439 7,209 5,715 5,078 4,718 4,484 4,320 4,197 4,102 4,026 3,964 3,91210 6,937 5,456 4,826 4,468 4,236 4,072 3,950 3,855 3,779 3,717 3,66511 6,724 5,256 4,630 4,275 4,044 3,881 3,759 3,664 3,588 3,526 3,47412 6,554 5,096 4,474 4,121 3,891 3,728 3,607 3,512 3,436 3,374 3,32113 6,414 4,965 4,347 3,996 3,767 3,604 3,483 3,388 3,312 3,250 3,19714 6,298 4,857 4,242 3,892 3,663 3,501 3,380 3,285 3,209 3,147 3,09515 6,200 4,765 4,153 3,804 3,576 3,415 3,293 3,199 3,123 3,060 3,00820 5,871 4,461 3,859 3,515 3,289 3,128 3,007 2,913 2,837 2,774 2,72130 5,568 4,182 3,589 3,250 3,026 2,867 2,746 2,651 2,575 2,511 2,45840 5,424 4,051 3,463 3,126 2,904 2,744 2,624 2,529 2,452 2,388 2,33450 5,340 3,975 3,390 3,054 2,833 2,674 2,553 2,458 2,381 2,317 2,26360 5,286 3,925 3,343 3,008 2,786 2,627 2,507 2,412 2,334 2,270 2,216120 5,152 3,805 3,227 2,894 2,674 2,515 2,395 2,299 2,222 2,157 2,102240 5,088 3,746 3,171 2,839 2,620 2,461 2,341 2,245 2,167 2,102 2,047ν2 ν1

12 13 14 15 20 30 40 50 60 120 2401 976,708 979,837 982,528 984,867 993,103 1001,414 1005,598 1008,117 1009,800 1014,020 1016,1372 39,415 39,421 39,427 39,431 39,448 39,465 39,473 39,478 39,481 39,490 39,4943 14,337 14,304 14,277 14,253 14,167 14,081 14,037 14,010 13,992 13,947 13,9254 8,751 8,715 8,684 8,657 8,560 8,461 8,411 8,381 8,360 8,309 8,2835 6,525 6,488 6,456 6,428 6,329 6,227 6,175 6,144 6,123 6,069 6,0426 5,366 5,329 5,297 5,269 5,168 5,065 5,012 4,980 4,959 4,904 4,8777 4,666 4,628 4,596 4,568 4,467 4,362 4,309 4,276 4,254 4,199 4,1718 4,200 4,162 4,130 4,101 3,999 3,894 3,840 3,807 3,784 3,728 3,6999 3,868 3,831 3,798 3,769 3,667 3,560 3,505 3,472 3,449 3,392 3,36310 3,621 3,583 3,550 3,522 3,419 3,311 3,255 3,221 3,198 3,140 3,11011 3,430 3,392 3,359 3,330 3,226 3,118 3,061 3,027 3,004 2,944 2,91412 3,277 3,239 3,206 3,177 3,073 2,963 2,906 2,871 2,848 2,787 2,75613 3,153 3,115 3,082 3,053 2,948 2,837 2,780 2,744 2,720 2,659 2,62814 3,050 3,012 2,979 2,949 2,844 2,732 2,674 2,638 2,614 2,552 2,52015 2,963 2,925 2,891 2,862 2,756 2,644 2,585 2,549 2,524 2,461 2,42920 2,676 2,637 2,603 2,573 2,464 2,349 2,287 2,249 2,223 2,156 2,12130 2,412 2,372 2,338 2,307 2,195 2,074 2,009 1,968 1,940 1,866 1,82740 2,288 2,248 2,213 2,182 2,068 1,943 1,875 1,832 1,803 1,724 1,68250 2,216 2,176 2,140 2,109 1,993 1,866 1,796 1,752 1,721 1,639 1,59460 2,169 2,129 2,093 2,061 1,944 1,815 1,744 1,699 1,667 1,581 1,534120 2,055 2,014 1,977 1,945 1,825 1,690 1,614 1,565 1,530 1,433 1,376240 1,999 1,958 1,921 1,888 1,766 1,628 1,549 1,497 1,460 1,354 1,289

Page 74: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

4

INFERÊNCIA ESTATÍSTICAVários tipos de estudos tem o objetivo de obter conclusões (fazer inferências) a respeito de

parâmetros de uma população. A impossibilidade de avaliar toda a população faz com que apartir de amostras possamos obter estimativas daqueles parâmetros. A generalização da amos-tra para a população é feita com o auxílio de um modelo estatístico para a situação em estudo,estas generalizações estão sempre associadas um grau de incerteza e, consequentemente, umaprobabilidade de erro. A teoria da estimação preocupa-se com a obtenção do respectivo de umestimador para um determinado parâmetro, com intuito de descrever o seu comportamento como menor erro possível.

Parâmetro: É uma constante (um número) que caracteriza uma população. Exemplo: médiapopulacional µ , variância populacional σ2 , etc. Em geral, os parâmetros são desconhecidos.

Estimador: É uma expressão algébrica utilizada para obter um valor aproximado de umparâmetro. Exemplo:

X =

n∑i=1

xi

n

.Estimativa: É o valor numérico de um estimador. É determinada usando os dados amostrais.Exemplo: Mediante uma pesquisa queremos conhecer o tamanho médio dos estudantes uni-

versitários do Brasil.

• População: Todas os estudantes universitários do Brasil;

• Amostra: por exemplo, 500 estudantes;

• Parâmetro: Média das alturas .

• Estimador:

X =

n∑i=1

xi

n

.

• Estimativa: X = 1, 7m (valor aproximado para µ) .

Page 75: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 75

4.1 ESTIMAÇÃO

É um processo de indução, na qual usamos dados extraídos de uma amostra para produzirinferência sobre a população. Esta inferência só será válida se a amostra for significativa.

Tipos de Estimações de Parâmetros

1. Estimação Pontual;

2. Estimação Intervalar

4.1.1 Estimação Pontual

É usada quando a partir da amostra procura-se obter um único valor de certo parâmetropopulacional, ou seja, obter estimativas a partir dos valores amostrais.

A estimativas são os valores amostrais obtidos para a média, variância, proporção, etc. Osvalores de X, S2, S estimam, respectivamente µ, σ2 e σ.

4.1.2 Estimação Intervalar

Uma outra maneira de se calcular um estimativa de um parâmetro desconhecido, é construirum intervalo de confiança [a, b] para esse parâmetro com uma probabilidade de 1 − α (nívelde confiança) de que o intervalo contenha o verdadeiro parâmetro, usando as distribuições deamostragem podemos obter expressões do tipo:

P (a ≤ µ ≤ b) = 1− α

Dessa maneira α será o nível de significância, isto é, o erro que se estará cometendo ao afirmarque o parâmetro está entre o limite inferior e o superior calculado.

4.1.2.1 Intervalo de Confiança para proporção p

Consideremos uma população cujos elementos podem ser classificados em dois tipos: Sucessoe Insucesso. Pretende-se estimar a proporção p de sucessos na população.

Dada uma amostra de tamanho n, uma estimativa pontual de p da proporção de sucessos édada por

p =x

n

.Pelo teorema do limite cental, quando n for suficientemente grande p tem distribuição apro-

ximadamente normal, com média µp = p e variância a σ2p = pqn , em que:

z =p− p√

pqn

Page 76: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 76

Fixando uma probabilidade de confiança (1−α) , o intervalo de confiança para uma proporçãopode ser obtido da seguinte forma:

P

(p− zα

2

√pq

n≤ p ≤ p+ zα

2

√pq

n

)= 1− α

onde:zα2

√pq

né a margem de erro da proporção e zα

2é o valor da curva normal padrão acima

do qual encontramos uma área de α2 .

Exemplo: Uma empresa de pesquisa de mercado faz contato com 30 pessoas para saber asatisfação a uma determinada marca de refrigerante, 12 delas respondem que gosta da referidamarca. Obtenha o intervalo de confiança de 95% para proporção de pessoas que gostam damarca.

Nesse caso o sucesso é o gosto pela marca de refrigerante

p =x

n=

12

30= 0, 40

Como p = 0, 40, temos que q = 1− p = 1− 0, 40 = 0, 60

Como queremos o intervalo de confiança a 95%, temos que:

1− α = 0, 95⇒ α = 1− 0, 95 = 0, 05⇒ α

2=

0, 05

2= 0, 025

Assim, temos que o valor tabelado de zα2

= 1, 96

P

(p− zα

2

√pq

n≤ p ≤ p+ zα

2

√pq

n

)= 0, 95

P

(0, 40− 1, 96

√0, 40× 0, 60

30≤ p ≤ 0, 40 + 1, 96

√0, 40× 0, 60

30

)= 0, 95

P (0, 40− 0, 08 ≤ p ≤ 0, 40 + 0, 80) = 0, 95

P (0, 32 ≤ p ≤ 0, 48) = 0, 95

Assim,IC95%(µ) = [0, 32; 0, 48]

4.1.2.2 Intervalo de Confiança para média µ com variância σ2 conhecida

Como já vimos anteriormente, X (média amostral) tem distribuição normal de média µ evariância σ2

n , assim um intervalo de (1− α) de confiança para µ será dado por:

P

(X − Zα

2

σ√n≤ µ ≤ X + Zα

2

σ√n

)= 1− α

Exemplo: Um pesquisador obteve a partir de uma amostra uma médiaX = 180cm para alturade uma determinado grupo de pessoas utilizando uma amostra n=40, sabe-se que a variância

Page 77: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 77

populacional da altura é de σ2 = 100cm2. Qual o intervalo de confiança a 90% e 95% para amédia populacional.

Primeiramente temos que obter o valor tabelado de Z, como queremos o intervalo de confiançaa 90%, temos que:

1− α = 0, 90⇒ α = 1− 0, 90 = 0, 10⇒ α

2=

0, 10

2= 0, 05

Assim, temos que procurar na tabela qual o valor de Z que deixa 0, 05 de probabilidade acimadele.

Olhando na tabela o valor em que P (0 < Z < z) = 0, 45, temos que z = 1, 65, logo o valorZα

2= 1, 65

P

(X − Zα

2

σ√n≤ µ ≤ X + Zα

2

σ√n

)= 1− α

P

(180− 1, 65

√200√40≤ µ ≤ 180 + 1, 65

√200√40

)= 0, 90

P (176, 31 ≤ µ ≤ 183, 69) = 0, 90

ou seja, o intervalo de confiança a 90% para a média é

IC90%(µ) = [176, 31; 183, 69]

Fazendo o mesmo processo temos que a95%:

1− α = 0, 95⇒ α = 1− 0, 95 = 0, 05⇒ α

2=

0, 05

2= 0, 025

Então Z0,025 = 1, 96, assim

P

(X − Zα

2

σ√n≤ µ ≤ X + Zα

2

σ√n

)= 1− α

P

(180− 1, 96

√200√40≤ µ ≤ 180 + 1, 96

√200√40

)= 0, 95

P (178, 61 ≤ µ ≤ 187, 38) = 0, 95

Page 78: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 78

Assim,IC95%(µ) = [178, 61; 187, 38]

Observa-se que aumentando o nível de confiança, também temos o aumento do intervalo deconfiança.

4.1.2.3 Intervalo de Confiança para média µ com variância σ2 desconhecida

Na prática quando não se conhece a média X também não se conhece a variância, nesse casoutilizamos o intervalo de confiança:

P

(X − tα

2

S√n≤ µ ≤ X + tα

2

S√n

)= 1− α

Exemplo: Em uma determinada industria para verificar a qualidade dos rolamentos esféricosproduzidos foi tomado uma amostra ao acaso um lote de 15 peças, fornecendo um diâmetromédio de 240cm com desvio padrão de 15cm . Encontre um intervalo de confiança de 95% parao diâmetro.

Primeiramente temos que obter o valor tabelado de t, como queremos o intervalo de confiançaa 95%, temos que:

1− α = 0, 95⇒ α = 1− 0, 95 = 0, 05⇒ α

2=

0, 05

2= 0, 025

Olhando na tabela o valor que deixa 0,025 de área acima com ν = 15 − 1 = 14, temostα2

= 2, 145

P

(X − tα

2

S√n≤ µ ≤ X + tα

2

S√n

)= 1− α

P

(240− 2, 145

15√15≤ µ ≤ 180 + 2, 145

15√15

)= 0, 95

P (231, 69 ≤ µ ≤ 248, 31) = 0, 95

Assim,IC95%(µ) = [231, 69; 248, 31]

Page 79: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 79

4.1.2.4 Intervalo de Confiança para variância σ2 e para o desvio padrão σ

Quando a população da qual foi amostra foi coletada for Normal, pode-se obter um intervalode confiança para a variância σ2 dada por:

P

((n− 1)S2

χα2

≤ σ2 ≤ (n− 1)S2

χ(1−α2 )

)= 1− α

e IC para o desvio padrão é dado por

P

(√(n− 1)S2

χα2

≤ σ2 ≤√

(n− 1)S2

χ(1−α2 )= 1− α

)

Exemplo: No exemplo dos 15 peças de rolamentos esféricos, obter o intervalo de confiança de95% para a variância e para o desvio padrão do maior eixo.

Temos que 0,052 = 0, 025, nesse caso precisamos obter na tabela Qui-Quadrado o valores χ0,025

e χ1−0,025 = χ0,975, com ν = 14 graus de liberdade, então

χ0,025 = 26, 119 χ0,975 = 5, 629

Nesse exemplo foi fornecido a variância amostral é S2 = 144.

P

((n− 1)S2

χα2

≤ σ2 ≤ (n− 1)S2

χ(1−α2 )

)= 0, 95

P

(14× 144

26, 119≤ σ2 ≤ 14× 144

5, 629

)= 0, 95

P(77, 18 ≤ σ2 ≤ 358, 14

)= 0, 95

A partir do intervalo da variância obtemo o IC do desvio padrão

P(√

77, 18 ≤ σ ≤√

358, 14)

= 0, 95

P (8, 78 ≤ σ ≤ 18, 92) = 0, 95

Assim,IC95%(σ2) = [77, 18; 358, 14] IC95%(σ) = [8, 78; 18, 92]

Page 80: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 80

4.2 TEORIA DA DECISÃO ESTATÍSTICA

4.2.1 Teste de Hipótese

É uma metodologia estatística que permite tomar decisão sobre uma ou mais populaçõesbaseando no conhecimento de informações da amostra.

Ao tentarmos a fixação de decisões, é conveniente a formulação de suposições ou de conjeturasacerca das populações de interesse, que, em geral, consistem em considerações sobre parâmetrosdas mesmas. Essas suposições, que podem ser ou não verdadeiras, são denominadas de HipótesesEstatísticas, que podem ser:

• HIPÓTESE NULA - É aquela Hipótese Estatística, prefixada, formulada sobre o parâmetropopulacional estudado, e é sempre uma afirmativa. É representada por H0.

• HIPÓTESE ALTERNATIVA - São quaisquer hipóteses que difiram da Hipótese Nula. Podeser representada por H1 ou Ha

Os processos que habilitam a decidir se aceitam ou rejeitam as hipóteses formuladas, oudeterminar se a amostra observada difere, de modo significativo, dos resultados esperados, sãodenominados de Testes de Hipóteses ou Testes de Significância.

Tabela 4.1: Erros possíveis de se cometer no processo de tomada de decisãoDecisões possíveis Estados possíveis

Ho verdadeira Ho falsaAceitação de Ho Decisão correta Erro do tipo IIRejeição de Ho Erro do tipo I Decisão correta

Ao testar uma hipótese estabelecida, a probabilidade máxima com a qual se sujeitaria a correro risco de um erro do tipo I é denominada de Nível de Significância do Teste e é representadapor α.

Estudaremos testes de hipóteses com uma hipótese nula (H0) e uma hipótese alternativa(Ha). A partir da formulação de (H0) e (Ha), podemos definir se teste de hipótese é unilateralou bilateral.

Consideremos θ o parâmetro estudado e θ0 valor inicialmente suposto para. Podemos formularas seguintes hipóteses:

H0 : θ = θ0

H1 : θ 6= θ0Teste Bilateral

H0 : θ = θ0

H1 : θ > θ0Teste Unilateral

H0 : θ = θ0

H1 : θ < θ0Teste Unilateral

4.2.2 Teste para médias, variância conhecida

Suponha que X é uma variável aleatória com média µ desconhecida e variância σ2conhecida.E queremos testar a hipótese de que a média é igual a um certo valor especificado µ0. O teste

Page 81: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 81

de hipótese pode ser formulado como segue:H0 : µ = µ0

H1 : µ 6= µ0

Para testar a hipótese, toma-se uma amostra aleatória de n observações e se calcula a esta-tística

zc =x− µ0σ√n

Como se trata de um teste bilateral temos duas alternativas para verificar se a hipótese H0

é rejeitada

• se |zc| > zα2.

• se 2P[|zc zα

2

]≤ α

Se a hipótese formulada fosseH0 : µ = µ0

H1 : µ > µ0

H0 : µ = µ0

H1 : µ < µ0

Como se trata de testes unilaterais temos duas alternativas para verificar se a hipótese H0 érejeitada

• se |zc| > zα.

• se P [|zc| > zα] ≤ α

Exemplo: Uma industria elétrica fabrica lâmpadas afirma que o tempo de vida médio é de800horas. Tomaram-se o tempo de vida de 40 lâmpadas e obteve-se uma média X = 750 e

Page 82: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 82

sabe-se que a variância populacional é σ2 = 1600cm2. Pode-se afirmar que a indústria estavacorreta.

Utilizando um teste unilateral H0 : µ = 800

H1 : µ < 800

Calculando o valor de zc

zc =X − µ0σ√n

=750− 800

40√40

= −7, 90

Como não foi especificado o nível de significância, vamos assumir α = 0, 05. Nesse caso,trata-se de um teste unilateral, temos que observar o valor tabelado para zα = z0,05 = 1, 65.

Conclusão: Observando |zc| = 7, 90, temos que como 7, 90 > 1, 65, rejeita-se H0, a um nívelde significância de 5%, ou seja, com 95% de probabilidade a empresa estava errada ao afirmarque o tempo de vida médio é de 800horas.

4.2.3 Teste para médias, variância desconhecida

Suponha que X é uma variável aleatória Normal com média µ desconhecida e variância σ2

desconhecida. E queremos testar a hipótese de que a média é igual a um certo valor especificadoµ0. O teste de hipótese pode ser formulado como segue:

H0 : µ = µ0

H1 : µ 6= µ0

H0 : µ = µ0

H1 : µ < µ0

H0 : µ = µ0

H1 : µ > µ0

Para testar a hipótese, toma-se uma amostra aleatória de n ≤ 30 observações com variânciadesconhecida se calcula a estatística

tc =x− µ0S√n

Rejeita-se H0

• teste bilateral:

– se |tc| > tα2.

– se 2P[|tc| > tα

2

]≤ α

• teste unilateral:

– se |tc| > tα.

– se P [|tc| > tα] ≤ α

Para testar a hipótese, toma-se uma amostra aleatória de n > 30 observações com variânciadesconhecida se calcula a estatística

zc =x− µ0S√n

Page 83: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 83

Rejeita-se H0

• teste bilateral:

– se |zc| > zα2.

– se 2P[|zc| > zα

2

]≤ α

• teste unilateral:

– se |zc| > zα.

– se P [|zc| > zα] ≤ α

Exemplo: Em uma determinada industria um determinado rolamento esféricos é dito dequalidade se o seu diâmetro médio for igual a 240cm. Para verificar se os diâmetros médiosestão atendendo as especificações, foi tomado uma amostra ao acaso de 20 peças, fornecendo umdiâmetro médio de 236cm com desvio padrão de 15cm.

Utilizando um teste bilateral H0 : µ = 240

H1 : µ 6= 240

Calculando o valor de tc

tc =x− µ0S√n

=236− 240

15√20

= −1, 193

Como não foi especificado o nível de significância, vamos assumir α = 0, 05. Nesse caso, trata-se de um teste unilateral, temos que observar o valor tabelado para tα

2= t 0,05

2= t0,025 = 2, 093.

Conclusão: Observando |tc| = 1, 193, temos que como 1, 193 < 2, 093 não existe razão pararejeitar H0, logo os diâmetros médios estão atendendo as especificações.

Exemplo: Uma amostra de 76 peixes pescados numa certa represa produziu um peso médiode 13,36g e desvio-padrão 4,79g. Suspeita-se que a média de peso da população desses peixesnessa região seja 12g. Teste essa hipótese com um nível de significância de 5%.

Utilizando um teste unilateral. H0 : µ = 12, 0

H1 : µ > 12, 0

Calculando o valor de zc

zc =x− µ0S√n

=13, 36− 12, 0

4, 79√76

= 2, 475

Nesse caso, trata-se de um teste bilateral, temos que observar o valor tabelado para zα2

=

z 0,052

= z0,025 = 1, 960.Conclusão: Observando |zc| = 2, 475, temos que como 2, 475 > 1, 65 rejeita-se H0 ao nível de

5% de significância. Portanto, a média de peso da população desses peixes é superior a 12g.

Page 84: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 84

4.2.4 Teste de hipóteses para proporção

Assim como para a média, existem testes de hipóteses associados a proporções, estes testessão a respeito do parâmetro populacional p. Com os dados coletados de uma amostra de tamanhon, pode-se verificar o numero de sucessos X, e estimar a proporção p.

Para testar as hipóteses sobre proporções pode-se utilizar a distribuição normal , nesse casose calcula a estatística

zc =p− p0√p0q0n

Rejeita-se H0

• teste bilateral se |zc| > zα2.

• teste unilateral se |zc| > zα.

Para obter os valores de z tabelados, o mais prático é consultar a tabela de t, na última linha,quando os graus de liberdades são suficientemente grandes.

Exemplo: Um centro de pesquisas afirma que 30% das pessoas são usuários de internet semfio em uma determinada região. Em uma amostra aleatória de 30 pessoas, em 12 dizem ter redesem fio em casa. Teste a afimarção do centro de pesquisa utilizando a significância α = 0, 05.

Temos que p0 = 0, 30⇒ q0 = 1−p0 = 1−0, 30 = 0, 70, número de sucessos X = 12, tamanhoda amostra n = 30, assim temos:

p =X

n=

12

30= 0, 40

Utilizando um teste bilateral H0 : p = 0, 30

H1 : p 6= 0, 30

Calculando o valor de zc

zc =p− p0√p0q0n

=0, 40− 0, 30√

0, 3× 0, 7

30

= 1, 20

Nesse caso, trata-se de um teste bilateral, temos que observar o valor tabelado para zα2

=

z 0,052

= z0,025 = 1, 960.Conclusão: Observando |zc| = 1, 20, temos que como 1, 20 < 1, 96 ⇒ |zc| < zα

2não existe

evidências para rejeitar H0 ao nível de 5% de significância, logo a proporção de pessoas queutilizam a internet sem fio em de 30%.

4.2.5 Resumo das etapas aplicadas a qualquer teste de hipóteses

1. Determinar as hipóteses nula e alternativa.

2. Selecionar a estatística de teste que será usada para decidir rejeitar ou não a hipótese nula.

3. Especificar o nível de significância α para o teste.

Page 85: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 85

4. Usar o nível de significância α para desenvolver regra de decisão que indica os valorescríticos da estatística de teste que levará a rejeição de H0.

5. Coletar os dados amostrais e calcular a estatística de teste.

6. Comparar o valor da estatística do teste com o(s) valor(es) crítico(s) especificado(s) naregra de decisão para determinar se H0 deve ser rejeitado;

Page 86: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 86

4.3 REGRESSÃO E CORRELAÇÃO

Nas unidades anteriores, descrevemos a distribuição de valores de uma única variável, comesse objetivo aprendemos a calcular medidas de tendência central e variabilidade. Porém, seconsiderarmos duas ou mais variáveis surge um novo problema: as relações que podem existirentre as variáveis estudadas.

Vamos verificar as relações entre as seguintes variáveis:

• Altura e peso - espera-se que quanto mais alto mais pesado é o individuo;

• Quantidade de memória RAM e tempo de processamento - espera-se que com mais memóriaRAM tenha-se um tempo menor de processamento;

• Temperatura e Umidade do ar - não se pode associar a temperatura a uma menor ou maiorumidade do ar.

Para estudar a relação entre duas variáveis quantitativas na utilizamos a análise de regressãoe correlação destas variáveis.

Correlação é um número entre -1 e 1 que mede o grau relacionamento entre duas variáveisquantitativas

Regressão é o estudo que busca ajustar uma equação a um conjunto de dados de forma quea relação entre duas variáveis quantitativas possa ser expressa matematicamente.

Definimos um conjunto de variáveis (x, y), sendo x a variável independente e y a variáveldependente. A primeira forma de verificar a relação de duas variáveis é traçar o gráfico dedispersão do dados.

O gráfico de dispersão contém uma variável independente representada no eixo horizontal ea variável dependente representada no eixo vertical.

O gráfico de dispersão da um idéia da existência de correlação, entretanto não apresenta quala magnitude da correlação. Para determinar a magnitude da correlação utilizamos o coeficientede correlação populacional (ρ). Em geral trabalhamos com amostras, e para estimar o coeficientede correlação populacional pode-se utilizar o coeficiente de correlação amostral.

r =

∑i

(xi − x)(yi − y)√∑i

(xi − x)2∑i

(yi − y)2

sendo que:

• r > 0 - correlação positiva;

• r < 0 - correlação negativa;

• r = 0 - ausência de correlação.

O valor obtido para o coeficiente de correlação amostral tem como finalidade estimar o po-pulacional, ou seja, verificar se na população existe uma associação entre as variáveis em estudo.

Page 87: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 87

Figura 4.1: indícios de correlação positiva, aumentando x, y também aumenta

Figura 4.2: indícios de correlação negativa, aumentando x, y diminui

Figura 4.3: indícios de ausência correlação

Desta forma, deve ser realizado um teste de hipótese sobre o coeficiente populacional, combase no resultado obtido na amostra, que pode ser definido da seguinte maneira:

H0 : ρ = 0

H1 : ρ 6= 0

Rejeita-se H0 se |tc| > tα2, em que

tc =r − 0√1−r2n−2

nesse caso v = n− 2 graus de liberdadeExemplo: Numa pesquisa feita com 7 famílias com renda bruta mensal entre 10 e 25 salários

mínimos mediram-se:

• X: renda bruta mensal (em salários mínimos)

• Y: porcentagem da renda bruta anual gasta com assistência médica

Page 88: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 88

x 10 12 14 16 18 20 22y 11,8 10,2 12,1 13,2 15,1 15,4 15,6

Figura 4.4: Gráfico de dispersão

x =

n∑i

xi

n=

112

7= 16

y =

n∑i

yi

n=

93, 4

7= 13, 3

r =

∑i

(xi − x)(yi − y)√∑i

(xi − x)2∑i

(yi − y)2

=49, 6√

112× 26, 25= 0, 9148

Verificou que o valor da correlação é r=0,9148. Vamos testar a hipótese se este valor édiferente de zero.

H0 : ρ = 0

H1 : ρ 6= 0

Temos v = n− 2 = 7− 2 = 5 graus de liberdade

tc =r − 0√1−r2n−2

=0, 9148√1−0,91482

5

= 5, 06

Tomando-se α = 0, 05, temos t0,025;5 = 2, 571.Como |tc| > tα

2, rejeita-se H0 ao nível de 5% de significância. Logo a correlação é diferente

de zero e é igual a 0,9148.Pelo diagrama de dispersão e pelo coeficiente de correlação, verificamos que existe uma relação

linear entre as variáveisX e Y , podemos determinar uma função que exprima esse relacionamento.

Page 89: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 89

Tabela 4.2: Tabela auxiliar para o calculo da correlaçãoObservação x y (x− x) (y − y) (x− x)(y − y) (x− x)2 (y − y)2

1 10 11,8 -6 -1,5 9 36 2,252 12 10,2 -4 -3,1 12,4 16 9,613 14 12,1 -2 -1,2 2,4 4 1,444 16 13,2 0 -0,1 0 0 0,015 18 15,1 2 1,8 3,6 4 3,246 20 15,4 4 2,1 8,4 16 4,417 22 15,6 6 2,3 13,8 36 5,29

Total 112 93,4 49,6 112 26,25

A função que expressa a relação linear entre X e Y é dada por

y = a+ bx+ ε

em que:

• a é coeficiente linear, interpretado como o valor da variável de dependente quando a variávelinpendente é igual a 0;

• b é coeficiente de regressão, interpretado como acréscimo na variável dependente para avariação de uma unidade na variável.

• ε são os erros aleatórios de uma população normal, com média 0 e variância constante.

Os estimadores para os coeficientes são:

a = y − bx b =

∑i

(xi − x)(yi − y)∑i(xi − x)2

Após ajustar o modelo de regressão deve-se realizar um teste de hipótese para verificar se oscoeficientes são diferentes de zero:

H0 : a = 0

H1 : a 6= 0

H0 : b = 0

H1 : b 6= 0

Para testar os coeficientes de regressão pode-se utilizar as estatísticas:

ta =

A análise de variância é uma técnica utilizada para se testar o ajuste da equação como umtodo, ou seja, um teste para verificar se a equação de regressão obtida é significativa ou não.

Page 90: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 90

Tabela 4.3: Análise de Variância para Regressão Linear SimplesFontes de Variação GL Soma de Quadrados (SQ) Quadrado Médio (QM) Fc

Regressão 1 SQRegressão QMRegressão QMRegressão/QMErroErro n-2 SQErro QMErroTotal n-1 SQTotal

SQTotal =∑i

(yi − y)2

SQRegressão = b2∑i

(xi − x)2

SQErro = SQTotal− SQRegressão

QMRegressão = SQRegressão

QMErro =SQErro

n− 2

H0 : a = 0 ou b = 0

H1 : a 6= 0 e b 6= 0

O teste de hipótese para avaliar se o modelo de regressão é significativo é feito da seguinteforma:

• Estabelecer o nível de significância α;

• Obter o valor tabelado Fα;

• Rejeita-se a hipótese H0, se Fc > Fα.

O coeficiente de determinação r2, é definido por:

r2 =SQRegressãoSQTotal

0 < r2 < 1

ele representa a porcentagem da variação total que é explicada pela equação de regressão, quantomaior o seu valor melhor.

Após ter verificado o ajuste da equação de regressão pode-se utiliza-la para fazer previsões.Exemplo: Utilizando o exemplo da renda bruta mensal (em salários mínimos) e a porcentagem

da renda bruta anual gasta com assistência médica.Vamos ajustar o modelo

y = a+ bx

Utilizando os calculo da tabela 4.2

b =

∑i

(xi − x)(yi − y)∑i(xi − x)2

=49, 6

112= 0, 44

a = y − bx

= 6, 26

Page 91: Universidade Federal de Mato Grosso Instituto de Ciências ... · Variáveis Quantitativas - são as características que podem ser medidas em uma escala quantitativa,ouseja,apresentamvaloresnuméricos

Inferência Estatística 91

Assim a equação de regressão é igual a

y = 6, 26 + 0, 44x

Vamos verificar se a regressão é significativa

SQTotal =∑i

(yi − y)2 = 26, 25

SQRegressão =

(∑i

(xi − x)(yi − y)

)2

∑i(xi − x)2

=(49, 6)2

112= 21, 97

SQErro = SQTotal− SQRegressão

= 26, 25− 21, 97 = 4, 28

Tabela 4.4: Análise de Variância para Regressão Linear SimplesFontes de Variação GL Soma de Quadrados (SQ) Quadrado Médio (QM) Fc Fα

Regressão 1 21,97 21,97 25,55 6,60Erro 5 4,28 0,86Total 6 26,25

Como o Fc > Fα, rejeita-se H0, logo o modelo de regressão linear é significativo.Obtendo o r2

r2 =SQRegressãoSQTotal

=21, 97

26, 25= 0, 8370 = 83, 70%

Assim verifica-se que é a renda bruta explica 83, 70% da variação do gasto com assistênciamédica.