Upload
duongtuong
View
216
Download
0
Embed Size (px)
Citation preview
Modelos de Regressão em Saúde
Rejane Sobrino Pinheiro
Tânia Zdenka Guillén de Torres
Modelos de Regressão� Família de técnicas estatísticas � vários fatores medidos (preditor,
covariável, variável independente) relacionados a um único desfecho (variável resposta ou dependente).
� Supondo que se deseja analiar a relação:� custo x tipo tratamento � análise de variância (média dos grupos)� Nível de dor (leve, moderada, severa) x tipo tratamento � χ 2
� Essa análise simples poderia induzir ao erro
Dor lombar
Tipo tratamento (mais vsmenos agressivo):
Medicação forte + repouso prolongado
Retorno rápido atividade + manejo dor com medicação
obtida em farmácia
Modelos de Regressão� Será que os médicos que usam técnicas + agressivas tratam mais idosos
que os médicos que usam técnicas menos agressivas?
� Idosos se recuperam mais lentamente que jovens?
� Diferenças no tratamento poderiam ser função de grupos diferentes.
� Diferença na distribuição da idade pode implicar nas diferenças de resultados.
Dor lombar
Tipo tratamento (mais e menos agressivo):
Medicação forte + repouso prolongado
Retorno rápiso atividade + manejo dor com medicação
obtida em farmácia
idadesexo
Fonte das diferenças:
� Grupos ≠
� Tratamentos ≠
� Acaso
Modelos de Regressão� Interesse: ver efeito do tratamento, considerando, corrigindo o efeito da
idade � controle de confundimento.
� Vários fatores ou confundidores podem estar envolvidos na relação �múltiplas análises/tabelas, estratificação � dificuldade síntese e pulverização de observações nos ≠ subgrupos.
� Variável resposta ou dependente:
logística
Categórica binária
dor severa-dor moderada/leve
linear
Numérica
Escala de dor (0-10)
MultinomialExtensão da
logística
Ordinal
Escala de dor (0-10)
SobrevidaHarzards
proporcionais Cox
NuméricaTempo até retorno
atividade(censura-alguns
retornam depois tempo acompanhamento)
Modelos de Regressão� Pode ser ferramenta poderosa para abordar 3 questões importantes:
predição, explicação (isolar efeito de um determinado preditor) e entender comportamento de variáveis preditoras.
� Predição:
� Quais pacientes com dor lombar terão limitação moderada/grave?
� Categórica binária: moderada/grave vs leve � idade, sexo, tipo tratamento, tempo tratamento etc.
� Probabilidade de perfis de indivíduos terem moderada/grave limitação de atividades
� Numérica: custos � idade, sexo, tipo tratamento, tempo tratamento.
Modelos de Regressão� Conhecer efeito isolado de determinada variável:
� Moderada/grave-leve � controlar pelos confundidores para conhecer efeito isolado do tipo de tratamento
� Entendendo múltiplos preditores:
� Identificar múltiplos preditores que independentemente influenciam o resultado.
� Necessário considerar complexidade � como preditores influenciam conjuntamente os resultados
� Suponha que o efeito da dor lombar na limitação seja diferente para diferentes grupos etários:
� Para pacientes com dor leve/moderada, ser jovem prediz recuperação rápida
� Para pacientes com dor severa, pouca diferença a idade faz.
� Efeito de idade e nível de dor serão subrepresentados se a interação não for levada em consideração.
-1.5
-1
-0.5
0
0.5
1
1.5
0 5 10 15 20 25
-1.5
-1
-0.5
0
0.5
1
1.5
0 5 10 15 20 25
O que é um modelo?
0
0,1
0,2
0,3
0,4
0 1 2 3 4
x-4 -3 -2 -1 0 1 2 3 4
0
.1
.2
.3
.4
( )f x xe( ) = −−1
2
1
22
2
σ π σ µ)1(
)(
)!(!
!)( pp
knk
knk
nkXP − −
−==
Nº de novos atendimentos de síndrome de Down por mes
Distribuição do ácido úrico
Modelos de Regressão
� Regressão Linear
� Análise de variância
� Análise de Covariância
� Regressão Logística
� Análise de sobrevida (Modelos de Hazard
Proporcional)
� Regressão de Poisson (Taxas de Incidência
baseadas em pessoa-tempo)
Modelos de Regressão freqüentemente usados
Regressão Lineare/ou
Correlação
contínuas
ANOVA
categóricas
ANCOVA
contínuas+
categóricas
variáveis independentes
contínua
Análise de Sobrevida
dependente do tempocategóricas
oucontínuas
Regressão Logística
não dependente do tempo
variáveis independentes
categórica
Variável dependente
Modelos de Regressão segundo os tipos de variável dependente e independente
1. Olhar a tendência – Caracterizar a relação entre a variável dependente Y e as variáveis independentes X1, X2, ...,Xk olhando a direção, a extensão, e a força da associação.
2. Ajuste de uma curva – Determinar o melhor modelo matemático (equação ou fórmula matemática) que descreva a relação da variável dependente Y como função das variáveis independentes X1, X2, ...,Xk.
3. Determinar qual ou quais variáveis independentes X1, X2, ...,Xk, são importantes para descrever o comportamento da variável Y.
4. Fazer ajuste para controlar o efeito de variáveis de confundimento ou de interação
5. Predição do comportamento de Y a partir das variáveis X1, X2, ...,Xk.6. Obter curvas padronizadas para usar como referência (pediatria – alt x peso)
Análise de RegressãoIntrodução
Análise de Regressão é uma técnica estatística para avaliar a relação de uma ou mais variáveis independentes X1, X2, ..., Xk, com uma única variável dependente contínua Y.
É uma análise apropriada para diferentes situações que podem se sobrepor:
� Muitos fenômenos biológicos podem ser explicados por meio de modelos matemáticos.
� Em um experimento, é útil pensar as observações como medidas compostas de um sinal e um ruído e construir modelos matemáticos que incorporam ambos os componentes. O sinal é considerado como o componente determinístico e o ruído é o componente aleatório.
� Assim, um modelo matemáticode dados que combina sinale ruído é probabilístico e é chamado de modelo estatístico.
� Outra maneira de pensar um modelo estatístico é considerar o sinal como a descrição matemática das principaiscaracterísticas dos dados e o ruído como todas as características não explicadas pelo modelo, isto é, pelo seu componente determinístico.
Regressão linear
O problema� Dada uma amostra de n indivíduos, foi observado para cada um
os valores das variáveis X (explicativa) e Y (dependente). � Temos, então, n pares de observações (X1, Y1), (X2 Y2), ..., (Xn,
Yn), onde os subscritos referem-se a cada indivíduo.� Cada par de valores pode ser representado em um espaço
bidimensional, em um gráfico denominado diagrama de espalhamento ou de dispersão (scatter plot).
� A figura ilustra uma relação quase perfeitamente linear entre nº. de cigarros por dia e Ca. de laringe.
� A linha que representa os pontos é uma reta de regressão, significando que ela estima os valores médios para a variável Y (escala vertical) de acordo com valores da variável X (nas abscissas).
� Raramente os dados em pesquisas epidemiológicas seguem um padrão tão evidente.
� Neste caso, é uma regressão simples, porque pode ser descrita por uma única variável independente, cuja equação é:
Y = α + βX + ε.α → intercepto (valor de Y quando X = 0).β → coeficiente de X e descreve a inclinação da reta → representa a
quantidade de aumento médio em Y para um aumento de 1 unidade de X.
ε � componente de ruído
� Na figura, Y é a taxa de mortalidade padronizada por idade para Ca. de laringe e X é o N°. de cigarros fumados por dia. A equação para a reta de regressão da figura é :
Y = 1,15 + 0,282 X.
� Estes valores (Y) referem-se a mortes por 10000 pessoas-ano.
� O intercepto (1,15) representa o N°. de mortes por 10000 pessoas-ano que são estimadas ocorrerem na ausência de fumo.
� Existe uma observação direta para taxa para o nível 0 de fumo, que é 0,6 mortes por 10000 pessoas-ano. A reta de regressão estimou um valor um pouco maior (1,15) do que é observado. Esta estimativa é baseada não somente no ponto relativo a um não fumante, mas nos 5 pontos do conjunto.
� A inclinação da reta de regressão de 0,282 indica que o nº. de mortes por 10000 pessoas-ano é estimado aumentar em 0,282 a cada cigarro a mais fumado diariamente.
Supondo que todos os confundimentos e vieses tenham sido administrados apropriadamente, a inclinação 0,282 quantifica o efeito do cigarro na morte por Ca. de laringe. A reta de regressão também nos permite estimar as razões de taxas de mortalidade para diferentes níveis de fumo.
Exemplo:
a taxa de mortalidade pode ser estimada para 50 cigarros por dia (equivalente a 2,5 maços por dia) → 15,2. Comparado com a taxa estimada entre os não fumantes de 1,15, a razão de taxas para os que fumam 2,5 maços por dia é 15,2 / 1,15 = 13,1.
O coeficiente de regressão indica um forte efeito do fumo na mortalidade por Ca. de laringe.
� Outro exemplo: Idade e pressão arterial sistólica (PAS) de 30 indivíduos.
Duas questões básicas devem ser consideradas em qualquer análise de regressão:
� Qual é o modelo matemático mais apropriado a ser utilizado → linha reta, parábola, função log etc.?
� Dado um modelo específico, como será determinado o melhor ajuste do modelo aos dados? Ou seja, se o modelo for uma reta, como encontraremos a melhor reta que se ajusta aos pontos?
PAS x idade
100
120
140
160
180
10 30 50 70
idade (anos)
PA
S (
mm
Hg)
PAS x idade
100
120
140
160
180
10 30 50 70
idade (anos)
PA
S (
mm
Hg)
� A PAS "depende" da idade do indivíduo.
� Podemos dizer que a PAS é a variável dependentee a idade éa variável independente.
� O gráfico, chamado de diagrama de dispersão, ajuda a entender a relação.
� O gráfico mostra que os dados se distribuem em torno de uma linha reta. Podemos encontrar qual a reta que melhor se adequaaos dados e descrever sua equação, que seria o modelo para os dados.
� Este método chama-se de ajustar uma regressão linear simples ao conjunto de dados.
� Se a reta ajustada captar bem o padrão dos dados, poderemos tê-la como o modelo da relação entre PAS e idade.
� Podemos, então, predizer diferentes valores de PAS para diferentes idades.
Ajuste de uma regressão linear simples
� Qual é a melhor reta que descreve a relação?
� Se os pontos estivessem alinhados, não haveria dúvidas quanto à melhor reta.
� Na prática, temos uma nuvem de pontos, onde caberiam uma infinidade de retas.
� Como a reta será ajustada usando os dados de uma amostra e não de toda a população, temos que nos haver com a questão estatística de estimação de parâmetros. Quais são eles?
� Equação da reta:
Y = α + β X
Equação da reta:
Y = α + β X
� Se Y é uma variável aleatória, pode-se descrever Y em função de X , por meio de um modelo, onde α e β são parâmetros e ε é o erro aleatório.
Y = α + β X + ε� Erro aleatório � é a distância ou diferença entre o valor
observado (resposta) para o indivíduo e o valor obtido pela reta de regressão
� Os valores ou ( a e b ) são estimadores dos parâmetros α e β da reta.
βα ˆeˆ
{),0(~, 2
.mindet.
11 σεεβα Ni
aleatóriacomp
i
ísticaercomp
i xy ++=44 344 21
Regressão Linear Simples y = 2x+1
-3
-1
1
3
5
7
9
11
13
-3 -2 -1 0 1 2 3 4 5 6
x
y
Taxa/variação� a cada aumento de 1 unidade em x, tenho variação de ββββ unidades em y.
1 unid
2 unid444 3444 21ísticaercomp
i xymindet.
1*25 +=
-15
-10
-5
0
5
10
15
20
-3 -1 1 3 5 x
y
Propriedades Matemáticas da Reta
Coeficiente angular inclinação
y = f(x) = -2x + 1
y = f(x) = -x + 1
y = f(x) = 0,5x + 1
y = f(x) = x + 1
y = f(x) = 2x + 1
y = f(x) = 3x + 1
Quanto maior o valor de ββββ ���� maior a inclinaçãoda reta
Coef. Linear/deslocamento/intercepto:
y = f(x) = x - 2y = f(x) = x - 1y = f(x) = xy = f(x) = x + 0,5y = f(x) = x + 1y = f(x) = x + 2
-6
-4
-2
0
2
4
6
8
-4 -2 0 2 4 6
x
y
A (inclinação) é a mesma. Quanto maior o coeficiente linear (αααα), maior é o deslocamento vertical (intercepto / patamar inicial) em y.
Pressupostos básicos
Para o ajuste de uma regressão linear simples a um conjunto de dados é necessário fazer algumas pressuposições.
1. A relação entre as duas variáveis é linear• Só deve ser usada a reta para descrever um fenômeno se, no
intervalo estudado, a relação entre as duas variáveis puder ser expressa por uma reta.
• Para estabelecer o modelo que descreve o fenômeno, existem 2 procedimentos alternativos: ou existe uma teoria que fornece a equação ou "procura-se" a equação, olhando os dados (ou gráfico).
• Não existe um modelo teórico que explique como a PAS aumenta com a idade. A relação linear parece perfeitamente aceitável.
2. Os valores de X são fixos, isto é, não é variável aleatória
Para cada valor de X teremos uma distribuição de valores de Y
Pressupostos básicos (cont...)
3. A variabilidade de Y, para qualquer valor dado de X, é sempre a mesma � homocedasticidade.
Quantidade de procaína hidrolisada (moles/l) no plasma sangüíneo em determinados instantes de tempo
Tempo de corrida (s) em função do percurso em metros � variância crescente
Pressupostos básicos (cont...)
4. O erro de uma observação não está correlacionado com o erro de
outra observação.
• Ou seja, as observações são independentes
• Mais de uma observação de um mesmo indivíduo �
dependência
5. Para qualquer dado valor de X, os valores de Y têm distribuição
normal.
• Os desvios ( ) têm distribuição normal
6. As observações representam uma amostra aleatória
^
ii YY −
Determinando a reta de melhor ajuste
Estimativas dos parâmetros O método mais simples é ajustar "no olho", porém é extremamente subjetivo e impreciso. Existem soluções analíticas para o ajuste.
Método dos mínimos quadradosA melhor reta é a que minimiza a soma dos quadrados das distâncias verticais (diag. espalhamento) entre a observação e a reta ajustada.
Métodos de Estimação dos parâmetros
Método de Mínimos QuadradosEscolhea e b de modo a minimisar a soma dos quadrados dasdiferenças entre o valor observado e o valor estimado pela reta
Y = a + bX
As distâncias verticais correspondem à diferença entre o valor observado para Y e o valor estimado, segundo o modelo da reta.
Matematicamente, o método dos mínimos quadrados é descrito como a seguir:
estimativa da resposta (Y) para o valor Xi, baseadono modelo, ou seja, na reta de regressão.
Na reta de regressão, ou modelo:
� são o interceptoe a inclinaçãoda reta ajustada.
(X i, Yi) � ponto observado
XY iiβα ˆˆˆ +=
βα ˆeˆ
A distância vertical entre o ponto observado (Yi) e o ponto correspondente (ao valor de Xi) na reta de regressão ( ) é chamado de erroεi, e é dado por:
)( ^^^
iiiiiXYYY βαε +−=−=
Yiˆ
A soma dos quadrados dos erros ou resíduos (distâncias entre o observado e o estimado) é dado por:
A solução via o método dos mínimos quadrados éa escolha de para os quais a soma dos quadrados descritos acima seja mínima.
No jargão estatístico, são ditos estimadores de mínimos quadrados para os parâmetros α e β da população.
O valor mínimo da soma dos quadrados dos erros SSE → é uma medida de grande importância para avaliação da qualidade do ajuste da reta.
∑∑==
−−=−=n
iii
n
iii XYYY
1
2^^
2
1
^)()(SSE βα
βα ˆeˆ
βα ˆeˆ
Solução para o problema do melhor ajuste
Dados:: a média dos valores observados da variável dependente Y: a média dos valores observados da variável independente XX
Y
∑
∑
=
=
−
−−= n
ii
n
iii
XX
YYXX
1
2_
1
__
^
)(
))((β
_^_^
XY βα −=
)(ˆˆ__XXYY −+= βxY ii
βα ˆˆˆ +=
A equação da reta pode ser generalizada como:
XY 97,071,98^
+=
XY 95,008,98^
+=
Existe um ponto distoante, cuja retirada deve ser bem avaliada. Retirando o ponto distoante:
Utilizando os dados da tabela de PAS e idade, podemos calcular areta que melhor se ajusta aos dados, ou seja a reta estimada.
PAS x idade
100120140160180200220240
10 30 50 70
idade (anos)
PA
S (
mm
Hg)
Inferência sobre a inclinação da reta (β) e sobre o intercepto (α)
�A força da relação entre duas variáveis (uma resposta e uma variável independente) é medida pela inclinação ou β.
�Para avaliar se a reta ajustada auxilia na predição de Y a partir de X, e para levar em consideração as incertezas devidas a estar-se utilizando um conjunto de observações (amostra) para estimarmos a reta → é uma prática padrão calcularmos o intervalo de confiança ou o teste estatístico de hipóteses sobre os parâmetros desconhecidos do modelo linear proposto (população).
�Considerando que Y tenha distribuição normal, α e β também terão distribuição normal.
♦ Se há relação de X e Y, então β é diferente de zero.
♦ O teste T testa a hipótese alternativa H1 de que a inclinação β é significativamente diferente de zero.
H1: β ≠ 0♦ A hipótese mais conservadora é de que a inclinação seja zero,
ou seja, não há associação entre X e Y, H0: β = 0:
♦ A estatística do teste é definida como:
♦ Similarmente, para o intercepto, H0: α = 0 vs H1: α ≠ 0 :
^^
^^
ββ
β βµβSESE
T =−
=
^^
^^
αα
α αµαSESE
T =−=
0
♦ O teste T utiliza n - 2 graus de liberdade, pois envolve S2, que possui n - 2 graus de liberdade e é o único componente randômico no denominador.
♦ Testando a hipótese, a um nível de significância α, rejeita-se H0quando:
|T| ≥ tn-2,1-α/2 para um teste bilateral → H1: β ≠ 0 ou H1: α ≠ 0
♦ Onde tn-2,1-α/2 é o percentil 100(1-α/2)% da distribuição t com n-2 graus de liberdade
♦ Podemos, alternativamente, calcular os p valores baseados no cálculo da estatística T → resultado de pacotes computacionais.
α/2
Região de rejeição de Ho Região de rejeição de Ho
H0: β = 0
H1: β ≠ 0
Região de “não rejeição” de Ho
^
^
β
βSE
T =
Pouca chance de acontecer pelo acaso
Pouca chance de acontecer pelo acaso
Grande chance de acontecer pelo acaso
α/2
� Se H0: β = 0 NÃO é rejeitada → a inclinação é zero (ou melhor, não é significativamente diferente de zero); duas interpretações são possíveis:
� Supondo que o modelo seja linear, X não ajuda a predizer Y (não há relação de X e Y).
� Há uma relação entre X e Y (X ajuda a predizer Y), porém esta relação não segue uma reta. O fato da reta ajustada ser zero nãosignifica necessariamente que não exista relação entre X e Y. O modelo linear pode não ser apropriado.
Interpretação do teste para inclinação e intercepto
Teste para inclinação zero →→→→ Ho: ββββ = 0.
� Se H0: β = 0 é rejeitada → a inclinação é diferente de zero, duas interpretações são possíveis:
� X ajuda e muito a predizer Y. Há relação entre X e Y.� Pode ser que exista um modelo melhor, por exemplo, um
curvilíneo. Porém, há um componente linear que não deve ser desprezado e deve ser incluído no modelo final.
♦ Combinando as interpretações acima, pode-se dizer que um modelo que inclua a variável X é melhor do que um modelo que não inclua, porém não necessariamente o modelo deverá incluir X somente como uma componente linear.
Teste para intercepto zero
♦Ho: α = 0
♦É uma hipótese de menor interesse.
♦De um modo geral, não possui correspondência com a realidade (idade = 0, PAS = 0).
♦Caso a hipótese NÃO seja rejeitada (α = 0) pode ser apropriado remover a constante do modelo � discutível.
♦Remover induz a que o modelo passe no ponto (0,0) � saber se faz sentido.
Inferência sobre a reta de regressão - Intervalo de confiança para a reta de regressão
� Como a reta foi obtida a partir de uma amostra de pontos, ela será a estimativa pontual da relação das variáveis na população.
� Pode ser do interesse considerar a incerteza desta estimativa, com o cálculo do intervalo de confiança para a reta de regressão propriamente dita.
� O IC de 95% da reta de regressão quer dizer que, para as possíveis amostras de pontos, 95% dos intervalos calculados conterão a verdadeira reta de regressão.
� Ou seja, para um determinado valor de X = X0, pode-se querer calcular o intervalo de confiança para o resultado estimado, ou seja, para o valor médio de Y dado o valor X0.
^
00 2/1,2
^
XYnX StY α−−±
Intervalo de confiança para a reta de regressão� A forma mais conveniente de se representar o IC da reta é calcular os
limites superior e inferior de Y para diferentes valores de X, erepresentar no mesmo gráfico dos limites de confiança para a reta de regressão.
� Por exemplo, usar e usar um valor de k que permita que o intervalo de dados de X seja coberto uniformemente.
.0,1,2,..i ,_
0 =±= ikXX
Dados:: a média dos valores observados da variável dependente Y: a média dos valores observados da variável independente XX
Y
∑
∑
=
=
−
−−= n
ii
n
iii
XX
YYXX
1
2_
1
__
^
)(
))((β
_^_^
XY βα −=
)(ˆˆ__XXYY −+= βxY ii
βα ˆˆˆ +=
A equação da reta pode ser generalizada como:
Substituindo α
Interpretação + “real” centrando X na média �
PAS para as pessoas com idade
Intervalo de confiança para a reta de regressão
�Para um determinado X = X0, o valor estimado de Y ( ) corresponde ao valor médio de Y para X0.
^
00 2/1,2
^
XYnX StY α−−±
^
0XY
)(_
0
^_
0
^^^
0XXYXYX −+=+= ββα � Valor predito de Y para X0
2
2_
0| )1(
)(1^
0 XXY
Y Sn
XX
nSS
X −−+=
� estimativa do erro padrão de ^
0XY
^
0
00 |
^
XY
XYX
S
YT
µ−=
� intervalo de confiança para X = X0
48.6783
)13.45(033.045.29)13.45)(97.0(53.142
20
0
−+±−+ XX
Para o cálculo do intervalo de confiança de 90%, para os dados de PAS e idade, a fórmula fica simplificada para:
Dif. aumenta nas bordas
�Para o cálculo do intervalo de confiança para α e β. �O IC de 100(1-α)% de confiança é dado por:
IC da reta - média
“fx ref.” para indivíduos
Medindo a qualidade do ajuste
♦Uma vez que a reta dos mínimos quadrados é obtida, é de interesse saber se esta reta ajustada consegue predizer Y e, em conseguindo, em que medida.
♦A medida que auxilia na resposta a esta questão é o SSE (soma dos quadrados dos erros ou soma dos quadrados dos resíduos)
♦Se SSE = 0, a reta está perfeitamente ajustada aos pontos, ou seja,
para cada i (observação). Cada ponto cai exatamentesobre a
reta de regressão.
♦À medida que o ajuste fica pior, SSE aumenta, uma vez que os
desvios entre os pontos observados e a reta ficam grandes.
2
1
^)( SSE ∑
=−=
n
iii YY
^ii YY =
Coeficiente de Correlação e a Análise de Regressão Linear
♦É uma estatística bastante utilizada que fornece uma medida da relação linear entre duas variáveis.
♦Possui propriedades semelhantes às da regressão linear.
♦O coeficiente de correlação entre Y e X é o mesmo que o coeficiente de correlação entre X e Y, para o mesmo conjunto de observações.
♦Existem vários tipos de coeficientes de correlação (Pearson,Spearman, phi, etc.). Depende do tipo de variável.♦O usado com maior freqüência é o coeficiente de correlação dePearson. Ele é denotado por ρρρρXY (ρρρρ = rho) quando calculado a partir de uma populaçãode observações X, Y, e porrXY quando calculado a partir de uma amostrade observações X,Y.rXY é um estimador de ρρρρXY.
O coeficiente de correlação amostral r é definido como:
A fórmula equivalente para r , que o relaciona com a inclinação da reta de regressão é dada por:
( )( )( ) ( )∑ ∑ −−∑ −−
=
YYXX
YXrii
YXii
XY 22
SSXY
SSX SSY
SSYSSX
SSXY
.=
SSX
SSXY
XX
YYXX
n
ii
n
iii
=
−
−−
=
∑
∑
=
=
1
2_
1
__
^
)(
))((
β
SY
SXr
SY
SX
SSY
SSX
SSYSSX
SSX
SSX
SSXYSSYSSX
SSXY
r ^
21
21
21
^2
12
1
.
).( ββ
=⇒====
Propriedades do Coeficiente de Correlação
♦É um índice sem unidades de medida - adimensional.
♦Varia entre –1 e 1 � [-1 ≤ rXY ≤ 1]
♦Uma correlação igual a 0 significa falta de relação linearentre X e Y.
♦Uma correlação positiva indica que X e Y estão relacionadas diretamente, quer dizer que as duas medidas tendem a crescer oudecrescer juntas
♦Uma correlação negativa indica que X e Y estão relacionadas inversamente, quer dizer que, à medida que uma variável cresce, a outra tende a decrescer
♦r = 1 ou r = -1 indicam uma relação linear perfeitaentre X e Y
♦De certo modo, é uma medida do grau de dispersão dos pontos em torno de uma reta: quanto maior a dispersão, menor r