Upload
hoangkien
View
233
Download
1
Embed Size (px)
Citation preview
Universidade Federal do Pará
Instituto de Ciências Exatas e Naturais
Faculdade de Estatística
Estatística Aplicada
ANÁLISE DE SOBREVIVÊNCIA (MÓDULO II)
Franciely Farias da Cunha
(201007840014), aluna do curso
de bacharelado em Estatística
pela Universidade Federal do
Pará.
Belém
2014
1. Análise de Sobrevivência
A análise de sobrevivência é uma das áreas da estatística que mais cresceu nas
últimas décadas do século passado. Uma evidência desse sucesso é o número de
aplicações da Análise de Sobrevivência na medicina, o uso desta técnica cresceu de
11% em 1979, para 32% em 1989, sendo a área da estatística que mais se destacou no
período avaliado. Em análise de sobrevivência, a variável resposta é geralmente o
tempo até a ocorrência de um evento de interesse, sendo esse tempo denominado
tempo de falha (COLOSIMO; GIOLO, 2006).
A principal característica da técnica de Análise de Sobrevivência é a presença
de censura, que é basicamente a observação parcial da resposta, ou seja, por alguma
razão o relacionamento do cliente observado foi interrompido antes do final do
estudo. Isto significa que toda a informação referente à resposta se resume ao
conhecimento de que o tempo de falha é superior àquele observado.
1.1 Dados Censurados
A censura pode ser causada por vários fatores, tais como:
Perda de contato com o paciente;
Recusa do paciente em continuar participando do estudo;
Óbito do paciente devido a outras causas.
Dentre outras...
Dessa forma, a Análise de Sobrevivência refere-se basicamente a situações
médicas envolvendo dados censurados.
1.1.2 Tipos de Censura
Existem 3 tipos de censura, sendo elas: censura à direita, censura à esquerda e
censura intervalar.
Censura à direita: é aquela em que o tempo de ocorrência do evento está à
direita do tempo de interesse, ou seja, o tempo entre o início do estudo e o evento é
maior do que o tempo observado.
Censura à esquerda: é aquela que acontece quando não conhecemos o
momento da ocorrência do evento, mas sabemos que a duração do evento é menor
que a observada.
Censura intervalar: é aquela que acontece em estudos em que os pacientes são
acompanhados em visitas periódicas e é conhecido somente que o evento de interesse
ocorreu em um certo intervalo de tempo.
1.2 Dados Truncados
É uma condição que exclui certos indivíduos do estudo, nestes estudos os
pacientes não são acompanhados a partir do tempo inicial, mas somente após
experimentarem um certo evento.
1.2.1 Tipos de Truncamento
Truncamento à direita: o critério de seleção inclui somente os que sofreram o
evento, logo o risco é superestimado, comum em estudos que partem do óbito.
Truncamento à esquerda: ocorre quando os indivíduos já experimentaram o
evento antes do início do estudo, muito comum no uso de dados prevalentes.
2. Função de Sobrevivência
Esta é uma das principais funções probabilísticas usadas para descrever
estudos de sobrevivência. A função de sobrevivência é definida como a probabilidade
de uma observação não falhar até um certo tempo t, ou seja, a probabilidade de uma
observação sobreviver ao tempo t. Em termos probabilísticos, isto é escrito como:
( ) P(T ≥ t). (1)
Em consequência, a função de distribuição acumulada é definida como a
probabilidade de uma observação não sobreviver ao tempo t, isto é, ( ) S(t).
Ou seja, em um estudo médico onde o evento de interesse é a morte, a função
de sobrevivência fornece a probabilidade de um indivíduo sobreviver além de um
tempo t. A função de sobrevivência é uma função não crescente no tempo com as
propriedades de que a probabilidade de sobreviver pelo menos ao tempo zero é 1 e a
probabilidade de sobreviver no tempo infinito é 0.
Para descrever a função de sobrevivência é geralmente utilizada uma
representação gráfica de S(t), ou seja, o gráfico de S(t) versus t que é chamado de
curva de sobrevivência. Uma curva íngreme representa razão de sobrevivência baixo
ou curto tempo de sobrevivência e uma curva de sobrevivência gradual ou plana
representam taxa de sobrevivência alta ou sobrevivência longa.
3. Função de Taxa de Falha ou de Risco
A probabilidade da falha ocorrer em um intervalo de tempo [t1, t2) pode ser
expressa em termos da função de sobrevivência como:
( ) ( ) (2)
A taxa de falha no intervalo [t1, t2) é definida como a probabilidade de que a
falha ocorra neste intervalo, dado que não ocorreu antes de t1, dividida pelo
comprimento do intervalo. Assim, a taxa de falha no intervalo [t1, t2) é expressa por:
( ) ( )
( ) ( ). (3)
De forma geral, redefinindo o intervalo como [t, t + ), a expressão (2)
assume a seguinte forma:
( ) ( ) ( )
( ) (4)
Assumindo bem pequeno, λ(t) representa a taxa de falha instantânea no
tempo t condicional à sobrevivência até o tempo t. Observe que as taxas de falha são
números positivos, mas sem limite superior. A função de taxa de falha λ(t) é bastante
útil para descrever a distribuição do tempo de vida de pacientes. Ela descreve a
forma em que a taxa instantânea de falha muda com o tempo.
A função de taxa de falha de T é, então, definida como:
( )
(
. (5)
4. Estimação da Função de Sobrevivência
Um passo inicial nos estudos de tempo de vida é usualmente a estimação da
sobrevivência. Estes estudos frequentemente apresentam observações censuradas, o
que requer técnicas estatísticas especializadas para acomodar a informação contida
nestas observações. Algumas técnicas estatísticas podem ser utilizadas para analisar
dados de tempo de sobrevivência na presença de censura. Podem ser citados três
estimadores não-paramétricos usados para estimação da função de sobrevivência,
sendo eles:
Estimador de Kaplan-Meier
Estimador de Nelson Aalen
Estimador da Tabela de Vida
Dentre outros.
Estes estimadores são conhecidos como não-paramétricos, pois usam os próprios
dados para estimar as quantidades necessárias da análise, sem fazer uso de suposições
a respeito da forma da distribuição dos tempos de sobrevivência.
Existem diversos modelos em Análise de Sobrevivência, neste trabalho vamos
dar destaque ao Modelo de Regressão de COX por ser o modelo mais utilizado em
Análise de Sobrevivência.
5. Modelo de Regressão de COX
O modelo de regressão de COX permite a análise de dados provenientes de
estudos de tempo de vida em que a resposta é o tempo até a ocorrência de um evento
de interesse, ajustando por covariáveis.
Considere p covariáveis, de modo que x seja um vetor com componentes x =
(x1,...,xp)’. A expressão geral do modelo de regressão de COX considera:
( ) ( ) ( ) (6)
em que g é uma função não-negativa que deve ser especificada, tal que g(0) = 1. Este
modelo é composto pelo produto de dois componentes, um não-paramétrico e outro
paramétrico. O componente não-paramétrico, ( ), não é especificado e é uma
função não negativa do tempo. Ele é usualmente chamado de função de base ou
basal, pois ( ) ( ) quando x = 0. O componente paramétrico é frequentemente
usado na seguinte forma multiplicativa:
( ) { } { } (7)
em que β é o vetor de parâmetros associado às covariáveis. Esta forma garante que
( ) seja sempre não-negativa. Outras formas para a função ( ) foram propostos
na literatura por Storer et al. (1983). Entretanto, a forma multiplicativa é a mais
utilizada e adotada neste texto. Observe que a constante β0, presente nos modelos
paramétricos, não aparece no componente mostrado em (7). Isto ocorre devido à
presença do componente não paramétrico no modelo que absorve este termo
constante.
Este modelo também é denominado modelo de riscos proporcionais, pois a
razão das taxas de falhas de dois indivíduos diferentes é constante no tempo. Isto é, a
razão das funções de taxa de falha para os indivíduos i e j dada por:
( )
( )
( ) { }
( ) { }
{
} (8)
não depende do tempo, por exemplo, se um indivíduo no início do estudo tem um
risco de morte igual a duas vezes o risco de um segundo indivíduo, então, esta razão
de riscos será a mesma para todo o período de acompanhamento.
A suposição básica para o uso do modelo de regressão de COX é, portanto,
que as taxas de falha sejam proporcionais ou, de forma equivalente para este modelo,
que as taxas de falha acumulada sejam também proporcionais.
O modelo de regressão de COX é utilizado extensivamente em estudos
médicos. A principal razão desta popularidade é a presença do componente não-
paramétrico, que torna o modelo bastante flexível.
6. Ajustando o Modelo de COX
O modelo de regressão de COX é caracterizado pelos coeficientes β’s, que
medem os efeitos das covariáveis sobre a função de taxa de falha. Estas quantidades
devem ser estimadas a partir das observações amostrais para que o modelo fique
determinado.
Um método de estimação é necessário para se fazer inferência a cerca dos
parâmetros do modelo. O método de máxima verossimilhança é bastante conhecido
(COX; HINKLEY, 1974) e frequentemente utilizado para este propósito. A presença
do componente não-paramétrico ( ) na função de verossimilhança torna este
método inapropriado, ou seja, sabe-se que:
( ) ∏ ( )
( )
(9)
∏ ( )
( )
No modelo de COX,
( ) { ∫ ( ) {
} } ( )
{ } (10)
Assim, aplicando-se este resultado em (9), segue que:
( ) ∏ ( ) {
} ( ) {
}, (11)
que é a função do componente não-paramétrico λ ( ).
Uma solução razoável consiste em condicionar a construção da função de
verossimilhança ao conhecimento da história passada de falhas e censuras para
eliminar esta função de pertubação da verossimilhança.
7. Método de Máxima Verossimilhança Parcial
Nos intervalos onde nenhuma falha ocorre não existe nenhuma informação
sobre o vetor de parâmetros β, pois h0(t) pode, teoricamente, ser identicamente igual
a zero em tais intervalos. Uma vez que é necessário um método de análise válido
para todas h0(t) possíveis, a consideração de uma distribuição condicional é
necessária. Considere uma amostra de n indivíduos, onde se têm k( ≤ n) falhas
distintas nos tempos t1 < t2 . . . < tk. A probabilidade condicional da i-ésima
observação vir a falhar no tempo , conhecendo quais observações estão sob risco
em ti é:
( )
∑ ( ) ( )
( ) { }
∑ ( ) { } ( )
{
}
∑ { } ( )
(12)
em que, R( ) é o conjunto dos índices dos indivíduos sob risco no tempo . Pode-se
verificar que ao utilizar a probabilidade condicional, o componente não-paramétrico
h0(t) desaparece da equação (12). A função de verossimilhança parcial L(β) é obtida
fazendo o produto dessas probabilidades condicionais, associadas aos distintos
tempos de falha, ou seja,
∏ {
}
∑ { } ( )
∏ ( {
}
∑ { } ( )
)
(13)
em que é o indicador de falha. Os valores de β que maximizam a função a função
de verossimilhança parcial, L(β), são obtidos resolvendo-se o sistema de equações
definidos por U(β) = 0, em que U(β) é o vetor do escore de derivadas de primeira
ordem da função l(β) = ( ( )). Isto é,
( ) ∑ [ ∑ {
} ( )
∑ { } ( )
] (14)
A função de verossimilhança parcial (12) assume que os tempos de sobrevivência
são contínuos e, consequentemente, não pressupõe a possibilidade de empates nos
valores observadores.
8. Adequação do Modelo de COX
O modelo de regressão de COX é bastante flexível devido a presença do
componente não-paramétrico. Mesmo assim, ele não ajusta a qualquer situação
clínica e, como qualquer outro modelo estatístico, requer o uso de técnicas para
avaliar a sua adequação. Em particular, ele tem uma suposição básica que é a de
riscos proporcionais, a violação desta suposição pode acarretar sérios vícios na
estimação dos coeficientes do modelo (STRUTHERS; KALBFLEISCH, 1986).
Existem diversos métodos para avaliar a adequação do modelo de COX, dentre eles
podemos citar:
1. Avaliação da Qualidade Geral de Ajuste do Modelo
2. Avaliação da Proporcionalidade dos Riscos
2.1 Método gráfico descritivo
2.2 Método com coeficiente dependente do tempo
2.3 Método com covariável dependente do tempo
3. Avaliação de Outros Aspectos do Modelo de COX
3.1 Pontos atípicos e forma funcional das covariáveis
3.2 Pontos influentes
9. Aplicação
Exemplo: Uma empresa de telecomunicações está interessada em modelar o tempo de
rotatividade dos seus clientes, a fim de determinar os fatores que estão associados
com aqueles clientes que mudam para outro serviço. Para isso, uma amostra
aleatória de clientes é selecionada, verificando o tempo que eles são clientes, se a
linha ainda está ativa, dentre outros fatores.
Para aplicar a técnica pode-se utilizar o software SPSS, após abrir o banco de dados
telco.sav, é necessário clicar em Analisar Sobrevivência Regressão de COX.
1. Selecione como variável de tempo, o número de meses em que o cliente ficou
utilizando o serviço.
2. Selecione a variável “Churn” como variável status, que significa se a pessoa ainda
era cliente no mês anterior.
3. Clique em definir evento e coloque o valor 1, após isso clique em continuar.
4. Na caixa de diálogo “Regressão de COX”, selecione as covariáveis: idade (age),
tempo (em anos) no endereço atual (address), sexo (gender), estado civil (marital),
grau de escolaridade (ed), se é aposentado (retire) e número de pessoas que residem
no domicílio (reside), selecione o método RP (Máxima Verossimilhança) e
posteriormente, clique em próximo.
5. Selecione como covariável a categoria do cliente definida como “Custcat”.
6. Clique em “categórico” e selecione as covariáveis: estado civil (marital), grau de
escolaridade (ed), sexo (gender), se é aposentado (retired) e categoria do cliente
(custat), depois clique em continuar.
7. Clique em “diagramas” e selecione os seguintes tipos de gráfico: sobrevivência e
risco. Selecione a variável categoria do cliente (custcat) para ficar em linhas
separadas e clique em continuar e depois clique em OK.
10. Resultados da Aplicação
A variável status aponta a ocorrência do evento no último mês do estudo. Se
o evento não ocorreu, o caso é dito como censurado. Casos censurados não são
utilizados no cálculo dos coeficientes de regressão, mas são utilizados para calcular o
risco de linha de base. O resumo de processamento dos casos mostra que 726 casos
são censurados.
Resumo de Processamento dos Casos
N Percent
Cases available in
analysis
Eventa 274 27,4%
Censored 726 72,6%
Total 1000 100,0%
Cases dropped
Cases with missing values 0 0,0%
Cases with negative time 0 0,0%
Censored cases before the earliest event in a
stratum 0 0,0%
Total 0 0,0%
Total 1000 100,0%
a. Dependent Variable: Months with service
As variáveis categóricas são utilizadas para interpretar os coeficientes de
regressão para variáveis dicotômicas. Por padrão, a categoria de referência é a
última categoria de cada variável.
Categoria da Variável Codificadaa,d,e,f,g
Frequency (1)c (2) (3) (4)
Estado Civilb 0= Solteiro 505 1
1= Casado 495 0
Grau de Escolaridadeb
1=Ens. Médio Incompleto 204 1 0 0 0
2= Ens. Médio Completo 287 0 1 0 0
3= Ens. Sup. Incompleto 209 0 0 1 0
4= Ens. Sup. Completo 234 0 0 0 1
5=Pós-graduação 66 0 0 0 0
Aposentadob ,00=Não 953 1
1,00=Sim 47 0
Gênerob 0=Masculino 483 1
1=Feminino 517 0
Categoria do Clienteb
1= Serviço Básico 266 1 0 0
2=E-serviço 217 0 1 0
3=Plus serviço 281 0 0 1
4= Serviço Total 236 0 0 0
O processo de construção do modelo ocorre em dois blocos. No primeiro, um
algoritmo é empregado passo a passo, para isso foi utilizado o teste qui quadrado. Se
a etapa foi adicionar uma variável, a inclusão faz sentido se o nível de significância
for inferior a 0,05. Se a etapa era remover uma variável, a exclusão faz sentido se o
nível de significância for superior a 0,10. Na primeira etapa, as variáveis: idade,
tempo no endereço atual, grau de escolaridade e estado civil são adicionados ao
modelo.
Omnibus Tests of Model Coefficientse
Step -2 Log
Probabilidade
Global (score) Mudança da Etapa
Anterior
Mudança do Bloco
Anterior
Qui-
quadrado
df Sig. Qui-
quadrado
df Sig. Qui-
quadrado
df Sig.
1a 3383,793 132,522 1 ,000 142,571 1 ,000 142,571 1 ,000
2b 3352,281 149,154 2 ,000 31,512 1 ,000 174,083 2 ,000
3c 3330,899 169,357 6 ,000 21,383 4 ,000 195,466 6 ,000
4d 3318,417 182,012 7 ,000 12,481 1 ,000 207,947 7 ,000
a. Variável Introduzida na Etapa Número 1: Idade
b. Variável Introduzida na Etapa Número 2: tempo no endereço atual
c. Variável Introduzida na Etapa Número 3: grau de escolaridade
d. Variável Introduzida na Etapa Número 4: estado civil
A tabela a seguir relata o efeito da adição da variável categoria do cliente.
Como o valor de significância da mudança é menor que 0,05, portanto, a variável
categoria do cliente contribui para o modelo.
Omnibus Tests of Model Coefficientsa
-2 Log
Likelihood
Overall (score) Change From
Previous Step
Change From Previous
Block
Chi-
square
df Sig. Chi-square df Sig. Chi-square df Sig.
3283,818 214,354 10 ,000 34,599 3 ,000 34,599 3 ,000
a. Beginning Block Number 2. Method = Enter
O modelo final inclui idade, estado civil, endereço, grau de escolaridade e
categoria do cliente. Como principais resultados, pode-se destacar:
Um cliente solteiro tem aproximadamente 2 vezes mais chance de deixar de
utilizar o serviço da empresa, comparado com os clientes casados.
Um cliente com ensino médio incompleto tem 56% de chance de deixar de
utilizar o serviço, comparado com aqueles clientes que possuem pós-graduação.
Os coeficientes de regressão para os três primeiros níveis da categoria do
cliente são em relação à categoria de referência, o que corresponde ao total de clientes
de serviço. O coeficiente de regressão para a primeira categoria, que corresponde a
clientes de serviços básicos, sugere que o risco para os clientes do serviço básico é 1,46
vezes maior do que o total de clientes do serviço. Os coeficientes de regressão
sugerem que o risco para os clientes E-serviço é 0,61 vezes maior que do total de
clientes do serviço, e o risco para os clientes do serviço Plus é 0,58 vezes maior que do
total de clientes do serviço.
Variables in the Equation
B SE Wald df Sig. Exp(B)
Idade -,036 ,007 26,377 1 ,000 0,96
Estado civil ,402 ,123 10,627 1 ,001 1,50
Endereço -,055 ,010 28,566 1 ,000 0,95
Escolaridade 20,774 4 ,000
Escolaridade (1) -,822 ,272 9,145 1 ,002 0,44
Escolaridade (2) -,572 ,233 6,033 1 ,014 0,56
Escolaridade (3) -,417 ,233 3,201 1 ,074 0,66
Categ. cliente 34,561 3 ,000
Categ. cliente (1) ,377 ,166 5,141 1 ,023 1,46
Categ. cliente (2) -,488 ,170 8,199 1 ,004 0,61
Categ. cliente (3) -,537 ,195 7,586 1 ,006 0,58
A curva de sobrevivência básica é uma exibição visual do tempo em meses de
um cliente deixar de utilizar o serviço da empresa de telecomunicação. O eixo
horizontal mostra o tempo para evento. O eixo vertical mostra a probabilidade de
sobrevivência. Assim, qualquer ponto na curva de sobrevida mostra a probabilidade
de que o cliente "médio" continuará a ser um cliente passado esse tempo. Dessa
forma, podemos observar que passado 55 meses, a curva de sobrevivência se torna
menos suave, indicando que o cliente pode deixar de utilizar o serviço nesse período.
O gráfico das curvas de sobrevida mostra que as categorias dos clientes
serviço total e serviços básicos têm curvas de sobrevivência mais baixas, pois os seus
coeficientes de regressão tem um tempo menor até a ocorrência do evento.
11. Referências
[1] COLOSIMO, E. A.; GIOLO, S. R. Análise de Sobrevivência Aplicada. Editora
Edgard Blucher, 2006.
[2] COX, D. R.; HINKLEY, D. V. Theoretical Statistics. Chapman and Hall,
London, 1974.
[3] STORER, B. E.; WACHOLDER, S.; BRESLOW, N. E. Maximum Likelihood
Fitting of General Risk Models to Stratified Data. Applied Statistics, p. 177-181, 1983.
[4] STRUTHERS, C. A.; KALBFLEISCH, J. D. Misspecified Proportional Hazards
Models. Biometrika, p. 363-369, 1986.