ANÁLISE DE SOBREVIVÊNCIA - ufpa.br · Estimador de Nelson Aalen Estimador da Tabela de Vida Dentre outros. Estes estimadores são conhecidos como não-paramétricos, pois usam os

Universidade Federal do Pará

Instituto de Ciências Exatas e Naturais

Faculdade de Estatística

Estatística Aplicada

ANÁLISE DE SOBREVIVÊNCIA (MÓDULO II)

Franciely Farias da Cunha

(201007840014), aluna do curso

de bacharelado em Estatística

pela Universidade Federal do

Pará.

Belém

2014

1. Análise de Sobrevivência

A análise de sobrevivência é uma das áreas da estatística que mais cresceu nas

últimas décadas do século passado. Uma evidência desse sucesso é o número de

aplicações da Análise de Sobrevivência na medicina, o uso desta técnica cresceu de

11% em 1979, para 32% em 1989, sendo a área da estatística que mais se destacou no

período avaliado. Em análise de sobrevivência, a variável resposta é geralmente o

tempo até a ocorrência de um evento de interesse, sendo esse tempo denominado

tempo de falha (COLOSIMO; GIOLO, 2006).

A principal característica da técnica de Análise de Sobrevivência é a presença

de censura, que é basicamente a observação parcial da resposta, ou seja, por alguma

razão o relacionamento do cliente observado foi interrompido antes do final do

estudo. Isto significa que toda a informação referente à resposta se resume ao

conhecimento de que o tempo de falha é superior àquele observado.

1.1 Dados Censurados

A censura pode ser causada por vários fatores, tais como:

Perda de contato com o paciente;

Recusa do paciente em continuar participando do estudo;

Óbito do paciente devido a outras causas.

Dentre outras...

Dessa forma, a Análise de Sobrevivência refere-se basicamente a situações

médicas envolvendo dados censurados.

1.1.2 Tipos de Censura

Existem 3 tipos de censura, sendo elas: censura à direita, censura à esquerda e

censura intervalar.

Censura à direita: é aquela em que o tempo de ocorrência do evento está à

direita do tempo de interesse, ou seja, o tempo entre o início do estudo e o evento é

maior do que o tempo observado.

Censura à esquerda: é aquela que acontece quando não conhecemos o

momento da ocorrência do evento, mas sabemos que a duração do evento é menor

que a observada.

Censura intervalar: é aquela que acontece em estudos em que os pacientes são

acompanhados em visitas periódicas e é conhecido somente que o evento de interesse

ocorreu em um certo intervalo de tempo.

1.2 Dados Truncados

É uma condição que exclui certos indivíduos do estudo, nestes estudos os

pacientes não são acompanhados a partir do tempo inicial, mas somente após

experimentarem um certo evento.

1.2.1 Tipos de Truncamento

Truncamento à direita: o critério de seleção inclui somente os que sofreram o

evento, logo o risco é superestimado, comum em estudos que partem do óbito.

Truncamento à esquerda: ocorre quando os indivíduos já experimentaram o

evento antes do início do estudo, muito comum no uso de dados prevalentes.

2. Função de Sobrevivência

Esta é uma das principais funções probabilísticas usadas para descrever

estudos de sobrevivência. A função de sobrevivência é definida como a probabilidade

de uma observação não falhar até um certo tempo t, ou seja, a probabilidade de uma

observação sobreviver ao tempo t. Em termos probabilísticos, isto é escrito como:

( ) P(T ≥ t). (1)

Em consequência, a função de distribuição acumulada é definida como a

probabilidade de uma observação não sobreviver ao tempo t, isto é, ( ) S(t).

Ou seja, em um estudo médico onde o evento de interesse é a morte, a função

de sobrevivência fornece a probabilidade de um indivíduo sobreviver além de um

tempo t. A função de sobrevivência é uma função não crescente no tempo com as

propriedades de que a probabilidade de sobreviver pelo menos ao tempo zero é 1 e a

probabilidade de sobreviver no tempo infinito é 0.

Para descrever a função de sobrevivência é geralmente utilizada uma

representação gráfica de S(t), ou seja, o gráfico de S(t) versus t que é chamado de

curva de sobrevivência. Uma curva íngreme representa razão de sobrevivência baixo

ou curto tempo de sobrevivência e uma curva de sobrevivência gradual ou plana

representam taxa de sobrevivência alta ou sobrevivência longa.

3. Função de Taxa de Falha ou de Risco

A probabilidade da falha ocorrer em um intervalo de tempo [t1, t2) pode ser

expressa em termos da função de sobrevivência como:

( ) ( ) (2)

A taxa de falha no intervalo [t1, t2) é definida como a probabilidade de que a

falha ocorra neste intervalo, dado que não ocorreu antes de t1, dividida pelo

comprimento do intervalo. Assim, a taxa de falha no intervalo [t1, t2) é expressa por:

( ) ( )

( ) ( ). (3)

De forma geral, redefinindo o intervalo como [t, t + ), a expressão (2)

assume a seguinte forma:

( ) ( ) ( )

( ) (4)

Assumindo bem pequeno, λ(t) representa a taxa de falha instantânea no

tempo t condicional à sobrevivência até o tempo t. Observe que as taxas de falha são

números positivos, mas sem limite superior. A função de taxa de falha λ(t) é bastante

útil para descrever a distribuição do tempo de vida de pacientes. Ela descreve a

forma em que a taxa instantânea de falha muda com o tempo.

A função de taxa de falha de T é, então, definida como:

( )

(

. (5)

4. Estimação da Função de Sobrevivência

Um passo inicial nos estudos de tempo de vida é usualmente a estimação da

sobrevivência. Estes estudos frequentemente apresentam observações censuradas, o

que requer técnicas estatísticas especializadas para acomodar a informação contida

nestas observações. Algumas técnicas estatísticas podem ser utilizadas para analisar

dados de tempo de sobrevivência na presença de censura. Podem ser citados três

estimadores não-paramétricos usados para estimação da função de sobrevivência,

sendo eles:

Estimador de Kaplan-Meier

Estimador de Nelson Aalen

Estimador da Tabela de Vida

Dentre outros.

Estes estimadores são conhecidos como não-paramétricos, pois usam os próprios

dados para estimar as quantidades necessárias da análise, sem fazer uso de suposições

a respeito da forma da distribuição dos tempos de sobrevivência.

Existem diversos modelos em Análise de Sobrevivência, neste trabalho vamos

dar destaque ao Modelo de Regressão de COX por ser o modelo mais utilizado em

Análise de Sobrevivência.

5. Modelo de Regressão de COX

O modelo de regressão de COX permite a análise de dados provenientes de

estudos de tempo de vida em que a resposta é o tempo até a ocorrência de um evento

de interesse, ajustando por covariáveis.

Considere p covariáveis, de modo que x seja um vetor com componentes x =

(x1,...,xp)’. A expressão geral do modelo de regressão de COX considera:

( ) ( ) ( ) (6)

em que g é uma função não-negativa que deve ser especificada, tal que g(0) = 1. Este

modelo é composto pelo produto de dois componentes, um não-paramétrico e outro

paramétrico. O componente não-paramétrico, ( ), não é especificado e é uma

função não negativa do tempo. Ele é usualmente chamado de função de base ou

basal, pois ( ) ( ) quando x = 0. O componente paramétrico é frequentemente

usado na seguinte forma multiplicativa:

( ) { } { } (7)

em que β é o vetor de parâmetros associado às covariáveis. Esta forma garante que

( ) seja sempre não-negativa. Outras formas para a função ( ) foram propostos

na literatura por Storer et al. (1983). Entretanto, a forma multiplicativa é a mais

utilizada e adotada neste texto. Observe que a constante β0, presente nos modelos

paramétricos, não aparece no componente mostrado em (7). Isto ocorre devido à

presença do componente não paramétrico no modelo que absorve este termo

constante.

Este modelo também é denominado modelo de riscos proporcionais, pois a

razão das taxas de falhas de dois indivíduos diferentes é constante no tempo. Isto é, a

razão das funções de taxa de falha para os indivíduos i e j dada por:

( )

( )

( ) { }

( ) { }

{

} (8)

não depende do tempo, por exemplo, se um indivíduo no início do estudo tem um

risco de morte igual a duas vezes o risco de um segundo indivíduo, então, esta razão

de riscos será a mesma para todo o período de acompanhamento.

A suposição básica para o uso do modelo de regressão de COX é, portanto,

que as taxas de falha sejam proporcionais ou, de forma equivalente para este modelo,

que as taxas de falha acumulada sejam também proporcionais.

O modelo de regressão de COX é utilizado extensivamente em estudos

médicos. A principal razão desta popularidade é a presença do componente não-

paramétrico, que torna o modelo bastante flexível.

6. Ajustando o Modelo de COX

O modelo de regressão de COX é caracterizado pelos coeficientes β’s, que

medem os efeitos das covariáveis sobre a função de taxa de falha. Estas quantidades

devem ser estimadas a partir das observações amostrais para que o modelo fique

determinado.

Um método de estimação é necessário para se fazer inferência a cerca dos

parâmetros do modelo. O método de máxima verossimilhança é bastante conhecido

(COX; HINKLEY, 1974) e frequentemente utilizado para este propósito. A presença

do componente não-paramétrico ( ) na função de verossimilhança torna este

método inapropriado, ou seja, sabe-se que:

( ) ∏ ( )

( )

(9)

∏ ( )

( )

No modelo de COX,

( ) { ∫ ( ) {

} } ( )

{ } (10)

Assim, aplicando-se este resultado em (9), segue que:

( ) ∏ ( ) {

} ( ) {

}, (11)

que é a função do componente não-paramétrico λ ( ).

Uma solução razoável consiste em condicionar a construção da função de

verossimilhança ao conhecimento da história passada de falhas e censuras para

eliminar esta função de pertubação da verossimilhança.

7. Método de Máxima Verossimilhança Parcial

Nos intervalos onde nenhuma falha ocorre não existe nenhuma informação

sobre o vetor de parâmetros β, pois h0(t) pode, teoricamente, ser identicamente igual

a zero em tais intervalos. Uma vez que é necessário um método de análise válido

para todas h0(t) possíveis, a consideração de uma distribuição condicional é

necessária. Considere uma amostra de n indivíduos, onde se têm k( ≤ n) falhas

distintas nos tempos t1 < t2 . . . < tk. A probabilidade condicional da i-ésima

observação vir a falhar no tempo , conhecendo quais observações estão sob risco

em ti é:

( )

∑ ( ) ( )

( ) { }

∑ ( ) { } ( )

{

}

∑ { } ( )

(12)

em que, R( ) é o conjunto dos índices dos indivíduos sob risco no tempo . Pode-se

verificar que ao utilizar a probabilidade condicional, o componente não-paramétrico

h0(t) desaparece da equação (12). A função de verossimilhança parcial L(β) é obtida

fazendo o produto dessas probabilidades condicionais, associadas aos distintos

tempos de falha, ou seja,

∏ {

}

∑ { } ( )

∏ ( {

}

∑ { } ( )

)

(13)

em que é o indicador de falha. Os valores de β que maximizam a função a função

de verossimilhança parcial, L(β), são obtidos resolvendo-se o sistema de equações

definidos por U(β) = 0, em que U(β) é o vetor do escore de derivadas de primeira

ordem da função l(β) = ( ( )). Isto é,

( ) ∑ [ ∑ {

} ( )

∑ { } ( )

] (14)

A função de verossimilhança parcial (12) assume que os tempos de sobrevivência

são contínuos e, consequentemente, não pressupõe a possibilidade de empates nos

valores observadores.

8. Adequação do Modelo de COX

O modelo de regressão de COX é bastante flexível devido a presença do

componente não-paramétrico. Mesmo assim, ele não ajusta a qualquer situação

clínica e, como qualquer outro modelo estatístico, requer o uso de técnicas para

avaliar a sua adequação. Em particular, ele tem uma suposição básica que é a de

riscos proporcionais, a violação desta suposição pode acarretar sérios vícios na

estimação dos coeficientes do modelo (STRUTHERS; KALBFLEISCH, 1986).

Existem diversos métodos para avaliar a adequação do modelo de COX, dentre eles

podemos citar:

1. Avaliação da Qualidade Geral de Ajuste do Modelo

2. Avaliação da Proporcionalidade dos Riscos

2.1 Método gráfico descritivo

2.2 Método com coeficiente dependente do tempo

2.3 Método com covariável dependente do tempo

3. Avaliação de Outros Aspectos do Modelo de COX

3.1 Pontos atípicos e forma funcional das covariáveis

3.2 Pontos influentes

9. Aplicação

Exemplo: Uma empresa de telecomunicações está interessada em modelar o tempo de

rotatividade dos seus clientes, a fim de determinar os fatores que estão associados

com aqueles clientes que mudam para outro serviço. Para isso, uma amostra

aleatória de clientes é selecionada, verificando o tempo que eles são clientes, se a

linha ainda está ativa, dentre outros fatores.

Para aplicar a técnica pode-se utilizar o software SPSS, após abrir o banco de dados

telco.sav, é necessário clicar em Analisar Sobrevivência Regressão de COX.

1. Selecione como variável de tempo, o número de meses em que o cliente ficou

utilizando o serviço.

2. Selecione a variável “Churn” como variável status, que significa se a pessoa ainda

era cliente no mês anterior.

3. Clique em definir evento e coloque o valor 1, após isso clique em continuar.

4. Na caixa de diálogo “Regressão de COX”, selecione as covariáveis: idade (age),

tempo (em anos) no endereço atual (address), sexo (gender), estado civil (marital),

grau de escolaridade (ed), se é aposentado (retire) e número de pessoas que residem

no domicílio (reside), selecione o método RP (Máxima Verossimilhança) e

posteriormente, clique em próximo.

5. Selecione como covariável a categoria do cliente definida como “Custcat”.

6. Clique em “categórico” e selecione as covariáveis: estado civil (marital), grau de

escolaridade (ed), sexo (gender), se é aposentado (retired) e categoria do cliente

(custat), depois clique em continuar.

7. Clique em “diagramas” e selecione os seguintes tipos de gráfico: sobrevivência e

risco. Selecione a variável categoria do cliente (custcat) para ficar em linhas

separadas e clique em continuar e depois clique em OK.

10. Resultados da Aplicação

A variável status aponta a ocorrência do evento no último mês do estudo. Se

o evento não ocorreu, o caso é dito como censurado. Casos censurados não são

utilizados no cálculo dos coeficientes de regressão, mas são utilizados para calcular o

risco de linha de base. O resumo de processamento dos casos mostra que 726 casos

são censurados.

Resumo de Processamento dos Casos

N Percent

Cases available in

analysis

Eventa 274 27,4%

Censored 726 72,6%

Total 1000 100,0%

Cases dropped

Cases with missing values 0 0,0%

Cases with negative time 0 0,0%

Censored cases before the earliest event in a

stratum 0 0,0%

Total 0 0,0%

Total 1000 100,0%

a. Dependent Variable: Months with service

As variáveis categóricas são utilizadas para interpretar os coeficientes de

regressão para variáveis dicotômicas. Por padrão, a categoria de referência é a

última categoria de cada variável.

Categoria da Variável Codificadaa,d,e,f,g

Frequency (1)c (2) (3) (4)

Estado Civilb 0= Solteiro 505 1

1= Casado 495 0

Grau de Escolaridadeb

1=Ens. Médio Incompleto 204 1 0 0 0

2= Ens. Médio Completo 287 0 1 0 0

3= Ens. Sup. Incompleto 209 0 0 1 0

4= Ens. Sup. Completo 234 0 0 0 1

5=Pós-graduação 66 0 0 0 0

Aposentadob ,00=Não 953 1

1,00=Sim 47 0

Gênerob 0=Masculino 483 1

1=Feminino 517 0

Categoria do Clienteb

1= Serviço Básico 266 1 0 0

2=E-serviço 217 0 1 0

3=Plus serviço 281 0 0 1

4= Serviço Total 236 0 0 0

O processo de construção do modelo ocorre em dois blocos. No primeiro, um

algoritmo é empregado passo a passo, para isso foi utilizado o teste qui quadrado. Se

a etapa foi adicionar uma variável, a inclusão faz sentido se o nível de significância

for inferior a 0,05. Se a etapa era remover uma variável, a exclusão faz sentido se o

nível de significância for superior a 0,10. Na primeira etapa, as variáveis: idade,

tempo no endereço atual, grau de escolaridade e estado civil são adicionados ao

modelo.

Omnibus Tests of Model Coefficientse

Step -2 Log

Probabilidade

Global (score) Mudança da Etapa

Anterior

Mudança do Bloco

Anterior

Qui-

quadrado

df Sig. Qui-

quadrado

df Sig. Qui-

quadrado

df Sig.

1a 3383,793 132,522 1 ,000 142,571 1 ,000 142,571 1 ,000

2b 3352,281 149,154 2 ,000 31,512 1 ,000 174,083 2 ,000

3c 3330,899 169,357 6 ,000 21,383 4 ,000 195,466 6 ,000

4d 3318,417 182,012 7 ,000 12,481 1 ,000 207,947 7 ,000

a. Variável Introduzida na Etapa Número 1: Idade

b. Variável Introduzida na Etapa Número 2: tempo no endereço atual

c. Variável Introduzida na Etapa Número 3: grau de escolaridade

d. Variável Introduzida na Etapa Número 4: estado civil

A tabela a seguir relata o efeito da adição da variável categoria do cliente.

Como o valor de significância da mudança é menor que 0,05, portanto, a variável

categoria do cliente contribui para o modelo.

Omnibus Tests of Model Coefficientsa

-2 Log

Likelihood

Overall (score) Change From

Previous Step

Change From Previous

Block

Chi-

square

df Sig. Chi-square df Sig. Chi-square df Sig.

3283,818 214,354 10 ,000 34,599 3 ,000 34,599 3 ,000

a. Beginning Block Number 2. Method = Enter

O modelo final inclui idade, estado civil, endereço, grau de escolaridade e

categoria do cliente. Como principais resultados, pode-se destacar:

Um cliente solteiro tem aproximadamente 2 vezes mais chance de deixar de

utilizar o serviço da empresa, comparado com os clientes casados.

Um cliente com ensino médio incompleto tem 56% de chance de deixar de

utilizar o serviço, comparado com aqueles clientes que possuem pós-graduação.

Os coeficientes de regressão para os três primeiros níveis da categoria do

cliente são em relação à categoria de referência, o que corresponde ao total de clientes

de serviço. O coeficiente de regressão para a primeira categoria, que corresponde a

clientes de serviços básicos, sugere que o risco para os clientes do serviço básico é 1,46

vezes maior do que o total de clientes do serviço. Os coeficientes de regressão

sugerem que o risco para os clientes E-serviço é 0,61 vezes maior que do total de

clientes do serviço, e o risco para os clientes do serviço Plus é 0,58 vezes maior que do

total de clientes do serviço.

Variables in the Equation

B SE Wald df Sig. Exp(B)

Idade -,036 ,007 26,377 1 ,000 0,96

Estado civil ,402 ,123 10,627 1 ,001 1,50

Endereço -,055 ,010 28,566 1 ,000 0,95

Escolaridade 20,774 4 ,000

Escolaridade (1) -,822 ,272 9,145 1 ,002 0,44

Escolaridade (2) -,572 ,233 6,033 1 ,014 0,56

Escolaridade (3) -,417 ,233 3,201 1 ,074 0,66

Categ. cliente 34,561 3 ,000

Categ. cliente (1) ,377 ,166 5,141 1 ,023 1,46

Categ. cliente (2) -,488 ,170 8,199 1 ,004 0,61

Categ. cliente (3) -,537 ,195 7,586 1 ,006 0,58

A curva de sobrevivência básica é uma exibição visual do tempo em meses de

um cliente deixar de utilizar o serviço da empresa de telecomunicação. O eixo

horizontal mostra o tempo para evento. O eixo vertical mostra a probabilidade de

sobrevivência. Assim, qualquer ponto na curva de sobrevida mostra a probabilidade

de que o cliente "médio" continuará a ser um cliente passado esse tempo. Dessa

forma, podemos observar que passado 55 meses, a curva de sobrevivência se torna

menos suave, indicando que o cliente pode deixar de utilizar o serviço nesse período.

O gráfico das curvas de sobrevida mostra que as categorias dos clientes

serviço total e serviços básicos têm curvas de sobrevivência mais baixas, pois os seus

coeficientes de regressão tem um tempo menor até a ocorrência do evento.

11. Referências

[1] COLOSIMO, E. A.; GIOLO, S. R. Análise de Sobrevivência Aplicada. Editora

Edgard Blucher, 2006.

[2] COX, D. R.; HINKLEY, D. V. Theoretical Statistics. Chapman and Hall,

London, 1974.

[3] STORER, B. E.; WACHOLDER, S.; BRESLOW, N. E. Maximum Likelihood

Fitting of General Risk Models to Stratified Data. Applied Statistics, p. 177-181, 1983.

[4] STRUTHERS, C. A.; KALBFLEISCH, J. D. Misspecified Proportional Hazards

Models. Biometrika, p. 363-369, 1986.

Documents

ANÁLISE DE SOBREVIVÊNCIA - ufpa.br · Estimador de Nelson Aalen Estimador da Tabela de Vida Dentre outros. Estes estimadores são conhecidos como não-paramétricos, pois usam os