Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE CIENCIAS EXATAS E DA TERRA
PROGRAMA DE POS-GRADUACAO EM MATEMATICA
APLICADA E ESTATISTICA
MODELO DE TEMPO DE FALHA ACELERADO
COM FRACAO DE CURA
UMA ABORDAGEM UNIFICADA
Alysson Lıvio Vasconcelos Guedes
Natal, outubro de 2011
MODELO DE TEMPO DE FALHA ACELERADO COM
FRACAO DE CURA
UMA ABORDAGEM UNIFICADA
Alysson Lıvio Vasconcelos Guedes
Area de Concentracao: Probabilidade e Estatıstica
Orientadora: Profa. Dra. Dione Maria Valenca
Dissertacao apresentada ao Corpo Docente do
Programa de Pos-Graduacao em Matematica
Aplicada e Estatıstica - CCET - UFRN, como
requisito parcial para obtencao do tıtulo de
Mestre em Matematica Aplicada e Estatıstica.
Natal, outubro de 2011
ii
Fazei, pois, descer de vosso santo ceu a sabedoria,
e envia-a do trono de vossa gloria, para que,
junto de mim, tome parte em meus trabalhos.
Sabedoria 9-10
iii
Catalogação da Publicação na Fonte. UFRN / SISBI / Biblioteca Setorial
Centro de Ciências Exatas e da Terra – CCET.
Guedes, Alysson Lívio Vasconcelos.
Modelo de tempo de falha acelerado com fração de cura: uma abordagem
unificada / Alysson Lívio Vasconcelos Guedes. - Natal, 2011.
52 f. il.:
Orientador(a): Profa. Dra. Dione Maria Valença.
Dissertação (Mestrado) – Universidade Federal do Rio Grande do Norte. Centro
de Ciências Exatas e da Terra. Programa de Pós-Graduação em Matemática
Aplicada e Estatística.
1. Análise de sobrevivência – Dissertação. 2. Programa computacional R –
Dissertação. 2. Fração de cura – Dissertação. 3. Câncer de mama – Dissertação. I.
Valença, Dione Maria. II. Título.
RN/UF/BSE-CCET CDU: 519.24-7:61
Agradecimentos
Agradeco a Deus pai e a Santa Maria por todas as bencaos que recebi em toda a
minha vida.
Agradeco a toda paciencia e atencao da minha orientadora Dione Maria Valenca
que com um coracao de mae soube orientar este trabalho.
A minha amada mae, a minha madrinha Socorro e aos meus irmaos por serem fonte
de amor e apoio em toda minha vida. Agradeco especialmente ao meu pai, que como
exemplo de homem de carater, deu sua vida a doar-se pela famılia e ao proximo.
Aos meus amigos e companheiros de mestrado Juliane Caroline, Kelly Christina,
Kaline Nascimento, Tatiane Farache, Jeane Lima, Claudia Macedo, Daniel Matos e
todos os demais pela amizade e pelo acolhimento.
A Nara Angelica e a toda famılia Mesquita por serem como uma famılia pra mim
nessa etapa final do trabalho.
Aos meus amigos de toda a vida Gedvan Dias, Luciana Vital, Thiago Gouveia,
Nadja Cristina, Marcus Vinıcius, Nailson Cunha e aos irmaos Curvelo.
A todos os professores e servidores do PPGMAE.
A Capes pelo apoio financeiro.
iv
Resumo
Neste trabalho apresentamos um estudo sobre o modelo de tempo de falha acelerado
gama generalizado com fracao de cura sob uma abordagem unificada. O modelo se
propoe a estimar simultaneamente o efeito de covariaveis na aceleracao/desaceleracao
do tempo ate a ocorrencia de um evento e na fracao de cura. O metodo e implementado
no software estatıstico livre R. Por fim o modelo e aplicado a dados reais referente ao
tempo ate o retorno da doenca em pacientes diagnosticados com cancer de mama.
Palavras-chave: Analise de sobrevivencia , Fracao de cura, Cancer de mama
v
Abstract
In this work we study the accelerated failure-time generalized Gamma regression
models with a unified approach. The models attempt to estimate simultaneously the
effects of covariates on the acceleration/deceleration of the timing of a given event and
the surviving fraction. The method is implemented in the free statistical software R.
Finally the model is applied to a real dataset referring to the time until the return of
the disease in patients diagnosed with breast cancer.
Keywords: Survival analysis , cure fraction, breast cancer
vi
Sumario
1 Introducao 1
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Descricao dos capıtulos . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Analise de Sobrevivencia 4
2.1 Conceitos fundamentais de Analise de Sobrevivencia . . . . . . . . . . . 4
2.1.1 Funcao de sobrevivencia . . . . . . . . . . . . . . . . . . . . . . 5
2.1.2 Funcao taxa de falha ou funcao risco . . . . . . . . . . . . . . . 5
2.1.3 Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.4 Representacao dos dados de sobrevivencia . . . . . . . . . . . . 6
2.2 Modelos de Tempo de Falha Acelerado . . . . . . . . . . . . . . . . . . 8
3 Modelos de Sobrevivencia com Fracao de Cura 9
3.1 Modelo de Mistura Padrao . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Modelo de tempo de promocao . . . . . . . . . . . . . . . . . . . . . . 11
3.3 Modelo Unificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.4 Alguns casos particulares do modelo unificado . . . . . . . . . . . . . . 14
3.4.1 Modelo de Mistura Padrao . . . . . . . . . . . . . . . . . . . . . 15
3.4.2 Modelo de Tempo de Promocao . . . . . . . . . . . . . . . . . . 16
3.4.3 Funcao de Verossimilhanca . . . . . . . . . . . . . . . . . . . . . 16
3.4.4 Verossimilhanca Marginal . . . . . . . . . . . . . . . . . . . . . 19
3.5 Incluindo Covariaveis na Fracao de Cura . . . . . . . . . . . . . . . . . 20
3.5.1 Funcao de Verossimilhanca . . . . . . . . . . . . . . . . . . . . . 21
vii
4 Modelos de tempo de falha acelerado com fracao de Cura: Uma abor-
dagem unificada 22
4.1 Regressao log-gama generalizada . . . . . . . . . . . . . . . . . . . . . . 22
4.2 MTFA incluindo covariaveis na fracao de cura . . . . . . . . . . . . . . 24
4.3 Casos Particulares do MTFA com fracao de cura unificado . . . . . . . 26
4.3.1 MTFA l.g.g. com modelo de mistura padrao . . . . . . . . . . . 26
4.3.2 MTFA l.g.g com Modelo de Tempo de Promocao . . . . . . . . 27
4.4 Estimando os parametros . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5 Reproducao de resultados e Aplicacao 30
5.1 Reproducao de resultados . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.1.1 MTFA l.g.g. com modelo de mistura padrao . . . . . . . . . . . 30
5.1.2 MTFA l.g.g. com modelo de tempo de promocao . . . . . . . . 31
5.2 Aplicacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.3 Descricao das covariaveis . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4 Ajuste de modelos sem fracao de cura . . . . . . . . . . . . . . . . . . . 34
5.5 Ajuste dos MTFA l.g.g. padrao com fracao de cura . . . . . . . . . . . 37
6 Consideracoes finais 39
A Comandos no R 41
A.1 Regressao Log-gama Generalizada com covariaveis . . . . . . . . . . . . 41
A.2 MTFA l.g.g com Modelo de Mistura Padrao . . . . . . . . . . . . . . . 44
A.3 MTFA l.g.g com Modelo de Tempo de Promocao . . . . . . . . . . . . 45
B Demonstracoes 48
B.1 Funcao de sobrevivencia populacional . . . . . . . . . . . . . . . . . . . 48
B.2 Casos particulares do Modelo Unificado . . . . . . . . . . . . . . . . . . 49
B.2.1 Modelo de Mistura Padrao . . . . . . . . . . . . . . . . . . . . . 49
B.2.2 Modelo de Tempo de Promocao . . . . . . . . . . . . . . . . . . 49
viii
Capıtulo 1
Introducao
Em modelos de sobrevivencia, estamos interessados em estudar o tempo ate a ocor-
rencia de um evento de interesse comumente chamado ”tempo ate a falha” ou ”tempo
de vida”. Porem, em algumas situacoes, uma proporcao da populacao pode ser con-
siderada ”curada”, ou seja, alguns indivıduos nao estao mais sujeitos ao evento de in-
teresse. Os modelos que tratam desta abordagem sao chamados de modelos de fracao
de cura. Um grande numero de observacoes censuradas a direita em um perıodo de
acompanhamento suficiente, pode ser um indicativo da presenca de indivıduos curados
na populacao. Por exemplo, em estudos sobre a recidiva de determinados tipos de
cancer, muitos pesquisadores consideram que um paciente estara curado se nao houver
reincidencia da doenca num perıodo de 5 a 10 anos apos aplicacao de tratamentos,
sendo este tempo determinado pela experiencia do pesquisador.
Modelos de sobrevivencia com fracao de cura tem sido extensivamente discutidos
na literatura estatıstica por varios autores. Uma abordagem dada inicialmente por
Boag (1949) e Berkson e Gage (1952) , considera uma mistura de distribuicoes. Neste
modelo, conhecido como modelo de mistura padrao, e assumido que uma fracao π da
populacao esta curada, e a restante 1−π, nao curada. O livro de Maller e Zhou (1996)
apresenta diversas referencias sobre trabalhos que abordam modelos de mistura.
Alternativamente, Yakovlev et al. (1993) propoem uma nova classe de mistura en-
volvendo uma estrutura de riscos competitivos, que foi estendida por Chen et al. (1999),
1
1.1 Objetivos 2
o qual nos referimos como modelo de tempo de promocao. Uma abordagem unificada,
que inclui o modelo de mistura padrao e o modelo de tempo de promocao como dois
casos especiais, e discutido em Rodrigues et al. (2009). Neste contexto, a distribuicao
assumida para a variavel latente, representando o numero de causas que competem para
a ocorrencia do evento, determina uma classe de modelos. As distribuicoes Bernoulli e
Poisson representam respectivamente os modelos de mistura e de tempo de promocao.
Yamaguchi (1992) propoe uma extensao dos modelos de tempo de falha acelerado
log-Gama generalizada com fracao de cura inserido na forma de modelo de mistura,
considerando tambem a fracao de cura como funcao das covariaveis. Em uma abor-
dagem semelhante, Ortega et al. (2009) propoe uma extensao para modelos de regressao
Gama Generalizada incluindo fracao de cura em um modelo de tempo de promocao,
alem de apresentar resultados sobre influencia local e resıduos para este modelo.
1.1 Objetivos
Neste trabalho, partindo da abordagem unificada dada em Rodrigues et al. (2009)
estudamos as extensoes dos modelo de regressao Log-Gama Generalizada dadas por
Yamaguchi (1992) e Ortega et al. (2009), propondo entao uma otica unificada para
essas extensoes. Em seguida apresentamos de forma diferenciada o ajuste destes mo-
delos atraves do software estatıstico R (R Development Core Team 2011). Aplicamos
esta abordagem em um conjunto de dados reais obtidos de Macedo e Valenca (2009),
contendo informacoes a respeito de 355 pacientes com cancer de mama atendidas no
Hospital Prof. Dr. Luiz Antonio, Natal RN, no perıodo de 1991 a 1995, para estudar
o efeito de covariaveis no tempo em que as pacientes permanecem livres do retorno da
doenca bem como seus efeitos sobre a fracao de cura, apos terem sido submetidas ao
tratamento cirurgico de retirada total ou parcial da mama.
1.2 Descricao dos capıtulos 3
1.2 Descricao dos capıtulos
No Capıtulo seguinte mostramos uma breve introducao a analise de sobrevivencia
e seus principais conceitos. No Capitulo 3 abordamos os modelos classicos de fracao
de cura e o modelo unificado proposto por Rodrigues et al. (2009). No quarto capı-
tulo abordamos os modelos propostos por Yamaguchi (1992) e por Ortega et al. (2009)
que estendem o modelo de tempo de falha acelerado log-gama generalizado associando
covariaveis tanto ao tempo de vida quanto a fracao de curados. Atraves dessa otica
discutimos um modelo unificado para os modelos de tempo de falha acelerado com
fracao de cura. No Capitulo 5 ajustamos os modelos a dados reais atraves do software
estatıstico R, reproduzindo inicialmente as aplicacoes dadas por Yamaguchi (1992) e
Rodrigues et al. (2009). Guardamos os comandos usados no R para o Apendice A e al-
gumas demonstracoes para o Apendice B. Reservamos para Capitulo 6 as consideracoes
finais.
Capıtulo 2
Analise de Sobrevivencia
Neste capıtulo fazemos uma breve introducao aos principais conceitos de analise
de sobrevivencia e ao Modelos de Tempo de Falha Acelerado.
2.1 Conceitos fundamentais de Analise de Sobre-
vivencia
A analise de sobrevivencia tem um papel importante em varias areas de conhe-
cimento como engenharia e ciencias biologicas. Sua variavel de interesse e o tempo
ate a ocorrencia de um certo evento, tambem chamado de tempo de vida ou tempo
ate a falha podendo ser, por exemplo, o tempo de duracao de um certo componente
eletronico, o tempo ate a morte de um paciente, ou ainda, o tempo ate o retorno de
uma doenca (recidiva) em um paciente.
A variavel aleatoria T corresponde ao tempo ate a ocorrencia de um determinado
evento de interesse de alguma populacao. Para T devemos definir: o tempo de inıcio,
como a data de inıcio do estudo por exemplo; a escala de medida, que e em geral o
tempo do estudo, podendo ser outra medida como quilometragem de um carro; e um
evento de interesse, como a morte do paciente.
4
2.1 Conceitos fundamentais de Analise de Sobrevivencia 5
2.1.1 Funcao de sobrevivencia
Seja T uma variavel aleatoria contınua, nao negativa com funcao densidade de pro-
babilidade f(t) e funcao distribuicao acumulada F (t). Definimos a funcao sobrevivencia
de T como:
S(t) = P (T > t) =
∫ t
0
f(u)du = 1− F (t) t > 0. (2.1)
Note que S(t) e uma funcao monotona decrescente com S(0) = 1 e
S(∞) = limt→∞ S(t) = 0.
2.1.2 Funcao taxa de falha ou funcao risco
A funcao risco corresponde a taxa de falha instantanea no momento t.
h(t) = lim∆t→0
P (t ≤ T < t+ ∆t|T ≥ t)
∆t
= lim∆t→0
1
∆t
P (t ≤ T < t+ ∆t)
P (T ≥ t)
= lim∆t→0
1
∆t
F (t+ ∆t)− F (t)
S(t)
=1
S(t)lim
∆t→0
F (t+ ∆t)− F (t)
∆t
=1
S(t)F ′(t) =
f(t)
S(t).
(2.2)
Da definicao dada na equacao (2.1) temos ainda que:
f(t) = −dS(t)
dt. (2.3)
2.1.3 Censura
Uma ocorrencia frequente em dados de sobrevivencia e a presenca de censura, que e
caracterizada pela observacao apenas parcial da resposta. Isto se refere a situacoes em
que, por alguma razao, o acompanhamento da observacao foi interrompido, seja porque
2.1 Conceitos fundamentais de Analise de Sobrevivencia 6
a observacao nao pode ser mais acompanhada ou devido ao final do experimento. Isto
significa que toda informacao referente a resposta se resume ao conhecimento de que
o tempo de falha e superior aquele observado. Sem a presenca de censura, as tecni-
cas estatısticas classicas, como analise de regressao e planejamento de experimentos,
poderiam ser utilizadas na analise deste tipo de dados, provavelmente usando uma
transformacao para a resposta.
Tipos de censura
O tipo de censura mais comum e a censura a direita. E dito a direita pois o tempo
ate a ocorrencia do evento de interesse e superior ao tempo registrado. Desprezar essa
informacao faria com que o risco de ocorrencia do evento de interesse fosse superesti-
mado, pois o tempo ate a falha e desconhecido, mas o evento de interesse nao ocorreu
ate o ultimo momento observado. Os tres mais conhecidos mecanismos de censura a
direita sao:
• Censura do Tipo I: O estudo sera terminado apos um perıodo pre-estabelecido
de tempo. As observacoes para os quais o evento de interesse nao foi observado
ate este tempo sao ditas censuradas;
• Censura do Tipo II: O estudo sera terminado apos ter ocorrido o evento de
interesse para um numero pre-estabelecido de observacoes;
• Censura Aleatoria: Ocorre se a observacao for retirada no decorrer do estudo
sem ter ocorrido o evento de interesse ou se o evento de interesse ocorrer por uma
razao diferente da estudada.
2.1.4 Representacao dos dados de sobrevivencia
Considere uma variavel aleatoria positiva T representando o tempo ate a falha e
C outra variavel aleatoria positiva, independente de T representado o tempo ate a
censura. O tempo observado sera, portanto,
2.1 Conceitos fundamentais de Analise de Sobrevivencia 7
T ∗ = min(T,C)
e alem disso definimos uma indicadora de forma
δ =
1 se T ≤ C
0 se T > C
A representacao dos dados para o i-esimo individuo, sendo i = 1, . . . , n, e o par
(t∗i , δi), sendo t∗i o valor observado de T ∗ para o individuo i e δi variavel indicadora de
censura definida acima.
Considere, como ocorre na pratica, a sobrevivencia dos pacientes portadores de
alguma doenca associada a informacoes (caracterısticas) como o tipo de tratamento
usado, idade, etc. Para tratar da dependencia dos tempos de sobrevivencia com estas
informacoes auxiliares associamos a cada indivıduo um vetor de medidas (variaveis
discretas ou contınuas), chamado geralmente de vetor de covariaveis, e denotado por
x = (1, x1, . . . , xp)′.
Assim os dados de sobrevivencia sao da forma:
t δ x1 · · · xp
t1 δ1 x11 · · · x1p
......
.... . .
...
tn δn xn1 · · · xnp
Uma maneira de determinar o relacionamento entre o tempo de sobrevivencia e as
covariaveis e atraves de um modelo de regressao. Uma classe importante de modelos
de regressao para tratar de dados de sobrevivencia e a classe dos Modelos de Tempo
de Falha Acelerado (MTFA).
2.2 Modelos de Tempo de Falha Acelerado 8
2.2 Modelos de Tempo de Falha Acelerado
Considere os modelos de posicao e escala caracterizados pelo fato que Y = log T
possui um distribuicao com parametro de posicao µ e de escala σ. Desta forma temos
Y = µ+ σε, (2.4)
sendo −∞ < µ <∞ e σ > 0.
Considerando a presenca de p covariaveis, assumimos que µ = µ(x) = x′β sendo
x = (1, x1, . . . , xp)′ um vetor de covariaveis e β = (β0, β1, . . . , βp)
′ um vetor de para-
metros desconhecidos. Sejam g(·) e G(·) as funcoes densidade de probabilidade e de
sobrevivencia de ε respectivamente, entao a funcao densidade de probabilidade de Y
para um dado vetor de covariaveis x sera dada por
f(y;x,β, σ) =1
σg
(y − x′β
σ
)−∞ < y <∞, (2.5)
e a de sobrevivencia por
S(y;x,β, σ) = G
(y − x′β
σ
)−∞ < y <∞, (2.6)
Desta forma o modelo 2.4 e um modelo log-linear para T com resıduo ε. Chamamos
este modelo de Modelo de Tempo de Falha Acelerado devido ao fato que as
covariaveis tem a funcao de acelerar ou desacelerar o tempo de ocorrencia do evento
de interesse.
Capıtulo 3
Modelos de Sobrevivencia com
Fracao de Cura
Os modelos classicos de Analise de Sobrevivencia pressupoem que quando o tempo
vai para o infinito a probabilidade de sobrevivencia e igual a zero (limt→∞ S(t) = 0).
Quando a probabilidade de sobrevivencia no infinito e diferente de zero (limt→∞ S(t) = π)
interpretamos esta quantidade π > 0 como uma fracao de curados (Miller et al. 1981).
Nao podemos observar o conjunto de dados no infinito, porem para alguns casos a
existencia de uma fracao de cura parece ser bem razoavel. Por exemplo tome o tempo
ate que um casal recem casado se divorciar ou o tempo ate a conclusao de curso de
um estudante. Esses eventos podem nunca acontecer. Ou seja, existe uma parcela da
populacao que chamamos de “imune ao evento”. Entendemos por imunes os indivıduos
que nao estao sujeitos a ocorrencia do evento de interesse. Em algumas situacoes, como
pacientes de cancer, podemos usar a terminologia curados.
Observando a calda direita do grafico da funcao de sobrevivencia estimada (Esti-
mador de Kaplan-Meier) podemos ter um indicativo da presenca de imunes. Uma calda
bem acima de zero sugere uma fracao de curados como ilustrado pela Figura 3.1.
Um fator que pode nos levar a considerar a presenca de imunes em um conjunto de
dados e a alta presenca de censura a direta ao fim do estudo. Porem um estudo com
tempo de acompanhamento relativamente curto pode nos levar a uma falsa conclusao
da existencia de imunes, pois o evento de interesse ainda pode ocorrer para muitas ob-
9
3.1 Modelo de Mistura Padrao 10
Figura 3.1: Funcao de Sobrevivencia estimada para os dados de tempo ate a conclusaodo curso de graduacao em Estatıstica da UFRN - 1997 a 2004. Amostra com n = 414alunos.
servacoes. Desta forma, Maller e Zhou (1996) sugerem um tempo de acompanhamento
suficientemente grande, citando como exemplo, um problema real de uma especie de
tartaruga em que e difıcil a identificacao do sexo. Essa identificacao pode ser feita ape-
nas por cirurgia ou no momento em que uma tartaruga coloca ovos, sendo declarado
desta forma femea. Portanto para identificar a proporcao de femeas em uma amostra
dessas tartarugas o estudo deve durar pelo menos ate a maturidade da especie.
3.1 Modelo de Mistura Padrao
Em uma abordagem dada inicialmente por Boag (1949) e Berkson e Gage (1952) e
proposto um modelo parametrico que consiste em uma mistura de distribuicoes. Uma
representa a funcao de sobrevivencia dos indivıduos suscetıveis ao evento de interesse,
que irao falhar, e a outra uma funcao degenerada que permite tempos de vida infinitos
para os imunes. Nos referimos a esse modelo como modelo de mistura padrao. Assuma
que um indivıduo i esta associado a uma variavel aleatoria M sendo:
M =
1 se o indivıduo suscetıvel ao evento
0 se o indivıduo e imune ao evento
3.2 Modelo de tempo de promocao 11
e tambem
P (M = m) =
π se m = 0
1− π se m = 1
Veja que todos os indivıduos com M = 0 tem T =∞. Portanto:
P (T > t|M = 0) = 1
P (T > t|M = 1) = S∗(t)
Portanto para todo t ≥ 0 a verdadeira funcao de sobrevivencia para a populacao e
dada por:
Sp(t) = P (T > t) = P (T > t,Mi = 0) + P (ti > t,Mi = 1)
= P (T > t|Mi = 0)P (Mi = 0) + P (T > t|Mi = 1)P (Mi = 1)
= π + (1− π)S∗(t)
(3.1)
3.2 Modelo de tempo de promocao
Um modelo alternativo e proposto por Yakovlev et al. (1993) e Chen et al. (1999)
referido por Rodrigues et al. (2008) como modelo de tempo de promocao. Este modelo
consiste em pressupor a existencia de varias causas que competem entre si para causar
no indivıduo o evento de interesse.
Sejam Z1, Z2, ..., ZM variaveis aleatorias latentes que representam os tempos ate a
ocorrencia de um evento de interesse, sendo M uma variavel aleatoria nao observavel
que representa o numero de causas que competem para produzir o evento de interesse.
Se M = 0 definimos Z0 tal que P (Z0 = ∞) = 1 e neste caso dizemos que o indivıduo
nao e suscetıvel ao evento de interesse. O tempo de sobrevivencia observavel e definido
como T = min{Z0, Z1, ..., ZM}. Assumindo M como uma variavel aleatoria com dis-
tribuicao Poisson(θ) e Z1, Z2, ..., ZM variaveis aleatorias independentes e identicamente
3.3 Modelo Unificado 12
distribuıdas com funcao de distribuicao F (·) e sobrevivencia S(·) = 1 − F (·). Temos
que a funcao de sobrevivencia populacional e dada por:
Sp(t) = e−θF (t). (3.2)
A fracao de cura correspondente ao modelo 3.2 e dada por:
limt→∞
Sp(t) = e−θ.
3.3 Modelo Unificado
Abordamos agora o modelo de fracao de cura unificado proposto por Rodrigues
et al. (2009) que representa uma extensao dos modelos de longa duracao proposto por
Chen et al. (1999).
Como antes, seja M , uma variavel aleatoria representando o numero de causas ou
riscos da ocorrencia de um particular evento de interesse com distribuicao denotada por
p(m) = P (M = m),m = 0, 1, 2, ...
Considere que, dado M = m, Zj, j = 1, ...m, sao variaveis aleatorias independentes
e identicamente distribuıdas, representando o tempo de ocorrencia do evento de inte-
resse devido a j-esima causa ou risco, com funcao de sobrevivencia S(·) = 1 − F (·) e
funcao de densidade de probabilidade f(·) independentes de M .
O tempo ate ocorrencia do evento de interesse para um indivıduo da populacao e
dado por T = min{Z0, ..., ZM}, sendo que P (Z0 = ∞) = 1. Esta suposicao admite
a possibilidade de uma proporcao p(0) da populacao nao apresentar a ocorrencia do
evento de interesse. As variaveis aleatorias Zj e M sao variaveis latentes, ou seja, nao
observaveis, enquanto T e uma variavel observavel.
Seja a = am uma sequencia de numeros reais. Se
Aa(s) = a0 + a1s+ a2s2 + . . . (3.3)
3.3 Modelo Unificado 13
converge para s ∈ [0, 1], entao definimos Aa(s) como a funcao geradora da sequencia
am (Feller 2008).
A funcao de sobrevivencia populacional de T definido por Sp(t) = P (T > t) e dada
abaixo (sua demonstracao encontra-se no Apendice B.1).
Sp(t) = Ap(S(t)) =∞∑m=0
p(m)(S(t))m, (3.4)
sendo Ap(·) a funcao geradora da sequencia p = p(m). Note que Sp e impropria, ou
seja, o limt→∞ Sp(t) = p(0) = P (M = 0) > 0 corresponde a proporcao de indivıduos
imunes ou curados, ou seja, a fracao de cura.
Podemos entao apresentar a funcao Sp(t) dada em (3.4) como uma mistura de dis-
tribuicoes
semelhante ao Modelo de Mistura Padrao apresentado na Secao 3.1.
Defina S∗(t) = P (T > t|M > 0), e facil ver que esta pode ser representada por
S∗(t) =∑∞
m=1 p∗(m)[S(t)]m, sendo p∗(m) = p(m)
1−p(0)a funcao de sobrevivencia condi-
cional de T dada a ocorrencia do evento de interesse, temos entao que o modelo de
fracao de cura unificado proposto por Rodrigues et al. (2009) pode ser representado
por
Sp(t) = p(0) + (1− p(0))S∗(t) (3.5)
Note tambem que S∗(t) e uma funcao de sobrevivencia propria pois
limt→∞ S∗(t) = 0.
A funcao de densidade para a populacao e obtida pelo negativo da derivada de
(3.4), ou seja,
fp(t) = −∂Sp(t)∂t
= −S ′p(t) =∞∑m=0
f(t)p(m)m(S(t))m−1. (3.6)
Decorre de (3.5) que a funcao densidade condicional a ocorrencia do evento de
interesse, denotado por f ∗(t) = f(t|M > 0), e dada por:
3.4 Alguns casos particulares do modelo unificado 14
f ∗(t) = −∂S∗(t)
∂t= −S∗′(t). (3.7)
A funcao risco incondicional a ocorrencia do evento de interesse, denotado por hp(t)
e dada por
hp(t) =fp(t)
Sp(t), (3.8)
e a condicional a ocorrencia do evento de interesse por
h∗(t) =f ∗(t)
S∗(t). (3.9)
3.4 Alguns casos particulares do modelo unificado
Sabemos que M e uma variavel aleatoria discreta representando o numero de pos-
sıveis causas que podem levar um indivıduo ao evento de interesse. Nesta secao apre-
sentamos algumas funcoes geradoras (retiradas de Feller 2008) das probabilidades as-
sociadas a importantes distribuicoes de probabilidade que podemos usar para definir
M .
• SE M ∼ Bernoulli(1 − θ), p(m) = (1 − θ)mθ1−m, sendo 0 < θ < 1 e m = 0, 1
entao
Ap(s) = θ + (1− θ)s.
• Se M ∼ Binomia(θ), p(m) =(nm
)θm(1 − θ)n−m, sendo 0 < θ < 1, n ≥ 1 e
m = 0, 1, 2, . . . entao
Ap(s) = (1− θ + θs)n.
• Se M ∼ Poisson(θ), p(m) = e−θθm
m!, sendo θ > 0 e m = 0, 1, 2, . . . entao
Ap(s) = e−θ(1−s).
• Se M ∼ Geomtrica(θ), p(m) = (1−θ)mθ, sendo 0 < θ < 1, n ≥ 1 e m = 0, 1, 2, . . .
3.4 Alguns casos particulares do modelo unificado 15
entao
Ap(s) =θ
1− (1− θ)s.
• Se M ∼ BinomiaNegativa(η, θ), p(m) = Γ(η−1+m)Γ(η−1)m!
(ηθ
1+ηθ
)m(1 + ηθ)−
1η , sendo θ >
0, η > −1θ
e m = 0, 1, 2, . . . nesta versao mais geral da distribuicao binomial
negativa (Piegorsch 1990; Saha e Paul 2005) temos
Ap(s) = (1 + ηθ(1− s))−1η .
Devemos porem observar com mais cuidado dois desses casos particulares, pois estes
se apresentam como os resultados das Secoes 3.1 e 3.2.
3.4.1 Modelo de Mistura Padrao
Considere que M possui uma distribuicao Bernoulli(1 − θ). Desta forma
p(m) = Pθ(M = m) = (1 − θ)mθ1−m, m = 0, 1. Logo existe apenas uma causa
que pode levar um indivıduo ao evento de interesse, portanto, T = min{Z0, Z1} com
P (Z0 = ∞) = 1 e P (Z1 > z) = S(z). Sendo p(0) = Pθ(M = 0) = θ a fracao de
cura correspondente. Os resultados obtidos estao relacionados ao modelo de mistura
padrao visto na Secao 3.1. As respectivas funcoes de sobrevivencia, densidade e risco
populacionais e condicionais a ocorrencia do avento de interesse sao dadas por:
Funcoes de Funcao Populacional de TFuncao condicional
a ocorrencia do evento de interesse
Sobrevivencia Sp(t) = θ + (1− θ)S∗(t) S∗(t) = S(t)
Densidade fp(t) = (1− θ)f ∗(t) f ∗(t) = f(t)
Risco hp(t) = f(t)1− θ
θ + (1− θ)S(t)h∗(t) =
f(t)
S(t)
3.4 Alguns casos particulares do modelo unificado 16
3.4.2 Modelo de Tempo de Promocao
Considerando que o numero de possıveis causas que podem levar um indivıduo ao
evento de interesse seja M ∼ Poisson(θ). Neste caso temos p(m) = Pθ(M = m) =
e−θθm
m!, m = 0, 1, 2, . . . com T = min{Z0, Z1, . . . , ZM}, P (Z0 = ∞) = 1 e P (Z1 > z) =
S(z). A fracao de cura neste caso e dada por p(0) = Pθ(M = 0) = e−θ. Os resultados
obtidos estao relacionados com o modelo de tempo de promocao visto em 3.2. As
respectivas funcoes de sobrevivencia, densidade e risco populacionais e condicionais a
ocorrencia do evento de interesse sao dadas por:
Funcoes de Funcao Populacional de TFuncao condicional
a ocorrencia do evento de interesse
Sobrevivencia Sp(t) = e−θ(1−S(t)) S∗(t) =exp{−θ(1− S(t))} − exp{−θ}
1− exp{−θ}
Densidade fp(t) = θf(t)e−θ(1−S(t)) f ∗(t) =exp{−θ(1− S(t))}
1− exp{−θ}θf(t)
Risco hp(t) = θf(t) h∗(t) =exp{−θ(1− S(t))}
exp{−θ(1− S(t))} − exp{−θ}hp(t)
3.4.3 Funcao de Verossimilhanca
Suponha uma amostra com n indivıduos e para cada indivıduo i, i = 1, . . . , n, sao
associados as seguintes variaveis:
• Mi: Variavel aleatoria nao observavel discreta com funcao de probabilidade
Pθ(Mi = mi) = pθ(mi), sendo θ um vetor de parametros desconhecidos;
• Zij: Variaveis i.i.d. nao observaveis representando o tempo ate a ocorrencia do
evento de interesse devido a j-esima causa ou risco, j = 1, ...,Mi, com funcao dis-
tribuicao F (·;ψ), funcao de sobrevivencia S(·;ψ) = 1−F (·;ψ) e funcao densidade
f(·;ψ) que nao dependem de Mi, sendo ψ um vetor de parametros desconhecidos;
3.4 Alguns casos particulares do modelo unificado 17
• Ti: tempo de falha observado, dado por Ti = min{T ∗i , Ci}, com
T ∗i = min{Zi0, Zi1, . . . , ZiMi} e Ci o tempo de censura para o individuo i;
• δi: indicador de falha, sendo δi =
1 , se T ∗i ≤ Ci
0 , se T ∗i > Ci;
O conjunto dos dados completos e representado por Dc = (n,T , δ,M ), sendo T =
(T1, T2, . . . , Tn)′, δ = (δ1, δ2, . . . , δn)′, M = (M1,M2, . . . ,Mn)′ e o conjunto de dados
observados por D = (n,T , δ). A funcao de verossimilhanca relativa a distribuicao
conjunta dos vetores T , δ e Mpode ser representada por:
L(ψ, θ;Dc) =∏n
i=1 f(ti, δi,mi)
=∏n
i=1 f(ti, δi|mi)pθ(mi).(3.10)
Sejam fT e g as funcoes densidade de probabilidade de T ∗i e Ci respectivamente, e
ST e G suas funcoes de sobrevivencia. Entao:
ST (t|mi) = P (Ti ≥ t|Mi = mi)
= P (min{Z0, Z1, . . . , Zmi} ≥ t)
= P (Z0 ≥ t, Z1 ≥ t, . . . , Zmi ≥ t)
= P (Z0 ≥ t)P (Z1 ≥ t), . . . , P (Zmi ≥ t)
= 1 · S(t;ψ) · S(t;ψ) · · ·S(t;ψ)
= S(t;ψ)mi .
(3.11)
Por (3.6) temos
fT (t|mi) = ∂Sp(t|mi)∂t
= mif(t;ψ)S(t;ψ)mi−1.(3.12)
A expressao f(ti, δi|Mi = mi) pode ser particionada em dois casos disjuntos. Para
δi = 0 e para δi = 1. Desta forma, e utilizando (3.11) e (3.12), temos:
Para δ = 0
3.4 Alguns casos particulares do modelo unificado 18
f(ti, δi|mi) = lim∆t→0
P (ti ≤ Ti < ti + ∆t, δ = 0|Mi = mi)
∆ti
= lim∆ti→0
P (ti ≤ Ci < ti + ∆t, T∗i > Ci|Mi = mi)
∆t
∼= lim∆ti→0
P (ti ≤ Ci < ti + ∆t, T∗i > t|Mi = mi)
∆t
= lim∆t→0
P (ti ≤ Ci < ti + ∆ti|Mi = mi)
∆t
P (Ti > t|Mi = mi)
= g(ti|mi)ST (ti|mi)
= S(ti;ψ)mig(ti|mi)
(3.13)
e para δ = 1
f(ti, δi|mi) = lim∆t→0
P (ti ≤ Ti < ti + ∆t, δ = 1|Mi = mi)
∆t
= lim∆t→0
P (ti ≤ T ∗i < ti + ∆t, T∗i ≤ Ci|Mi = mi)
∆t
∼= lim∆t→0
P (ti ≤ T ∗i < ti + ∆t, Ci ≥ t|Mi = mi)
∆t
= lim∆t→0
P (ti ≤ T ∗i < ti + ∆t|Mi = mi)
∆t
P (Ci ≥ t|Mi = mi)
= fT (ti|mi)G(ti|mi)
= G(ti|mi)mif(ti;ψ)S(ti;ψ)mi−1.
(3.14)
Portanto, de (3.13) e (3.14), a distribuicao de (ti, δi) dado Mi = mi, i = 1, . . . , n e
f(ti, δi|mi) =
S(ti;ψ)mig(ti|mi) se δ = 0
G(ti|mi)mif(ti;ψ)S(ti;ψ)mi−1 se δ = 1(3.15)
Sintetizando (3.15) em uma unica equacao temos:
3.4 Alguns casos particulares do modelo unificado 19
f(ti, δi|mi) = [S(ti;ψ)mig(ti|mi)]1−δi [G(ti|mi)mif(ti;ψ)S(ti;ψ)mi−1
]δi (3.16)
Substituindo (3.16) em (3.10) temos que a funcao de verossimilhanca para os dados
completos, sob a suposicao de censura nao informativa para os parametros de interesse
e usando um certo abuso de linguagem para abandonar o sımbolo “proporcional” e:
L(ψ, θ;Dc) =n∏i=1
[S(ti;ψ)mi ]1−δi[mif(ti;ψ)S(ti;ψ)mi−1
]δi pθ(mi) (3.17)
3.4.4 Verossimilhanca Marginal
Para obter a verossimilhanca marginal fazemos o somatorio da distribuicao conjunta
de (Ti, δi,Mi) nas variaveis nao observadas mi.
f(ti, δi) =∞∑
mi=0
f(ti, δi,mi)
=∞∑
mi=0
f(ti, δi|mi)pθ(mi)
(3.18)
Portanto a verossimilhanca marginal para o conjunto de dados observados
D = (n,T , δ) e dada por:
L(ψ, θ;D) =n∏i=1
∞∑mi=0
[S(ti;ψ)mi ]1−δi[mif(ti;ψ)S(ti;ψ)mi−1
]δi pθ(mi). (3.19)
Abordando agora o modelo de sobrevivencia de longa duracao consideramos (3.19)
nos seguintes casos:
• δ = 0
3.5 Incluindo Covariaveis na Fracao de Cura 20
L(ψ, θ;D) =n∏i=1
∞∑m=0
[pθ(mi)S(ti;ψ)mi ]
=n∏i=1
Sp(ti;φ),
(3.20)
sendo φ = (ψ, θ). Recorrendo a (3.4) na ultima passagem.
• δ = 1
L(φ;D) =n∏i=1
∞∑m=0
[f(ti;ψ)pθ(mi)miS(ti;ψ)mi−1
]=
n∏i=1
fp(ti;φ),
(3.21)
recorrendo a (3.6) na ultima passagem. Desta forma, sintetizando (3.20) e (3.21)
em uma unica equacao
L(φ;D) =n∏i=1
[Sp(ti;φ)]1−δi [fp(ti;φ), ]δi (3.22)
3.5 Incluindo Covariaveis na Fracao de Cura
Descrevemos na Secao 2.2 os modelos de tempo falha acelerado que associam co-
variaveis ao tempo de vida atraves do parametro de posicao µ = x′β. Em modelos
de sobrevivencia com fracao de cura, as covariaveis podem ser incluıdas atraves do
parametro θ = θ(x′γ) sendo γ = (γ0, γ1, . . . , γp) um vetor de coeficientes de regressao.
Nos modelos de Mistura e de Promocao (vistos nas secoes 3.1 e 3.2) essa associacao
entre covariaveis e fracao de cura esta relacionada com a funcao de ligacao canonica
considerada em Modelos Lineares Generalizados (Nelder e Wedderburn 1972). Portanto
associamos covariaveis ao Modelo de Mistura considerando a ligacao logıstica:
θ(x′γ) =ex′γ
1 + ex′γ,
e para o Modelo de Promocao consideramos a ligacao:
3.5 Incluindo Covariaveis na Fracao de Cura 21
θ(x′γ) = ex′γ .
Aqui desejamos descrever no contexto do modelo unificado, a inclusao de covaria-
veis no parametro θ. Considere que θ = θ(x′γ) e uma funcao das covariaveis. Assim,
seja M uma variavel aleatoria discreta representando o numero de causas que podem
levar um indivıduo a ocorrencia do evento de interesse com funcao de probabilidade
p(m) = Pθ(M = m),m = 0, 1, 2, ... . Dado M = m sejam Zj, j = 1, ...m, vari-
aveis aleatorias independentes e identicamente distribuıdas, representando o tempo
de ocorrencia do evento de interesse devido a j-esima causa ou risco, com funcao de
sobrevivencia S(·;ψ) = 1 − F (·;ψ) e funcao de densidade de probabilidade f(·;ψ) in-
dependentes de M . Esta inclusao de covariaveis na fracao de cura e apresentada em
Rodrigues et al. (2008) usando como exemplo para a densidade de Z a distribuicao
Weibull para o Modelo de Mistura e para o Modelo de Promocao.
3.5.1 Funcao de Verossimilhanca
Sejam x = (xi1, xi2, . . . , xip)′ vetor de covariaveis relacionado a cada indivıduo em
uma amostra de tamanho n. Seja γ = (γ1, γ2, . . . , γp) coeficientes de regressao associa-
dos a fracao de curados atraves de θ(x′γ) pela funcao de probabilidade da variavel
aleatoria M , pγ(m) = Pθ(x′γ)(M = m), m = 0, 1, 2, ... entao de forma muito seme-
lhante a secao 3.4.3 obtemos a funcao de verossimilhanca para os dados completos
Dc = (n,x,T , δ,M ):
L(φ;Dc) =n∏i=1
[S(ti;ψ)mi ]1−δi[mif(ti;ψ)S(ti;ψ)mi−1
]δi pγ(mi), (3.23)
sendo φ = (ψ, γ) e a verossimilhanca marginal para os dados observadosD = (n,x,T , δ)
dada por:
L(φ;D) =n∏i=1
[Sp(ti;φ)]1−δi [fp(ti;φ)]δi . (3.24)
Capıtulo 4
Modelos de tempo de falha
acelerado com fracao de Cura: Uma
abordagem unificada
Vimos no Capıtulo anterior modelos que fazem uso de covariaveis apenas na fracao
de cura. Usando o Modelo de Mistura Padrao Yamaguchi (1992) estende o MTFA
log-gama generalizado para a avaliar simultaneamente o efeito de covariaveis tanto
na aceleracao/desaceleracao do tempo de falha quanto seus efeitos na fracao de cura.
De forma similar Ortega et al. (2009) utiliza o MTFA log-gama generalizado usando
o Modelo de Tempo de Promocao. Neste Capıtulo propomos uma visao unificada
para estes modelos e observamos essas duas abordagens como casos particulares de um
modelo geral. Por fim implementamos esses casos no software R.
4.1 Regressao log-gama generalizada
A partir da distribuicao gama generalizada introduzida por Stacy (1962) e repara-
metrizada por Prentice (1974), Farewell e Prentice (1977) e Lawless (1980) apresentam
o modelo de regressao log-gama generalizado estendido (l.g.g.). O modelo l.g.g. esten-
dido e de grande importancia pois possui como casos particulares alguns dos modelos
parametricos mais usados na analise de sobrevivencia como os modelos weilbull e log-
normal.
22
4.1 Regressao log-gama generalizada 23
Considere um vetor de covariaveis x, de ordem p × 1, associado com o tempo de
vida T para cada indivıduo. Modelos de tempo de falha acelerado sao modelos de
regressao que se caracterizam pelo fato da variavel Y = log(T ) ter uma distribuicao
com parametro de posicao µ(x) = β′x, e um parametro de escala σ constante. Pode
ser representada por:
Y = log(T ) = βx′ + σε, (4.1)
sendo σ > 0 e β=(β1, · · · , βp)T parametros desconhecidos e ε um erro aleatorio cuja
distribuicao nao depende de x.
A famılia estendida log-gama generalizada (l.g.g.) para Y e obtida quando assumi-
mos que ε tem densidade
fε(ε) =
|q|
Γ(q−2)(q−2)(q−2) exp{q−1ε− q−2 exp(qε)} se q 6= 0
1√2π
exp(− ε−2
2) se q = 0,
(4.2)
e funcao de sobrevivencia
Sε(ε) =
Q[q−2, q−2e{qε}] se q < 0
1−Q[q−2, q−2e{qε}] se q > 0
1− Φ(ε) se q = 0,
(4.3)
sendo −∞ < q <∞ e Q(k, a) a funcao integral gama incompleta
Q(k, a) =
∫ ∞a
tk−1
Γ(k)e−tdt. (4.4)
Obtemos como casos particulares do modelo l.g.g. estendido o modelo Weibull para
quando q = 1 e o modelo log-normal para q = 0. Para mais detalhes sobre o modelo
de regressao l.g.g. recomendamos ver Valenca (1994).
4.2 MTFA incluindo covariaveis na fracao de cura 24
4.2 MTFA incluindo covariaveis na fracao de cura
A inclusao de fracao de cura com covariaveis ao MTFA permite uma analise si-
multanea da influencia das covariaveis na aceleracao/desaceleracao do tempo de falha
e seus efeitos na fracao de curados.
Suponha para uma amostra de n indivıduos o vetor de covariaveis xi = (xi1, xi2, . . . , xip)′.
Seja Mi o numero de causas ou riscos da ocorrencia do evento de interesse para cada
indivıduo com funcao de probabilidade pγ(mi) = Pθ(x′γ)(Mi = mi), mi = 0, 1, 2, ...,
sendo γ = (γ0, γ1, . . . , γp)′ vetor de parametros desconhecidos associados a fracao de
cura. Dado Mi = mi, sejam Zij, j = 1, ...mi, variaveis aleatorias independentes e
identicamente distribuıdas, com funcao densidade de probabilidade e de sobrevivencia
independentes de M representando o tempo ate a ocorrencia do evento de interesse
para o i-esimo indivıduo. Considere tambem T ∗i = min{Zi0, Zi1, . . . , ZiMi} o tempo ate
a ocorrencia do evento de interesse para o indivıduo i.
Tomando a variavel aleatoria Wij = log(Zij) como pertencente a famılia de modelos
de posicao e escala temos
Wij = x′iβ + σεi,
sendo β = (β0, β1, . . . , βp)′ vetor de parametros desconhecidos associados ao tempo
de falha e ε uma variavel aleatoria com funcao densidade de probabilidade g(·; ξ) e
funcao de sobrevivencia G(·; ξ), sendo ξ um vetor de parametros desconhecidos.
Entao a funcao densidade de probabilidade deWij para um dado vetor de covariaveis
xi sera dada por
f(wij;xi,β, σ, ξ) =1
σg
(wij − x′iβ
σ; ξ
), (4.5)
e funcao de sobrevivencia dada por
S(wij;xi,β, σ, ξ) = G
(wij − x′iβ
σ; ξ
). (4.6)
4.2 MTFA incluindo covariaveis na fracao de cura 25
Considere agora Ti = min{T ∗i , Ci} e Yi = log(Ti) respectivamente o tempo ate a
ocorrencia do evento de interesse observado e seu logaritmo, sendo T ∗i o tempo ate a
ocorrencia do evento de interesse e Ci o tempo de censura, para o i-esimo indivıduo.
Portanto Yi = min{log T ∗, logC} e log T ∗ = min{log(Zi0), log(Zi1), . . . , log(ZiMi)} en-
tao obtemos de forma semelhante a equacao 3.4 a funcao de sobrevivencia populacional
dada por
P (log T ∗i > vi) = Sp(vi;φ) =∞∑
mi=0
pγ(mi)[S(vi;xi,β, σ, ξ)]mi , (4.7)
sendo vi = log(ti) e φ = (β,γ, σ, ξ). Tambem de forma semelhante ao modelo
unificado (equacao 3.5) apresentamos o MTFA com Fracao de Cura Unificado dado
por:
Sp(vi;φ) = pγ(0) + (1− pγ(0))S∗(vi;φ), (4.8)
sendo pγ(0) a fracao de cura dependente de γ, e
S∗(vi;φ) =∞∑
mi=1
[p∗γ(mi)S(vi;x,β, σ, ξ)]mi , sendo p∗γ(mi) =
pγ(mi)
1− pγ(0),
a funcao de sobrevivencia dependente a ocorrencia do evento de interesse. A funcao de
densidade populacional sera
fp(vi;φ) = −S ′p(vi;φ) (4.9)
De forma similar aos resultados obtidos na secao 3.4.3 temos que a funcao de
verossimilhanca para os dados completos Dc = (n,x,Y , δ,M ), sendo Y = (y1, . . . , yn)
o vetor do logaritmo dos tempos observados e δ = (δ1, . . . , δn) o vetor dos indicadores
de censura, sera
L(φ;Dc) =n∏i=1
[S(yi;φ)mi ]1−δi[mif(yi;φ)S(yi;φ)mi−1
]δi pγ(mi), (4.10)
4.3 Casos Particulares do MTFA com fracao de cura unificado 26
e a verossimilhanca marginal para os dados observados D = (n,x,Y , δ) sera
L(φ;D) =n∏i=1
[Sp(yi;φ)]1−δi [fp(yi;φ)]δi . (4.11)
4.3 Casos Particulares do MTFA com fracao de cura
unificado
Vimos na secao 3.4 alguns casos particulares para o numero M de possıveis causas
que podem levar um indivıduo ao evento de interesse para o modelo unificado (equacao
3.5). Apresentamos nesta secao alguns casos particulares para diferentes distribuicoes
de Mi e assumimos o modelo de regressao log-gama generalizado para log (Zij),
i = 1, . . . , n e j = 1, . . . ,Mi.
4.3.1 MTFA l.g.g. com modelo de mistura padrao
Partindo do MTFA com fracao de cura unificado apresentado na equacao 4.8,
atribuımos para a variavel aleatoria M uma distribuicao Bernoulli(1− θ). Desta forma
as funcoes de densidade e de sobrevivencias populacionais sao semelhantes as apresen-
tadas na secao 3.4.1. A partir das equacoes 4.11, 4.5 e 4.6 apresentamos funcao de
verossimilhanca
L(φ;D) =n∏i=1
[θ(x′iγ) + (1− θ(x′iγ))G
(yi − x′iβ
σ; ξ
)]1−δi [(1− θ(x′iγ))
1
σg
(yi − x′iβ
σ; ξ
)]δi,
(4.12)
sendo φ = (β,γ, σ, ξ), yi = log(t∗i ) o logaritmo do tempo observado, δi o indicador se o
tempo e de falha ou de censura, γ = (γ0, γ1, . . . , γp)′ o vetor de covariaveis de regressao
associados a fracao de cura, β = (β0, β1, . . . , βp)′ o vetor de covariaveis de regressao
associados ao tempo de falha e θ(x′iγ) =x′iγ
1+x′iγ.
As funcoes g e G correspondem respectivamente as funcoes de densidade e de sobre-
vivencia do modelo de regressao log-gama generalizado mostrado na secao 4.1. Apre-
4.3 Casos Particulares do MTFA com fracao de cura unificado 27
sentamos entao a funcao de log-verossimilhanca para o MTFA l.g.g. com modelo de
mistura:
l(β,γ, σ, q;D) =∑n
i=1[(1− δi) log[(1− θ(x′iγ))Sε(εi; q,β, σ)− log σ) + θ(x′iγ)]
+δi[log(1− θ(x′iγ)) + log fε(εi; q,β, σ)− log σ]],
(4.13)
sendo εi = (log(ti)− x′iβ)/σ. Desta forma conseguimos apresentar o mesmo resultado
mostrado por Yamaguchi (1992).
4.3.2 MTFA l.g.g com Modelo de Tempo de Promocao
Partindo novamente do MTFA com fracao de cura unificado apresentado na equacao
4.8, atribuımos agora para a variavel aleatoria M uma distribuicao Poisson(θ). Desta
forma as funcoes de densidade e de sobrevivencias populacionais sao semelhantes as
apresentadas na secao 3.4.2. A partir das equacoes 4.11, 4.5 e 4.6 apresentamos funcao
de verossimilhanca
L(φ;D) =∏n
i=1
[e−θ(x′iγ)
(1−G
(yi−x′iβ
σ;ξ
))]1−δi
×
[θ(x′iγ) 1
σf(yi−x′iβ
σ; ξ)e−θ(x′iγ)
(1−G
(yi−x′iβ
σ;ξ
))]δi=
∏ni=1
{[e−θ(x′iγ)
(1−G
(yi−x′iβ
σ;ξ
))] [θ(x′iγ) 1
σf(yi−x′iβ
σ; ξ)]δi}
.
(4.14)
As funcoes g e G correspondem respectivamente as funcoes de densidade e de sobre-
vivencia do modelo de regressao log-gama generalizado. Apresentamos entao a funcao
de log-verossimilhanca para o MTFA l.g.g. com modelo de tempo de promocao:
4.4 Estimando os parametros 28
l(β,γ, σ, q;D) =∑n
i=1[−θ(x′iγ)(1− Sε(εi; q,β, σ))
+δi(log(θ(x′iγ))− log(σ) + log(fε(εi; q,β, σ)))],
=∑
i∈C{log(θ(x′iγ))− log(σ) + log(fε(εi; q,β, σ))}
−θ(x′iγ)(1− Sε(εi; q,β, σ))
(4.15)
sendo a notacao i ∈ C correspondente aos itens censurados e εi = (log(ti) − x′iβ)/σ.
Desta forma conseguimos apresentar o mesmo resultado mostrado por Ortega et al.
(2009).
4.4 Estimando os parametros
Para obter as estimativas de verossimilhanca dos coeficientes β, γ e σ, Yamaguchi
(1992) utiliza o metodo de Newton-Raphson em um procedimento de 2 etapas apresen-
tado em Lawless (1982) para o MTFA l.g.g. fazendo uma adaptacao para a inclusao de
covariaveis na fracao de cura. Ortega et al. (2009) utiliza-se da sub-rotina MAXBFGS
disponıvel no software Ox (ver, por exemplo, Doornik 2001) utilizando tambem do pro-
cedimento de 2 etapas.
Este procedimento consiste em fixarmos diferentes valores para q no intervalo [−3, 3]
e encontramos as estimativas de maxima verossimilhanca β(q), γ(q) e σ(q) determi-
nado a funcao de verossimilhanca maximizada Lmax(q), o maior valor de Lmax(q) nos
retornara q. As estimativas de maxima verossimilhanca de β, γ e σ sao respectiva-
mente os valores de β = β(q), γ = γ(q) e σ = σ(q). Os valores de q sao escolhidos
no intervalo [−3, 3] pois a funcao densidade da distribuicao l.g.g. pouco se diferencia
para valores distantes de q = 0. O metodo em duas etapas e recomendado na literatura
pois evita problemas de convergencia para a estimacao dos parametros (ver detalhes
em Valenca 1994).
Neste trabalhos propomos a estimacao dos parametros atraves da sub-rotina optim
software estatıstico R (R Development Core Team 2011) para maximizar o logaritmo
4.4 Estimando os parametros 29
da funcao de verossimilhanca marginalizada (equacao 4.11). Inicialmente tentamos a
estimacao simultanea dos parametros β, γ, σ e q, porem nao obtivemos convergencia
nos resultados. Construımos entao um algoritmo utilizando-se do metodo em 2 etapas
obtendo resultados muito semelhantes aos obtidos por Yamaguchi (1992) e Ortega et al.
(2009) com seus respectivos bancos de dados (apresentado na Secao 5.1).
Capıtulo 5
Reproducao de resultados e
Aplicacao
Neste Capıtulo reproduzimos os resultados obtidos por Yamaguchi (1992) e Ortega
et al. (2009) em seus respectivos trabalhos usando nosso algorıtimo apresentado no
Apendice A. Em seguida estudamos um conjunto de dados reais obtidos de Macedo e
Valenca (2009), contendo informacoes a respeito de 355 pacientes com cancer de mama
atendidas no Hospital Prof. Dr. Luiz Antonio, Natal RN, no perıodo de 1991 a 1995.
5.1 Reproducao de resultados
Para confirmar a eficiencia do nosso algorıtimo, reproduzimos alguns resultados
relevantes para o nosso estudo.
5.1.1 MTFA l.g.g. com modelo de mistura padrao
Em seu artigo Yamaguchi (1992) estuda a mobilidade inter-firmas de trabalhadores
no Japao, observando o tempo ate separacao do empregado em diferentes empresas.
Desta forma um trabalhador que se aposenta em um empresa corresponde a um indivı-
duo“imune”. As covariaveis envolvidas sao o tamanho da empresa, medido pelo numero
de funcionarios ou se a empresa e governamental, e o tipo de empregado, classificados
como colarinho azul para trabalhos que requerem mao-de-obra fısica e colarinho branco
30
5.1 Reproducao de resultados 31
para os que nao sao considerados trabalhos manuais.
Tabela 5.1: Estimativa dos parametros para o MTFA l.g.g. com modelo de misturapadrao - 1975 Social Stratification and Mobility Survey in Japan
ParametroObtidos no R Originais
Estimativa E.P. p.valor(Wald) Estimativa E.P. p.valor(Wald)β0 1,74 0,069 0,000 1,81 0,07 0,000
β1−4 -0,24 0,094 0,011 -0,24 0,07 0,000β5−29 -0,15 0,078 0,057 -0,15 0,08 0,057
β30−299 -0,17 0,082 0,034 -0,14 0,08 0,089β300−999 -0,26 0,100 0,010 -0,25 0,10 0,012βGoverno -0,18 0,101 0,082 -0,18 0,10 0,072βC.Azul 0,08 0,053 0,130 -0,08 0,05 0,134
σ 0,84 0,025 0,000 0,85 -0,16 0,000γ0 -1,26 0,231 0,000 -0,38 0,21 0,072
γ1−4 -7,21 10,168 0,478 −∞ ∞ 1,000γ5−29 -2,42 0,656 0,000 -2,36 0,62 0,000
γ30−299 -1,01 0,287 0,000 -0,75 0,34 0,028γ300−999 -0,67 0,312 0,032 -0,18 0,37 0,617γGoverno -0,42 0,251 0,096 -0,11 0,28 0,689γC.Azul 1,11 0,230 0,000 -0,60 0,28 0,036
Na Tabela 5.1 vemos a semelhanca entre os resultados obtidos por Yamaguchi e os
obtidos pelo nosso algorıtimo. Podemos ver porem uma dificuldade de convergencia
quanto aos coeficientes que assintoticamente vao para −∞ e para ∞.
5.1.2 MTFA l.g.g. com modelo de tempo de promocao
Ortega et al. (2009) apresenta uma aplicacao para dados de pacientes com cancer
de pele ,obtido de Ibrahim et al. (2001), para o MTFA l.g.g. com modelo de tempo
de promocao. Sendo as covariaveis x1: Tratamento; x2: Idade em anos; x3: Tipo de
nodulo; x4: Sexo; x5: performance status-paciente e x6:espessura do tumor em mm.
5.2 Aplicacao 32
Tabela 5.2: Estimativas dos parametros para o MTFA l.g.g. com modelo de tempo depromocao - Dados de cancer de pele retirados de Ibrahim et al. (2005)
ParametroObtidos no R Originais
Estimativa E.P. p.valor(Wald) Estimativa E.P. p.valor(Wald)βx0 1,472 0,485 0,002 1,433 0,481 0,002βx1 0,583 0,166 <0,001 0,580 0,166 <0,001βx2 -0,005 0,006 0,417 -0,004 0,006 0,457βx3 -0,234 0,083 0,005 -0,231 0,083 0,005βx4 -0,391 0,171 0,022 -0,387 0,171 0,023βx5 -0,024 0,232 0,917 -0,027 0,232 0,908βx6 0,036 0,024 0,136 0,035 0,024 0,138σ 1,211 0,154 <0,001 1,182 0,147 <0,001
γx0 -0,867 0,525 0,099 -0,929 0,522 0,075γx1 0,489 0,198 0,013 0,486 0,197 0,014γx2 0,006 0,007 0,403 0,007 0,007 0,366γx3 0,203 0,095 0,032 0,205 0,094 0,029γx4 -0,420 0,198 0,034 -0,416 0,198 0,036γx5 0,124 0,267 0,643 0,122 0,267 0,647γx6 0,053 0,029 0,070 0,053 0,029 0,072
Observamos novamente na Tabela 5.2 uma grande semelhanca entre os coeficientes
ja publicados e os coeficientes por obtidos nos. Devido ao fato de conseguirmos re-
produzir razoavelmente os resultados anteriores tivemos confianca para aplicar nosso
algorıtimo em um conjunto de dados reais.
5.2 Aplicacao
Consideramos um conjunto de dados proveniente de 355 pacientes diagnosticados
com cancer de mama no Hospital Prof. Dr. Luiz Antonio Unidade I da Liga Contra
o Cancer (Natal/RN). Estas informacoes foram obtidas em carater retrospectivo ao
perıodo de 1991 a 1995. No estudo realizado por Macedo e Valenca (2009) e utilizado
o modelo de regressao de Cox, (Cox 1972), para observar o efeito de covariaveis no
tempo em que as pacientes permanecem livres do retorno da doenca (recidiva). No
mesmo estudo pode-se observar evidencias da existencia de fracao de cura devido a alta
ocorrencia de censuras ao fim do tempo de estudo como pode ser visto pelas estimativas
5.3 Descricao das covariaveis 33
de Kaplan e Meier (1958) na Figura (5.1). Este fato nos levou a aplicacao do Modelo
de Tempo de Falha Acelerado Log-Gama Generalizado com Fracao de Cura. Todos os
resultados foram obtidos atraves dos software estatıstico R, os comandos encontram-se
no Apendice A.
Figura 5.1: Estimativas de Kaplan-Meier para o tempo ate a recidiva de pacientes comcancer de mama- Natal/RN 1991 a 1995
5.3 Descricao das covariaveis
Descrevemos agora as covariaveis significantes ao nosso estudo, porem Macedo
e Valenca (2009) fizeram uma analise sobre um conjunto maior de covariaveis rela-
cionadas ao cancer de mama, alem da sua devida contextualizacao na area medica.
PLC Proporcao de linfonodos axilares comprometidos com metastase, categorizada em
tres grupos: 0%; entre 0% e 50% e acima de 50%. Com as variaveis indicadoras
PLC.1 e PLC.2.
Tabela 5.3: O fator PLC
PLC2Variaveis indicadorasPLC2.1 PLC2.2
0% 0 0entre 0% e 50% 1 0acima de 50% 0 1
A Figura 5.2 ilustra as funcoes de sobrevivencia estimadas para os 3 grupos.
5.4 Ajuste de modelos sem fracao de cura 34
TNC Tipo de tratamento nao-cirurgico ao qual a paciente foi submetida. Catego-
rizada em dois grupos: tratamentos com hormonoterapia e tratamentos sem hor-
monoterapia. Com a variavel indicadora TNC.1.
Tabela 5.4: O fator TNC
TNCVariavel indicadora
TNC.1Com hormonoterapia 0Sem hormonoterapia 1
A Figura 5.3 ilustra as funcoes de sobrevivencia estimada para os 2 grupos.
Figura 5.2: Estimativas de Kaplan-Meier para o tempo ate a recidiva depacientes com cancer de mama para acovariavel PLC. Natal/RN 1991 a 1995
Figura 5.3: Estimativas de Kaplan-Meier para o tempo ate a recidiva depacientes com cancer de mama para acovariavel PLC. Natal/RN 1991 a 1995
5.4 Ajuste de modelos sem fracao de cura
Ajustamos essas covariaveis para o modelo de regressao de Cox. Pelos resultados
da tabela (5.5) vemos que as pacientes com proporcao de linfonodos comprometidos
(PLC2.2) superior a 50% tem um risco de recidiva aproximadamente 7 vezes maior
5.4 Ajuste de modelos sem fracao de cura 35
se comparadas com as pacientes com proporcao de linfonodos comprometidos igual a
zero. As pacientes que se submeteram aos tratamentos sem hormonios tem um risco de
recidiva da doenca aproximadamente 3,5 vezes maior quando comparadas com aquelas
que se submeteram aos tratamentos com hormonios, indicando que a hormonioterapia
e o elemento diferenciador que contribui no aumento do tempo livre de recidiva.
Tabela 5.5: Resultados do ajuste do modelo de regressao de Cox para o tempo ate arecidiva de pacientes com cancer de mama. Natal/RN 1991 a 1995
Parametro Estimativa exp(Estimativa) E.P. p-valorβPLC.1 0,486 1,630 0,244 0,047βPLC.2 1,927 6,870 0,274 <0,001βTNC.1 1,270 3,560 0,283 <0,001
Complementamos essa analise com o ajuste da regressao log-gama generalizada.
Figura 5.4: Contorno da verossimilhanca maximizada Lmax(q) para a regressao log-gama generalizada, dados de pacientes com cancer de mama - Natal/RN 1991 a 1995
A figura 5.4 ilustra os diferentes valores para a funcao de log-verossimilhanca em
relacao ao parametro q, conforme descrito na secao 4.4.
A partir deste ajuste desejamos escolher um modelo mais simples. O teste da razao
de verossimilhanca, utilizado para selecionar os submodelos da log-gama generalizada
(ver Lawless 1980), apresentou os seguinte resultado:
5.4 Ajuste de modelos sem fracao de cura 36
Tabela 5.6: Resultados do ajuste do modelo de regressao log-gama generalizada parao tempo ate a recidiva de pacientes com cancer de mama. Natal/RN 1991 a 1995
Parametro Estimativa E.P. p.valor(Wald)β0 5,798 0,202 <0,001
βPLC.1 -0,415 0,219 0,058βPLC.2 -1,855 0,282 <0,001βTNC.1 -1,212 0,288 <0,001σ 1,197 0,099 <0,001
i adequacao do modelo de regressao Weibull: TRV = 3.1516 (p-valor = 0.0759)
ii adequacao do modelo de regressao log-normal:TRV = 1.1872 (p-valor = 0.2759).
Este resultado indica o modelo log-normal como adequado para o conjunto de dados.
Faremos entao interpretacoes por esse modelo.
Tabela 5.7: Resultados do ajuste do modelo de regressao log-normal para o tempo atea recidiva de pacientes com cancer de mama. Natal/RN 1991 a 1995
Parametro Estimativa exp{Estimativa} E.P. p.valor(Wald)β0 5,705 300,366 0,202 <0,001
βPLC.1 -0,412 0,662 0,221 0,0629βPLC.2 -1,882 0,152 0,299 <0,001βTNC.1 -1,267 0,282 0,313 <0,001σ 1,410 – 0,080 <0,001
Com base nos valores obtidos na Tabela 5.7 podemos inferir que o tempo mediano
ate a recidiva das pacientes com uma proporcao de linfonodos axilares comprometi-
dos com metastase acima de 50% e aproximadamente 85% menor em comparacao aos
pacientes sem linfonodos axilares comprometidos. As pacientes que se submeteram
aos tratamentos sem hormonioterapia tem um tempo mediano de recidiva da doenca
aproximadamente 72% maior quando comparadas com aquelas que se submeteram aos
tratamentos com hormonioterapia. Esses resultados reforcam os obtidos pelo modelo
de Cox.
5.5 Ajuste dos MTFA l.g.g. padrao com fracao de cura 37
5.5 Ajuste dos MTFA l.g.g. padrao com fracao de
cura
As Figuras 5.5 e 5.6 mostram o contorno da verossimilhanca maximizada para os
diferentes valores estimados de Lmax(q) para o MTFA l.g.g. padrao com modelo de
mistura padrao e com modelo de tempo de promocao respectivamente. A estimativas
de maxima verossimilhanca dos coeficientes β, γ e σ obtidas pelo software estatıstico
R para os dois modelos sao apresentados na Tabela (5.8).
Figura 5.5: Contorno da verossimi-lhanca maximizada Lmax(q) para oMTFA l.g.g. padrao com modelo mis-tura padrao, dados de pacientes comcancer de mama. Natal/RN 1991 a1995
Figura 5.6: Contorno da verossimi-lhanca maximizada Lmax(q) para oMTFA l.g.g. padrao com modelotempo de promocao, dados de pacientescom cancer de mama. Natal/RN 1991a 1995
Pelos resultados apresentados na Tabela 5.8 para o MTFA l.g.g. padrao com mo-
delo de mistura padrao vemos que os parametros do vetor β associados a acelera-
cao/desaceleracao do tempo ate a ocorrencia do evento de interesse do MTFA l.g.g.
padrao com modelo de mistura padrao apresentados na Tabela 5.8 apresentam resulta-
dos semelhantes ao apresentados na secao 5.4. Para os parametros γ apenas a variavel
PLC.2 e significante, ou seja, existe diferenca significativa para a fracao de curadas nas
pacientes com uma proporcao de linfonodos comprometidos acima de 50% em com-
5.5 Ajuste dos MTFA l.g.g. padrao com fracao de cura 38
paracao com as pacientes que apresentam 0%. O fato de γPLC.2 ser negativo indica que
a proporcao de curadas e menor em comparacao com as pacientes que apresentam 0%.
Nao existe diferenca significativa na fracao de curadas entre as pacientes com 0% e as
pacientes com PLC entre 0% e 50%.
Tabela 5.8: Resultados do ajuste para MTFA l.g.g. padrao com modelo de misturapadrao e modelo de tempo de promocao - Dados de pacientes com cancer de mama.Natal/RN 1991 a 1995
Modelo de Mistura Padrao Modelo de Tempo de PromocaoCoeficiente Estimativa E.P. p.valor Coeficientes Estimativa E.P. p.valor
β0 4,494 0,495 <0,001 β0 5,593 1,372 <0,001βPLC.1 0,411 0,504 0,415 βPLC.1 0,543 0,816 0,506βPLC.2 -0,895 0,474 0,059 βPLC.2 -0,170 0,787 0,829βTNC.1 -0,765 0,372 0,039 βTNC.1 -0,321 0,795 0,687σ 1,030 0,134 <0,001 σ 1,592 0,404 <0,001γ0 0,785 0,560 0,161 γ0 -0,184 0,935 0,844
γPLC.1 -1,773 1,598 0,267 γPLC.1 0,983 0,793 0,215γPLC.2 -2,744 1,181 0,020 γPLC.2 1,754 0,758 0,021γTNC.1 -2,061 1,550 0,184 γTNC.1 0,918 0,848 0,279
Os demais resultados parecem ser conflitantes com os resultados das secoes ante-
riores. A variavel PLC nao apresenta significancia na fracao de curados em nenhum
dos 2 modelos, o que parece contrariar a Figura 5.2. O MTFA l.g.g. padrao com
modelo tempo de promocao nao apresenta significancia em nenhuma das covariaveis
no vetor β o que tambem contraria os resultados anteriores. Acreditamos que estas
incoerencias podem ser devidas a inclusao do parametro γ0 nos modelos e nao devido
a algum erro no algoritmo apresentado, pois reproduzimos de forma muito similar os
resultados de Yamaguchi (1992) e Ortega et al. (2009) com seus respectivos bancos de
dados (apresentado na Secao 5.1).
Capıtulo 6
Consideracoes finais
Nesta dissertacao estudamos os modelos de sobrevivencia com fracao de cura, dando
enfase a uma abordagem unificada destes modelos. Alem disso, discutimos os modelos
de tempo de falha acelerados com fracao de cura, que permitem a observacao do efeito
de covariaveis tanto na aceleracao/desaceleracao do tempo ate a ocorrencia do evento
de interesse como tambem na fracao de cura, e sugerimos uma otica unificada sobre
esses modelos.
Particularizamos este modelo, que chamamos de Modelo de Tempo Falha Acelerado
com Fracao Cura Unificado, para os casos em que ele corresponde ao MTFA log-gama
generalizada padrao com modelo de mistura padrao e MTFA log-gama generalizada
padrao com modelo de tempo de promocao, e aplicamos a um conjunto de dados reais
de pacientes com cancer de mama.
Os resultados foram obtidos atraves de um algorıtimo no software estatıstico R. Que
se mostrou eficaz para reproduzir resultados ja existentes na literatura, mas que porem
apresentou resultados pouco coerentes quando aplicados ao nosso conjunto de dados.
Acreditamos que essas incoerencias sao devido a algum problema de convergencia ou
devido a inclusao do parametro γ0 no modelo.
39
40
Para trabalhos futuros propomos um estudo sobre os resıduos do Modelo de Tempo
Falha Acelerado com Fracao Cura Unificado, a construcao de um algorıtimo no software
R mais flexıvel a respeito da inclusao ou retirada de covariaveis e tambem que seja
apresentado de forma mais amigavel para um novo usuario.
Apendice A
Comandos no R
O metodo aqui utilizado faz uso da funcao “optim” do pacote base do software
R para maximizar a funcao de verossimilhanca. Podemos utilizar o mesmo metodo
para encontrar outros estimadores de maxima verossimilhanca. Primeiro definiremos
as principais funcoes para compor a funcao de verossimilhanca que sera maximizada.
Usamos tambem a funcao “Rgamma” do pacote “zipfR” (Evert e Baroni (2008)) que
corresponde a funcao integral gama incompleta (equacao 4.4).
A.1 Regressao Log-gama Generalizada com cova-
riaveis
#Func~ao densidade da log-gama generalizada
f=function(z,q) if (q!=0)
(((abs(q)/gamma(q^-2)*(q^-2)^q^-2*exp((z/q)-(q^-2)*exp(q*z))))) else
if (q==0)
dnorm(z)
#Func~ao de sobrevivencia
S= function(z,q) if (q>0) Rgamma(q^-2*exp(q*z),q^-2) else if
(q<0) 1-Rgamma(q^-2*exp(q*z),q^-2) else if
(q==0) (1-pnorm(z))
Devemos agora gerar a funcao de verossimilhanca que deve ser maximizada. Sendo
os argumentos de entrada
• par → Parametros a serem estimados
41
A.1 Regressao Log-gama Generalizada com covariaveis 42
• D → Tabela n × (p + 2) do conjunto de dados. Os dados devem ser agrupados
em forma de “data.frame”. Tempo e censura devem ter os nomes ”t”e ”c”e serem
as duas primeiras colunas respectivamente.
loglinkGG= function (par,D) {
#Criar matriz de dados A sem os valores de tempo de falha e censura
if (length(D) > 2) {
A=as.matrix(D[,3:length(D)])
A=cbind(rep(1,nrow(A)),A)
} else A=cbind(rep(1,nrow(D)))
#Obseve que se n~ao existir covariaveis sera criado apenas uma coluna de uns
#Betas a serem estimados
B=par[1:(length(D)-1)]
#Parametro Sigma a ser estimado
sig=par[length(D)]
#Parametro q a ser estimado
q=par[length(D)+1]
#Calculo de z
z=(log(D$t)-A%*%B)/sig
#Func~ao de verossimilhanca
L= if (sig>0) (D$c)*log(1/sig*f(z,q))+(1-D$c)*log(S(z,q)) else NA
#Veja que se o valor de sigma n~ao for positivo, a func~ao retorna um valor nulo.
#soma da func~ao de verossimilhanca a ser retornado
sum(L)
}
Devemos entao dar um “chute” inicial para nossa estimacao. Uma boa estimativa
inicial sao os valores para regressao Weibull da funcao “survreg” do pacote “survival”
($survival). O argumento formula deve ser substituıdo pela soma das covariaveis en-
volvidas na ordem quem que foram postas em D.
library(survival)
ajust=survreg(Surv(t,c)~formula,dist="weibull")
pars=c(ajust$coefficients,1/ajust$scale,1)
names(pars)=c(paste("beta",1:length(ajust$coefficients)-1),"sigma")
A.1 Regressao Log-gama Generalizada com covariaveis 43
Por fim executamos a funcao optim. Os principais argumentos da funcao optim sao:
• par → Valores iniciais;
• fn → Funcao que deve ser maximizada;
• method → Metodo de maximizacao, neste caso usamos “BFGS”;
• hessian → Se voce deseja obter a matriz Hessiana, necessaria para obter o E.P.;
• control → Lista de opcoes do optim. Como o optim minimiza a funcao objetivo
por padrao, devemos usar a opcao fnscale=-1 para maximizar a funcao.
Para a funcao optim precisamos ainda definir o data.frame de dados D que deve
conter o tempo de vida e o indicador de falha nas duas primeira colunas com os nomes
t e c. As covariaveis que serao utilizadas sao postas nas demais colunas (obs.: apenas
as covariaveis utilizadas). Definimos tambem o valor de q.
fim=optim(par=pars,fn=loglinkGG,D=dados,q=0,method="BFGS",hessian=T,control = list(fnscale=-1))
O valor de ”value” corresponde ao valor maximizado do logaritmo da funcao de
verossimilhanca.
Os comandos a seguir correspondem ao metodo descrito na secao 4.4.
#Primeiro criamos alguns objetos com valores nulos para serem usados adiante
fim=valores=j=NULL
#Definimos uma variavel para armazenar o maior valor de \textit{"value"},
#com um valor inicial de menos infinito
valor=-Inf
#Criamos um laco de repetic~ao para diferentes valores de q entre -3 e 3
for (i in (seq(-3,3,0.1))) {
#Em cada repetic~ao tenta-se executar o optim para os diferentes valores de q
#Caso algum erro de convergencia ocorra o laco n~ao e quebrado devido a func~ao try
out=try(optim(par=inicial,q=i,fn=loglinkLGG,D=dados,method=’BFGS’
,hessian=T,control = list(fnscale=-1)),T)
A.2 MTFA l.g.g com Modelo de Mistura Padrao 44
#Se a resposta n~ao for um erro, verifica-se se este e o maior valor obtido
#Se sim, e armazenado value, q e os parametros obtidos
if (!inherits(out,"try-error")) {
if (out$value >valor) {valor=out$value;fim=out}
j=c(j,i);valores=c(valores,out$value)
#Durante a execuc~ao e mostrado a construc~ao do grafico
plot(j,valores,type=’b’,xlab=’Parametro q’,ylab=expression(L[max](q)))
}
}
#Por fim e apresentado todos os valores de q em ordem da log-verossimilhanca associada
(V=data.frame(valores,j)[order(valores),])
Por fim sumarizamos os resultados com os comandos.
EMV = round(fim$par,4)
EP = round(sqrt(-(diag(solve(fim$hessian)))),4)
z = round(fim$par/EP,4)
pvalor = round(1-pchisq(z^2,1),5)
res=as.data.frame(cbind(EMV,EP,pvalor))
names(res)= c("Estimativa","E.P.","p.valor(Wald)")
res
A.2 MTFA l.g.g com Modelo de Mistura Padrao
Lmp=function(z,thx,sig,q,D) if
(q>0) sum(D$c*(log(1-thx)
+log(((abs(q)/(gamma(q^-2))*(q^-2)^(q^-2)*exp((z/q)-(q^-2)*exp(q*z)))))
-log(sig))+(1-D$c)*log(thx+(1-thx)* Rgamma(q^-2,(q^-2)*exp(q*z), lower=F))) else if
(q<0) sum(D$c*(log(1-thx)
+log(((abs(q)/(gamma(q^-2))*(q^-2)^(q^-2)*exp((z/q)-(q^-2)*exp(q*z)))))
-log(sig))+(1-D$c)*log(thx+(1-thx)*(1-Rgamma(q^-2,(q^-2)*exp(q*z), lower=F)))) else if
(q==0) sum(D$c*(log(1-thx)+log(dnorm(z))-log(sig))+(1-D$c)*log(thx+(1-thx)*(1-pnorm(z))))
################################################################################
loglinkMP= function (par,D,q) {
if (length(D) > 2) {
A=as.matrix(D[,3:length(D)])
A=cbind(rep(1,nrow(A)),A)
} else A=cbind(rep(1,nrow(D)))
A.3 MTFA l.g.g com Modelo de Tempo de Promocao 45
B=par[1:(length(D)-1)]
sig=par[length(D)]
G=par[(length(D)+1):((length(D))+length(B))]
z=(log(D$t)-A%*%B)/sig
thx=exp(A%*%G)/(1+exp(A%*%G))
if (sig>0 ) Lmp(z,thx,sig,q,D) else NA
################################################################################
pars=c(ajust$coefficients,ajust$scale,rep(0,length(ajust$coefficients)))
names(pars)=c(paste("beta",names(ajust$coefficients))
,"sigma",paste("gama",names(ajust$coefficients)))
################################################################################
fim=valores=j=NULL;valor=-Inf
for (i in (seq(-3,3,.1)) ) {
out=try(optim(par=pars,q=i,fn=loglinkMP,D=dados,method=’BFGS’,hessian=T,control =
list(fnscale=-1)),T)
if (!inherits(out,"try-error")) {
if (out$value >valor) {valor=out$value;fim=out}
j=c(j,i);valores=c(valores,out$value)
plot(j,valores,type=’b’,xlab=’q’,ylab=expression(L[max](q)))
}
}
(V=cbind(valores,j)[order(valores),])
################################################################################
EMV = round(fim$par,4)
EP = round(sqrt(-(diag(solve(fim$hessian)))),4)
z = round(fim$par/EP,4)
pvalor = round(1-pchisq(z^2,1),5)
res=as.data.frame(cbind(EMV,EP,pvalor))
names(res)= c("Estimativa","E.P.","p.valor(Wald)")
res
A.3 MTFA l.g.g com Modelo de Tempo de Pro-
mocao
Ltp=function(z,thx,sig,q,D) if
(q>0) sum(D$c*(log( q/(sig*gamma(q^-2))*(q^-2)^(q^-2))+log(thx)+z/q-(q^-2)*exp(q*z)))
- sum(thx*(1-Rgamma(q^-2,(q^-2)*exp(q*z), lower=F))) else if
A.3 MTFA l.g.g com Modelo de Tempo de Promocao 46
(q<0) sum(D$c*(log(-q/(sig*gamma(q^-2))*(q^-2)^(q^-2))+log(thx)+z/q-(q^-2)*exp(q*z)))
- sum(thx*( Rgamma(q^-2,(q^-2)*exp(q*z), lower=F))) else if
(q==0) sum(D$c*log(thx*dnorm(z)/sig)) - sum(thx*(pnorm(z)))
################################################################################
loglinkTP= function (par,D,q) {
if (length(D) > 2) {
A=as.matrix(D[,3:length(D)])
A=cbind(rep(1,nrow(A)),A)
} else A=cbind(rep(1,nrow(D)))
B=par[1:(length(D)-1)]
sig=par[length(D)]
G=par[(length(D)+1):((length(D))+length(B))]
z=(log(D$t)-A%*%B)/sig
thx=exp(A%*%G)
if (sig>0) Ltp(z,thx,sig,q,D) else NA
}
################################################################################
pars=c(ajust$coefficients,ajust$scale,rep(0,length(ajust$coefficients)))
names(pars)=c(paste("beta",names(ajust$coefficients))
,"sigma",paste("gama",names(ajust$coefficients)))
################################################################################
fim=valores=j=NULL;valor=-Inf
for (i in (seq(-3,3,0.1)) ) {
out=try(optim(par=pars,q=i,fn=loglinkTP,D=dados,method=’BFGS’,hessian=T,control =
list(fnscale=-1, ndeps=rep(1e-3,length(ajust$coefficients)*2+1))),T)
if (!inherits(out,"try-error")) {
if (out$value >valor) {valor=out$value;fim=out}
j=c(j,i);valores=c(valores,out$value)
plot(j,valores,type=’b’,xlab=’Parametro q’,ylab=expression(L[max](q)))
}
}
(V=data.frame(valores,j)[order(valores),])
################################################################################
EMV = round(fim$par,4)
EP = round(sqrt(-(diag(solve(fim$hessian)))),4)
z = round(fim$par/EP,4)
pvalor = round(1-pchisq(z^2,1),5)
res=as.data.frame(cbind(EMV,EP,pvalor))
A.3 MTFA l.g.g com Modelo de Tempo de Promocao 47
names(res)= c("Estimativa","E.P.","p.valor(Wald)")
res
Apendice B
Demonstracoes
B.1 Funcao de sobrevivencia populacional
Sp(t) = P (T ∗ > t) = P (T ∗ > t,M ≥ 0)
= P (min{Z0, Z1, . . . , ZM} > t,M ≥ 0)
= P (Z0 > t,M = 0) + P (min{Z0, Z1} > t,M = 1)
+ · · ·+ P (min{Z0, Z1, . . . , Zm} > t,M = m) + · · ·
= P (Z0 > t|M = 0)P (M = 0) + P (min{Z0, Z1} > t|M = 1)P (M = 1) + · · ·
+P (min{Z0, Z1, . . . , Zm} > t|M = m)P (M = m) + · · ·
= P (Z0 > t|M = 0)p(0) + P (Z0 > t, Z1 > t|M = 1)p(1)
+ · · ·+ P (Z0 > t, Z1 > t, . . . , Zm > t|M = m)p(m) + · · ·
= p(0) + P (Z1 > t)p(1) + P (Z1 > t)P (Z2 > t)p(2) + · · ·
+P (Z1 > t)P (Z2 > t)× · · · × P (Zm > t)p(m) + · · ·
= p(0) + S(t)p(1) + S(t)2p(2) + · · ·+ S(t)mp(m) + · · ·
=∑∞
m=0 p(m)(S(t))m = A(S(t)).
48
B.2 Casos particulares do Modelo Unificado 49
B.2 Casos particulares do Modelo Unificado
B.2.1 Modelo de Mistura Padrao
Se M tem uma distribuicao Bernoulli(1− θ) entao
p(m) = (1− θ)mθ1−m, m = 0, 1. (B.1)
(a) Sp(t) = θ + (1− θ)S(t) ;
De (3.4) e (B.1) temos
Sp(t) =∑∞
m=0 p(m)(S(t))m
=∑1
m=0 (1− θ)mθ1−m(S(t))m
= θ + (1− θ)S(t)
B.2.2 Modelo de Tempo de Promocao
Se M tem uma distribuicao Poisson(θ) entao
P (m) =e−θθm
m!m = 0, 1, 2, ... (B.2)
(a) Sp(t) = e−θ(1−S(t)) ;
De (3.4) e (B.2) temos
Sp(t) =∑∞
m=0 p(m)(S(t))m
=∑∞
m=0e−θθm
m!(S(t))m
= e−θ (θS(t))m
m!
= e−θeθS(t)
= e−θ(1−S(t))
Referencias
J. Berkson and R.P. Gage. Survival curve for cancer patients following treatment.
Journal of the American Statistical Association, 1952.
J.W. Boag. Maximum likelihood estimates of the proportion of patients cured by
cancer therapy. Journal of the Royal Statistical Society. Series B (Methodolog-
ical), 1949.
M.H. Chen, J.G. Ibrahim, and D. Sinha. A New Bayesian Model for Survival Data
with a Surviving Fraction. Journal of the American Statistical Association,
1999.
D.R. Cox. Regression models and life-tables. Journal of the Royal Statistical So-
ciety. Series B (Methodological), 1972.
J Doornik. Ox: Object oriented matrix programming language, 2001.
Stefan Evert and Marco Baroni. zipfR: Statistical models for word frequency dis-
tributions, 2008. URL http://zipfR.R-Forge.R-project.org/. R package
version 0.6-5.
V.T. Farewell and R.L. Prentice. A study of distributional shape in life testing.
1977.
W. Feller. An introduction to probability theory and its applications. Wiley-India,
2008.
J.G. Ibrahim, M.H. Chen, and D. Sinha. Bayesian survival analysis. Encyclopedia
of Biostatistics, 2001.
50
B.2 Casos particulares do Modelo Unificado 51
J.G. Ibrahim, M.H. Chen, and D. Sinha. Bayesian survival analysis. Wiley Online
Library, 2005.
E. L. Kaplan and Paul Meier. Nonparametric estimation from incomplete obser-
vations. Journal of the American Statistical Association, 1958.
J.F. Lawless. Inference in the generalized gamma and log gamma distributions.
Technometrics, 1980.
JF Lawless. Statistical models and methods for lifetime data. 1982. Wiley New
York, 1982.
C.P.C. de Macedo and D.M. Valenca. Aplicacao do Modelo de Cox Para Identificar
Fatores de Risco em Pacientes com Cancer de Mama. Revista Brasileira de
Estatıstica, 2009.
R.A. Maller and X. Zhou. Survival analysis with long-term survivors. Wiley New
York, 1996.
R.G. Miller, G. Gong, and A. Munoz. Survival analysis. Wiley New York, 1981.
J.A. Nelder and R.W.M. Wedderburn. Generalized linear models. Journal of the
Royal Statistical Society. Series A (General), 1972.
Edwin Ortega, Vicente Cancho, and Gilberto Paula. Generalized log-gamma re-
gression models with cure fraction. Lifetime Data Analysis, 2009.
W.W. Piegorsch. Maximum likelihood estimation for the negative binomial dis-
persion parameter. Biometrics, 1990.
R.L. Prentice. A log gamma model and its maximum likelihood estimation.
Biometrika, 1974.
R Development Core Team. R: A Language and Environment for Statistical Com-
puting. R Foundation for Statistical Computing, Vienna, Austria, 2011. URL
http://www.R-project.org/.
B.2 Casos particulares do Modelo Unificado 52
J. Rodrigues, VG Cancho, and M. de Castro. Teoria unificada de analise de sobre-
vivencia. ABE-Associacao Brasileira de Estatıstica, 18o SINAPE-Sao Pedro-
Sao Paulo, 2008.
Josemar Rodrigues, Vicente G. Cancho, Mrio de Castro, and Francisco Louzada-
Neto. On the unification of long-term survival models. Statistics & Probability
Letters, 2009.
K. Saha and S. Paul. Bias-corrected maximum likelihood estimator of the negative
binomial dispersion parameter. Biometrics, 2005.
EW Stacy. A generalization of the gamma distribution. The Annals of Mathemat-
ical Statistics, 1962.
D.M. Valenca. O modelo de regressao gama generalizada para discriminar entre
modelos parametricos de tempo de vida. Universidade Estadual de Campinas
. Instituto de Matematica, Estatıstica e Computacao Cientıfica, 1994.
A.Y. Yakovlev, B. Asselain, VJ Bardou, A. Fourquet, T. Hoang, A. Rochefediere,
and AD Tsodikov. A simple stochastic model of tumor recurrence and its ap-
plication to data on premenopausal breast cancer. Biometrie et analyse de
donnees spatio-temporelles, 1993.
K. Yamaguchi. Accelerated Failure-Time Regression Models with a Regression
Model of Surviving Fraction: An Application to the Analysis of ”Permanent
Employment”in Japan. Journal of the American Statistical Association, 1992.