UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO … · A Nara Ang elica e a toda fam lia Mesquita por serem como uma fam lia pra mim nessa etapa nal do trabalho. Aos meus amigos

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE CIENCIAS EXATAS E DA TERRA

PROGRAMA DE POS-GRADUACAO EM MATEMATICA

APLICADA E ESTATISTICA

MODELO DE TEMPO DE FALHA ACELERADO

COM FRACAO DE CURA

UMA ABORDAGEM UNIFICADA

Alysson Lıvio Vasconcelos Guedes

Natal, outubro de 2011

MODELO DE TEMPO DE FALHA ACELERADO COM

FRACAO DE CURA

UMA ABORDAGEM UNIFICADA

Alysson Lıvio Vasconcelos Guedes

Area de Concentracao: Probabilidade e Estatıstica

Orientadora: Profa. Dra. Dione Maria Valenca

Dissertacao apresentada ao Corpo Docente do

Programa de Pos-Graduacao em Matematica

Aplicada e Estatıstica - CCET - UFRN, como

requisito parcial para obtencao do tıtulo de

Mestre em Matematica Aplicada e Estatıstica.

Natal, outubro de 2011

ii

Fazei, pois, descer de vosso santo ceu a sabedoria,

e envia-a do trono de vossa gloria, para que,

junto de mim, tome parte em meus trabalhos.

Sabedoria 9-10

iii

Catalogação da Publicação na Fonte. UFRN / SISBI / Biblioteca Setorial

Centro de Ciências Exatas e da Terra – CCET.

Guedes, Alysson Lívio Vasconcelos.

Modelo de tempo de falha acelerado com fração de cura: uma abordagem

unificada / Alysson Lívio Vasconcelos Guedes. - Natal, 2011.

52 f. il.:

Orientador(a): Profa. Dra. Dione Maria Valença.

Dissertação (Mestrado) – Universidade Federal do Rio Grande do Norte. Centro

de Ciências Exatas e da Terra. Programa de Pós-Graduação em Matemática

Aplicada e Estatística.

1. Análise de sobrevivência – Dissertação. 2. Programa computacional R –

Dissertação. 2. Fração de cura – Dissertação. 3. Câncer de mama – Dissertação. I.

Valença, Dione Maria. II. Título.

RN/UF/BSE-CCET CDU: 519.24-7:61

Agradecimentos

Agradeco a Deus pai e a Santa Maria por todas as bencaos que recebi em toda a

minha vida.

Agradeco a toda paciencia e atencao da minha orientadora Dione Maria Valenca

que com um coracao de mae soube orientar este trabalho.

A minha amada mae, a minha madrinha Socorro e aos meus irmaos por serem fonte

de amor e apoio em toda minha vida. Agradeco especialmente ao meu pai, que como

exemplo de homem de carater, deu sua vida a doar-se pela famılia e ao proximo.

Aos meus amigos e companheiros de mestrado Juliane Caroline, Kelly Christina,

Kaline Nascimento, Tatiane Farache, Jeane Lima, Claudia Macedo, Daniel Matos e

todos os demais pela amizade e pelo acolhimento.

A Nara Angelica e a toda famılia Mesquita por serem como uma famılia pra mim

nessa etapa final do trabalho.

Aos meus amigos de toda a vida Gedvan Dias, Luciana Vital, Thiago Gouveia,

Nadja Cristina, Marcus Vinıcius, Nailson Cunha e aos irmaos Curvelo.

A todos os professores e servidores do PPGMAE.

A Capes pelo apoio financeiro.

iv

Resumo

Neste trabalho apresentamos um estudo sobre o modelo de tempo de falha acelerado

gama generalizado com fracao de cura sob uma abordagem unificada. O modelo se

propoe a estimar simultaneamente o efeito de covariaveis na aceleracao/desaceleracao

do tempo ate a ocorrencia de um evento e na fracao de cura. O metodo e implementado

no software estatıstico livre R. Por fim o modelo e aplicado a dados reais referente ao

tempo ate o retorno da doenca em pacientes diagnosticados com cancer de mama.

Palavras-chave: Analise de sobrevivencia , Fracao de cura, Cancer de mama

v

Abstract

In this work we study the accelerated failure-time generalized Gamma regression

models with a unified approach. The models attempt to estimate simultaneously the

effects of covariates on the acceleration/deceleration of the timing of a given event and

the surviving fraction. The method is implemented in the free statistical software R.

Finally the model is applied to a real dataset referring to the time until the return of

the disease in patients diagnosed with breast cancer.

Keywords: Survival analysis , cure fraction, breast cancer

vi

Sumario

1 Introducao 1

1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Descricao dos capıtulos . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Analise de Sobrevivencia 4

2.1 Conceitos fundamentais de Analise de Sobrevivencia . . . . . . . . . . . 4

2.1.1 Funcao de sobrevivencia . . . . . . . . . . . . . . . . . . . . . . 5

2.1.2 Funcao taxa de falha ou funcao risco . . . . . . . . . . . . . . . 5

2.1.3 Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.4 Representacao dos dados de sobrevivencia . . . . . . . . . . . . 6

2.2 Modelos de Tempo de Falha Acelerado . . . . . . . . . . . . . . . . . . 8

3 Modelos de Sobrevivencia com Fracao de Cura 9

3.1 Modelo de Mistura Padrao . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.2 Modelo de tempo de promocao . . . . . . . . . . . . . . . . . . . . . . 11

3.3 Modelo Unificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.4 Alguns casos particulares do modelo unificado . . . . . . . . . . . . . . 14

3.4.1 Modelo de Mistura Padrao . . . . . . . . . . . . . . . . . . . . . 15

3.4.2 Modelo de Tempo de Promocao . . . . . . . . . . . . . . . . . . 16

3.4.3 Funcao de Verossimilhanca . . . . . . . . . . . . . . . . . . . . . 16

3.4.4 Verossimilhanca Marginal . . . . . . . . . . . . . . . . . . . . . 19

3.5 Incluindo Covariaveis na Fracao de Cura . . . . . . . . . . . . . . . . . 20

3.5.1 Funcao de Verossimilhanca . . . . . . . . . . . . . . . . . . . . . 21

vii

4 Modelos de tempo de falha acelerado com fracao de Cura: Uma abor-

dagem unificada 22

4.1 Regressao log-gama generalizada . . . . . . . . . . . . . . . . . . . . . . 22

4.2 MTFA incluindo covariaveis na fracao de cura . . . . . . . . . . . . . . 24

4.3 Casos Particulares do MTFA com fracao de cura unificado . . . . . . . 26

4.3.1 MTFA l.g.g. com modelo de mistura padrao . . . . . . . . . . . 26

4.3.2 MTFA l.g.g com Modelo de Tempo de Promocao . . . . . . . . 27

4.4 Estimando os parametros . . . . . . . . . . . . . . . . . . . . . . . . . . 28

5 Reproducao de resultados e Aplicacao 30

5.1 Reproducao de resultados . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.1.1 MTFA l.g.g. com modelo de mistura padrao . . . . . . . . . . . 30

5.1.2 MTFA l.g.g. com modelo de tempo de promocao . . . . . . . . 31

5.2 Aplicacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5.3 Descricao das covariaveis . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.4 Ajuste de modelos sem fracao de cura . . . . . . . . . . . . . . . . . . . 34

5.5 Ajuste dos MTFA l.g.g. padrao com fracao de cura . . . . . . . . . . . 37

6 Consideracoes finais 39

A Comandos no R 41

A.1 Regressao Log-gama Generalizada com covariaveis . . . . . . . . . . . . 41

A.2 MTFA l.g.g com Modelo de Mistura Padrao . . . . . . . . . . . . . . . 44

A.3 MTFA l.g.g com Modelo de Tempo de Promocao . . . . . . . . . . . . 45

B Demonstracoes 48

B.1 Funcao de sobrevivencia populacional . . . . . . . . . . . . . . . . . . . 48

B.2 Casos particulares do Modelo Unificado . . . . . . . . . . . . . . . . . . 49

B.2.1 Modelo de Mistura Padrao . . . . . . . . . . . . . . . . . . . . . 49

B.2.2 Modelo de Tempo de Promocao . . . . . . . . . . . . . . . . . . 49

viii

Capıtulo 1

Introducao

Em modelos de sobrevivencia, estamos interessados em estudar o tempo ate a ocor-

rencia de um evento de interesse comumente chamado ”tempo ate a falha” ou ”tempo

de vida”. Porem, em algumas situacoes, uma proporcao da populacao pode ser con-

siderada ”curada”, ou seja, alguns indivıduos nao estao mais sujeitos ao evento de in-

teresse. Os modelos que tratam desta abordagem sao chamados de modelos de fracao

de cura. Um grande numero de observacoes censuradas a direita em um perıodo de

acompanhamento suficiente, pode ser um indicativo da presenca de indivıduos curados

na populacao. Por exemplo, em estudos sobre a recidiva de determinados tipos de

cancer, muitos pesquisadores consideram que um paciente estara curado se nao houver

reincidencia da doenca num perıodo de 5 a 10 anos apos aplicacao de tratamentos,

sendo este tempo determinado pela experiencia do pesquisador.

Modelos de sobrevivencia com fracao de cura tem sido extensivamente discutidos

na literatura estatıstica por varios autores. Uma abordagem dada inicialmente por

Boag (1949) e Berkson e Gage (1952) , considera uma mistura de distribuicoes. Neste

modelo, conhecido como modelo de mistura padrao, e assumido que uma fracao π da

populacao esta curada, e a restante 1−π, nao curada. O livro de Maller e Zhou (1996)

apresenta diversas referencias sobre trabalhos que abordam modelos de mistura.

Alternativamente, Yakovlev et al. (1993) propoem uma nova classe de mistura en-

volvendo uma estrutura de riscos competitivos, que foi estendida por Chen et al. (1999),

1

1.1 Objetivos 2

o qual nos referimos como modelo de tempo de promocao. Uma abordagem unificada,

que inclui o modelo de mistura padrao e o modelo de tempo de promocao como dois

casos especiais, e discutido em Rodrigues et al. (2009). Neste contexto, a distribuicao

assumida para a variavel latente, representando o numero de causas que competem para

a ocorrencia do evento, determina uma classe de modelos. As distribuicoes Bernoulli e

Poisson representam respectivamente os modelos de mistura e de tempo de promocao.

Yamaguchi (1992) propoe uma extensao dos modelos de tempo de falha acelerado

log-Gama generalizada com fracao de cura inserido na forma de modelo de mistura,

considerando tambem a fracao de cura como funcao das covariaveis. Em uma abor-

dagem semelhante, Ortega et al. (2009) propoe uma extensao para modelos de regressao

Gama Generalizada incluindo fracao de cura em um modelo de tempo de promocao,

alem de apresentar resultados sobre influencia local e resıduos para este modelo.

1.1 Objetivos

Neste trabalho, partindo da abordagem unificada dada em Rodrigues et al. (2009)

estudamos as extensoes dos modelo de regressao Log-Gama Generalizada dadas por

Yamaguchi (1992) e Ortega et al. (2009), propondo entao uma otica unificada para

essas extensoes. Em seguida apresentamos de forma diferenciada o ajuste destes mo-

delos atraves do software estatıstico R (R Development Core Team 2011). Aplicamos

esta abordagem em um conjunto de dados reais obtidos de Macedo e Valenca (2009),

contendo informacoes a respeito de 355 pacientes com cancer de mama atendidas no

Hospital Prof. Dr. Luiz Antonio, Natal RN, no perıodo de 1991 a 1995, para estudar

o efeito de covariaveis no tempo em que as pacientes permanecem livres do retorno da

doenca bem como seus efeitos sobre a fracao de cura, apos terem sido submetidas ao

tratamento cirurgico de retirada total ou parcial da mama.

1.2 Descricao dos capıtulos 3

1.2 Descricao dos capıtulos

No Capıtulo seguinte mostramos uma breve introducao a analise de sobrevivencia

e seus principais conceitos. No Capitulo 3 abordamos os modelos classicos de fracao

de cura e o modelo unificado proposto por Rodrigues et al. (2009). No quarto capı-

tulo abordamos os modelos propostos por Yamaguchi (1992) e por Ortega et al. (2009)

que estendem o modelo de tempo de falha acelerado log-gama generalizado associando

covariaveis tanto ao tempo de vida quanto a fracao de curados. Atraves dessa otica

discutimos um modelo unificado para os modelos de tempo de falha acelerado com

fracao de cura. No Capitulo 5 ajustamos os modelos a dados reais atraves do software

estatıstico R, reproduzindo inicialmente as aplicacoes dadas por Yamaguchi (1992) e

Rodrigues et al. (2009). Guardamos os comandos usados no R para o Apendice A e al-

gumas demonstracoes para o Apendice B. Reservamos para Capitulo 6 as consideracoes

finais.

Capıtulo 2

Analise de Sobrevivencia

Neste capıtulo fazemos uma breve introducao aos principais conceitos de analise

de sobrevivencia e ao Modelos de Tempo de Falha Acelerado.

2.1 Conceitos fundamentais de Analise de Sobre-

vivencia

A analise de sobrevivencia tem um papel importante em varias areas de conhe-

cimento como engenharia e ciencias biologicas. Sua variavel de interesse e o tempo

ate a ocorrencia de um certo evento, tambem chamado de tempo de vida ou tempo

ate a falha podendo ser, por exemplo, o tempo de duracao de um certo componente

eletronico, o tempo ate a morte de um paciente, ou ainda, o tempo ate o retorno de

uma doenca (recidiva) em um paciente.

A variavel aleatoria T corresponde ao tempo ate a ocorrencia de um determinado

evento de interesse de alguma populacao. Para T devemos definir: o tempo de inıcio,

como a data de inıcio do estudo por exemplo; a escala de medida, que e em geral o

tempo do estudo, podendo ser outra medida como quilometragem de um carro; e um

evento de interesse, como a morte do paciente.

4

2.1 Conceitos fundamentais de Analise de Sobrevivencia 5

2.1.1 Funcao de sobrevivencia

Seja T uma variavel aleatoria contınua, nao negativa com funcao densidade de pro-

babilidade f(t) e funcao distribuicao acumulada F (t). Definimos a funcao sobrevivencia

de T como:

S(t) = P (T > t) =

∫ t

0

f(u)du = 1− F (t) t > 0. (2.1)

Note que S(t) e uma funcao monotona decrescente com S(0) = 1 e

S(∞) = limt→∞ S(t) = 0.

2.1.2 Funcao taxa de falha ou funcao risco

A funcao risco corresponde a taxa de falha instantanea no momento t.

h(t) = lim∆t→0

P (t ≤ T < t+ ∆t|T ≥ t)

∆t

= lim∆t→0

1

∆t

P (t ≤ T < t+ ∆t)

P (T ≥ t)

= lim∆t→0

1

∆t

F (t+ ∆t)− F (t)

S(t)

=1

S(t)lim

∆t→0

F (t+ ∆t)− F (t)

∆t

=1

S(t)F ′(t) =

f(t)

S(t).

(2.2)

Da definicao dada na equacao (2.1) temos ainda que:

f(t) = −dS(t)

dt. (2.3)

2.1.3 Censura

Uma ocorrencia frequente em dados de sobrevivencia e a presenca de censura, que e

caracterizada pela observacao apenas parcial da resposta. Isto se refere a situacoes em

que, por alguma razao, o acompanhamento da observacao foi interrompido, seja porque


a observacao nao pode ser mais acompanhada ou devido ao final do experimento. Isto

significa que toda informacao referente a resposta se resume ao conhecimento de que

o tempo de falha e superior aquele observado. Sem a presenca de censura, as tecni-

cas estatısticas classicas, como analise de regressao e planejamento de experimentos,

poderiam ser utilizadas na analise deste tipo de dados, provavelmente usando uma

transformacao para a resposta.

Tipos de censura

O tipo de censura mais comum e a censura a direita. E dito a direita pois o tempo

ate a ocorrencia do evento de interesse e superior ao tempo registrado. Desprezar essa

informacao faria com que o risco de ocorrencia do evento de interesse fosse superesti-

mado, pois o tempo ate a falha e desconhecido, mas o evento de interesse nao ocorreu

ate o ultimo momento observado. Os tres mais conhecidos mecanismos de censura a

direita sao:

• Censura do Tipo I: O estudo sera terminado apos um perıodo pre-estabelecido

de tempo. As observacoes para os quais o evento de interesse nao foi observado

ate este tempo sao ditas censuradas;

• Censura do Tipo II: O estudo sera terminado apos ter ocorrido o evento de

interesse para um numero pre-estabelecido de observacoes;

• Censura Aleatoria: Ocorre se a observacao for retirada no decorrer do estudo

sem ter ocorrido o evento de interesse ou se o evento de interesse ocorrer por uma

razao diferente da estudada.

2.1.4 Representacao dos dados de sobrevivencia

Considere uma variavel aleatoria positiva T representando o tempo ate a falha e

C outra variavel aleatoria positiva, independente de T representado o tempo ate a

censura. O tempo observado sera, portanto,


T ∗ = min(T,C)

e alem disso definimos uma indicadora de forma

δ =

1 se T ≤ C

0 se T > C

A representacao dos dados para o i-esimo individuo, sendo i = 1, . . . , n, e o par

(t∗i , δi), sendo t∗i o valor observado de T ∗ para o individuo i e δi variavel indicadora de

censura definida acima.

Considere, como ocorre na pratica, a sobrevivencia dos pacientes portadores de

alguma doenca associada a informacoes (caracterısticas) como o tipo de tratamento

usado, idade, etc. Para tratar da dependencia dos tempos de sobrevivencia com estas

informacoes auxiliares associamos a cada indivıduo um vetor de medidas (variaveis

discretas ou contınuas), chamado geralmente de vetor de covariaveis, e denotado por

x = (1, x1, . . . , xp)′.

Assim os dados de sobrevivencia sao da forma:

t δ x1 · · · xp

t1 δ1 x11 · · · x1p

......

.... . .

...

tn δn xn1 · · · xnp

Uma maneira de determinar o relacionamento entre o tempo de sobrevivencia e as

covariaveis e atraves de um modelo de regressao. Uma classe importante de modelos

de regressao para tratar de dados de sobrevivencia e a classe dos Modelos de Tempo

de Falha Acelerado (MTFA).

2.2 Modelos de Tempo de Falha Acelerado 8

2.2 Modelos de Tempo de Falha Acelerado

Considere os modelos de posicao e escala caracterizados pelo fato que Y = log T

possui um distribuicao com parametro de posicao µ e de escala σ. Desta forma temos

Y = µ+ σε, (2.4)

sendo −∞ < µ <∞ e σ > 0.

Considerando a presenca de p covariaveis, assumimos que µ = µ(x) = x′β sendo

x = (1, x1, . . . , xp)′ um vetor de covariaveis e β = (β0, β1, . . . , βp)

′ um vetor de para-

metros desconhecidos. Sejam g(·) e G(·) as funcoes densidade de probabilidade e de

sobrevivencia de ε respectivamente, entao a funcao densidade de probabilidade de Y

para um dado vetor de covariaveis x sera dada por

f(y;x,β, σ) =1

σg

(y − x′β

σ

)−∞ < y <∞, (2.5)

e a de sobrevivencia por

S(y;x,β, σ) = G

(y − x′β

σ

)−∞ < y <∞, (2.6)

Desta forma o modelo 2.4 e um modelo log-linear para T com resıduo ε. Chamamos

este modelo de Modelo de Tempo de Falha Acelerado devido ao fato que as

covariaveis tem a funcao de acelerar ou desacelerar o tempo de ocorrencia do evento

de interesse.

Capıtulo 3

Modelos de Sobrevivencia com

Fracao de Cura

Os modelos classicos de Analise de Sobrevivencia pressupoem que quando o tempo

vai para o infinito a probabilidade de sobrevivencia e igual a zero (limt→∞ S(t) = 0).

Quando a probabilidade de sobrevivencia no infinito e diferente de zero (limt→∞ S(t) = π)

interpretamos esta quantidade π > 0 como uma fracao de curados (Miller et al. 1981).

Nao podemos observar o conjunto de dados no infinito, porem para alguns casos a

existencia de uma fracao de cura parece ser bem razoavel. Por exemplo tome o tempo

ate que um casal recem casado se divorciar ou o tempo ate a conclusao de curso de

um estudante. Esses eventos podem nunca acontecer. Ou seja, existe uma parcela da

populacao que chamamos de “imune ao evento”. Entendemos por imunes os indivıduos

que nao estao sujeitos a ocorrencia do evento de interesse. Em algumas situacoes, como

pacientes de cancer, podemos usar a terminologia curados.

Observando a calda direita do grafico da funcao de sobrevivencia estimada (Esti-

mador de Kaplan-Meier) podemos ter um indicativo da presenca de imunes. Uma calda

bem acima de zero sugere uma fracao de curados como ilustrado pela Figura 3.1.

Um fator que pode nos levar a considerar a presenca de imunes em um conjunto de

dados e a alta presenca de censura a direta ao fim do estudo. Porem um estudo com

tempo de acompanhamento relativamente curto pode nos levar a uma falsa conclusao

da existencia de imunes, pois o evento de interesse ainda pode ocorrer para muitas ob-

9

3.1 Modelo de Mistura Padrao 10

Figura 3.1: Funcao de Sobrevivencia estimada para os dados de tempo ate a conclusaodo curso de graduacao em Estatıstica da UFRN - 1997 a 2004. Amostra com n = 414alunos.

servacoes. Desta forma, Maller e Zhou (1996) sugerem um tempo de acompanhamento

suficientemente grande, citando como exemplo, um problema real de uma especie de

tartaruga em que e difıcil a identificacao do sexo. Essa identificacao pode ser feita ape-

nas por cirurgia ou no momento em que uma tartaruga coloca ovos, sendo declarado

desta forma femea. Portanto para identificar a proporcao de femeas em uma amostra

dessas tartarugas o estudo deve durar pelo menos ate a maturidade da especie.

3.1 Modelo de Mistura Padrao

Em uma abordagem dada inicialmente por Boag (1949) e Berkson e Gage (1952) e

proposto um modelo parametrico que consiste em uma mistura de distribuicoes. Uma

representa a funcao de sobrevivencia dos indivıduos suscetıveis ao evento de interesse,

que irao falhar, e a outra uma funcao degenerada que permite tempos de vida infinitos

para os imunes. Nos referimos a esse modelo como modelo de mistura padrao. Assuma

que um indivıduo i esta associado a uma variavel aleatoria M sendo:

M =

1 se o indivıduo suscetıvel ao evento

0 se o indivıduo e imune ao evento

3.2 Modelo de tempo de promocao 11

e tambem

P (M = m) =

π se m = 0

1− π se m = 1

Veja que todos os indivıduos com M = 0 tem T =∞. Portanto:

P (T > t|M = 0) = 1

P (T > t|M = 1) = S∗(t)

Portanto para todo t ≥ 0 a verdadeira funcao de sobrevivencia para a populacao e

dada por:

Sp(t) = P (T > t) = P (T > t,Mi = 0) + P (ti > t,Mi = 1)

= P (T > t|Mi = 0)P (Mi = 0) + P (T > t|Mi = 1)P (Mi = 1)

= π + (1− π)S∗(t)

(3.1)

3.2 Modelo de tempo de promocao

Um modelo alternativo e proposto por Yakovlev et al. (1993) e Chen et al. (1999)

referido por Rodrigues et al. (2008) como modelo de tempo de promocao. Este modelo

consiste em pressupor a existencia de varias causas que competem entre si para causar

no indivıduo o evento de interesse.

Sejam Z1, Z2, ..., ZM variaveis aleatorias latentes que representam os tempos ate a

ocorrencia de um evento de interesse, sendo M uma variavel aleatoria nao observavel

que representa o numero de causas que competem para produzir o evento de interesse.

Se M = 0 definimos Z0 tal que P (Z0 = ∞) = 1 e neste caso dizemos que o indivıduo

nao e suscetıvel ao evento de interesse. O tempo de sobrevivencia observavel e definido

como T = min{Z0, Z1, ..., ZM}. Assumindo M como uma variavel aleatoria com dis-

tribuicao Poisson(θ) e Z1, Z2, ..., ZM variaveis aleatorias independentes e identicamente

3.3 Modelo Unificado 12

distribuıdas com funcao de distribuicao F (·) e sobrevivencia S(·) = 1 − F (·). Temos

que a funcao de sobrevivencia populacional e dada por:

Sp(t) = e−θF (t). (3.2)

A fracao de cura correspondente ao modelo 3.2 e dada por:

limt→∞

Sp(t) = e−θ.

3.3 Modelo Unificado

Abordamos agora o modelo de fracao de cura unificado proposto por Rodrigues

et al. (2009) que representa uma extensao dos modelos de longa duracao proposto por

Chen et al. (1999).

Como antes, seja M , uma variavel aleatoria representando o numero de causas ou

riscos da ocorrencia de um particular evento de interesse com distribuicao denotada por

p(m) = P (M = m),m = 0, 1, 2, ...

Considere que, dado M = m, Zj, j = 1, ...m, sao variaveis aleatorias independentes

e identicamente distribuıdas, representando o tempo de ocorrencia do evento de inte-

resse devido a j-esima causa ou risco, com funcao de sobrevivencia S(·) = 1 − F (·) e

funcao de densidade de probabilidade f(·) independentes de M .

O tempo ate ocorrencia do evento de interesse para um indivıduo da populacao e

dado por T = min{Z0, ..., ZM}, sendo que P (Z0 = ∞) = 1. Esta suposicao admite

a possibilidade de uma proporcao p(0) da populacao nao apresentar a ocorrencia do

evento de interesse. As variaveis aleatorias Zj e M sao variaveis latentes, ou seja, nao

observaveis, enquanto T e uma variavel observavel.

Seja a = am uma sequencia de numeros reais. Se

Aa(s) = a0 + a1s+ a2s2 + . . . (3.3)

3.3 Modelo Unificado 13

converge para s ∈ [0, 1], entao definimos Aa(s) como a funcao geradora da sequencia

am (Feller 2008).

A funcao de sobrevivencia populacional de T definido por Sp(t) = P (T > t) e dada

abaixo (sua demonstracao encontra-se no Apendice B.1).

Sp(t) = Ap(S(t)) =∞∑m=0

p(m)(S(t))m, (3.4)

sendo Ap(·) a funcao geradora da sequencia p = p(m). Note que Sp e impropria, ou

seja, o limt→∞ Sp(t) = p(0) = P (M = 0) > 0 corresponde a proporcao de indivıduos

imunes ou curados, ou seja, a fracao de cura.

Podemos entao apresentar a funcao Sp(t) dada em (3.4) como uma mistura de dis-

tribuicoes

semelhante ao Modelo de Mistura Padrao apresentado na Secao 3.1.

Defina S∗(t) = P (T > t|M > 0), e facil ver que esta pode ser representada por

S∗(t) =∑∞

m=1 p∗(m)[S(t)]m, sendo p∗(m) = p(m)

1−p(0)a funcao de sobrevivencia condi-

cional de T dada a ocorrencia do evento de interesse, temos entao que o modelo de

fracao de cura unificado proposto por Rodrigues et al. (2009) pode ser representado

por

Sp(t) = p(0) + (1− p(0))S∗(t) (3.5)

Note tambem que S∗(t) e uma funcao de sobrevivencia propria pois

limt→∞ S∗(t) = 0.

A funcao de densidade para a populacao e obtida pelo negativo da derivada de

(3.4), ou seja,

fp(t) = −∂Sp(t)∂t

= −S ′p(t) =∞∑m=0

f(t)p(m)m(S(t))m−1. (3.6)

Decorre de (3.5) que a funcao densidade condicional a ocorrencia do evento de

interesse, denotado por f ∗(t) = f(t|M > 0), e dada por:

3.4 Alguns casos particulares do modelo unificado 14

f ∗(t) = −∂S∗(t)

∂t= −S∗′(t). (3.7)

A funcao risco incondicional a ocorrencia do evento de interesse, denotado por hp(t)

e dada por

hp(t) =fp(t)

Sp(t), (3.8)

e a condicional a ocorrencia do evento de interesse por

h∗(t) =f ∗(t)

S∗(t). (3.9)

3.4 Alguns casos particulares do modelo unificado

Sabemos que M e uma variavel aleatoria discreta representando o numero de pos-

sıveis causas que podem levar um indivıduo ao evento de interesse. Nesta secao apre-

sentamos algumas funcoes geradoras (retiradas de Feller 2008) das probabilidades as-

sociadas a importantes distribuicoes de probabilidade que podemos usar para definir

M .

• SE M ∼ Bernoulli(1 − θ), p(m) = (1 − θ)mθ1−m, sendo 0 < θ < 1 e m = 0, 1

entao

Ap(s) = θ + (1− θ)s.

• Se M ∼ Binomia(θ), p(m) =(nm

)θm(1 − θ)n−m, sendo 0 < θ < 1, n ≥ 1 e

m = 0, 1, 2, . . . entao

Ap(s) = (1− θ + θs)n.

• Se M ∼ Poisson(θ), p(m) = e−θθm

m!, sendo θ > 0 e m = 0, 1, 2, . . . entao

Ap(s) = e−θ(1−s).

• Se M ∼ Geomtrica(θ), p(m) = (1−θ)mθ, sendo 0 < θ < 1, n ≥ 1 e m = 0, 1, 2, . . .


entao

Ap(s) =θ

1− (1− θ)s.

• Se M ∼ BinomiaNegativa(η, θ), p(m) = Γ(η−1+m)Γ(η−1)m!

(ηθ

1+ηθ

)m(1 + ηθ)−

1η , sendo θ >

0, η > −1θ

e m = 0, 1, 2, . . . nesta versao mais geral da distribuicao binomial

negativa (Piegorsch 1990; Saha e Paul 2005) temos

Ap(s) = (1 + ηθ(1− s))−1η .

Devemos porem observar com mais cuidado dois desses casos particulares, pois estes

se apresentam como os resultados das Secoes 3.1 e 3.2.

3.4.1 Modelo de Mistura Padrao

Considere que M possui uma distribuicao Bernoulli(1 − θ). Desta forma

p(m) = Pθ(M = m) = (1 − θ)mθ1−m, m = 0, 1. Logo existe apenas uma causa

que pode levar um indivıduo ao evento de interesse, portanto, T = min{Z0, Z1} com

P (Z0 = ∞) = 1 e P (Z1 > z) = S(z). Sendo p(0) = Pθ(M = 0) = θ a fracao de

cura correspondente. Os resultados obtidos estao relacionados ao modelo de mistura

padrao visto na Secao 3.1. As respectivas funcoes de sobrevivencia, densidade e risco

populacionais e condicionais a ocorrencia do avento de interesse sao dadas por:

Funcoes de Funcao Populacional de TFuncao condicional

a ocorrencia do evento de interesse

Sobrevivencia Sp(t) = θ + (1− θ)S∗(t) S∗(t) = S(t)

Densidade fp(t) = (1− θ)f ∗(t) f ∗(t) = f(t)

Risco hp(t) = f(t)1− θ

θ + (1− θ)S(t)h∗(t) =

f(t)

S(t)


3.4.2 Modelo de Tempo de Promocao

Considerando que o numero de possıveis causas que podem levar um indivıduo ao

evento de interesse seja M ∼ Poisson(θ). Neste caso temos p(m) = Pθ(M = m) =

e−θθm

m!, m = 0, 1, 2, . . . com T = min{Z0, Z1, . . . , ZM}, P (Z0 = ∞) = 1 e P (Z1 > z) =

S(z). A fracao de cura neste caso e dada por p(0) = Pθ(M = 0) = e−θ. Os resultados

obtidos estao relacionados com o modelo de tempo de promocao visto em 3.2. As

respectivas funcoes de sobrevivencia, densidade e risco populacionais e condicionais a

ocorrencia do evento de interesse sao dadas por:

Funcoes de Funcao Populacional de TFuncao condicional

a ocorrencia do evento de interesse

Sobrevivencia Sp(t) = e−θ(1−S(t)) S∗(t) =exp{−θ(1− S(t))} − exp{−θ}

1− exp{−θ}

Densidade fp(t) = θf(t)e−θ(1−S(t)) f ∗(t) =exp{−θ(1− S(t))}

1− exp{−θ}θf(t)

Risco hp(t) = θf(t) h∗(t) =exp{−θ(1− S(t))}

exp{−θ(1− S(t))} − exp{−θ}hp(t)

3.4.3 Funcao de Verossimilhanca

Suponha uma amostra com n indivıduos e para cada indivıduo i, i = 1, . . . , n, sao

associados as seguintes variaveis:

• Mi: Variavel aleatoria nao observavel discreta com funcao de probabilidade

Pθ(Mi = mi) = pθ(mi), sendo θ um vetor de parametros desconhecidos;

• Zij: Variaveis i.i.d. nao observaveis representando o tempo ate a ocorrencia do

evento de interesse devido a j-esima causa ou risco, j = 1, ...,Mi, com funcao dis-

tribuicao F (·;ψ), funcao de sobrevivencia S(·;ψ) = 1−F (·;ψ) e funcao densidade

f(·;ψ) que nao dependem de Mi, sendo ψ um vetor de parametros desconhecidos;


• Ti: tempo de falha observado, dado por Ti = min{T ∗i , Ci}, com

T ∗i = min{Zi0, Zi1, . . . , ZiMi} e Ci o tempo de censura para o individuo i;

• δi: indicador de falha, sendo δi =

1 , se T ∗i ≤ Ci

0 , se T ∗i > Ci;

O conjunto dos dados completos e representado por Dc = (n,T , δ,M ), sendo T =

(T1, T2, . . . , Tn)′, δ = (δ1, δ2, . . . , δn)′, M = (M1,M2, . . . ,Mn)′ e o conjunto de dados

observados por D = (n,T , δ). A funcao de verossimilhanca relativa a distribuicao

conjunta dos vetores T , δ e Mpode ser representada por:

L(ψ, θ;Dc) =∏n

i=1 f(ti, δi,mi)

=∏n

i=1 f(ti, δi|mi)pθ(mi).(3.10)

Sejam fT e g as funcoes densidade de probabilidade de T ∗i e Ci respectivamente, e

ST e G suas funcoes de sobrevivencia. Entao:

ST (t|mi) = P (Ti ≥ t|Mi = mi)

= P (min{Z0, Z1, . . . , Zmi} ≥ t)

= P (Z0 ≥ t, Z1 ≥ t, . . . , Zmi ≥ t)

= P (Z0 ≥ t)P (Z1 ≥ t), . . . , P (Zmi ≥ t)

= 1 · S(t;ψ) · S(t;ψ) · · ·S(t;ψ)

= S(t;ψ)mi .

(3.11)

Por (3.6) temos

fT (t|mi) = ∂Sp(t|mi)∂t

= mif(t;ψ)S(t;ψ)mi−1.(3.12)

A expressao f(ti, δi|Mi = mi) pode ser particionada em dois casos disjuntos. Para

δi = 0 e para δi = 1. Desta forma, e utilizando (3.11) e (3.12), temos:

Para δ = 0


f(ti, δi|mi) = lim∆t→0

P (ti ≤ Ti < ti + ∆t, δ = 0|Mi = mi)

∆ti

= lim∆ti→0

P (ti ≤ Ci < ti + ∆t, T∗i > Ci|Mi = mi)

∆t

∼= lim∆ti→0

P (ti ≤ Ci < ti + ∆t, T∗i > t|Mi = mi)

∆t

= lim∆t→0

P (ti ≤ Ci < ti + ∆ti|Mi = mi)

∆t

P (Ti > t|Mi = mi)

= g(ti|mi)ST (ti|mi)

= S(ti;ψ)mig(ti|mi)

(3.13)

e para δ = 1

f(ti, δi|mi) = lim∆t→0

P (ti ≤ Ti < ti + ∆t, δ = 1|Mi = mi)

∆t

= lim∆t→0

P (ti ≤ T ∗i < ti + ∆t, T∗i ≤ Ci|Mi = mi)

∆t

∼= lim∆t→0

P (ti ≤ T ∗i < ti + ∆t, Ci ≥ t|Mi = mi)

∆t

= lim∆t→0

P (ti ≤ T ∗i < ti + ∆t|Mi = mi)

∆t

P (Ci ≥ t|Mi = mi)

= fT (ti|mi)G(ti|mi)

= G(ti|mi)mif(ti;ψ)S(ti;ψ)mi−1.

(3.14)

Portanto, de (3.13) e (3.14), a distribuicao de (ti, δi) dado Mi = mi, i = 1, . . . , n e

f(ti, δi|mi) =

S(ti;ψ)mig(ti|mi) se δ = 0

G(ti|mi)mif(ti;ψ)S(ti;ψ)mi−1 se δ = 1(3.15)

Sintetizando (3.15) em uma unica equacao temos:


f(ti, δi|mi) = [S(ti;ψ)mig(ti|mi)]1−δi [G(ti|mi)mif(ti;ψ)S(ti;ψ)mi−1

]δi (3.16)

Substituindo (3.16) em (3.10) temos que a funcao de verossimilhanca para os dados

completos, sob a suposicao de censura nao informativa para os parametros de interesse

e usando um certo abuso de linguagem para abandonar o sımbolo “proporcional” e:

L(ψ, θ;Dc) =n∏i=1

[S(ti;ψ)mi ]1−δi[mif(ti;ψ)S(ti;ψ)mi−1

]δi pθ(mi) (3.17)

3.4.4 Verossimilhanca Marginal

Para obter a verossimilhanca marginal fazemos o somatorio da distribuicao conjunta

de (Ti, δi,Mi) nas variaveis nao observadas mi.

f(ti, δi) =∞∑

mi=0

f(ti, δi,mi)

=∞∑

mi=0

f(ti, δi|mi)pθ(mi)

(3.18)

Portanto a verossimilhanca marginal para o conjunto de dados observados

D = (n,T , δ) e dada por:

L(ψ, θ;D) =n∏i=1

∞∑mi=0


]δi pθ(mi). (3.19)

Abordando agora o modelo de sobrevivencia de longa duracao consideramos (3.19)

nos seguintes casos:

• δ = 0

3.5 Incluindo Covariaveis na Fracao de Cura 20

L(ψ, θ;D) =n∏i=1

∞∑m=0

[pθ(mi)S(ti;ψ)mi ]

=n∏i=1

Sp(ti;φ),

(3.20)

sendo φ = (ψ, θ). Recorrendo a (3.4) na ultima passagem.

• δ = 1

L(φ;D) =n∏i=1

∞∑m=0

[f(ti;ψ)pθ(mi)miS(ti;ψ)mi−1

]=

n∏i=1

fp(ti;φ),

(3.21)

recorrendo a (3.6) na ultima passagem. Desta forma, sintetizando (3.20) e (3.21)

em uma unica equacao

L(φ;D) =n∏i=1

[Sp(ti;φ)]1−δi [fp(ti;φ), ]δi (3.22)

3.5 Incluindo Covariaveis na Fracao de Cura

Descrevemos na Secao 2.2 os modelos de tempo falha acelerado que associam co-

variaveis ao tempo de vida atraves do parametro de posicao µ = x′β. Em modelos

de sobrevivencia com fracao de cura, as covariaveis podem ser incluıdas atraves do

parametro θ = θ(x′γ) sendo γ = (γ0, γ1, . . . , γp) um vetor de coeficientes de regressao.

Nos modelos de Mistura e de Promocao (vistos nas secoes 3.1 e 3.2) essa associacao

entre covariaveis e fracao de cura esta relacionada com a funcao de ligacao canonica

considerada em Modelos Lineares Generalizados (Nelder e Wedderburn 1972). Portanto

associamos covariaveis ao Modelo de Mistura considerando a ligacao logıstica:

θ(x′γ) =ex′γ

1 + ex′γ,

e para o Modelo de Promocao consideramos a ligacao:

3.5 Incluindo Covariaveis na Fracao de Cura 21

θ(x′γ) = ex′γ .

Aqui desejamos descrever no contexto do modelo unificado, a inclusao de covaria-

veis no parametro θ. Considere que θ = θ(x′γ) e uma funcao das covariaveis. Assim,

seja M uma variavel aleatoria discreta representando o numero de causas que podem

levar um indivıduo a ocorrencia do evento de interesse com funcao de probabilidade

p(m) = Pθ(M = m),m = 0, 1, 2, ... . Dado M = m sejam Zj, j = 1, ...m, vari-

aveis aleatorias independentes e identicamente distribuıdas, representando o tempo

de ocorrencia do evento de interesse devido a j-esima causa ou risco, com funcao de

sobrevivencia S(·;ψ) = 1 − F (·;ψ) e funcao de densidade de probabilidade f(·;ψ) in-

dependentes de M . Esta inclusao de covariaveis na fracao de cura e apresentada em

Rodrigues et al. (2008) usando como exemplo para a densidade de Z a distribuicao

Weibull para o Modelo de Mistura e para o Modelo de Promocao.

3.5.1 Funcao de Verossimilhanca

Sejam x = (xi1, xi2, . . . , xip)′ vetor de covariaveis relacionado a cada indivıduo em

uma amostra de tamanho n. Seja γ = (γ1, γ2, . . . , γp) coeficientes de regressao associa-

dos a fracao de curados atraves de θ(x′γ) pela funcao de probabilidade da variavel

aleatoria M , pγ(m) = Pθ(x′γ)(M = m), m = 0, 1, 2, ... entao de forma muito seme-

lhante a secao 3.4.3 obtemos a funcao de verossimilhanca para os dados completos

Dc = (n,x,T , δ,M ):

L(φ;Dc) =n∏i=1


]δi pγ(mi), (3.23)

sendo φ = (ψ, γ) e a verossimilhanca marginal para os dados observadosD = (n,x,T , δ)

dada por:

L(φ;D) =n∏i=1

[Sp(ti;φ)]1−δi [fp(ti;φ)]δi . (3.24)

Capıtulo 4

Modelos de tempo de falha

acelerado com fracao de Cura: Uma

abordagem unificada

Vimos no Capıtulo anterior modelos que fazem uso de covariaveis apenas na fracao

de cura. Usando o Modelo de Mistura Padrao Yamaguchi (1992) estende o MTFA

log-gama generalizado para a avaliar simultaneamente o efeito de covariaveis tanto

na aceleracao/desaceleracao do tempo de falha quanto seus efeitos na fracao de cura.

De forma similar Ortega et al. (2009) utiliza o MTFA log-gama generalizado usando

o Modelo de Tempo de Promocao. Neste Capıtulo propomos uma visao unificada

para estes modelos e observamos essas duas abordagens como casos particulares de um

modelo geral. Por fim implementamos esses casos no software R.

4.1 Regressao log-gama generalizada

A partir da distribuicao gama generalizada introduzida por Stacy (1962) e repara-

metrizada por Prentice (1974), Farewell e Prentice (1977) e Lawless (1980) apresentam

o modelo de regressao log-gama generalizado estendido (l.g.g.). O modelo l.g.g. esten-

dido e de grande importancia pois possui como casos particulares alguns dos modelos

parametricos mais usados na analise de sobrevivencia como os modelos weilbull e log-

normal.

22

4.1 Regressao log-gama generalizada 23

Considere um vetor de covariaveis x, de ordem p × 1, associado com o tempo de

vida T para cada indivıduo. Modelos de tempo de falha acelerado sao modelos de

regressao que se caracterizam pelo fato da variavel Y = log(T ) ter uma distribuicao

com parametro de posicao µ(x) = β′x, e um parametro de escala σ constante. Pode

ser representada por:

Y = log(T ) = βx′ + σε, (4.1)

sendo σ > 0 e β=(β1, · · · , βp)T parametros desconhecidos e ε um erro aleatorio cuja

distribuicao nao depende de x.

A famılia estendida log-gama generalizada (l.g.g.) para Y e obtida quando assumi-

mos que ε tem densidade

fε(ε) =

|q|

Γ(q−2)(q−2)(q−2) exp{q−1ε− q−2 exp(qε)} se q 6= 0

1√2π

exp(− ε−2

2) se q = 0,

(4.2)

e funcao de sobrevivencia

Sε(ε) =

Q[q−2, q−2e{qε}] se q < 0

1−Q[q−2, q−2e{qε}] se q > 0

1− Φ(ε) se q = 0,

(4.3)

sendo −∞ < q <∞ e Q(k, a) a funcao integral gama incompleta

Q(k, a) =

∫ ∞a

tk−1

Γ(k)e−tdt. (4.4)

Obtemos como casos particulares do modelo l.g.g. estendido o modelo Weibull para

quando q = 1 e o modelo log-normal para q = 0. Para mais detalhes sobre o modelo

de regressao l.g.g. recomendamos ver Valenca (1994).

4.2 MTFA incluindo covariaveis na fracao de cura 24

4.2 MTFA incluindo covariaveis na fracao de cura

A inclusao de fracao de cura com covariaveis ao MTFA permite uma analise si-

multanea da influencia das covariaveis na aceleracao/desaceleracao do tempo de falha

e seus efeitos na fracao de curados.

Suponha para uma amostra de n indivıduos o vetor de covariaveis xi = (xi1, xi2, . . . , xip)′.

Seja Mi o numero de causas ou riscos da ocorrencia do evento de interesse para cada

indivıduo com funcao de probabilidade pγ(mi) = Pθ(x′γ)(Mi = mi), mi = 0, 1, 2, ...,

sendo γ = (γ0, γ1, . . . , γp)′ vetor de parametros desconhecidos associados a fracao de

cura. Dado Mi = mi, sejam Zij, j = 1, ...mi, variaveis aleatorias independentes e

identicamente distribuıdas, com funcao densidade de probabilidade e de sobrevivencia

independentes de M representando o tempo ate a ocorrencia do evento de interesse

para o i-esimo indivıduo. Considere tambem T ∗i = min{Zi0, Zi1, . . . , ZiMi} o tempo ate

a ocorrencia do evento de interesse para o indivıduo i.

Tomando a variavel aleatoria Wij = log(Zij) como pertencente a famılia de modelos

de posicao e escala temos

Wij = x′iβ + σεi,

sendo β = (β0, β1, . . . , βp)′ vetor de parametros desconhecidos associados ao tempo

de falha e ε uma variavel aleatoria com funcao densidade de probabilidade g(·; ξ) e

funcao de sobrevivencia G(·; ξ), sendo ξ um vetor de parametros desconhecidos.

Entao a funcao densidade de probabilidade deWij para um dado vetor de covariaveis

xi sera dada por

f(wij;xi,β, σ, ξ) =1

σg

(wij − x′iβ

σ; ξ

), (4.5)

e funcao de sobrevivencia dada por

S(wij;xi,β, σ, ξ) = G

(wij − x′iβ

σ; ξ

). (4.6)

4.2 MTFA incluindo covariaveis na fracao de cura 25

Considere agora Ti = min{T ∗i , Ci} e Yi = log(Ti) respectivamente o tempo ate a

ocorrencia do evento de interesse observado e seu logaritmo, sendo T ∗i o tempo ate a

ocorrencia do evento de interesse e Ci o tempo de censura, para o i-esimo indivıduo.

Portanto Yi = min{log T ∗, logC} e log T ∗ = min{log(Zi0), log(Zi1), . . . , log(ZiMi)} en-

tao obtemos de forma semelhante a equacao 3.4 a funcao de sobrevivencia populacional

dada por

P (log T ∗i > vi) = Sp(vi;φ) =∞∑

mi=0

pγ(mi)[S(vi;xi,β, σ, ξ)]mi , (4.7)

sendo vi = log(ti) e φ = (β,γ, σ, ξ). Tambem de forma semelhante ao modelo

unificado (equacao 3.5) apresentamos o MTFA com Fracao de Cura Unificado dado

por:

Sp(vi;φ) = pγ(0) + (1− pγ(0))S∗(vi;φ), (4.8)

sendo pγ(0) a fracao de cura dependente de γ, e

S∗(vi;φ) =∞∑

mi=1

[p∗γ(mi)S(vi;x,β, σ, ξ)]mi , sendo p∗γ(mi) =

pγ(mi)

1− pγ(0),

a funcao de sobrevivencia dependente a ocorrencia do evento de interesse. A funcao de

densidade populacional sera

fp(vi;φ) = −S ′p(vi;φ) (4.9)

De forma similar aos resultados obtidos na secao 3.4.3 temos que a funcao de

verossimilhanca para os dados completos Dc = (n,x,Y , δ,M ), sendo Y = (y1, . . . , yn)

o vetor do logaritmo dos tempos observados e δ = (δ1, . . . , δn) o vetor dos indicadores

de censura, sera

L(φ;Dc) =n∏i=1

[S(yi;φ)mi ]1−δi[mif(yi;φ)S(yi;φ)mi−1

]δi pγ(mi), (4.10)

4.3 Casos Particulares do MTFA com fracao de cura unificado 26

e a verossimilhanca marginal para os dados observados D = (n,x,Y , δ) sera

L(φ;D) =n∏i=1

[Sp(yi;φ)]1−δi [fp(yi;φ)]δi . (4.11)

4.3 Casos Particulares do MTFA com fracao de cura

unificado

Vimos na secao 3.4 alguns casos particulares para o numero M de possıveis causas

que podem levar um indivıduo ao evento de interesse para o modelo unificado (equacao

3.5). Apresentamos nesta secao alguns casos particulares para diferentes distribuicoes

de Mi e assumimos o modelo de regressao log-gama generalizado para log (Zij),

i = 1, . . . , n e j = 1, . . . ,Mi.

4.3.1 MTFA l.g.g. com modelo de mistura padrao

Partindo do MTFA com fracao de cura unificado apresentado na equacao 4.8,

atribuımos para a variavel aleatoria M uma distribuicao Bernoulli(1− θ). Desta forma

as funcoes de densidade e de sobrevivencias populacionais sao semelhantes as apresen-

tadas na secao 3.4.1. A partir das equacoes 4.11, 4.5 e 4.6 apresentamos funcao de

verossimilhanca

L(φ;D) =n∏i=1

[θ(x′iγ) + (1− θ(x′iγ))G

(yi − x′iβ

σ; ξ

)]1−δi [(1− θ(x′iγ))

1

σg

(yi − x′iβ

σ; ξ

)]δi,

(4.12)

sendo φ = (β,γ, σ, ξ), yi = log(t∗i ) o logaritmo do tempo observado, δi o indicador se o

tempo e de falha ou de censura, γ = (γ0, γ1, . . . , γp)′ o vetor de covariaveis de regressao

associados a fracao de cura, β = (β0, β1, . . . , βp)′ o vetor de covariaveis de regressao

associados ao tempo de falha e θ(x′iγ) =x′iγ

1+x′iγ.

As funcoes g e G correspondem respectivamente as funcoes de densidade e de sobre-

vivencia do modelo de regressao log-gama generalizado mostrado na secao 4.1. Apre-

4.3 Casos Particulares do MTFA com fracao de cura unificado 27

sentamos entao a funcao de log-verossimilhanca para o MTFA l.g.g. com modelo de

mistura:

l(β,γ, σ, q;D) =∑n

i=1[(1− δi) log[(1− θ(x′iγ))Sε(εi; q,β, σ)− log σ) + θ(x′iγ)]

+δi[log(1− θ(x′iγ)) + log fε(εi; q,β, σ)− log σ]],

(4.13)

sendo εi = (log(ti)− x′iβ)/σ. Desta forma conseguimos apresentar o mesmo resultado

mostrado por Yamaguchi (1992).

4.3.2 MTFA l.g.g com Modelo de Tempo de Promocao

Partindo novamente do MTFA com fracao de cura unificado apresentado na equacao

4.8, atribuımos agora para a variavel aleatoria M uma distribuicao Poisson(θ). Desta

forma as funcoes de densidade e de sobrevivencias populacionais sao semelhantes as

apresentadas na secao 3.4.2. A partir das equacoes 4.11, 4.5 e 4.6 apresentamos funcao

de verossimilhanca

L(φ;D) =∏n

i=1

[e−θ(x′iγ)

(1−G

(yi−x′iβ

σ;ξ

))]1−δi

×

[θ(x′iγ) 1

σf(yi−x′iβ

σ; ξ)e−θ(x′iγ)

(1−G

(yi−x′iβ

σ;ξ

))]δi=

∏ni=1

{[e−θ(x′iγ)

(1−G

(yi−x′iβ

σ;ξ

))] [θ(x′iγ) 1

σf(yi−x′iβ

σ; ξ)]δi}

.

(4.14)

As funcoes g e G correspondem respectivamente as funcoes de densidade e de sobre-

vivencia do modelo de regressao log-gama generalizado. Apresentamos entao a funcao

de log-verossimilhanca para o MTFA l.g.g. com modelo de tempo de promocao:

4.4 Estimando os parametros 28

l(β,γ, σ, q;D) =∑n

i=1[−θ(x′iγ)(1− Sε(εi; q,β, σ))

+δi(log(θ(x′iγ))− log(σ) + log(fε(εi; q,β, σ)))],

=∑

i∈C{log(θ(x′iγ))− log(σ) + log(fε(εi; q,β, σ))}

−θ(x′iγ)(1− Sε(εi; q,β, σ))

(4.15)

sendo a notacao i ∈ C correspondente aos itens censurados e εi = (log(ti) − x′iβ)/σ.

Desta forma conseguimos apresentar o mesmo resultado mostrado por Ortega et al.

(2009).

4.4 Estimando os parametros

Para obter as estimativas de verossimilhanca dos coeficientes β, γ e σ, Yamaguchi

(1992) utiliza o metodo de Newton-Raphson em um procedimento de 2 etapas apresen-

tado em Lawless (1982) para o MTFA l.g.g. fazendo uma adaptacao para a inclusao de

covariaveis na fracao de cura. Ortega et al. (2009) utiliza-se da sub-rotina MAXBFGS

disponıvel no software Ox (ver, por exemplo, Doornik 2001) utilizando tambem do pro-

cedimento de 2 etapas.

Este procedimento consiste em fixarmos diferentes valores para q no intervalo [−3, 3]

e encontramos as estimativas de maxima verossimilhanca β(q), γ(q) e σ(q) determi-

nado a funcao de verossimilhanca maximizada Lmax(q), o maior valor de Lmax(q) nos

retornara q. As estimativas de maxima verossimilhanca de β, γ e σ sao respectiva-

mente os valores de β = β(q), γ = γ(q) e σ = σ(q). Os valores de q sao escolhidos

no intervalo [−3, 3] pois a funcao densidade da distribuicao l.g.g. pouco se diferencia

para valores distantes de q = 0. O metodo em duas etapas e recomendado na literatura

pois evita problemas de convergencia para a estimacao dos parametros (ver detalhes

em Valenca 1994).

Neste trabalhos propomos a estimacao dos parametros atraves da sub-rotina optim

software estatıstico R (R Development Core Team 2011) para maximizar o logaritmo

4.4 Estimando os parametros 29

da funcao de verossimilhanca marginalizada (equacao 4.11). Inicialmente tentamos a

estimacao simultanea dos parametros β, γ, σ e q, porem nao obtivemos convergencia

nos resultados. Construımos entao um algoritmo utilizando-se do metodo em 2 etapas

obtendo resultados muito semelhantes aos obtidos por Yamaguchi (1992) e Ortega et al.

(2009) com seus respectivos bancos de dados (apresentado na Secao 5.1).

Capıtulo 5

Reproducao de resultados e

Aplicacao

Neste Capıtulo reproduzimos os resultados obtidos por Yamaguchi (1992) e Ortega

et al. (2009) em seus respectivos trabalhos usando nosso algorıtimo apresentado no

Apendice A. Em seguida estudamos um conjunto de dados reais obtidos de Macedo e

Valenca (2009), contendo informacoes a respeito de 355 pacientes com cancer de mama

atendidas no Hospital Prof. Dr. Luiz Antonio, Natal RN, no perıodo de 1991 a 1995.

5.1 Reproducao de resultados

Para confirmar a eficiencia do nosso algorıtimo, reproduzimos alguns resultados

relevantes para o nosso estudo.

5.1.1 MTFA l.g.g. com modelo de mistura padrao

Em seu artigo Yamaguchi (1992) estuda a mobilidade inter-firmas de trabalhadores

no Japao, observando o tempo ate separacao do empregado em diferentes empresas.

Desta forma um trabalhador que se aposenta em um empresa corresponde a um indivı-

duo“imune”. As covariaveis envolvidas sao o tamanho da empresa, medido pelo numero

de funcionarios ou se a empresa e governamental, e o tipo de empregado, classificados

como colarinho azul para trabalhos que requerem mao-de-obra fısica e colarinho branco

30

5.1 Reproducao de resultados 31

para os que nao sao considerados trabalhos manuais.

Tabela 5.1: Estimativa dos parametros para o MTFA l.g.g. com modelo de misturapadrao - 1975 Social Stratification and Mobility Survey in Japan

ParametroObtidos no R Originais

Estimativa E.P. p.valor(Wald) Estimativa E.P. p.valor(Wald)β0 1,74 0,069 0,000 1,81 0,07 0,000

β1−4 -0,24 0,094 0,011 -0,24 0,07 0,000β5−29 -0,15 0,078 0,057 -0,15 0,08 0,057

β30−299 -0,17 0,082 0,034 -0,14 0,08 0,089β300−999 -0,26 0,100 0,010 -0,25 0,10 0,012βGoverno -0,18 0,101 0,082 -0,18 0,10 0,072βC.Azul 0,08 0,053 0,130 -0,08 0,05 0,134

σ 0,84 0,025 0,000 0,85 -0,16 0,000γ0 -1,26 0,231 0,000 -0,38 0,21 0,072

γ1−4 -7,21 10,168 0,478 −∞ ∞ 1,000γ5−29 -2,42 0,656 0,000 -2,36 0,62 0,000

γ30−299 -1,01 0,287 0,000 -0,75 0,34 0,028γ300−999 -0,67 0,312 0,032 -0,18 0,37 0,617γGoverno -0,42 0,251 0,096 -0,11 0,28 0,689γC.Azul 1,11 0,230 0,000 -0,60 0,28 0,036

Na Tabela 5.1 vemos a semelhanca entre os resultados obtidos por Yamaguchi e os

obtidos pelo nosso algorıtimo. Podemos ver porem uma dificuldade de convergencia

quanto aos coeficientes que assintoticamente vao para −∞ e para ∞.

5.1.2 MTFA l.g.g. com modelo de tempo de promocao

Ortega et al. (2009) apresenta uma aplicacao para dados de pacientes com cancer

de pele ,obtido de Ibrahim et al. (2001), para o MTFA l.g.g. com modelo de tempo

de promocao. Sendo as covariaveis x1: Tratamento; x2: Idade em anos; x3: Tipo de

nodulo; x4: Sexo; x5: performance status-paciente e x6:espessura do tumor em mm.

5.2 Aplicacao 32

Tabela 5.2: Estimativas dos parametros para o MTFA l.g.g. com modelo de tempo depromocao - Dados de cancer de pele retirados de Ibrahim et al. (2005)

ParametroObtidos no R Originais

Estimativa E.P. p.valor(Wald) Estimativa E.P. p.valor(Wald)βx0 1,472 0,485 0,002 1,433 0,481 0,002βx1 0,583 0,166 <0,001 0,580 0,166 <0,001βx2 -0,005 0,006 0,417 -0,004 0,006 0,457βx3 -0,234 0,083 0,005 -0,231 0,083 0,005βx4 -0,391 0,171 0,022 -0,387 0,171 0,023βx5 -0,024 0,232 0,917 -0,027 0,232 0,908βx6 0,036 0,024 0,136 0,035 0,024 0,138σ 1,211 0,154 <0,001 1,182 0,147 <0,001

γx0 -0,867 0,525 0,099 -0,929 0,522 0,075γx1 0,489 0,198 0,013 0,486 0,197 0,014γx2 0,006 0,007 0,403 0,007 0,007 0,366γx3 0,203 0,095 0,032 0,205 0,094 0,029γx4 -0,420 0,198 0,034 -0,416 0,198 0,036γx5 0,124 0,267 0,643 0,122 0,267 0,647γx6 0,053 0,029 0,070 0,053 0,029 0,072

Observamos novamente na Tabela 5.2 uma grande semelhanca entre os coeficientes

ja publicados e os coeficientes por obtidos nos. Devido ao fato de conseguirmos re-

produzir razoavelmente os resultados anteriores tivemos confianca para aplicar nosso

algorıtimo em um conjunto de dados reais.

5.2 Aplicacao

Consideramos um conjunto de dados proveniente de 355 pacientes diagnosticados

com cancer de mama no Hospital Prof. Dr. Luiz Antonio Unidade I da Liga Contra

o Cancer (Natal/RN). Estas informacoes foram obtidas em carater retrospectivo ao

perıodo de 1991 a 1995. No estudo realizado por Macedo e Valenca (2009) e utilizado

o modelo de regressao de Cox, (Cox 1972), para observar o efeito de covariaveis no

tempo em que as pacientes permanecem livres do retorno da doenca (recidiva). No

mesmo estudo pode-se observar evidencias da existencia de fracao de cura devido a alta

ocorrencia de censuras ao fim do tempo de estudo como pode ser visto pelas estimativas

5.3 Descricao das covariaveis 33

de Kaplan e Meier (1958) na Figura (5.1). Este fato nos levou a aplicacao do Modelo

de Tempo de Falha Acelerado Log-Gama Generalizado com Fracao de Cura. Todos os

resultados foram obtidos atraves dos software estatıstico R, os comandos encontram-se

no Apendice A.

Figura 5.1: Estimativas de Kaplan-Meier para o tempo ate a recidiva de pacientes comcancer de mama- Natal/RN 1991 a 1995

5.3 Descricao das covariaveis

Descrevemos agora as covariaveis significantes ao nosso estudo, porem Macedo

e Valenca (2009) fizeram uma analise sobre um conjunto maior de covariaveis rela-

cionadas ao cancer de mama, alem da sua devida contextualizacao na area medica.

PLC Proporcao de linfonodos axilares comprometidos com metastase, categorizada em

tres grupos: 0%; entre 0% e 50% e acima de 50%. Com as variaveis indicadoras

PLC.1 e PLC.2.

Tabela 5.3: O fator PLC

PLC2Variaveis indicadorasPLC2.1 PLC2.2

0% 0 0entre 0% e 50% 1 0acima de 50% 0 1

A Figura 5.2 ilustra as funcoes de sobrevivencia estimadas para os 3 grupos.

5.4 Ajuste de modelos sem fracao de cura 34

TNC Tipo de tratamento nao-cirurgico ao qual a paciente foi submetida. Catego-

rizada em dois grupos: tratamentos com hormonoterapia e tratamentos sem hor-

monoterapia. Com a variavel indicadora TNC.1.

Tabela 5.4: O fator TNC

TNCVariavel indicadora

TNC.1Com hormonoterapia 0Sem hormonoterapia 1

A Figura 5.3 ilustra as funcoes de sobrevivencia estimada para os 2 grupos.

Figura 5.2: Estimativas de Kaplan-Meier para o tempo ate a recidiva depacientes com cancer de mama para acovariavel PLC. Natal/RN 1991 a 1995

Figura 5.3: Estimativas de Kaplan-Meier para o tempo ate a recidiva depacientes com cancer de mama para acovariavel PLC. Natal/RN 1991 a 1995

5.4 Ajuste de modelos sem fracao de cura

Ajustamos essas covariaveis para o modelo de regressao de Cox. Pelos resultados

da tabela (5.5) vemos que as pacientes com proporcao de linfonodos comprometidos

(PLC2.2) superior a 50% tem um risco de recidiva aproximadamente 7 vezes maior


se comparadas com as pacientes com proporcao de linfonodos comprometidos igual a

zero. As pacientes que se submeteram aos tratamentos sem hormonios tem um risco de

recidiva da doenca aproximadamente 3,5 vezes maior quando comparadas com aquelas

que se submeteram aos tratamentos com hormonios, indicando que a hormonioterapia

e o elemento diferenciador que contribui no aumento do tempo livre de recidiva.

Tabela 5.5: Resultados do ajuste do modelo de regressao de Cox para o tempo ate arecidiva de pacientes com cancer de mama. Natal/RN 1991 a 1995

Parametro Estimativa exp(Estimativa) E.P. p-valorβPLC.1 0,486 1,630 0,244 0,047βPLC.2 1,927 6,870 0,274 <0,001βTNC.1 1,270 3,560 0,283 <0,001

Complementamos essa analise com o ajuste da regressao log-gama generalizada.

Figura 5.4: Contorno da verossimilhanca maximizada Lmax(q) para a regressao log-gama generalizada, dados de pacientes com cancer de mama - Natal/RN 1991 a 1995

A figura 5.4 ilustra os diferentes valores para a funcao de log-verossimilhanca em

relacao ao parametro q, conforme descrito na secao 4.4.

A partir deste ajuste desejamos escolher um modelo mais simples. O teste da razao

de verossimilhanca, utilizado para selecionar os submodelos da log-gama generalizada

(ver Lawless 1980), apresentou os seguinte resultado:


Tabela 5.6: Resultados do ajuste do modelo de regressao log-gama generalizada parao tempo ate a recidiva de pacientes com cancer de mama. Natal/RN 1991 a 1995

Parametro Estimativa E.P. p.valor(Wald)β0 5,798 0,202 <0,001

βPLC.1 -0,415 0,219 0,058βPLC.2 -1,855 0,282 <0,001βTNC.1 -1,212 0,288 <0,001σ 1,197 0,099 <0,001

i adequacao do modelo de regressao Weibull: TRV = 3.1516 (p-valor = 0.0759)

ii adequacao do modelo de regressao log-normal:TRV = 1.1872 (p-valor = 0.2759).

Este resultado indica o modelo log-normal como adequado para o conjunto de dados.

Faremos entao interpretacoes por esse modelo.

Tabela 5.7: Resultados do ajuste do modelo de regressao log-normal para o tempo atea recidiva de pacientes com cancer de mama. Natal/RN 1991 a 1995

Parametro Estimativa exp{Estimativa} E.P. p.valor(Wald)β0 5,705 300,366 0,202 <0,001

βPLC.1 -0,412 0,662 0,221 0,0629βPLC.2 -1,882 0,152 0,299 <0,001βTNC.1 -1,267 0,282 0,313 <0,001σ 1,410 – 0,080 <0,001

Com base nos valores obtidos na Tabela 5.7 podemos inferir que o tempo mediano

ate a recidiva das pacientes com uma proporcao de linfonodos axilares comprometi-

dos com metastase acima de 50% e aproximadamente 85% menor em comparacao aos

pacientes sem linfonodos axilares comprometidos. As pacientes que se submeteram

aos tratamentos sem hormonioterapia tem um tempo mediano de recidiva da doenca

aproximadamente 72% maior quando comparadas com aquelas que se submeteram aos

tratamentos com hormonioterapia. Esses resultados reforcam os obtidos pelo modelo

de Cox.

5.5 Ajuste dos MTFA l.g.g. padrao com fracao de cura 37

5.5 Ajuste dos MTFA l.g.g. padrao com fracao de

cura

As Figuras 5.5 e 5.6 mostram o contorno da verossimilhanca maximizada para os

diferentes valores estimados de Lmax(q) para o MTFA l.g.g. padrao com modelo de

mistura padrao e com modelo de tempo de promocao respectivamente. A estimativas

de maxima verossimilhanca dos coeficientes β, γ e σ obtidas pelo software estatıstico

R para os dois modelos sao apresentados na Tabela (5.8).

Figura 5.5: Contorno da verossimi-lhanca maximizada Lmax(q) para oMTFA l.g.g. padrao com modelo mis-tura padrao, dados de pacientes comcancer de mama. Natal/RN 1991 a1995

Figura 5.6: Contorno da verossimi-lhanca maximizada Lmax(q) para oMTFA l.g.g. padrao com modelotempo de promocao, dados de pacientescom cancer de mama. Natal/RN 1991a 1995

Pelos resultados apresentados na Tabela 5.8 para o MTFA l.g.g. padrao com mo-

delo de mistura padrao vemos que os parametros do vetor β associados a acelera-

cao/desaceleracao do tempo ate a ocorrencia do evento de interesse do MTFA l.g.g.

padrao com modelo de mistura padrao apresentados na Tabela 5.8 apresentam resulta-

dos semelhantes ao apresentados na secao 5.4. Para os parametros γ apenas a variavel

PLC.2 e significante, ou seja, existe diferenca significativa para a fracao de curadas nas

pacientes com uma proporcao de linfonodos comprometidos acima de 50% em com-

5.5 Ajuste dos MTFA l.g.g. padrao com fracao de cura 38

paracao com as pacientes que apresentam 0%. O fato de γPLC.2 ser negativo indica que

a proporcao de curadas e menor em comparacao com as pacientes que apresentam 0%.

Nao existe diferenca significativa na fracao de curadas entre as pacientes com 0% e as

pacientes com PLC entre 0% e 50%.

Tabela 5.8: Resultados do ajuste para MTFA l.g.g. padrao com modelo de misturapadrao e modelo de tempo de promocao - Dados de pacientes com cancer de mama.Natal/RN 1991 a 1995

Modelo de Mistura Padrao Modelo de Tempo de PromocaoCoeficiente Estimativa E.P. p.valor Coeficientes Estimativa E.P. p.valor

β0 4,494 0,495 <0,001 β0 5,593 1,372 <0,001βPLC.1 0,411 0,504 0,415 βPLC.1 0,543 0,816 0,506βPLC.2 -0,895 0,474 0,059 βPLC.2 -0,170 0,787 0,829βTNC.1 -0,765 0,372 0,039 βTNC.1 -0,321 0,795 0,687σ 1,030 0,134 <0,001 σ 1,592 0,404 <0,001γ0 0,785 0,560 0,161 γ0 -0,184 0,935 0,844

γPLC.1 -1,773 1,598 0,267 γPLC.1 0,983 0,793 0,215γPLC.2 -2,744 1,181 0,020 γPLC.2 1,754 0,758 0,021γTNC.1 -2,061 1,550 0,184 γTNC.1 0,918 0,848 0,279

Os demais resultados parecem ser conflitantes com os resultados das secoes ante-

riores. A variavel PLC nao apresenta significancia na fracao de curados em nenhum

dos 2 modelos, o que parece contrariar a Figura 5.2. O MTFA l.g.g. padrao com

modelo tempo de promocao nao apresenta significancia em nenhuma das covariaveis

no vetor β o que tambem contraria os resultados anteriores. Acreditamos que estas

incoerencias podem ser devidas a inclusao do parametro γ0 nos modelos e nao devido

a algum erro no algoritmo apresentado, pois reproduzimos de forma muito similar os

resultados de Yamaguchi (1992) e Ortega et al. (2009) com seus respectivos bancos de

dados (apresentado na Secao 5.1).

Capıtulo 6

Consideracoes finais

Nesta dissertacao estudamos os modelos de sobrevivencia com fracao de cura, dando

enfase a uma abordagem unificada destes modelos. Alem disso, discutimos os modelos

de tempo de falha acelerados com fracao de cura, que permitem a observacao do efeito

de covariaveis tanto na aceleracao/desaceleracao do tempo ate a ocorrencia do evento

de interesse como tambem na fracao de cura, e sugerimos uma otica unificada sobre

esses modelos.

Particularizamos este modelo, que chamamos de Modelo de Tempo Falha Acelerado

com Fracao Cura Unificado, para os casos em que ele corresponde ao MTFA log-gama

generalizada padrao com modelo de mistura padrao e MTFA log-gama generalizada

padrao com modelo de tempo de promocao, e aplicamos a um conjunto de dados reais

de pacientes com cancer de mama.

Os resultados foram obtidos atraves de um algorıtimo no software estatıstico R. Que

se mostrou eficaz para reproduzir resultados ja existentes na literatura, mas que porem

apresentou resultados pouco coerentes quando aplicados ao nosso conjunto de dados.

Acreditamos que essas incoerencias sao devido a algum problema de convergencia ou

devido a inclusao do parametro γ0 no modelo.

39

40

Para trabalhos futuros propomos um estudo sobre os resıduos do Modelo de Tempo

Falha Acelerado com Fracao Cura Unificado, a construcao de um algorıtimo no software

R mais flexıvel a respeito da inclusao ou retirada de covariaveis e tambem que seja

apresentado de forma mais amigavel para um novo usuario.

Apendice A

Comandos no R

O metodo aqui utilizado faz uso da funcao “optim” do pacote base do software

R para maximizar a funcao de verossimilhanca. Podemos utilizar o mesmo metodo

para encontrar outros estimadores de maxima verossimilhanca. Primeiro definiremos

as principais funcoes para compor a funcao de verossimilhanca que sera maximizada.

Usamos tambem a funcao “Rgamma” do pacote “zipfR” (Evert e Baroni (2008)) que

corresponde a funcao integral gama incompleta (equacao 4.4).

A.1 Regressao Log-gama Generalizada com cova-

riaveis

#Func~ao densidade da log-gama generalizada

f=function(z,q) if (q!=0)

(((abs(q)/gamma(q^-2)*(q^-2)^q^-2*exp((z/q)-(q^-2)*exp(q*z))))) else

if (q==0)

dnorm(z)

#Func~ao de sobrevivencia

S= function(z,q) if (q>0) Rgamma(q^-2*exp(q*z),q^-2) else if

(q<0) 1-Rgamma(q^-2*exp(q*z),q^-2) else if

(q==0) (1-pnorm(z))

Devemos agora gerar a funcao de verossimilhanca que deve ser maximizada. Sendo

os argumentos de entrada

• par → Parametros a serem estimados

41

A.1 Regressao Log-gama Generalizada com covariaveis 42

• D → Tabela n × (p + 2) do conjunto de dados. Os dados devem ser agrupados

em forma de “data.frame”. Tempo e censura devem ter os nomes ”t”e ”c”e serem

as duas primeiras colunas respectivamente.

loglinkGG= function (par,D) {

#Criar matriz de dados A sem os valores de tempo de falha e censura

if (length(D) > 2) {

A=as.matrix(D[,3:length(D)])

A=cbind(rep(1,nrow(A)),A)

} else A=cbind(rep(1,nrow(D)))

#Obseve que se n~ao existir covariaveis sera criado apenas uma coluna de uns

#Betas a serem estimados

B=par[1:(length(D)-1)]

#Parametro Sigma a ser estimado

sig=par[length(D)]

#Parametro q a ser estimado

q=par[length(D)+1]

#Calculo de z

z=(log(D$t)-A%*%B)/sig

#Func~ao de verossimilhanca

L= if (sig>0) (D$c)*log(1/sig*f(z,q))+(1-D$c)*log(S(z,q)) else NA

#Veja que se o valor de sigma n~ao for positivo, a func~ao retorna um valor nulo.

#soma da func~ao de verossimilhanca a ser retornado

sum(L)

}

Devemos entao dar um “chute” inicial para nossa estimacao. Uma boa estimativa

inicial sao os valores para regressao Weibull da funcao “survreg” do pacote “survival”

($survival). O argumento formula deve ser substituıdo pela soma das covariaveis en-

volvidas na ordem quem que foram postas em D.

library(survival)

ajust=survreg(Surv(t,c)~formula,dist="weibull")

pars=c(ajust$coefficients,1/ajust$scale,1)

names(pars)=c(paste("beta",1:length(ajust$coefficients)-1),"sigma")

A.1 Regressao Log-gama Generalizada com covariaveis 43

Por fim executamos a funcao optim. Os principais argumentos da funcao optim sao:

• par → Valores iniciais;

• fn → Funcao que deve ser maximizada;

• method → Metodo de maximizacao, neste caso usamos “BFGS”;

• hessian → Se voce deseja obter a matriz Hessiana, necessaria para obter o E.P.;

• control → Lista de opcoes do optim. Como o optim minimiza a funcao objetivo

por padrao, devemos usar a opcao fnscale=-1 para maximizar a funcao.

Para a funcao optim precisamos ainda definir o data.frame de dados D que deve

conter o tempo de vida e o indicador de falha nas duas primeira colunas com os nomes

t e c. As covariaveis que serao utilizadas sao postas nas demais colunas (obs.: apenas

as covariaveis utilizadas). Definimos tambem o valor de q.

fim=optim(par=pars,fn=loglinkGG,D=dados,q=0,method="BFGS",hessian=T,control = list(fnscale=-1))

O valor de ”value” corresponde ao valor maximizado do logaritmo da funcao de

verossimilhanca.

Os comandos a seguir correspondem ao metodo descrito na secao 4.4.

#Primeiro criamos alguns objetos com valores nulos para serem usados adiante

fim=valores=j=NULL

#Definimos uma variavel para armazenar o maior valor de \textit{"value"},

#com um valor inicial de menos infinito

valor=-Inf

#Criamos um laco de repetic~ao para diferentes valores de q entre -3 e 3

for (i in (seq(-3,3,0.1))) {

#Em cada repetic~ao tenta-se executar o optim para os diferentes valores de q

#Caso algum erro de convergencia ocorra o laco n~ao e quebrado devido a func~ao try

out=try(optim(par=inicial,q=i,fn=loglinkLGG,D=dados,method=’BFGS’

,hessian=T,control = list(fnscale=-1)),T)

A.2 MTFA l.g.g com Modelo de Mistura Padrao 44

#Se a resposta n~ao for um erro, verifica-se se este e o maior valor obtido

#Se sim, e armazenado value, q e os parametros obtidos

if (!inherits(out,"try-error")) {

if (out$value >valor) {valor=out$value;fim=out}

j=c(j,i);valores=c(valores,out$value)

#Durante a execuc~ao e mostrado a construc~ao do grafico

plot(j,valores,type=’b’,xlab=’Parametro q’,ylab=expression(L[max](q)))

}

}

#Por fim e apresentado todos os valores de q em ordem da log-verossimilhanca associada

(V=data.frame(valores,j)[order(valores),])

Por fim sumarizamos os resultados com os comandos.

EMV = round(fim$par,4)

EP = round(sqrt(-(diag(solve(fim$hessian)))),4)

z = round(fim$par/EP,4)

pvalor = round(1-pchisq(z^2,1),5)

res=as.data.frame(cbind(EMV,EP,pvalor))

names(res)= c("Estimativa","E.P.","p.valor(Wald)")

res

A.2 MTFA l.g.g com Modelo de Mistura Padrao

Lmp=function(z,thx,sig,q,D) if

(q>0) sum(D$c*(log(1-thx)

+log(((abs(q)/(gamma(q^-2))*(q^-2)^(q^-2)*exp((z/q)-(q^-2)*exp(q*z)))))

-log(sig))+(1-D$c)*log(thx+(1-thx)* Rgamma(q^-2,(q^-2)*exp(q*z), lower=F))) else if

(q<0) sum(D$c*(log(1-thx)

+log(((abs(q)/(gamma(q^-2))*(q^-2)^(q^-2)*exp((z/q)-(q^-2)*exp(q*z)))))

-log(sig))+(1-D$c)*log(thx+(1-thx)*(1-Rgamma(q^-2,(q^-2)*exp(q*z), lower=F)))) else if

(q==0) sum(D$c*(log(1-thx)+log(dnorm(z))-log(sig))+(1-D$c)*log(thx+(1-thx)*(1-pnorm(z))))

################################################################################

loglinkMP= function (par,D,q) {





A.3 MTFA l.g.g com Modelo de Tempo de Promocao 45


sig=par[length(D)]

G=par[(length(D)+1):((length(D))+length(B))]


thx=exp(A%*%G)/(1+exp(A%*%G))

if (sig>0 ) Lmp(z,thx,sig,q,D) else NA

################################################################################

pars=c(ajust$coefficients,ajust$scale,rep(0,length(ajust$coefficients)))

names(pars)=c(paste("beta",names(ajust$coefficients))

,"sigma",paste("gama",names(ajust$coefficients)))

################################################################################

fim=valores=j=NULL;valor=-Inf

for (i in (seq(-3,3,.1)) ) {

out=try(optim(par=pars,q=i,fn=loglinkMP,D=dados,method=’BFGS’,hessian=T,control =

list(fnscale=-1)),T)




plot(j,valores,type=’b’,xlab=’q’,ylab=expression(L[max](q)))

}

}

(V=cbind(valores,j)[order(valores),])

################################################################################







res

A.3 MTFA l.g.g com Modelo de Tempo de Pro-

mocao

Ltp=function(z,thx,sig,q,D) if

(q>0) sum(D$c*(log( q/(sig*gamma(q^-2))*(q^-2)^(q^-2))+log(thx)+z/q-(q^-2)*exp(q*z)))

- sum(thx*(1-Rgamma(q^-2,(q^-2)*exp(q*z), lower=F))) else if


(q<0) sum(D$c*(log(-q/(sig*gamma(q^-2))*(q^-2)^(q^-2))+log(thx)+z/q-(q^-2)*exp(q*z)))

- sum(thx*( Rgamma(q^-2,(q^-2)*exp(q*z), lower=F))) else if

(q==0) sum(D$c*log(thx*dnorm(z)/sig)) - sum(thx*(pnorm(z)))

################################################################################

loglinkTP= function (par,D,q) {






sig=par[length(D)]

G=par[(length(D)+1):((length(D))+length(B))]


thx=exp(A%*%G)

if (sig>0) Ltp(z,thx,sig,q,D) else NA

}

################################################################################

pars=c(ajust$coefficients,ajust$scale,rep(0,length(ajust$coefficients)))

names(pars)=c(paste("beta",names(ajust$coefficients))

,"sigma",paste("gama",names(ajust$coefficients)))

################################################################################

fim=valores=j=NULL;valor=-Inf

for (i in (seq(-3,3,0.1)) ) {

out=try(optim(par=pars,q=i,fn=loglinkTP,D=dados,method=’BFGS’,hessian=T,control =

list(fnscale=-1, ndeps=rep(1e-3,length(ajust$coefficients)*2+1))),T)




plot(j,valores,type=’b’,xlab=’Parametro q’,ylab=expression(L[max](q)))

}

}

(V=data.frame(valores,j)[order(valores),])

################################################################################








res

Apendice B

Demonstracoes

B.1 Funcao de sobrevivencia populacional

Sp(t) = P (T ∗ > t) = P (T ∗ > t,M ≥ 0)

= P (min{Z0, Z1, . . . , ZM} > t,M ≥ 0)

= P (Z0 > t,M = 0) + P (min{Z0, Z1} > t,M = 1)

+ · · ·+ P (min{Z0, Z1, . . . , Zm} > t,M = m) + · · ·

= P (Z0 > t|M = 0)P (M = 0) + P (min{Z0, Z1} > t|M = 1)P (M = 1) + · · ·

+P (min{Z0, Z1, . . . , Zm} > t|M = m)P (M = m) + · · ·

= P (Z0 > t|M = 0)p(0) + P (Z0 > t, Z1 > t|M = 1)p(1)

+ · · ·+ P (Z0 > t, Z1 > t, . . . , Zm > t|M = m)p(m) + · · ·

= p(0) + P (Z1 > t)p(1) + P (Z1 > t)P (Z2 > t)p(2) + · · ·

+P (Z1 > t)P (Z2 > t)× · · · × P (Zm > t)p(m) + · · ·

= p(0) + S(t)p(1) + S(t)2p(2) + · · ·+ S(t)mp(m) + · · ·

=∑∞

m=0 p(m)(S(t))m = A(S(t)).

48

B.2 Casos particulares do Modelo Unificado 49

B.2 Casos particulares do Modelo Unificado

B.2.1 Modelo de Mistura Padrao

Se M tem uma distribuicao Bernoulli(1− θ) entao

p(m) = (1− θ)mθ1−m, m = 0, 1. (B.1)

(a) Sp(t) = θ + (1− θ)S(t) ;

De (3.4) e (B.1) temos

Sp(t) =∑∞

m=0 p(m)(S(t))m

=∑1

m=0 (1− θ)mθ1−m(S(t))m

= θ + (1− θ)S(t)

B.2.2 Modelo de Tempo de Promocao

Se M tem uma distribuicao Poisson(θ) entao

P (m) =e−θθm

m!m = 0, 1, 2, ... (B.2)

(a) Sp(t) = e−θ(1−S(t)) ;

De (3.4) e (B.2) temos

Sp(t) =∑∞

m=0 p(m)(S(t))m

=∑∞

m=0e−θθm

m!(S(t))m

= e−θ (θS(t))m

m!

= e−θeθS(t)

= e−θ(1−S(t))

Referencias

J. Berkson and R.P. Gage. Survival curve for cancer patients following treatment.

Journal of the American Statistical Association, 1952.

J.W. Boag. Maximum likelihood estimates of the proportion of patients cured by

cancer therapy. Journal of the Royal Statistical Society. Series B (Methodolog-

ical), 1949.

M.H. Chen, J.G. Ibrahim, and D. Sinha. A New Bayesian Model for Survival Data

with a Surviving Fraction. Journal of the American Statistical Association,

1999.

D.R. Cox. Regression models and life-tables. Journal of the Royal Statistical So-

ciety. Series B (Methodological), 1972.

J Doornik. Ox: Object oriented matrix programming language, 2001.

Stefan Evert and Marco Baroni. zipfR: Statistical models for word frequency dis-

tributions, 2008. URL http://zipfR.R-Forge.R-project.org/. R package

version 0.6-5.

V.T. Farewell and R.L. Prentice. A study of distributional shape in life testing.

1977.

W. Feller. An introduction to probability theory and its applications. Wiley-India,

2008.

J.G. Ibrahim, M.H. Chen, and D. Sinha. Bayesian survival analysis. Encyclopedia

of Biostatistics, 2001.

50


J.G. Ibrahim, M.H. Chen, and D. Sinha. Bayesian survival analysis. Wiley Online

Library, 2005.

E. L. Kaplan and Paul Meier. Nonparametric estimation from incomplete obser-

vations. Journal of the American Statistical Association, 1958.

J.F. Lawless. Inference in the generalized gamma and log gamma distributions.

Technometrics, 1980.

JF Lawless. Statistical models and methods for lifetime data. 1982. Wiley New

York, 1982.

C.P.C. de Macedo and D.M. Valenca. Aplicacao do Modelo de Cox Para Identificar

Fatores de Risco em Pacientes com Cancer de Mama. Revista Brasileira de

Estatıstica, 2009.

R.A. Maller and X. Zhou. Survival analysis with long-term survivors. Wiley New

York, 1996.

R.G. Miller, G. Gong, and A. Munoz. Survival analysis. Wiley New York, 1981.

J.A. Nelder and R.W.M. Wedderburn. Generalized linear models. Journal of the

Royal Statistical Society. Series A (General), 1972.

Edwin Ortega, Vicente Cancho, and Gilberto Paula. Generalized log-gamma re-

gression models with cure fraction. Lifetime Data Analysis, 2009.

W.W. Piegorsch. Maximum likelihood estimation for the negative binomial dis-

persion parameter. Biometrics, 1990.

R.L. Prentice. A log gamma model and its maximum likelihood estimation.

Biometrika, 1974.

R Development Core Team. R: A Language and Environment for Statistical Com-

puting. R Foundation for Statistical Computing, Vienna, Austria, 2011. URL

http://www.R-project.org/.


J. Rodrigues, VG Cancho, and M. de Castro. Teoria unificada de analise de sobre-

vivencia. ABE-Associacao Brasileira de Estatıstica, 18o SINAPE-Sao Pedro-

Sao Paulo, 2008.

Josemar Rodrigues, Vicente G. Cancho, Mrio de Castro, and Francisco Louzada-

Neto. On the unification of long-term survival models. Statistics & Probability

Letters, 2009.

K. Saha and S. Paul. Bias-corrected maximum likelihood estimator of the negative

binomial dispersion parameter. Biometrics, 2005.

EW Stacy. A generalization of the gamma distribution. The Annals of Mathemat-

ical Statistics, 1962.

D.M. Valenca. O modelo de regressao gama generalizada para discriminar entre

modelos parametricos de tempo de vida. Universidade Estadual de Campinas

. Instituto de Matematica, Estatıstica e Computacao Cientıfica, 1994.

A.Y. Yakovlev, B. Asselain, VJ Bardou, A. Fourquet, T. Hoang, A. Rochefediere,

and AD Tsodikov. A simple stochastic model of tumor recurrence and its ap-

plication to data on premenopausal breast cancer. Biometrie et analyse de

donnees spatio-temporelles, 1993.

K. Yamaguchi. Accelerated Failure-Time Regression Models with a Regression

Model of Surviving Fraction: An Application to the Analysis of ”Permanent

Employment”in Japan. Journal of the American Statistical Association, 1992.

Documents

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO … · A Nara Ang elica e a toda fam lia Mesquita por serem como uma fam lia pra mim nessa etapa nal do trabalho. Aos meus amigos