38
1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini [email protected]

1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini [email protected]

Embed Size (px)

Citation preview

Page 1: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

1 de 38Rogerio Salvini (INF/UFG)

Mineração de Dados no Transtorno Afetivo Bipolar

Rogerio [email protected]

Page 2: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

2 de 38Rogerio Salvini (INF/UFG)

Tópicos

• Mineração de dados/KDD

• Programação Lógica Indutiva (ILP)

• Aplicações

Page 3: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

3 de 38Rogerio Salvini (INF/UFG)

KDD• Na realidade, Mineração de Dados é parte de

um processo maior, chamado Descoberta de Conhecimento em Bases de Dados (KDD) - apesar de alguns autores utilizarem o termo intercambiavelmente.

• KDD é o processo não-trivial de identificar em dados padrões que sejam válidos, novos (previamente desconhecidos), potencialmente úteis e compreensíveis, visando melhorar o entendimento de um problema ou um procedimento de tomada de decisão.

Page 4: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

4 de 38Rogerio Salvini (INF/UFG)

KDD• O processo de KDD é interativo, iterativo,

cognitivo e exploratório, envolvendo vários passos com muitas decisões sendo feitas pelo analista (que é um especialista do domínio dos dados, ou um especialista de análise dos dados):– compreender o domínio;– preparar o conjunto dos dados;– descobrir padrões (mineração de dados);– pós-processar os padrões descobertos, e– implantação do conhecimento descoberto.

Page 5: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

5 de 38Rogerio Salvini (INF/UFG)

KDD

Page 6: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

6 de 38Rogerio Salvini (INF/UFG)

Mineração de Dados

• Mineração de dados (DM) é a etapa responsável pela seleção dos métodos a serem utilizados para localizar padrões nos dados, seguida da efetiva busca por padrões de interesse numa forma particular de representação, juntamente com a busca pelo melhor ajuste dos parâmetros do algoritmo para a tarefa em questão.

Page 7: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

7 de 38Rogerio Salvini (INF/UFG)

Mineração de Dados• DM utiliza técnicas e algoritmos de diferentes áreas do

conhecimento, principalmente Inteligência Artificial (especialmente Aprendizagem de Máquina), Banco de Dados (recursos para manipular grandes bases de dados) e Estatística.

Page 8: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

8 de 38Rogerio Salvini (INF/UFG)

Aprendizado de máquina• Área da Inteligência Artificial que estuda

métodos computacionais para adquirir novos conhecimentos de forma automática

• Um sistema de Aprendizado de Máquina (ML) é um programa de computador que toma decisões baseado em experiências acumuladas contidas em casos resolvidos com sucesso

• Esses casos constituem o conjunto de exemplos de treinamento fornecidos ao algoritmo de aprendizado

Page 9: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

9 de 38Rogerio Salvini (INF/UFG)

Aprendizado supervisionado• No aprendizado supervisionado é fornecido ao

algoritmo de aprendizado um conjunto de exemplos de treinamento descritos por um vetor de valores de características, ou atributos, e pelo rótulo da classe associada

• Baseado no conjunto de treinamento o algoritmo de aprendizado induz a classificação de uma hipótese capaz de determinar corretamente a classe de novos exemplos ainda não rotulados

Page 10: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

10 de 38Rogerio Salvini (INF/UFG)

Linguagens de descrição• Ao solucionar problemas com o uso do

computador, é importante definir como traduzi-los em termos computacionais

• Linguagens de descrição são necessárias para descrever exemplos, hipóteses e conhecimento do domínio

• Em geral, essas linguagens podem ser divididas em dois tipos:– Baseada em atributo-valor ou proposicional– Relacional

Page 11: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

11 de 38Rogerio Salvini (INF/UFG)

Linguagens de descrição• O formato atributo-valor é a linguagem de descrição de

objetos mais frequentemente utilizada em ML

• Objetos, ou exemplos, são descritos em termos de atributos e valores desses atributos, por meio de um vetor, contendo valores para os atributos de um determinado exemplo e um rótulo que atribui uma classe ao exemplo

Page 12: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

12 de 38Rogerio Salvini (INF/UFG)

Linguagens de descrição• A descrição relacional é baseada na Linguagem

de Primeira Ordem da Lógica Clássica• Objetos são descritos em termos de seus

componentes e relações entre esses componentes

• Principais características:– Alta expressividade para representar conceitos– Capacidade de representação do conhecimento do

domínio (background knowledge)• Sistemas de aprendizado relacional

– Programação Lógica Indutiva (ILP)

Page 13: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

13 de 38Rogerio Salvini (INF/UFG)

Programação Lógica Indutiva• Programação Lógica Indutiva (ILP) é uma

área de interseção de pesquisas entre Aprendizado de Máquina e Programação Lógica

• ILP traz duas grandes vantagens:– produz classificadores que são de fácil

entendimento por especialistas– consegue resolver problemas de aprendizado

multi-relacional

Page 14: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

14 de 38Rogerio Salvini (INF/UFG)

Programação Lógica Indutiva• Sistemas ILP têm sido usados com sucesso

na extração de modelos relacionais de dados em áreas como:– Bioinformática– Engenharia– Processamento de Linguagem Natural– Meio Ambiente– Engenharia de Software– Aprendizado de Padrões e Link Discovery– Alias Identification

Page 15: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

15 de 38Rogerio Salvini (INF/UFG)

Programação Lógica Indutiva

• Dados:– um conjunto de exemplos positivos,– um conjunto de exemplos negativos,– a descrição destes exemplos (BK), e– um conjunto de restrições que define a forma como

um classificador deve ser construído

• Produzir um classificador representado em Lógica de Primeira Ordem, que prove todos os exemplos positivos e nenhum exemplo negativo

Page 16: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

16 de 38Rogerio Salvini (INF/UFG)

Trens de Michalski• A tarefa é encontrar uma regra capaz de

predizer, dada as propriedades dos seus vagões, se o trem está viajando para Leste

Page 17: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

17 de 38Rogerio Salvini (INF/UFG)

Trens de MichalskiConhecimento prévio (BK):

has_car(east1,car_11).shape(car_11,rectangle).open_car(car_11).long(car_11).load(car_11,rectangle,3).wheels(car_11,2). has_car(east1,car_12). short(car_12).closed(car_12)....short(car_14).

Page 18: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

18 de 38Rogerio Salvini (INF/UFG)

Trens de Michalski

Exemplos positivoseastbound(east1)

eastbound(east2)

eastbound(east3)

eastbound(east4)

eastbound(east5)

Exemplos negativoseastbound(west6)

eastbound(west7)

eastbound(west8)

eastbound(west9)

eastbound(west10)

Page 19: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

19 de 38Rogerio Salvini (INF/UFG)

Trens de Michalski

eastbound(A) :- has_car(A,B), short(B), closed(B).

Page 20: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

20 de 38Rogerio Salvini (INF/UFG)

Relação filha

• Um exemplo relacional simples é o aprendizado da relação filha(A,B), que estabelece que uma pessoa A é filha da pessoa B, em termos do conhecimento prévio das relações feminino e progenitor.

Page 21: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

21 de 38Rogerio Salvini (INF/UFG)

Relação filha

Exemplos positivosfilha(maria,ana)

filha(carol,jose)

Exemplos negativosfilha(jose,ana)

filha(carol,ana)

Conhecimento prévio (BK)progenitor(ana,maria) feminino(ana)

progenitor(ana,jose) feminino(maria)

progenitor(jose,carol) feminino(carol)

progenitor(jose,carlos)

Page 22: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

22 de 38Rogerio Salvini (INF/UFG)

Relação filha

• Assim, é possível induzir a seguinte hipótese:filha(A,B) :-

feminino(A), progenitor(B,A).

• que é interpretada como:A é filha de B se A é do sexo feminino e B é

progenitor de A.

Page 23: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

23 de 38Rogerio Salvini (INF/UFG)

Protein• Predizer quais genes codificam para proteínas

envolvidas no metabolismo.

• Conhecimento prévio do gene “G235580”:

chromosome('G235580','11')complex('G235580','Respiration chain complexes')essential('G235580','Non-Essential')interaction('G235580','G236280','Physical', '0.342639674')

motif('G235580','PS00504')phenotype('G235580','"Auxotrophies, carbon and"')

Page 24: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

25 de 38Rogerio Salvini (INF/UFG)

• Regra gerada:

metabolism(A) :- phenotype(A,'"Auxotrophies, carbon and"'), interaction(A,B,_,_), essential(B,'Non-Essential'), chromosome(B,'4').

que pode ser interpretada como:

O gene A está envolvido no metabolismo seA tem fenótipo "Auxotrophies, carbon and" eA interage com um gene B eB não é essencial eB está no cromossomo 4

Protein

Page 25: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

26 de 38Rogerio Salvini (INF/UFG)

• Banco de dados relacional real de mamografias, extraída do "National Mammography Database" (NMD) americano em um trabalho conjunto com a Universidade de Wisconsin-Madison

• 47669 exames de 18270 pacientes• 435 anormalidades malignas e 65365

anormalidades benignas num total de 65800 exemplos

• Tarefa: predizer se uma anormalidade é maligna

Mamografias

Page 26: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

27 de 38Rogerio Salvini (INF/UFG)

Breast Imaging Reporting and Data System(BI-RADS)

Categoria Significado

BI-RADS 0 Necessita imagem adicional

BI-RADS 1 Negativo

BI-RADS 2 Benigno

BI-RADS 3 Provavelmente benigno

BI-RADS 4 Suspeito

BI-RADS 5 Altamente sugestivo de malignância

Page 27: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

28 de 38Rogerio Salvini (INF/UFG)

Glossário BI-RADS(43 descritores organizados hierarquicamente)

Page 28: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

29 de 38Rogerio Salvini (INF/UFG)

Mamografias

• O sistema ILP gerou várias regras, de onde um radiologista especialista identificou duas potencialmente interessantes.

• Estas regras foram:

Page 29: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

30 de 38Rogerio Salvini (INF/UFG)

Regra 1is_malignant(A) :-

'BIRADS_category'(A,b5), 'MassPAO'(A,present),

'Age'(A,age6570),

previous_finding(A,B,C), 'MassesShape'(B,none),

'Calc_Punctate'(B,notPresent),

previous_finding(A,C), 'BIRADS_category'(C,b3).

Page 30: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

31 de 38Rogerio Salvini (INF/UFG)

Regra 1• Esta regra declara que se um achado (A) era:

– classificado como BI-RADS 5,– tinha uma massa presente

• em um paciente que:– tinha idade entre 65 e 70– tinha duas mamografias anteriores (B, C)

• e a mamografia anterior (B):– não tinha forma de massa descrita– não tinha calcificações pontuadas

• e a mamografia anterior (C):– foi classificada como BI-RADS 3

• então ele é maligno.

Page 31: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

32 de 38Rogerio Salvini (INF/UFG)

Regra 1• Esta regra é interessante pois ela acha um

relacionamento entre um achado malígno em um paciente que teve uma anormalidade anterior julgada como provavelmente benigna.

• Isto pode representar um atraso no diagnóstico se a anormalidade interpretada como provavelmente benigna corresponde à achada depois diagnosticada como câncer.

Page 32: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

33 de 38Rogerio Salvini (INF/UFG)

Regra 2is_malignant(A) :-

'BIRADS_category'(A,b5),'MassPAO'(A,present),'MassesDensity'(A,high),'HO_BreastCA'(A,hxDCorLC),in_same_mammogram(A,B),'Calc_Pleomorphic'(B,notPresent),'Calc_Punctate'(B,notPresent).

Page 33: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

34 de 38Rogerio Salvini (INF/UFG)

Regra 2• Esta regra declara que se o achado (A) era:

– classificado como BI-RADS 5,– tinha uma massa presente– tinha uma massa com alta densidade

• em um paciente que:– tinha um histórico anterior de câncer de mama– tinha um achado extra na mesma mamografia (B)

• e o achado extra (B):– não tinha microcalcificações pleomórficas– não tinha calcificações pontuadas

• então ele é maligno.

Page 34: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

35 de 38Rogerio Salvini (INF/UFG)

Regra 2

• Esta regra é interessante pois ela acha um relacionamento entre malignância e alta densidade de massas.

• Em geral, densidade de massa não tinha sido anteriormente pensada como sendo uma característica altamente preditiva.

Page 35: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

36 de 38Rogerio Salvini (INF/UFG)

Transtorno Afetivo Bipolar (TAB)

• Projeto PROMAN

• Dados longitudinais de 150 pacientes

Masculino Feminino TOTAL

TAB I 70 (88,6%) 147 (89,1%) 217 (88,9%)

TAB II 9 (11,4%) 18 (10,9%) 27 (11,1%)

Total 79 (100%) 165 (100%) 244 (100%)

Page 36: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

37 de 38Rogerio Salvini (INF/UFG)

Transtorno Afetivo Bipolar (TAB)• Dados Iniciais: 284 variáveis

– sócio-demográficas– história clínica geral– história clínica TAB– SCID – comorbidade psiquiátricas (atual e passado)– avaliação de estado do humor (depressão e mania)– qualidade de vida

• Dados de Seguimento– 36 variáveis categóricas de estado de humor – DSMV – depressão,

mania, categoria do episódio, medicamentos – fármaco e dose– Escala de depressão do humor: HAMILTON (17, 21 e 31 itens –

escores de 0-4; 0-2)– Escala de Mania: YOUNG (11 itens – 0-8; 0-4)– Critérios do DSM-IV– Conduta

Page 37: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

38 de 38Rogerio Salvini (INF/UFG)

Page 38: 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini rogeriosalvini@inf.ufg.br

39 de 38Rogerio Salvini (INF/UFG)