24
0 La revolución de los datos Descubriendo un mundo jerárquico: del caos de los datos a un mundo de grafos

La revolución de los datos Descubriendo un mundo

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: La revolución de los datos Descubriendo un mundo

0

La revolución de los datos

Descubriendo un mundo jerárquico: del caos de los

datos a un mundo de grafos

Page 2: La revolución de los datos Descubriendo un mundo

1

Estado del Arte en IA

Page 3: La revolución de los datos Descubriendo un mundo

2

¿Por qué el avance de IA en Salud?

Cambio en el paradigma de

interacción Usuario-Sistemas

El conocimiento: un nuevo mundo

jerárquico a explorar desde los

datos.

Page 4: La revolución de los datos Descubriendo un mundo

3

MEDICAL INTERFACE Human – Computers interaction

Tables – Fields

Relational Structure

Slow and Tedious

CLASSICAL REPORT

Codificación

Agregación

Calidad del Dato

Page 5: La revolución de los datos Descubriendo un mundo

4

MEDICAL INTERFACE New Human –Compute interaction

Tables – Fields

Relational Structure

Slow and Tedious

CLASSICAL REPORT

Codificación

Agregación

Calidad del Dato

Page 6: La revolución de los datos Descubriendo un mundo

5

El Problema del Preprocesado

Text Mining / Process Mining / Object Mining

Metodología de Implantación proyectos IA Calidad de los Datos NLP Semántica

Page 7: La revolución de los datos Descubriendo un mundo

6

Problemas en la Anotación

¿Solución?

-¿Se anotan correctamente los Diagnósticos, Tratamientos, y Propiedades?

-¿Se anotan todos los conceptos relevantes?

-¿Es suficiente la información de dichos conceptos para codificarlos bajo un estándar, o se

necesita más información?

-¿Cuántos acrónimos existen, y están correctamente codificados?

-¿Cómo podemos contrastar dicha calidad de los datos de una manera objetiva y cuantificable?

-¿Existen términos incompletos, o ambiguos?

-¿Tienen todos los pacientes todo lo necesario para su clasificación?

La Calidad de los Datos

Page 8: La revolución de los datos Descubriendo un mundo

7

PROBLEMAS DE ETL Y CALIDAD DE LOS DATOS Calidad

Origen

-11.104 pacientes, 4.313 datos DNA

-2.485 Pacientes con Datos clínicos

88% En la Calidad de los Datos.

ClinicData2.0

TCGA_COD2

TCGA_LNC2

hypermutatedGenes

,020,040,060,080,0

100,0120,0140,0

ftcn

com

dbir

d_fn

dg

ba

cs_d

iap_ft

cn

hlc

a_q

lco

aa

pp_

bacs_p…

bir

d_ft

cn

_lb

pr

cell_

inp

r_lb

trdsyn_ft

cn

_m

…ftcn_

gen

f_id

cn

ge

nf_

gng

m_…

inbe

_org

a_t…

me

dd_

mn

ob…

pa

tf_p

odg

in documents

total

20 40 60 80 100 120

CompletitudProductiva

Consistencia

ValoresNulos

Atipicos

Extremos

CompletitudPaciente

IndicadorDeLaCalidadDelDato

Page 9: La revolución de los datos Descubriendo un mundo

8

TEXT ETL: CODIFICATION

PROBLEMS. Key: The Corpus Analysis. Example.

Inicial Revisados

Términos MAMA 90,5 92,1

Términos COLON 90,0 91,4

Términos Asociados 83,6 90,6

Conceptos Asociados 95,9 98,7

TNM (Conceptos) 42,2

TNM (Variaciones) 30,0

Nombres Cáncer (Conceptos) 78,0

Nombres Cáncer (Variaciones) 77,0

Accurancy 75(%)

0

10

20

30

40

50

60

70

80

90

100

Térm

ino

s M

AM

A

Térm

ino

s C

OL

ON

Térm

ino

s A

socia

dos

Co

ncepto

s A

socia

dos

TN

M (

Vari

acio

nes)

TN

M (

Concep

tos)

No

mbre

s C

áncer…

No

mbre

s C

áncer

(Con

ce

pto

s)

Inicial

Revisados

•Por proceso de expresiones regulares

(Empieza con M y termina en un

número)

Mg 10

Mg 8 •Error en tipo de concepto

(Tipo semántico incorrecto)

GII

RE + (100%

Metodología de Implantación proyectos IA Calidad de los Datos NLP Semántica

Page 10: La revolución de los datos Descubriendo un mundo

9

Metodología de Implantación proyectos IA Calidad de los Datos Estructurados: Matriz Paciente vs Indicadores

76 Indicadores (39% Completitud, 35% Consistencia)

6.2

58 p

acie

nte

s

Reducimos nuestro conjunto de datos al “n”% de Pacientes

con el 80 % de indicadores relevantes completos

Antes del Análisis de la Calidad de los Datos

La jerarquía en la información

Analítica avanzada sobre la tabla

Page 11: La revolución de los datos Descubriendo un mundo

10

EL PROBLEMA JERÁRQUICO DE LOS DATOS CLÍNICOS Semántica

La Información Clínica es Jerárquica

•Muchos campos poco informados, muy

particulares

•Pocos campos bien informados y

generales.

•Diferentes datos clínicos para cada

paciente

•La variabilidad es enorme.

486 atributos con una

distribución Zipf

Page 12: La revolución de los datos Descubriendo un mundo

11

JERARQUIA DE PERFILES Problemas ETL finales.

Jerarquía de la Información

Paciente: Propiedades Generales

(Edad, Sexo, ….) (CLINIC)

- Diagnósticos (NEOP)

Propiedades (Fecha)

- Acciones

•Tratamiento

(DRUG) •Propiedades

•Procedimiento •Propiedades

•Función Patológica •Propiedades

•Toxicidad •Propiedades

•Ocupación

Biomédica •Propiedades

Digital Model

•Dynamic / Flexible Interoperable

•Archetypes, multi-standard

(Snomed, UMLS, HL7, Mesh, Cie

...)

•Vertical in Context (semantics)

•Scalable and Immediate (Graphs,

non-sql, in-memory ...)

•Knowledge by Layers

•Pointer to other systems

Page 13: La revolución de los datos Descubriendo un mundo

12

THE SEMANTIC PROBLEM

Digital Model. Semantic Database

Metodología de Implantación proyectos IA Calidad de los Datos NLP Semántica

Modelo Digital del

Paciente

Un indexador único de la

información

•We need a Graph

model (Semantic

Database)

•The semantic

network is able to

reason

•Not a Relational

Database

Page 14: La revolución de los datos Descubriendo un mundo

13

THE SEMANTIC PROBLEM

VOLUMEN & LINKEDDATA

Metodología de Implantación proyectos IA Calidad de los Datos NLP Semántica

Knowledge is not Volumen

Knowledge is in

relationships

The Web as a Database : LinkedData

http://www.linkedlifedata.com/relfinder

Redes Convolucionales

Redes Semánticas

Page 15: La revolución de los datos Descubriendo un mundo

14

Semantic Learning Análisis directo sobre jerarquías de información

Page 16: La revolución de los datos Descubriendo un mundo

15

Redes Semánticas

PERFILADO TRATAMIENTOS

Page 17: La revolución de los datos Descubriendo un mundo

16

PERFILADO NEOP

Page 18: La revolución de los datos Descubriendo un mundo

17

PERFILADO ANALÍTICAS

Page 19: La revolución de los datos Descubriendo un mundo

18

THE SEMANTIC PROBLEM VOLUMEN & LINKEDDATA

Perfiles de

Tratamientos

Perfiles de Diagnósticos

Datos de

Radiología

Datos de

Seguimientos

Datos Generales del

Paciente

Perfiles de Analíticas Datos de DNA-Seq

Recom

endació

n d

e T

rata

mie

nto

s

Inferencia

Inferencia Inferencia

Agregación

Agregación

Page 20: La revolución de los datos Descubriendo un mundo

19

Segmentación de Pacientes II

Anomalías

Profiles (Clustering) Rules (Decision Tree)

Anomalies (LOF)

T1: Tratamientos muy largos en cirugías

/ trucut biopsia / Analgesia /Drenaje

/Anestesia

T2: Tratamientos muy largos en

procesos Tomografia Computerizada

T3: Tratamientos medios en general, y

largos respecto a Edemas y

procedimientos de exploración.

T1: Tratamientos cortos

T2: Tratamientos muy largos sólo

respecto a procedimientos de Márgenes

quirúrgicos, Disección de tejidos,

sangrados y Urología.

T3: Tratamientos muy largos sólo

respecto a tratamientos con

cyclophosphamina, procedimientos de

ileostomía, esplenectomía y amputación

Cluster0: Carcinomas con duración muy larga y neoplasmas secundarios

hepáticos largos (Principalmente Ductal_Carcinoma)

Cluster1: Diagnósticos de corta duración de todo tipo

Cluster2: Adenocarcinomas de duración larga y

neoplasmas secundarios hepáticos largos

Analítica sobre redes Semánticas

RECOMMENDATION OF THERAPEUTIC EFFICIENCY

Page 21: La revolución de los datos Descubriendo un mundo

20

Redes Convolucionadas. Deep Learning

Page 22: La revolución de los datos Descubriendo un mundo

21

Annotation

+

Semantic Relevance

+

Relationships

Profiles and Anomalies

Procesado de Lenguaje Natural en Salud Realidades. Proyecto Hedai. Servicios basados en el conocimiento

Recomendations

Summaries

Recomendaciones IA Efectivas.

Generalidad vs Especificidad.

Page 23: La revolución de los datos Descubriendo un mundo

22

IA en Salud

Process Miining

Perfilado (Clustering)

TextMining

DeepLearning

Semántica