32
Journées MaDICS – Atelier QUALIMADOS Cédric PRUSKI Marseille, le 23 juin 2017 GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le projet

GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

  • Upload
    vuxuyen

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

Page 1: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

Journées MaDICS – Atelier QUALIMADOS

Cédric PRUSKI

Marseille, le 23 juin 2017

GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE

Le projet

Page 2: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

2

ILLUSTRATION DU PROBLÈME

malignancyMalignant

neoplasm

O2016 O2017

malignancy

malignancy

malignancy

Malignant

neoplasm

evolution

malignancy

malignancy

Importance de générer des

annotations cohérentes et de

bien les faire évoluer au cours

du temps

Page 3: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

1. Modèle d’annotation sémantique

2. Méthode pour la génération d’annotations sémantiques

3. Mesure de l’impact de l’évolution des RTOs sur les annotations sémantiquesa) Méthodeb) Résultats expérimentaux

4. Travaux existants

5. L’approche de maintenance des annotations sémantiques

6. Travaux en cours

7. Conclusion

PLAN DE L’EXPOSÉ

3

Page 4: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

MODÈLE POUR DÉCRIRE LES ANNOTATIONS SÉMANTIQUES

4

Page 5: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

���: ���. �

� �: ����������

Melanoma is a malignant tumor of melanocytes which are found predominantly in skinbut also in the boweland the eye.

��

���

� ��…��

[113,116]

����� = equivalent

21

eyeNotes

! = title

" = Added

title

#$ % 231

concept/�

Text

MODÈLE D’ANNOTATION SÉMANTIQUE

�!0 % 1#$, ���, �� , �334�5, ", !, �676�, 89:

Page 6: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

GÉNÉRATION DES ANNOTATIONS SÉMANTIQUES

6

Page 7: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

MÉTHODE POUR LA GÉNÉRATIOND’ANNOTATIONS SÉMANTIQUES

7

Prétraitement

Normalisation

Etiquetage,

Génération de candidat

1) Réutilisation des annotations de AC

2) Appariement des questions non annotées

Post-traitement

Sélection suivant le contexte

Formulaires;1. . ;<

Annotations

ℳ>?,@ABC

…ℳ>�,@ABC

Cluster d‘Annotations

AC

UMLS

Christen, V., Groß, A., Rahm, E. A Reuse-based Annotation Approach for Medical Documents. In

International Semantic Web Conference, ISWC 2016, Kobe, Japan.

Page 8: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

Jeu de données 2:

39,1%

46,7%50,7%

42,2% 42,1% 42,6%

30%

40%

50%

60%

70%

0.7 0.6 0.6 0.6 0.7 0.8

baseline ECRD1 ECRD2 MetaMap

57,5% 58,0% 59,0%

40,3%44,8% 44,2%

30%

40%

50%

60%

70%

0.7 0.6 0.6 0.6 0.7 0.8

baseline QARD1 QARD2 MetaMap

precision

recall

F-measure

Gain de 10% et 8% (baseline et MetaMap)

Gain de 3% par rapport à la baseline

Jeu de données 1:

baseline et réutilisation

permettent un gain >13% /

MetaMap

Page 9: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

MESURE DE L’IMPACT DE L’ÉVOLUTIONDES RTO SUR LES ANNOTATIONS

SÉMANTIQUES

9

Page 10: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

TREC: 5000 articles

1

Documents à

annoterCIM-9-CM 2002 - 2011

MeSH2002 - 2013

SNOMED CT 2009 - 2015

2

KOSOutils

d’annotation

3

Stockage

Annotations

! % D��EFFEG % D��EFFH

R % 1! J G) + (G J !:

Différence

4

COntoDiff/CODEX

Changements

ontologiquesResultats

Correlation entre changementsontologiques et changements des

annotations

Methodologie

1. Choix des documents

2. Annotations des documents

3. Stockage des annotations

4. Analyse des annotations

IMPACT DE L’ÉVOLUTION DES RTO SUR LES ANNOTATIONS SÉMANTIQUES

Page 11: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

IMPACT DE L’ÉVOLUTION DES RTO SUR LES ANNOTATIONS SÉMANTIQUES

11

Page 12: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

IMPACT DE L’ÉVOLUTION DES RTO SUR LES ANNOTATIONS SÉMANTIQUES

12

Cardoso, S. D., et al. (2016). Leveraging the impact of ontology evolution on semantic annotations.

In Knowledge Engineering and Knowledge Management - 20th International Conference, EKAW

2016, Bologna, Italy, November 19-23, 2016, Proceedings, pages 68–82.

Page 13: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

• Principales contraintes à prendre en compte:• Une approche manuelle pour la maintenance est irréaliste vu le nombre d’annotations

à adapter• Les documents annotés ne sont pas tous accessibles (ex: dossier patient)• Dans certains cas les annotations ne sont pas modifiables• Certaines RTOs ne sont pas exprimées dans des langages formels pour utiliser des

techniques de raisonnement (ex: CIM 10, MeSH …)

Question de recherche

PROBLÈMATIQUE

13

Comment adapter automatiquement les annotations sémantiques impactées par l’évolution des RTOs sous-jacentes

sans ré-annoter la totalité des documents?

Comment adapter automatiquement les annotations sémantiques impactées par l’évolution des RTOs sous-jacentes

sans ré-annoter la totalité des documents?

Page 14: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

ÉTAT DE L’ART

14

Page 15: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

TRAVAUX EXISTANTS

15

Détection automatique des annotations incohérentes

Détection automatique et correction manuelle des

annotations

Détection et correction automatique des

annotations

• Identification des annotations invalides

• Pas de corrections de ces annotations

• Seuls les changements ontologiques simples sont pris en compte

• Spécifiques au domaine• Utilisation des techniques

de raisonnement

(Eilbeck et al., 2009)(Qin and Atluri, 2009)

(Kopke and Eder, 2011)(Zavalina et al., 2015)

(Maynard et al., 2007)(Auer and Herre, 2007) (Burger et al., 2010)

(Abgaz, 2013)

(Luong and Dieng-Kuntz, 2006)

(Tissaoui et al., 2011) (Park et al., 2011)

(Frost and Moore, 2014)

Page 16: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

MAINTENANCE DES ANNOTATIONS SÉMANTIQUES

16

Page 17: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

DEUX CAS DE FIGURE

17

• Maintenance directe des annotations:• Les annotations sont modifiables directement• Les documents annotés sont accessibles

• Maintenance indirecte des annotations:• Les annotations sont accessibles mais ne peuvent pas

être modifiées• Les documents annotés ne sont pas consultables� Préserver l’utilisabilité des données annotées

Cardoso, S. D., et al. (2017). Towards a Multi-level Approach for the Maintenance of Semantic

Annotation, In HEALTHINF 2017, Porto, Portugal, February 19-23, 2017

Page 18: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

1ER CAS: MAINTENANCE DIRECTE

18

Entrés

Annotations;

Chgtontologiques;

ontologies;

Informations externes;

Processus Sorties

Identification des annotations invalides

Application de règles sur les données

locales

Utilisation des ressources externes

Application des patrons de

changement

Annotations invalides

Identification des

annotations

invalides

Annotations corrigées

Annotations à raffiner

Correction par

application des règles

Annotations corrigées

Annotations à raffiner

Correction en utilisant

des connaissances

externes

Annotations corrigées

Annotations invalides

Correction par

application des patrons

de changement

Annotations valides

Page 19: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

• MergeAnnot: Fusion de deux annotations dans la nouvelle version• IncreaseAnnot: Augmentation de la quantité d’information à annoter• ResurrectAnnot: Reconsidération d’une annotation supprimée dans la précédente version

• PluralAnnot: Considération des pluriels/singuliers

• ChangeConceptAnnot: Changement du concept pour annoter• SplitAnnot: Eclatement de l’annotation

• SuperClassAnnot: Utilisation du super concept pour annoter

• L’application des règles se fait suivant le guide des bonnes pratiques pour l’annotation

Dogan et. al. “NCBI disease corpus: a resource for disease name recognition and concept normalization.”

RÈGLES

19

Page 20: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

MergeAnnot

EXEMPLE DE RÈGLE

20

diabetes mellitus and pregnancy-induced hypertension . Apgars were

D011247 D006973

diabetes mellitus and pregnancy-induced hypertension . Apgars were

D046110

MeSH 2009

MeSH 2010

Page 21: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

1ER CAS: MAINTENANCE DIRECTE

21

Entrés

Annotations;

Chgtontologiques;

ontologies;

Informations externes;

Processus Sorties

Identification des annotations invalides

Application de règles sur les données

locales

Utilisation des ressources externes

Application des patrons de

changement

Annotations invalides

Identification des

annotations

invalides

Annotations corrigées

Annotations à raffiner

Correction par

application des règles

Annotations corrigées

Annotations à raffiner

Correction en utilisant

des connaissances

externes

Annotations corrigées

Annotations invalides

Correction par

application des patrons

de changement

Annotations valides

Page 22: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

• Les étiquettes des concepts peuvent ne pas avoir de lien syntaxique avant et après évolution• Ex: Cancer Malignant neoplasm

• Besoin de considérer des aspects liés à la sémantique des concepts• Utilisation du Web Sémantique pour caractériser l’évolution des concepts

• Dans le domaine de la santé nous pouvons utiliser les ontologies et alignements contenus dans Bioportal

• Nous sommes capable d’identifier si un concept:• Reste équivalent, devient plus ou moins spécifique, sont reliés par une relation

indéfinie

Données du Web Sémantique

UTILISATION DE RESSOURCES EXTERNES

22

Page 23: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

23

“Pituitary dwarfism”

(MeSH)

“Pituitary dwarfism II”

(MeSH)

SNOMED CT,

ICD9CM, MEDDRA,

NCIT, DOID, RCD, HP,

DERMLEX, NATPRO,

CRISP, SOPHARM,

BDO, SNMI

OMIM

NDFRT

Recherche dans les ontologies

Pas d’ontologie en commun

Utilisation des alignements

sémantiques

15 mappings disponibles

(OMIM ontology)

“Pituitary dwarfism II” (OMIM)

Aligné avec

“Laron-type isolated somatotropin defect” (SNOMED CT)

SNOMED CT est l’ontologie commune

“Laron-type isolated somatotropin defect” et“Pituitary

dwarfism” ont le même super-concept (“short stature

disorder”) ils sont frères

1 1

2

(Méthode directe)

(Méthode indirecte

3

Recherche dans les ontologies

Page 24: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

1ER CAS: MAINTENANCE DIRECTE

24

Entrés

Annotations;

Chgtontologiques;

ontologies;

Informations externes;

Processus Sorties

Identification des annotations invalides

Application de règles sur les données

locales

Utilisation des ressources externes

Application des patrons de

changement

Annotations invalides

Identification des

annotations

invalides

Annotations corrigées

Annotations à raffiner

Correction par

application des règles

Annotations corrigées

Annotations à raffiner

Correction en utilisant

des connaissances

externes

Annotations corrigées

Annotations invalides

Correction par

application des patrons

de changement

Annotations valides

Page 25: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

• Définition de patrons de changement:• Lexicaux• Sémantiques

• Le but est d’être capable d’identifier comment les concepts d’une ontologie ont évolué et quel est le résultat (en termes de sémantique) de cette évolution

• Analyse du contexte d’un concept avant et après évolution:• Super-concepts, sous-concepts et concepts frères

• Utilisation de cette information pour maintenir les annotations sémantiques

Patrons de changement

1ER CAS: MAINTENANCE DIRECTE

25

Dos Reis, J. C., et al. (2015). Recognizing lexical and semantic change patterns in evolving life science

ontologies to inform mapping adaptation, In AIIM journal, 63(3), pp 153-170

Page 26: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

Evaluation

1ER CAS: MAINTENANCE DIRECTE

26

Page 27: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

Evaluation

1ER CAS: MAINTENANCE DIRECTE

27

Page 28: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

• Maintenance indirecte des annotations:• Les annotations sont accessibles mais ne peuvent pas être modifiées• Les documents annotés ne sont pas consultables� Préserver l’utilisabilité des données annotées

• Définir une approche permettant la recherche d’information annotée avec une ancienne version d’une ontologie

• Idée: Ajouter les informations provenant de l’évolution des ontologies au niveau des requêtes

2eme cas: Maintenance indirecte

TRAVAUX EN COURS

28

Page 29: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

• Importance de considérer des annotations capables de bien évoluer au cours du temps

• Une approche pour la maintenance des annotations sémantiques:• A base de règle,• Exploitant les données du Web Sémantique• Utilisant les patrons de changement

• Perspectives:• Conceptualisation de l’approche indirecte pour la maintenance des annotations

sémantiques• Utilisation des techniques d’apprentissage pour optimiser les processus de

génération et d’adaptation des annotations

CONCLUSION

29

Page 30: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

• Cardoso, S. D., Pruski, C., Silveira, M. D., Lin, Y., Groß, A., Rahm, E., and Reynaud-Delaître, C. (2016). Leveraging the impact of ontology evolution on semantic annotations. In Knowledge Engineering and Knowledge Management - 20th International Conference, EKAW 2016, Bologna, Italy, November 19-23, 2016, Proceedings, pages 68–82.

• Eilbeck, K., Moore, B., Holt, C., and Yandell, M. (2009). Quantitative measures for the management and comparison of annotated genomes. BMC Bioinformatics, 10(1):67.

• Qin, L. and Atluri, V. (2009). Evaluating the validity of data instances against ontology evolution over the semantic web. Information and Software Technology, 51(1):83 – 97.

• Köpke, J. and Eder, J. (2011). Semantic invalidation of annotations due to ontology evolution. In Meersman, R., Dillon, T., Herrero, P., Kumar, A., Reichert, M., Qing,L., Ooi, B.-C., Damiani, E., Schmidt, D., White, J., Hauswirth, M., Hitzler, P., and Mohania, M., editors,Onthe Move to Meaningful Internet Systems: OTM 2011, volume 7045 of Lecture Notes in Computer Science, pages 763–780. Springer Berlin Heidelberg.

• Zavalina, O. L., Kizhakkethil, P., Alemneh, D. G., Phillips, M. E., and Tarver, H. (2015). Building a framework of metadata change to support knowledge management.Journal of Information & Knowledge Management, 14(01):1550005.

• Maynard, D., Peters, W., and Sabou, M. (2007). Change management for metadata evolution.

• Auer, S. and Herre, H. (2007). A Versioning and Evolution Framework for RDF Knowledge Bases, pages 55–69. Springer Berlin Heidelberg, Berlin, Heidelberg.

RÉFÉRENCES

30

Page 31: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

• Burger, T., Morozova, O., Zaihrayeu, I., Andrews, P., and Pane, J. (2010). Report on methods and algorithms for linking user-generated semantic annotations to semantic web and supporting their evolution in time.

• Abgaz, Y. M. (2013). Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University.

• Luong, P.-H. and Dieng-Kuntz, R. (2006). A rule-based approach for semantic annotation evolution in the coswem system. In Canadian Semantic Web, volume 2 of Semantic Web and Beyond, pages 103–120. Springer US.

• Tissaoui, A., Aussenac-Gilles, N., Hernandez, N., and Laublet, P. (2011). Evonto - joint evolution of ontologies and semantic annotations. In Dietz, J., editor, International Conference on Knowledge Engineering and Ontology Development (KEOD), Paris, 26/10/2011-29/10/2011, pages 226–231.

• Park, Y. R., Kim, J., Lee, H. W., Yoon, Y. J., and Kim, J. H. (2011). Gochase-ii: correcting semantic inconsistencies from gene ontology-based annotations for gene products. BMC Bioinformatics, 12(1):1–7.

• Frost, H. R. and Moore, J. H. (2014). Optimization of gene set annotations via entropy minimization over variable clusters (emvc). Bioinformatics (Oxford, England),30(12):1698–1706.

RÉFÉRENCES

31

Page 32: GESTION DES ANNOTATIONS SEMANTIQUES EN SANTE Le … · Change impact analysis for evolving ontology-based content management. PhD thesis, Dublin City University. • Luong, P.-H

QUESTIONS

32

[email protected]

www.elisa-project.lu