thèse_version_finale_TM

Embed Size (px)

Citation preview

  • 5/28/2018 th se_version_finale_TM

    1/181

    Universite de Rouen U.F.R. des sciences et techniques

    Ecole doctorale sciences physiques, mathematiques et de linformation pour lingenieur

    Methodes pour la mise en relations des

    terminologies medicales : contribution a

    linteroperabilite semantique Inter et

    Intra terminologique

    THESE

    presentee et soutenue publiquement le 24 Juin 2010

    pour lobtention du

    Doctorat de luniversite de Rouen

    (specialite informatique)

    par

    Tayeb Merabti

    Composition du jury

    Directeur de these : Stefan Darmoni

    Co-encadrants : Thierry Lecroq

    Michel Joubert

    Rapporteurs : Pierre Zweigenbaum

    Jean-Marie Rodrigues

    Laboratoire dinformatique, de traitement de linformation et des systemes

  • 5/28/2018 th se_version_finale_TM

    2/181

    Rsum

    Depuis une vingtaine dannes, laccs et lutilisation des donnes mdicales sontdevenus des enjeux majeurs pour les professionnels de sant comme pour le grand pu-blic. Dans ce contexte, plusieurs terminologies mdicales spcialises ont t cres. Cesterminologies ont pour la plupart des formats de reprsentation et vises diffrentes :la nomenclature SNOMED 3.5 pour le codage dinformations cliniques, les classifica-tions CIM10 et CCAM pour le codage pidmiologique puis mdico-conomique, lethsaurus MeSH pour la bibliographie. . .Devant ce constat et la ncessit grandissantede permettre la coopration de diffrents acteurs de la sant et des systmes dinfor-mation associs, il apparait ncessaire de rendre les terminologies interoprables .Notre travail qui sinscrit dans le cadre du projet ANR InterSTIS (Interoprabilit S-mantique des Terminologies dans les Systmes dinformations de Sant Franais), vise mettre en uvre des mthodes permettant de contribuer linteroprabilit entreles diffrentes terminologies francophones qui seront intgres dans un mme serveurMulti-Terminologique. De plus, nous utilisons nos diffrents algorithmes conjointementavec le mtathsaurus UMLS afin dapporter une plus grande couverture au niveaudes relations entre les terminologies. Nous bnficions, notamment, dans le cadre decette thse dune exprience riche dans le domaine du Traitement Automatique de laLangue (TAL) issue des prcdents travaux de recherche dans les quipes CISMeF etLERTIM.

  • 5/28/2018 th se_version_finale_TM

    3/181

    Abstract

    Since twenty years ago, access and use of medical data become major issues forhealth professional and lay people. In this context, multiple health terminologies werebe developped. These terminologies have mostly different format and purpose : SNO-MED International for clinical coding, CCAM and ICD10 used for epidemiological andmedico-economic purposes, MeSH thesaurus for bibliographic databases. According tothis and the growing need to allow cooperation between differnt health actors andrelated information systems. It is necessary to allow interoprablity between health ter-minologies. This work take place in a more global InterSTIS project (french acronymof Semantic Interoperability of terminologies in French Health Information Systems)funded by the French National Research Agency. The goal of InterSTIS is to make in-teroprable the main French medical terminologies within a "Health Multi-TerminologyServer" (HMTS). We use also UMLS to provide a large coverage of relations betweenterminologies. We enjoy in the case of this PhD of an extensive experience in the Natu-ral Language Processing field from a multiple CISMeF and LERTIM research projects.

  • 5/28/2018 th se_version_finale_TM

    4/181

    Avant-propos

    Cette thse est le rsultat de trois annes defforts, des dizaines de nuits blanches,de plusieurs milliers de lignes de codes, de quelques billions de cycles CPU et de milliersde cafs. Il est aussi le fruit de rencontre avec de nombreuse personnes qui mont appriset surtout donne beaucoup. Je tiens exprimer tout dabord mes remerciements auxmembres du jury :

    Monsieur Stefan Darmoni, mon directeur de thse, pour mavoir accueilli dans saformidable quipe CISMeF depuis mon stage de Master. Je lui adresse un grandmerci pour tout le temps quil a investi pour que ce projet de recherche soit dequalit et pour que je puisse mener mon travail dans les meilleurs des conditions.

    Jespre avoir toujours autant de volont et denthousiasme que lui pour menermes recherches futures.

    Monsieur Michel Joubert, davoir co-encadr ce travail de thse et grce qui jaibeaucoup appris, autant sur le plan scientifique que personnel.

    Monsieur Thierry Lecroq pour son co-encadrement et son soutien scientifique,grce qui jai pu travailler sur de nouvelles perspectives de recherche et pouravoir toujours pris le temps de relire mes articles les bons comme les moins bons.

    Je tiens remercier les Professeurs Jean-Marie Rodrigues et Pierre Zweigenbaumdavoir accept de servir de rapporteurs de cette thse. Je suis flatt que ces

    distingus chercheurs aient bien voulu sintresser aux travaux que je prsentedans cette thse.

    Je tiens remercier lensemble de lquipe CISMeF (Ahmed, Aurlie, Badisse, Benot,Catherine, Elise, Gatan, Josette, Julien, Ivan, Lina, Romain, Saoussen, Suzanne etZied).Je remercie galement les gens qui ont particip de prs ou de loin cette thse : AnaRath, Cedric Bousquet, Hocine Abdoune et Eric Sadou.Jexprime ma sincre gratitude pour monsieur Djelloul Ziadi qui ds ma soutenancedingniorat na pas cess de mencourager et de me pousser pour que je puisse terminer

    cette thse.Un grand merci mes parents, pour leur prsence et leur soutien. Mes deux frres Ah-

  • 5/28/2018 th se_version_finale_TM

    5/181

    iv

    med et Hadj pour leurs encouragements et leur soutien aussi. Les mots me manquent

    pour exprimer toute ma reconnaissance pour eux.Je remercie ma femme qui depuis notre union na pas cess de me soutenir et de men-courager. Jespre que je ferai autant pour elle afin quelle puisse terminer sa thse.Je remercie aussi les nouveaux membres de ma famille pour leurs encouragements :Abd el Halim, Fatima, Ahmed, Memen. . .Je tiens remercier aussi mes amis : Khaled, Mohamed M, faissal, Mohamed D,Senouci. . .Enfin, mes ultimes remerciements vont mon crateur, le tout puissant pour mavoirdonn la force et la volont afin daccomplir ce modeste travail.

  • 5/28/2018 th se_version_finale_TM

    6/181

    Table des matires

    Rsum i

    Abstract ii

    Remerciements iii

    Table des matires viii

    Liste des tableaux xii

    Table des figures xv

    1 Introduction 1

    1.1 Contexte gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

    1.1.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.1.2 Organisation du mmoire. . . . . . . . . . . . . . . . . . . . . . 3

    2 Contexte de travail et projet de recherche 5

    2.1 Lquipe CISMeF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2.1.1 Travaux de lquipe CISMeF. . . . . . . . . . . . . . . . . . . . 5

    2.1.2 Prsentation du projet CISMeF . . . . . . . . . . . . . . . . . . 6

    2.1.3 Les diffrents travaux de lquipe CISMeF . . . . . . . . . . . . 7

    2.1.4 CISMeF : dun univers mono-terminologique vers un univers multi-terminologique . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.2 Travaux de recherche au sein du LERTIM . . . . . . . . . . . . . . . . 15

    2.3 Travaux de recherche au sein de lquipe TIBS . . . . . . . . . . . . . . 16

  • 5/28/2018 th se_version_finale_TM

    7/181

    vi

    2.3.1 Prsentation de lquipe . . . . . . . . . . . . . . . . . . . . . . 16

    2.3.2 Travaux de lquipe . . . . . . . . . . . . . . . . . . . . . . . . . 162.4 Le projet InterSTIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    2.5 Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    3 tat de lart 21

    3.1 lments de reprsentation. . . . . . . . . . . . . . . . . . . . . . . . . 21

    3.1.1 Terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    3.1.2 Ontologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.1.3 Les principales terminologies mdicales . . . . . . . . . . . . . . 25

    3.2 Unified Medical Language System (UMLS) . . . . . . . . . . . . . . . . 35

    3.3 Serveur Multi Terminologique de Sant (SMTS) . . . . . . . . . . . . . 38

    3.3.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    3.3.2 Modlisation des terminologies mdicales . . . . . . . . . . . . . 40

    3.3.3 Modle gnrique du SMTS . . . . . . . . . . . . . . . . . . . . 41

    3.3.4 Intgration des terminologies dans le SMTS . . . . . . . . . . . 443.4 Interoprabilit Smantique Inter et Intra Terminologique. . . . . . . . 46

    3.5 Mthodes pour la mise en relations entre terminologies . . . . . . . . . 46

    3.5.1 Terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    3.5.2 Mthodes lexicales . . . . . . . . . . . . . . . . . . . . . . . . . 48

    3.5.3 Mthodes structurelles (smantiques) . . . . . . . . . . . . . . . 55

    3.6 Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

    4 Alignement des terminologies francophones avec UMLS (F_UMLS) 59

    4.1 Positionnement de nos mthodes dalignement . . . . . . . . . . . . . . 60

    4.2 Alignement du thsaurus Orphanet avec F_UMLS . . . . . . . . . . . 60

    4.2.1 Contexte de travail . . . . . . . . . . . . . . . . . . . . . . . . . 60

    4.2.2 Le Portail ORPHANET . . . . . . . . . . . . . . . . . . . . . . 61

    4.2.3 Le thsaurus ORPHANET . . . . . . . . . . . . . . . . . . . . . 62

    4.2.4 Mthodes dalignements . . . . . . . . . . . . . . . . . . . . . . 634.2.5 Critre dvaluation et comparaison . . . . . . . . . . . . . . . . 75

  • 5/28/2018 th se_version_finale_TM

    8/181

    vii

    4.3 Alignement de la classification ATC vers UMLS (F_UMLS) . . . . . . 77

    4.3.1 La classification ATC (Anatomique, Thrapeutique et Chimique) 774.3.2 ATC vers PubMed ATC to PubMed . . . . . . . . . . . . . 78

    4.3.3 Mthodes dalignement . . . . . . . . . . . . . . . . . . . . . . . 79

    4.3.4 Critres dvaluation et comparaison . . . . . . . . . . . . . . . 83

    4.4 Alignement de la classification CCAM avec UMLS (F_UMLS) . . . . . 85

    4.4.1 La Classification Commune des Actes Mdicaux (CCAM). . . . 85

    4.4.2 Mthodes dalignement . . . . . . . . . . . . . . . . . . . . . . . 88

    4.4.3 Critres dvaluation et comparaison . . . . . . . . . . . . . . . 95

    4.5 Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

    5 Rsultats et valuations : Alignement des terminologies francophones 98

    5.1 Alignement du thsaurus ORPHANET . . . . . . . . . . . . . . . . . . 98

    5.1.1 Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

    5.1.2 Comparaison entre lalignementmanuel et lalignementexact . . 102

    5.2 Alignement de la classification ATC . . . . . . . . . . . . . . . . . . . 1075.2.1 Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

    5.2.2 Comparaison entre les deux mthodes dalignement exact fran-ais et anglais . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

    5.3 Alignement de la classification CCAM . . . . . . . . . . . . . . . . . . 112

    5.3.1 Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

    5.3.2 valuation de lalignement lexical fond sur les outils en franais 113

    5.4 Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

    6 Projection des relations SNOMED CT entre plusieurs terminologies116

    7 Rsultats et valuations : projection des relations SNOMED CT 122

    7.1 Projection des relations SNOMED CT entre CIM10 et SNOMED 3.5 . 122

    7.2 Projection des relations SNOMED CT entre les termes MeSH . . . . . 126

    7.3 Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

    8 Discussion 129

  • 5/28/2018 th se_version_finale_TM

    9/181

    viii

    8.1 Alignements entre terminologies . . . . . . . . . . . . . . . . . . . . . . 129

    8.2 Projection des relations SNOMED CT . . . . . . . . . . . . . . . . . . 133

    9 Perspectives 135

    9.1 Amlioration des mthodes. . . . . . . . . . . . . . . . . . . . . . . . . 135

    9.2 Aide la traduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

    9.2.1 Traduction de la SNOMED CT . . . . . . . . . . . . . . . . . . 136

    9.3 Le Projet PlaIR (Plateforme dIndexation Rgionale) . . . . . . . . . . 138

    10 Conclusion 139

    Liste des publications 141

    Bibliographie 143

    A tude de cas sur le Serveur Multi-terminologique de Sant 155

    B tude de cas sur le Portail Terminologique de Sant 160

  • 5/28/2018 th se_version_finale_TM

    10/181

    Liste des tableaux

    3.1 Les types de terminologies et leurs caractristiques. . . . . . . . . . . . 24

    3.2 Exemples et nombre de termes MedDRA suivant chaque type de terme 29

    3.3 Exemples et nombre de termes WHO-ART suivant chaque type de terme 32

    3.4 Les axes de la SNOMED International . . . . . . . . . . . . . . . . . . 34

    3.5 Les concepts de lUMLS . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    3.6 Quelques outils dalignement utilisant des mesures de similarit . . . . 50

    3.7 Exemples de variation morphologiques sur le mot membrane . . . . 52

    4.1 Nombre des alignements conceptuels via UMLS entre les termes dechaque terminologie francophone . . . . . . . . . . . . . . . . . . . . . 64

    4.2 Exemples d alignement exact entre termes ORPHANET et termesdautres terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

    4.3 Exemples d alignement par combinaison entre termes ORPHANETet termes dautres terminologies . . . . . . . . . . . . . . . . . . . . . 70

    4.4 Exemples d alignement partiels entre termes ORPHANET et termesdautres terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    4.5 Exemples de alignement exact entre libells ATC et termes dautresterminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    4.6 Exemples de alignement par combinaison entre libells ATC et termes

    dautres terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . 814.7 Exemples de alignement partiel entre libells ATC et termes dautres

    terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    4.8 Exemples de alignement exact entre libells ATC et termes dautresterminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    4.9 Exemples de alignement par combinaison entre libells ATC et termesdautres terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    4.10 Exemples de alignement partiel entre libells ATC et termes dautres

    terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

  • 5/28/2018 th se_version_finale_TM

    11/181

    x

    4.11 Extrait de la table de codage de la CCAM pour la topographie (Systme

    respiratoire) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 884.12 Extrait de la table de codage de la CCAM pour les actions . . . . . . . 89

    4.13 Extrait de la table de codage de la CCAM pour les modes daccs . . . 90

    4.14 Exemples de codes CCAM avec les termes correspondant laxe Ana-tomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    4.15 Exemples de codes CCAM avec le mme troisime caractre mais avecdiffrentes actions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

    4.16 Exemples de codes CCAM avec nouveaux termes correspondants. . . . 92

    4.17 Exemples de alignement exact entre codes CCAM et termes deF_UMLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

    4.18 Exemples de alignement par combinaison entre codes CCAM ettermes de F_UMLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

    4.19 Exemples de alignement partiels entre codes CCAM et termes deF_UMLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

    4.20 Exemples de alignement sur les deux axes entre codes CCAM ettermes de lUMLS en utilisant MetaMap . . . . . . . . . . . . . . . . . 95

    4.21 Exemples de alignement sur un axe entre codes CCAM et termes de

    lUMLS en utilisant MetaMap . . . . . . . . . . . . . . . . . . . . . . . 96

    5.1 Nombre de termes ORPHANET en correspondance pour chaque typedalignement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    5.2 Nombre de termes de chaque terminologie en relation alignement exact 100

    5.3 Nombre de termes de chaque terminologie en relation alignement parcombinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

    5.4 Nombre de termes de chaque terminologie en relation alignement partiel 100

    5.5 Nombre de termes ORPHANET en correspondance en alignement exactsans utiliser lalignementconceptuel de lUMLS . . . . . . . . . . . . . . 101

    5.6 Comparaison des chiffres trouvs de lapplication de lalgorithme surchaque terminologie part versus F_UMLS . . . . . . . . . . . . . . . 101

    5.7 Lapport de lajout des synonymes CISMeF et les concepts supplmen-taires chimiques traduits sur lalignementexact des termes ORPHANET 101

    5.8 Qualit de lalignement lexical exact entre les termes ORPHANET etles termes de F_UMLS . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

    5.9 Rsultats dvaluation des deux ensembles dalignements obtenus par

    chaque approche indpendamment. . . . . . . . . . . . . . . . . . . . . 103

  • 5/28/2018 th se_version_finale_TM

    12/181

    xi

    5.10 Rsultats dvaluation du troisime ensemble dalignements (mme terme

    ORPHANET diffrents termes correspondants) . . . . . . . . . . . . . 1035.11 Exemple de chaque type dvaluation ralis . . . . . . . . . . . . . . . 104

    5.12 Nombre de termes ORPHANET en alignement BT pour chaque niveauhirarchique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

    5.13 Nombre de termes de chaque terminologie en relation alignement BT . 104

    5.14 Qualit de lalignement BT entre les termes ORPHANET et les termesde F_UMLS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

    5.15 Nombre de termes ORPHANET en alignement NT pour chaque niveauhirarchique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

    5.16 Nombre de termes de chaque terminologie en relation alignement NT . 105

    5.17 Qualit de lalignement NT entre les termes ORPHANET et les termesde F_UMLS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

    5.18 Nombre de codes ATC en correspondance pour chaque type dalignement 107

    5.19 Nombre de termes de chaque terminologie en relation alignement exact 107

    5.20 Nombre de termes de chaque terminologie en relation alignement parcombinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

    5.21 Nombre de termes de chaque terminologie en relation alignement partiel 108

    5.22 Nombre de codes ATC en correspondance et nombre des termes couvertsen alignement exact sans utiliser lalignementconceptuel de lUMLS . . 108

    5.23 Comparaison des chiffres trouvs de lapplication de lalgorithme surchaque terminologie part versus F_UMLS . . . . . . . . . . . . . . . 109

    5.24 Lapport de lajout des synonymes CISMeF et les concepts supplmen-taires chimiques traduits sur lalignementexact du MeSH . . . . . . . . 109

    5.25 Nombre de codes ATC en correspondance pour chaque type dalignementavec les termes de lUMLS en anglais avec MetaMap . . . . . . . . . . 109

    5.26 Nombre de codes ATC en correspondance pour chaque type dalignementavec les termes de F_UMLS en anglais avec MetaMap . . . . . . . . . 110

    5.27 Exemples de codes ATC aligns seulement en manuel vers MeSH . . . . 112

    5.28 Nombre dalignements suivant chaque type dalignement . . . . . . . . 112

    5.29 Rsultats dvaluations pour l alignement exact . . . . . . . . . . . 114

    5.30 Rsultats dvaluations pour l alignement par combinaison (n=100). 114

    6.1 Le nombre et le pourcentage des concepts par classe dans la SNOMEDCT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

    6.2 Les 10 relations SNOMED CT les plus reprsentes dans lUMLS . . . 119

  • 5/28/2018 th se_version_finale_TM

    13/181

    xii

    7.1 Le nombre des termes prfrentiels de SNOMED International et de

    CIM10 dans la SNOMED CT . . . . . . . . . . . . . . . . . . . . . . . 1237.2 Les 10 premires relations SNOMED CT projetes entre les termes de

    SNOMED Internationalet le nombre de couples de termes prfrentielsSNOMED international. . . . . . . . . . . . . . . . . . . . . . . . . . . 124

    7.3 Les principales relations SNOMED CT projetes entre les termes CIM10124

    7.4 Les principales relations SNOMED CT projetes entre termes SNOMEDInternational et CIM10 . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

    7.5 Les principales relations SNOMED CT projetes entre termes MeSH. . 126

    7.6 Qualit de la projection des quatre principales relations SNOMED CTvers les termes MeSH . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

    7.7 Exemples dvaluations pour les trois critres de la projection de la re-lation Finding_Site_of (Localisation). . . . . . . . . . . . . . . . . 127

    9.1 Nombre et pourcentage des termes prfrs aligns avec au moins unterme prfr SNOMED CT . . . . . . . . . . . . . . . . . . . . . . . . 138

  • 5/28/2018 th se_version_finale_TM

    14/181

    Table des figures

    2.1 Organisation des projets de lquipe CISMeF. . . . . . . . . . . . . . . 6

    2.2 Le portail CISMeF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.3 Exemple dune ressource CISMeF . . . . . . . . . . . . . . . . . . . . . 8

    2.4 Exemple dune notice dcrite par les diffrentes mtadonnes . . . . . . 9

    2.5 Exemple de recherche simple avec DocCISMeF . . . . . . . . . . . . . 10

    2.6 Exemple de recherche dans le PTS . . . . . . . . . . . . . . . . . . . . 14

    2.7 Fichier XML retourn par linterprteur de la requte bronchite asth-matique chez lenfant . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.8 Ressources proches dans CISMeF . . . . . . . . . . . . . . . . . . . . . 17

    2.9 Le site InterSTIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    3.1 Extrait de larborescence C (Maladies) du MeSH. . . . . . . . . . . . . 27

    3.2 Exemple dune requte Standard MedDRA . . . . . . . . . . . . . . . . 29

    3.3 Schma rcapitulatif de la hirarchie MedDRA . . . . . . . . . . . . . . 30

    3.4 Portion de la hirarchie WHO-ART pour la catgorie Systme vascu-laire extra-cardiaque . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    3.5 Extrait de la classification CIM10 . . . . . . . . . . . . . . . . . . . . . 35

    3.6 Architecture trois parties du SMTS . . . . . . . . . . . . . . . . . . . . 39

    3.7 Modle UML de la classification CIM10. . . . . . . . . . . . . . . . . . 403.8 Modle UML de la nomenclature SNOMED International. . . . . . . . 41

    3.9 Relations entre les UMV1 (terminologies) et le mta-modle UMV2 . . 42

    3.10 Modle UML reprsentant le mta-modle UMV2 . . . . . . . . . . . . 43

    3.11 Hritage de la classe Concept vers les modles des terminologies . . . . 43

    3.12 Organisation gnrale des parseurs . . . . . . . . . . . . . . . . . . . . 45

    3.13 Pyramide dinteroprabilit . . . . . . . . . . . . . . . . . . . . . . . . 47

    3.14 Le processus dalignement . . . . . . . . . . . . . . . . . . . . . . . . . 48

    3.15 Aperu de linterface OnAGUI . . . . . . . . . . . . . . . . . . . . . . . 513.16 tapes suivies par MetaMap . . . . . . . . . . . . . . . . . . . . . . . . 53

  • 5/28/2018 th se_version_finale_TM

    15/181

    xiv

    3.17 Graphe reprsentant les parents du terme veine du cou dans UMLS 56

    4.1 Exemple dune fiche descriptive pour la maladie syndrome de Williams 62

    4.2 Extrait de la classification ORPHANET des maladies gntiques . . . . 63

    4.3 Organigramme de lalgorithme dalignement . . . . . . . . . . . . . . . 68

    4.4 Exemple dtaill du processus dalignement (Alignement exact) . . . . 69

    4.5 Exemple dtaill du processus dalignement (Alignement par Combinaison) 70

    4.6 Exemple dtaill dalignement structurel hirarchique en BT . . . . . . 72

    4.7 Exemple dtaill dalignement structurel hirarchique en NT . . . . . . 74

    4.8 Les cinq niveaux diffrents dans ATC . . . . . . . . . . . . . . . . . . 77

    4.9 Exemple de recherche utilisant un code ATC dans PIM . . . . . . . . . 78

    4.10 Capture dcran du PIM (Partie ATC) . . . . . . . . . . . . . . . . . . 79

    4.11 Exmple de recherche dans DocCISMeF par un code ATC. . . . . . . . 83

    4.12 Extrait du chapitre 14 de la CCAM . . . . . . . . . . . . . . . . . . . . 87

    4.13 Exemple dalignement de code CCAM vers UMLS utilisant MetaMap . 95

    6.1 Schma dinteroprabilit liant termes CIM10 et SNOMED Internationalpar des relations SNOMED CT . . . . . . . . . . . . . . . . . . . . . . 119

    6.2 Schma dinteroprabilit liant des termes MeSH par des relations SNO-MED CT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

    7.1 Exemple dapplication dune projection de relations SNOMED CT entredeux termes SNOMED International et un terme CIM10 . . . . . . . . 125

    7.2 Exemple de deux relations SNOMED CT projetes entre termes MeSHimplmentes dans PTS . . . . . . . . . . . . . . . . . . . . . . . . . . 128

    9.1 Exemple dalignement exact entre un terme MeSH et un terme SNO-

    MED CT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1379.2 Exemple dalignement partiel entre un terme MeSH et un terme SNO-

    MED CT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

    A.1 Page daccueil du SMTS . . . . . . . . . . . . . . . . . . . . . . . . . . 155

    A.2 Axe D des maladies classes par chapitre . . . . . . . . . . . . . . . . . 156

    A.3 Les maladies cardiaques dans la SNOMED 3.5 . . . . . . . . . . . . . . 156

    A.4 Haut de la page correspondant infarctus aigu du myocarde . . . . 157

    A.5 Bas de la page correspondant infarctus aigu du myocarde . . . . . 158

    A.6 Haut de la page correspondant au code CIM10 121.9 . . . . . . . . . . 158

    A.7 Bas de la page correspondant au code CIM10 I29.9 . . . . . . . . . . . 159

  • 5/28/2018 th se_version_finale_TM

    16/181

    xv

    B.1 Page daccueil du PTS . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

    B.2 Recherche par troncature dans PTS . . . . . . . . . . . . . . . . . . . . 161B.3 CISMeF InfoRoute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

    B.4 Exemple de deux relations SNOMED CT intgres dans le PTS . . . . 163

    B.5 Matching du terme ORPHANET syndrome de Marfan vers F_UMLS164

    B.6 Matching du terme MeSH infarctus du myocarde . . . . . . . . . . 165

  • 5/28/2018 th se_version_finale_TM

    17/181

    Chapitre 1

    Introduction

    1.1 Contexte gnral

    C ette thse sinscrit dans le contexte gnral de linformatique mdicale. Notrechamp de recherche sintresse plus particulirement au traitement automatiquedes donnes mdicales. Ces donnes peuvent tre de nature varie : textes libres, basesde donnes mdicales. . . lorigine non structures, elles sont pour la plupart stockesdans des bases de donnes sous forme exploitable pour permettre leur utilisation.Depuis une vingtaine dannes laccs et lutilisation des donnes mdicales est devenuun enjeu majeur pour les professionnels de sant comme pour le grand public. Dansce contexte, plusieurs terminologies mdicales spcialises ont t cres. Ces termi-nologies ont pour la plupart des formats de reprsentations et vises diffrentes : lanomenclature SNOMED 3.5 pour le codage dinformations cliniques, les classificationsCIM10 et CCAM pour le codage pidmiologique puis mdico-conomique, le thsaurus

    MeSH pour la bibliographie. . .Face la multiplication de ces terminologies, les limitesactuelles des outils ne proviennent pas de leurs performances stocker et traiter rapi-dement de gros volumes de donnes, mais de leur incapacit prendre en compte lesdivergences syntaxiques et structurelles (smantiques) entre ces donnes.Devant ce constat et la ncessit grandissante de permettre la coopration de diffrentsacteurs de la sant et des systmes dinformation associs, il apparait ncessaire derendre les terminologies interoprables .Ainsi, il est indispensable de mettre en place un modle commun de reprsentationdes termes, quels que soient leurs terminologie ou rfrentiel dorigine, ainsi que lesmthodes permettant de mettre en relation les termes dune terminologie vers ses qui-valents, directs ou indirects, dans dautres terminologies.Le projet InterSTIS (Interoprabilit Smantique des Terminologies dans les Systmes

  • 5/28/2018 th se_version_finale_TM

    18/181

    Chapitre 1. Introduction 2

    dinformations de Sant Franais)1, a pour but de fdrer et de rendre interoprables

    les principales terminologies mdicales au sein dun Serveur Multi-Terminologique deSant (SMTS).Notre travail qui sinscrit dans le cadre de ce projet, vise mettre en uvre des m-thodes permettant de contribuer linteroprabilit entre les diffrentes terminologiesfrancophones qui seront intgres dans le SMTS.Plusieurs travaux ont t mens par diffrentes quipes afin de mettre en place desplate-formes pour permettre linteroprabilit entre terminologies. LUMLS (UnifiedMedical Language System) dvelopp par US National Library of Medicine depuis1986, est le parfait exemple de ce type de plate-formes. Actuellement, il est considr

    comme la plus large base de donnes terminologiques existante (section3.2).Toutefois, lUMLS ne rend pas les terminologies intgres interoprables au sens s-mantique . Il intgre les diffrentes terminologies telles quelles se prsentent sans ta-blir de liens entre les termes de celles-ci autrement que par le rattachement de termesquivalents un mme identifiant ou par des relations explicites opres manuelle-mentImel(2002). Dautres travaux ce sont intresss la problmatique de mettre disposition des serveurs de terminologies dans le domaine de santRectoret al.(1997);Chuteet al.(1999). De ces tudes, nous pouvons citer : le systme GALENGAL(2005)(General Architecture for Language and Nomenclatures), SYMBIOmatrics2(SYnergiesin Medical Informatics and Bioinformatics), le projet SemanticHEALTH3.Le SMTS est un serveur multi-termiologique dvelopp par trois partenaires (MON-DECA, CISMeF et LERTIM), et qui va permettre lintgration et la gestion de toutesles terminologies mdicales francophones disponibles, le SMTS sera dcrit en dtaildans la cadre de cette thse (section 3.3). Cependant, dans le cadre du projet Inter-STIS, 6 terminologies ont t incluses dans le SMTS : SNOMED International, CIM10,CCAM, MeSH, SNOMED, CISP2 et TUV. Dautres projets de recherches auxquelslquipe CISMeF participe permettent dintgrer dautres terminologies au sein de ceserveur.La mise en relation entre diffrentes terminologies est une tche fastidieuse raliser.

    Et cela indpendamment du domaine de la recherche, que ce soit dans la science de lin-formationZeng et Chan(2004);W3C(2004), les bases de donnesDoanet al.(2004) oules ontologiesEuzenat et Shvaiko(2007). En plus des htrognits des terminologies,deux autres problmes rendent linteroprabilit entre les terminologies difficile : lapremire rside dans le traitement informel des relations dans les terminologies, ce quiconduit des dfinitions ambigusSarkeret al.(2003), malheureusement, ce problmedemeure difficile rsoudre parce quil ncessite des modifications dans les logiquesde construction de chaque terminologie : les relations hirarchiques, les relations de

    1ANR-07-TECSAN-0102http://www.symbiomatrics.org3http://www.semantichealth.org

    http://www.symbiomatrics.org/http://www.semantichealth.org/http://www.semantichealth.org/http://www.symbiomatrics.org/
  • 5/28/2018 th se_version_finale_TM

    19/181

    Chapitre 1. Introduction 3

    synonymie. . .Le deuxime problme est lautomatisation des mthodes permettant de

    mettre en relation les termes de diffrentes terminologies. En effet, la plupart des ali-gnements existant entre les terminologies sont tablies manuellement. Dans le cadre decette thse, nous dcrirons deux ensembles dalignement manuels (ORPHANET versCIM10 et ATC vers MeSH). Ces alignements sont trs chronophages et ncessitentbeaucoup de temps de travail, en plus, il sont trs dpendants des terminologies ali-gnes. Lexemple de la correspondance manuelle entre ATC et MeSH a ncessit plusde 6 hommes.mois. A lvidence, il nest pas possible lchelle dune quipe commeCISMeF ou mme lchelle dun consortium comme InterSTIS dffectuer 190 aligne-ments manuels entre 20 terminologies N(N1)

    2 , en revanche, lhumain peut se focaliser

    sur ceux quil juge pertinent : SNOMED-CIM10 ATC-MeSH, par exemple.

    1.1.1 Objectif

    Dans ce travail, nous cherchons principalement apporter une contribution cettedeuxime problmatique lie lautomatisation des mthodes dalignements afin demettre en relation les terminologies mdicales francophones. Nous pensons que les ou-tils de traitement automatique de la langue (TAL) peuvent tre trs utiles ce niveau.

    Nous bnficions, notamment, dans le cadre de cette thse dune exprience riche dansle domaine issue des prcdents travaux de recherches dans les quipes CISMeF etLERTIM. De plus, nous utilisons nos diffrents algorithmes conjointement avec le m-tathsaurus UMLS afin dapporter une plus grande couverture au niveau des relationsentre les terminologies. Outre les mthodes dalignements proposes, cette thse vacontribuer poser les premiers jalons dune possible approche permettant linterop-rabilit smantique entre les terminologies mdicales francophones, de plus, tousles alignements raliss dans le cadre de cette thse sont (seront) utiliss dans tous lestravaux futurs qui ncessitent lutilisation conjointe de plusieurs terminologies mdi-

    cales : lindexation multi-terminologiquePereira(2007) et la recherche dinformationmulti-terminologiqueSakji(2008);Dirieh Dibadet al.(2009).

    1.1.2 Organisation du mmoire

    Dans ce mmoire, nous exposons en premier lieu le contexte des travaux effectus,en particulier les diffrents travaux de recherches entams par les quipes CISMeF etLERTIM. Nous passerons en revue tous les travaux passs et futurs qui sont relatifsde prs ou de loin aux besoins exprims dans le cadre de ce travail. Nous prsentonsaussi, le projet InterSTIS qui finance ma thse de recherche depuis 2007.

  • 5/28/2018 th se_version_finale_TM

    20/181

    Chapitre 1. Introduction 4

    Le deuxime chapitre introduit toutes les terminologies francophones utilises dans la

    plupart de nos travaux, il touche aussi la problmatique de lintgration des termi-nologies au sein dun mme serveur multi-terminologique. Nous dtaillerons dans cettepartie principalement le serveur multi-terminologique de sant, le cur des diffrentsprojets de recherches entams il y a trois ans dans plusieurs laboratoires de recherchesspcialiss dans le traitement de linformation mdicale.Le troisime chapitre aborde lanalyse de ltat de lart relatif nos travaux de re-cherches. Nous proposons une classification des diffrentes mthodes dalignementsinspire deEuzenat et Shvaiko(2007) et leurs travaux sur les alignements entre lesontologies.La suite de la thse est consacre aux diffrentes mthodes utilises et implmentesdans le cadre de ce travail, nous dtaillerons notre algorithme dalignement lexicallorsque nous entamerons la partie de notre thse consacre la projection du thsau-rus ORPHANET vers F_UMLS (les terminologies francophones de lUMLS). Nousintroduisons aussi dans cette partie une approche mixte fonde sur les outils TAL etles relations hirarchiques pour aligner les termes ORPHANET vers F_UMLS. Ladeuxime partie de ce chapitre est consacre la projection de la classification ATCvers UMLS. Dans cette partie, en plus de nos mthodes et outils, nous utilisons loutilMetaMap pour aligner les termes en anglais de lATC vers UMLS puis comparer lesrsultats des deux mthodes. Nous terminerons ce chapitre en proposant une mtho-

    dologie permettant de aligner la classification CCAM vers les termes de lUMLS. Lamthode propose dans cette partie est assez diffrente des autres mthodes car nousnous basons sur la structure des codes de la CCAM pour appliquer notre mthode.Le chapitre suivant est consacr la prsentation des rsultats des diffrentes mthodesutilises pour mettre en relation des terminologies francophones vers F_UMLS.

    Dans le chapitre6,nous proposons une mthode dinteroprabilit entre termino-logies fonde sur UMLS afin de projeter les relations de la terminologie SNOMED CT

    entre trois terminologies francophones. Nous verrons que cette mthode va permettrede lier diffrentes terminologies (CIM10, SNMI et MeSH) avec des relations issues duneautre terminologie (SNOMED CT). Le chapitre suivant dresse les diffrents rsultatsobtenus par la projection des relations SNOMED CT.Le chapitre8rsume et permet de discuter les principaux rsultats et dvoquer lesdiffrentes problmatiques ainsi que les diffrentes perspectives de cette thse. Nousterminons avec deux derniers chapitres consacrs aux perspectives et la conclusion.Des annexes sont aussi fournies o nous prsentons deux tudes de cas, une sur le Ser-veur Multi-Terminologique de Sant et lautre sur le Portail Terminologique de Sant

    dvelopp par CISMeF.

  • 5/28/2018 th se_version_finale_TM

    21/181

    Chapitre 2

    Contexte de travail et projet derecherche

    Dans ce chapitre, nous prsentons le contexte des travaux effectus, en particulierles diffrents travaux de recherches entams par les quipes CISMeF et LERTIM.Nous passerons en revue tous les travaux passs et futurs qui sont relatifs de prs ou de

    loin aux besoins exprims dans le cadre de ce travail. Nous prsentons aussi, le projetInterSTIS qui finance cette thse de recherche depuis 2007.

    2.1 Lquipe CISMeF

    2.1.1 Travaux de lquipe CISMeF

    Lquipe CISMeF est dirige par le professeur Stfan Darmoni et Benot Thirionle conservateur de la bibliothque mdicale du CHU de Rouen. Lquipe est composeactuellement de quatre documentalistes experts dans la description et lindexation dansle domaine de la sant, trois ingnieurs de recherche, et trois doctorants. La figure 2.1illustre les diffrents rles de chacun deux dans les projets de lquipe. De nombreuxtravaux ont t entrepris par lquipe CISMeF dans le domaine de la recherche din-formation en sant et dans lindexation.

  • 5/28/2018 th se_version_finale_TM

    22/181

    Chapitre 2. Contexte de travail et projet de recherche 6

    Fig.2.1 Organisation des projets de lquipe CISMeF

    2.1.2 Prsentation du projet CISMeF

    CISMeF (http://www.chu-rouen.fr/cismefouhttp://www.cismef.org) est lacro-nyme de Catalogue et Index des Sites Mdicaux Francophones sur lInternet. Il sagitdun portail de sant qui a t conu pour cataloguer et indexer les sources dinforma-tion institutionnelles de sant franaises les plus importantes (N= 60 000) et ce afin depermettre une recherche plus pertinente pour les professionnels de sant, les tudiantsmais aussi les patients, leurs familles, et dune faon encore plus large le cyber-citoyen.CISMeF adhre aux principes de qualit de linformation de sant sur lInternet dfinispar la Fondation Health on the Net (HON) depuis plus de 10 ans maintenantDarmoniet al.(1999).Le site CISMeF (voir figure 2.2) est un site populaire avec un nombre dutilisateurs(pendant 10 ans 1995-2005) se connectant CISMeF denviron 20 000 par jour ouvr.CISMeF utilise deux outils standards pour organiser linformation : le thsaurus MeSH(qui va tre dcrit en dtail dans les sections suivantes) pour indexer les ressources,ainsi quun ensemble de mta-donnes extraites du noyau de Dublin CoreDekkers etWeibel(2003). Les mtadonnes se rfrent aux informations dcrivant des ressourcesWeb et dont les plus importantes sont le titre, lidentifiant, la date, le contenu, les

    mots clefs et le type de ressources. Pour dcrire les ressources pdagogiques, lquipe aajout huit mta-donnes spcifiques CISMeF telles que : pays, institution. . .

    http://www.chu-rouen.fr/cismefhttp://www.cismef.org/http://www.cismef.org/http://www.chu-rouen.fr/cismef
  • 5/28/2018 th se_version_finale_TM

    23/181

    Chapitre 2. Contexte de travail et projet de recherche 7

    Fig.2.2 Le portail CISMeF

    2.1.3 Les diffrents travaux de lquipe CISMeF

    Au centre des activits de lquipe CISMeF se trouve la terminologie CISMeF.Cest en effet, sur cette terminologie que reposent les principaux travaux de recherchedinformation dans le moteur et le catalogue de CISMeF. La terminologie CISMeF estutilise principalement pour :

    la description des ressources : indexation des ressources avec les termes apparte-nant la terminologie;

    linterprtation des requtes des utilisateurs : traduction laide des termes ap-partenant la terminologie.

    Lessentiel du travail de lquipe consiste en la maintenance, la mise jour du catalogueainsi que son amlioration et son volution, tant en termes de technologies utilises quede recensement de nouvelles ressources et de facilit dutilisation pour lutilisateur.Lajout de nouvelles ressources (un exemple dune ressource CISMeF est donn dansla figure2.3) au catalogue seffectue en quatre tapes :

    1. recensement des ressources laide dune veille quotidienne;

    2. slection des ressources selon des critres de qualit fonds sur le NetScoring

    (critres de qualit de linformation de sant sur Internet)Darmoniet al.(1999) ;3. la description de chaque ressource CISMeF laide dune notice pour faciliter

  • 5/28/2018 th se_version_finale_TM

    24/181

    Chapitre 2. Contexte de travail et projet de recherche 8

    la recherche dans le moteur de recherche CISMeF. Un ensemble de mtadonnes

    est associ chaque ressource par les indexeursDarmoniet al.(1999,2001) (fi-gure2.4). Ces mtadonnes proviennent de plusieurs rfrentiels dont 11 champs(parmi les 15) du Dublin CoreDekkers et Weibel (2003);Thirion et al. (2004)pour les champsauteur, date, description, format, identification, langue, diteur,type de ressource, droits, sujetettitre. Pour dcrire les ressources pdagogiques,onze lments de la catgorie Education du IEEE 1484 LOM (Learning ObjectMetadata)Bourda et Hlier(1999) sont utiliss en plus des autres mtadonnes.Par ailleurs, des mtadonnes spcifiques CISMeF, ont t ajoutes pour d-crire la qualit ou la localisation de la ressource :institution, ville, province, pays,type daccs, partenariat, cot et public cibl. Deux champs supplmentaires ontt crs pour les ressources destines aux professionnels de sant : indication duniveau de preuve et la mthode utilise pour ltablir Darmoni et al. (2003a).Les mtadonnes HIDDEL (High Information Description Disclosure EvaluationLanguage) ont t introduites dans CISMeF dans le cadre du projet europenMedCircle (mars 2002 - septembre 2003)Mayeret al.(2003), qui avait pour butdvaluer la qualit de linformation de sant afin de guider les utilisateurs versdes sources fiables.

    Fig.2.3 Exemple dune ressource CISMeF

    Cependant, il existe plusieurs niveaux dindexation (assigner des mots cls undocument).

    Niveau 1 : Une indexation purement manuelle pour les ressources de haute

    importance comme les recommandations par exemple. Un total de 36 439ressources sont indexes manuellement par 12 992 mots cls MeSH diffrentsdans CISMeF.

  • 5/28/2018 th se_version_finale_TM

    25/181

    Chapitre 2. Contexte de travail et projet de recherche 9

    Niveau 2 : Une indexation supervise qui consiste en une indexation automa-

    tique effectue par un programme informatique sur le titre de la ressource.Les indexeurs sont ensuite chargs de valider et modifier la main si nces-saire cette indexation. Elle est destine aux ressources de qualit mais moinsurgentes que celle du premier niveau. Un total de 8 878 ressources supervi-ses existe dans CISMeF, en utilisant 4 700 mots cls MeSH diffrents.

    Niveau 3 : Une indexation purement automatique (sans validation humaineaposteriori) sur le titre pour les ressources de priorit faible dont la qualitne ncessite pas une indexation prcise. Un total de 25 583 ressources estindexes automatiquement dans CISMeF, en utilisant 7 939 mots cls MeSH

    diffrents.4. La dernire tape consiste mettre en ligne la ressource sur le catalogue.

    Fig.2.4 Exemple dune notice dcrite par les diffrentes mtadonnes

    Loutil de recherche intgr au site CISMeF est DocCISMeF (voir figure2.5). Cetoutil donne un accs prcis et rapide aux ressources : il permet de faciliter la saisie des

    requtes par les utilisateurs afin dobtenir une srie de ressources susceptibles de conte-nir linformation recherche. Ces ressources taient affiches par ordre chronologique,mais depuis 2009, DocCISMeF permet un affichage combin par ordre chronologique

  • 5/28/2018 th se_version_finale_TM

    26/181

    Chapitre 2. Contexte de travail et projet de recherche 10

    et par pertinence. Cette dernire est calcule suivant le nombre de mots de la requte

    se trouvant dans les mots cls dindexation et dans le titre. Ainsi, les ressources r-centes avec une valeur maximale de pertinence sont affiches en premier. Dautre part,diffrents modes de recherche dinformation sont possibles :

    Une recherche simple : elle permet une saisie de requte sous forme dexpressionslibres en franais ou en anglais.

    Une recherche avance : elle permet des recherches pousses facilites par lutili-sation dun formulaire contenant des listes droulantes permettant de combinerplusieurs champs (mots cls, type de ressources,. . .) avec des oprateurs boolens(ET, OU, SAUF).

    Une recherche viale serveur de terminologie : elle permet une recherche din-formation partir dun mot cl slectionn dans le serveur terminologique. Cetterecherche peut tre affine (grce lassociation de qualificatifs).

    Fig.2.5 Exemple de recherche simple avec DocCISMeF

    Par ailleurs, CISMeF permet aussi laccs dautres sites spcialiss dans la recherchedans le domaine de la sant. Laccs ces sites est ralis de manire contextuelledans CISMeF (longlet droite de la figure2.5). Cependant, plus rcemment en 2009,CISMeF a dvelopp CISMeF InfoRoute un outil en cours dvaluation permettantun accs contextuel plusieurs sites de sant regroups par leur contexte dutilisation.Par exemple, le contexte Outils de recherche (les sites : CISMeF, PubMed1, Intute2,. . .), le contexte Mdicaments (les sites : PIM (Portail dInformation sur le Mdi-

    1

    http://www.ncbi.nlm.nih.gov/pubmed/2http://www.intute.ac.uk/

    http://www.ncbi.nlm.nih.gov/pubmed/http://www.intute.ac.uk/http://www.intute.ac.uk/http://www.ncbi.nlm.nih.gov/pubmed/
  • 5/28/2018 th se_version_finale_TM

    27/181

    Chapitre 2. Contexte de travail et projet de recherche 11

    cament)3, HAS (Haute Autorit de Sant)4, AFSSAPS (Agence Franaise de Scurit

    SAnitaire des Produits de Sant)5

    , . . .).Il parait logique pour lquipe CISMeF dtre implique dans des travaux touchant la terminologie mdicale notamment pour le MeSH mais aussi dautres terminolo-gies franaises telles que la CIM10OMS(1993), la SNOMEDCt et al. (1993) etla CCAM Rodrigues et al. (2005a) ou toutes terminologies avec lesquelles des cor-respondances peuvent se faire. Les principaux travaux de CISMeF touchent deuxproblmatiques : a) lamlioration de la terminologie CISMeF, b) faciliter la recherchedinformation au sein du catalogue.

    Amlioration de la terminologie CISMeF : lquipe CISMeF fait voluer jour

    aprs jour celle-ci Douyre et al. (2004). En effet, plusieurs collaborations avecdautres quipes ont servi lenrichissement de la terminologie. Ainsi, lquipeCISMeF a particip aux projets UMLF Zweigenbaum et al. (2003) (dveloppe-ment dun lexique mdical en franais)6 et VUMeFDarmoni et al. (2003b) de2003 2007 en collaboration notamment avec lquipe LERTIM et la socitVidal. Le but de ce projet tait denrichir les terminologies mdicales franaisesdans lUMLS (dtaill dans le chapitre 3). CISMeF a aussi collabor avec la so-cit Memodata (PME spcialiste des dictionnaires) dans le projet VODEL7 envue denrichir le catalogue de nombreuses dfinitions et traductions de plusieurslangues. Dautres travaux ont aussi t mens pour mieux comprendre le langagemdical courant utilis par les usagers non spcialistes du domaine dans llabo-ration de leurs requtesDarmoniet al.(2002) notamment MEDLINEPlus.

    Lindexation automatique au sein du catalogue : plusieurs travaux visant am-liorer la recherche des utilisateurs ont t effectus parmi lesquels ont peut ci-ter, le projet CogniCISMeF pour un dialogue homme-machine et le systmeKnowQuE (Knowledge-based Query Expansion) Soualmia(2004);Soualmiaet al.(2009) pour une recherche dinformation implicite.Lindexation manuelle des ressources constitue la base de la recherche dinfor-mation dans CISMeF, elle est trs importante et malheureusement trs coteuseen temps (chronophage). En effet, lindexation manuelle des ressources demandeune analyse fine du document et de la terminologie ainsi que des bonnes connais-sances mtier. La forte expansion des ressources mdicales de qualit sur Interneta pouss lquipe CISMeF chercher augmenter sa productivit en disposantdoutils automatiques dindexation. Les travaux dAurlie Nvol dans le cadre desa thseNvolet al.(2005);Nvol(2005) ont men llaboration du systmeMAIF (MeSH Automatic Indexing in French) : un systme dindexation auto-

    3http://doccismef.chu-rouen.fr/servlets/PIM4www.has-sante.fr/portail/jcms/j_/accueil

    5http://www.afssaps.fr6http://www-test.biomath.jussieu.fr/umlf/7http://www.rntl.org/projet/resume2005/vodel.htm

    http://doccismef.chu-rouen.fr/servlets/PIMhttp://www.has-sante.fr/portail/jcms/j_/accueilhttp://www.afssaps.fr/http://www-test.biomath.jussieu.fr/umlf/http://www.rntl.org/projet/resume2005/vodel.htmhttp://www.rntl.org/projet/resume2005/vodel.htmhttp://www-test.biomath.jussieu.fr/umlf/http://www.afssaps.fr/http://www.has-sante.fr/portail/jcms/j_/accueilhttp://doccismef.chu-rouen.fr/servlets/PIM
  • 5/28/2018 th se_version_finale_TM

    28/181

    Chapitre 2. Contexte de travail et projet de recherche 12

    matique pour le MeSH, suivi par le dveloppement pendant la thse de Suzanne

    Pereira de F-MTI (French-Mutli Terminological Indexer) : un systme dindexa-tion mutli-terminologique pour les terminologies en franais.

    2.1.4 CISMeF : dun univers mono-terminologique vers ununivers multi-terminologique

    Ds 2005, lors du dbut de la thse de S. Pereira, une dcision stratgique delquipe CISMeF a permis le passage dun monde mono-terminologique un universmulti-terminologique (ECMT) (voir figure 2.1) Darmoni et al. (2009b) par la miseau point dun extracteur de concept multi-terminologique et le dveloppement dunServeur Multi-Terminologique de Sant (SMTS) qui rassemble plusieurs terminologiesmdicales francophones (voir section3.3) et par une Recherche dInformation Multi-Terminologique (RIMT) (Thse de S. Sakji).La thse de S. PereiraPereira(2007) constitue le premier travail utilisant un environne-ment multi-terminologique. Cette thse a eu pour objectif la ralisation et lvaluationdun outil dindexation multi-terminologique F-MTI (French-Mutli TerminologicalIndexer)Pereiraet al.(2009b,a). En plus du MeSH, loutil F-MTI utilise dj plusieurs

    terminologies mdicales pour lindexation des ressources mdicales. F-MTI fonctionneen deux temps : une extraction des concepts des terminologies tudies, puis une res-triction vers les terminologies choisiesPereiraet al.(2008). Cette restriction seffectuevia les relations entre terminologies.Depuis 2007, plusieurs travaux orients sur la problmatique de la multi-terminologieont t lancs. Le projet ANR InterSTIS Interoprabilit Smantique des Termino-logies dans les systmes dInformations de Sant franais est lun des projets lancsautour du SMTS. Ma thse de recherche sinscrit dans le cadre de ce projet que nousallons dcrire dans la section2.4.

    Depuis 2009, lquipe a aussi dvelopp un outil de recherche dinformation multi-terminologiqueSakjiet al.(2009a);Dirieh Dibadet al.(2009) dans un double contexte :

    Documentation : Commence en 2007 avec la thse de Saoussen Sakji, ga-lement encadre par SJ. Darmoni et M. Joubert. Elle est la continuit de lathse de Lina SaoualmiaSoualmia(2004) sur la recherche dinformation mono-terminologique. Lobjectif du travail de Saoussen Sakji est la mise en uvredun outil de recherche dinformation multi-terminologique sur le catalogue CIS-MeFSakji(2008). Ce travail a permis aussi de modifier le modle terminologiquede CISMeF pour la prise en charge de plusieurs terminologies mdicales. Loutil

    dvelopp est en cours dvaluation dans le moteur de recherche DocCISMeF.De plus, dans un cadre pharmacologique une recherche bi-terminologique a t

  • 5/28/2018 th se_version_finale_TM

    29/181

    Chapitre 2. Contexte de travail et projet de recherche 13

    laboreLethord et al. (2008) dans le cadre de cette thse sur le PIM (Portail

    dInformation sur le Mdicament) Sakji et al. (2009b); Lethord et al. (2008).Cette thse sinscrit dans le cadre du projet PSIP (Patient Safety through In-telligent Procedures in medication)Beuscart et al. (2009), un projet europenvisant une meilleure connaissance des effets indsirables lis aux mdicaments,commenc en 2008 impliquant 13 partenaires.

    Dossier lectronique du Patient : Commenc en 2008 avec la thse de Ah-med Diouf Dirieh-Dibad, encadr par Stfan Darmoni, Philippe Massari et ElisePrieur. Le but de cette thse tant aussi la recherche dinformation mais dansun autre contexte: permettre une recherche dinformations multi-terminologique

    (RIMT) sur les dossiers lectroniques Sakji et al. (2009a); Dirieh Dibad et al.(2009). Une modlisation formelle du Dossier lectronique du Patient (DEP) at ralise pour permettre la RIMT.Pour ces deux thses, une collaboration avec ORACLE a t entreprie pour utili-ser les outils smantiques notamment SPARQLPrudhommeaux et Seaborne(2008).

    Cependant, pour faciliter laccs toutes ces terminologies, CISMeF a dvelopp unPortail de Terminologies de Sant (PTS) qui reprsente une porte dentre ces der-nires (voir figure 2.6), sans se soucier ni de la gestion ni de la mise jour (ce qui

    est le cas pour le SMTS). Ce portail permettra aussi dintgrer les relations entre ter-minologies trouves dans le cadre de cette thse. Nous prsentons dans lannexe Bune tude de cas montrant lutilit des relations inter-terminologiques pour faciliter lanavigation dans le PTS. Le dernier projet est le projet ALADIN-DTH (Assistant deLutte Automatise et de Dtection des Infections Nosocomiales partir de DocumentsTextuels Hospitaliers)8 Metzger et al. (2009). ALADIN vise dvelopper un outil dedtection automatique des infections nosocomiales partir des documents mdicauxdu dossier patient rdigs en langage naturelProuxet al.(2010). Dans le cadre de ceprojet, CISMeF a dvelopp un outil permettant de retourner sous forme structuretous les termes de toutes les terminologies (voir figure2.7) partir dune requte enlangage naturel (avec ou sans expansion).

    Dans la partie perspective, nous dtaillons le projet PlaIR (Plateforme dIndexa-tion Rgionale) dmarr en 2009. Ce projet a pour objectif de mutualiser lensemble destravaux des laboratoires LITIS (Laboratoire dInformatique, de Traitement de lInfor-mation et des Systmes) et LiDiFra (Linguistique, Didactique, Francophone) portantsur lindexation et la recherche dinformation, que ce soit dans un univers de documentslectroniques avec des vocabulaires contrls lis des domaines mtiers (comme dans

    les sciences de la sant, le droit ou les sciences de lingnieur) ou dans un univers de8www.aladin-project.eu

    http://www.aladin-project.eu/http://www.aladin-project.eu/
  • 5/28/2018 th se_version_finale_TM

    30/181

    Chapitre 2. Contexte de travail et projet de recherche 14

    Fig.2.6 Exemple de recherche dans le PTS

    Fig.2.7 Fichier XML retourn par linterprteur de la requte bronchite asthma-tique chez lenfant

  • 5/28/2018 th se_version_finale_TM

    31/181

    Chapitre 2. Contexte de travail et projet de recherche 15

    documents papier numriss en texte intgral sans domaine mtier cibl (comme dans

    le cas des documents darchives et du patrimoine).

    2.2 Travaux de recherche au sein du LERTIM

    Prsentation de lquipe et de ses travaux de recherche

    Le LERTIM (Laboratoire dEnseignement et de Recherche sur le Traitement de lIn-formation Mdicale) est un laboratoire spcialis dans le traitement de linformationmdicale. Le laboratoire est localis la Facult de mdecine de Marseille, Universitde Mditerrane. Le laboratoire a t labellis par le Ministre de la recherche : quipedaccueil (EA 3283).La recherche au laboratoire sintresse llaboration de systmes dinformation hos-pitaliers performants (adapts et volutifs)Fieschi(2005).Lactivit du LERTIM concerne, entre autre, la biostatistique, laide la dcision, lessystmes dinformation mdicaux et de sant, les systmes dinformation pour la for-mation distance et le soutien mthodologique en recherche clinique.Le LERTIM sintresse aussi la reprsentation et la modlisation des connaissancespour faciliter laccs aux connaissances et leur acquisition. Les recherches dans ce do-maine visent laborer des mthodes et dvelopper des outils permettant un couplageentre connaissances mdicales et informations sur le patient afin damliorer la dci-sion mdicale et la prise en charge du patient. Le projet ASTI Bouaudet al.(2002) seproposait de concevoir et dvaluer une 2e gnration de systme informatis daide la prescription. Une srie de projets, ARIANEJoubertet al.(2002), VUMeFDarmoniet al.(2003b), COMeDIASJoubertet al.(2003) et WRAPINJoubertet al.(2007), onteu pour but de permettre aux professionnels de sant daccder des bases dinforma-

    tions du domaine biomdical (bases de donnes patients, banques de donnes sur lesmdicaments, guides de bonnes pratiques, bibliographie) dans le systme dinformationde leur entreprise ou sur le net grce un ensemble de services en partenariat avecHealth On the Net9 en particulier. Enfin, le projet InterSTIS (voir section 2.4) dontfait partie ce travail de recherche, a pour but de rendre les principales terminologiesmdicales francophones interoprables.

    9http://www.hon.ch/

    http://www.hon.ch/http://www.hon.ch/
  • 5/28/2018 th se_version_finale_TM

    32/181

    Chapitre 2. Contexte de travail et projet de recherche 16

    2.3 Travaux de recherche au sein de lquipe TIBS

    2.3.1 Prsentation de lquipe

    Le LITIS EA 410810(Laboratoire dInformatique, de Traitement de lInformationet des Systmes) est lunit de recherche dans le domaine des Sciences et Technolo-gies de linformation et de la Communication (STIC) de Haute-Normandie. Cest unlaboratoire pluridisciplinaire associant praticiens et thoriciens la jonction de linfor-matique, de la reconnaissance de formes, du traitement du signal et des images, de la

    mdecine et des mathmatiques.Lquipe TIBS11(Traitement de lInformation en Biologie - Sant) est une quipe delaxe Traitement des Masses de Donnes du Laboratoire LITIS. Lquipe est nede la fusion de deux quipes : GCSIS (Gestion de la Connaissance et Systmes dInfor-mation en Sant) dirige par le Professeur Stefan Darmoni et ABISS (Atelier Biologie,Informatique, Statistique, Sociolinguistique) en 2007. Les principaux axes de recherchede la nouvelle quipe se penchent sur les problmatiques de la recherche, de lindexationet de lextraction des informations pertinentes, en prenant comme champ dapplicationles donnes biologiques et les systmes dinformation en sant.

    2.3.2 Travaux de lquipe

    En plus de ma thse de recherche qui a dmarr avec la naissance de lquipe TIBS,jai travaill sur plusieurs problmatiques connexes ma thse. Cependant trois travauxprincipaux ont prim :

    Distance smantique entre ressources : Ce travail de recherche a t commenc

    lors de mon stage de master ITA (Informatique Thorique et Applications) luniversit de Rouen Merabti (2007). Lide tait de concevoir un algorithme CISMeF related resources (CISMeF_RRA)Merabti et al. (2008) permet-tant de calculer la similarit entre les ressources du catalogue CISMeF. Cet al-gorithme sinspire largement de la fonction dveloppe par PubMed RelatedArticles Kim et al. (2001). Notre algorithme combine deux distances pour lecalcul de similarit entre les ressources : lexicales (sur lensemble des mots de titreet rsum) et smantiques (relations smantiques entre les mots dindexation dechaque ressource).

    10

    http://www.litislab.eu11http://www.chu-rouen.fr/tibs/

    http://www.litislab.eu/http://www.chu-rouen.fr/tibs/http://www.chu-rouen.fr/tibs/http://www.litislab.eu/
  • 5/28/2018 th se_version_finale_TM

    33/181

    Chapitre 2. Contexte de travail et projet de recherche 17

    Fig.2.8 Ressources proches dans CISMeF

    Identification des rptitions dans les navigations dans CISMeF : Ce travaila t fait dans le cadre dun stage de master ITA en 2008 de Mohamed El-Abed El-Abed(2008). Lide sous-jacente est la mme que celle du travail prcdent, qui partir de la consultation dune ou plusieurs ressources, propose une liste de

    liens susceptibles de contenir linformation recherche par lutilisateur. Le tra-vail prsente un algorithme dextraction de comportements rcurrents durant laconsultation de ressources au sein du catalogue de sant CISMeFPauchetet al.(2009). Nous avons propos pour cela dutiliser la structure de donnes appe-le arbres des suffixesWeiner(1973); McCreight(1976), applique aux fichierslog de CISMeF. Paralllement cela, nous nous intressons lidentification deressources pertinentes pour une requte donne, en construisant un ensemble deressources syntaxiquement et smantiquement proche des ressources consultesau cours de la navigation. Son principe reste identique au prcdent.

    Dtection et dsambigusation des abrviations : dans le cadre du stage de mas-ter ITA en 2008 dIsmail MansourMansour(2008), nous avons travaill sur un al-gorithme de dtection automatique des abrviations ambigus dans les ressourcesmdicales. Lalgorithme que nous avons propos est fond sur la structure de don-nes des arbres de suffixes.

  • 5/28/2018 th se_version_finale_TM

    34/181

    Chapitre 2. Contexte de travail et projet de recherche 18

    2.4 Le projet InterSTIS (Interoprabilit Sman-

    tique des Terminologies dans les systmes dIn-formation de Sant franais)

    Le projet InterSTIS (Interoprabilit Smantique des Terminologies dans les sys-tmes dInformation de Sant franais) a t financ par lappel propositions TecSan2007 lanc par lAgence Nationale pour la Recherche (ANR) pour trois ans (janvier2008- dcembre 2010), a pour but de fdrer et de rendre interoprables les principales

    terminologies mdicales au sein dun serveur terminologique multi-sources (STMS)(voir section3.6).Le consortium du prsent projet est constitu de trois socits industrielles spcialises,entre autre, dans la reprsentation des connaissances, le langage naturel, et le langagemdical :

    VIDAL SA, partenaire coordinateur, Parishttp://www.vidal.fr

    Mondeca, Parishttp://www.mondeca.com

    Memodata, Caenhttp://www.memodata.com

    Quatre quipes hospitalo-universitaires spcialises dans les terminologies mdicales,les systmes dinformation et la diffusion dinformation de sant :

    LERTIM12, Facult de Mdecine, Universit de la Mditerrane, Marseillehttp://cybertim.timone.univ-mrs.fr

    CISMeF, CHU de Rouenhttp://www.chu-rouen.fr/cismef

    DSPIM, Facult de Mdecine, Universit Jean Monnet, Saint Etiennehttp://dossier.univ-st-etienne.fr/dspim/www/

    LabSTIC, Facult de Mdecine, Universit de Nice-Sofia Antipolishttp://portail.unice.fr/jahia/page4693.html

    Une quipe du CNRS spcialise dans le traitement du langage naturel :

    LIMSI, CNRS et Universit Paris-Sud 11, ORSAYhttp://www.limsi.fr

    Une fondation spcialise dans la comprhension du langage naturel et la recherche

    dinformation certifie dans le domaine de la sant :12Responsable scientifique.

    http://www.vidal.fr/http://www.mondeca.com/http://www.memodata.com/http://cybertim.timone.univ-mrs.fr/http://www.chu-rouen.fr/cismefhttp://dossier.univ-st-etienne.fr/dspim/www/http://portail.unice.fr/jahia/page4693.htmlhttp://www.limsi.fr/http://www.limsi.fr/http://portail.unice.fr/jahia/page4693.htmlhttp://dossier.univ-st-etienne.fr/dspim/www/http://www.chu-rouen.fr/cismefhttp://cybertim.timone.univ-mrs.fr/http://www.memodata.com/http://www.mondeca.com/http://www.vidal.fr/
  • 5/28/2018 th se_version_finale_TM

    35/181

    Chapitre 2. Contexte de travail et projet de recherche 19

    HON, partenaire associ, Genve

    http://www.hon.ch/

    Les objectifs dInterSTIS se dclinent dans trois principales directions :

    1. Modlisation des terminologies mdicales francophones utilises dans le STMS(voir section3.3.2).

    2. Intgration des terminologies mdicales dans le STMS. En plus de lintgrationcette tche va permettre lalignement entre terminologies lintrieur du STMS.

    3. Intgration et extension dun lexique mdical francophone.

    Mon travail de recherche commenc en 2007 est entirement financ par le projetInterSTIS. Un site internet a t mis en place www.interstis.org (figure2.9) pourpermettre aux participants de suivre rgulirement lvolution du projet.

    Fig.2.9 Le site InterSTIS

    http://www.hon.ch/http://www.interstis.org/http://www.interstis.org/http://www.hon.ch/
  • 5/28/2018 th se_version_finale_TM

    36/181

    Chapitre 2. Contexte de travail et projet de recherche 20

    2.5 Synthse

    Nous avons prsent dans ce chapitre le contexte gnrale de cette thse. Nous avonsdcrit brivement les diffrents travaux de chacune des quipes impliqus. Les quipesCISMeF et LERTIM travaillent depuis quelques annes sur des problmatiques procheslies principalement aux terminologies mdicales. Elles ont galement lanc plusieurscollaborations sur diffrents projets (les projets UMLF et VUMeF). Nous avons vuaussi que la fusion des deux quipes GCSIS (Gestion de la Connaissance et SystmesdInformation en Sant) et ABISS (Atelier Biologie, Informatique, Statistique, Socio-linguistique) en 2007, a permis louverture sur de nouveaux axes de recherche dansles domaines de la recherche, de lindexation et de lextraction des informations perti-nentes, en prenant comme champ dapplication les donnes biologiques et les systmesdinformation en sant.Le projet InterSTIS (Interoprabilit Smantique des Terminologies dans les Systmesdinformation de Sant Franais), a pour but de fdrer et de rendre interoprablesles principales terminologies mdicales au sein dun Serveur Multi-Terminologique deSant (SMTS).Notre travail qui sinscrit dans le cadre de ce projet, vise mettre en uvre des m-thodes permettant de contribuer linteroprabilit entre les diffrentes terminologies

    francophones qui seront intgres dans le SMTS.Dans le prochain chapitre, nous allons dcrire les diffrentes terminologies mdicalesutilises dans le cadre de cette thse. Nous dcrirons en dtail la problmatique lie lintgration des terminologies au sein dun mme serveur multi-terminologique.

  • 5/28/2018 th se_version_finale_TM

    37/181

    Chapitre 3

    tat de lart

    D ans ce chapitre, nous dcrivons les terminologies francophones utilises dans denos travaux de recherche. Ce chapitre traite la problmatique de lintgration desterminologies au sein dun mme serveur multi-terminologique. Nous dtaillerons danscette partie principalement le serveur multi-terminologique de sant, le cur des dif-

    frents projets de recherches entams il y a trois ans dans plusieurs laboratoires de

    recherche spcialiss dans le traitement de linformation mdicale. Dans la deuximepartie de ce chapitre nous listons les principaux termes utiliss pour dfinir le mca-nisme de mise en relation des terminologies. Nous proposons aussi une classificationdes diffrentes mthodes dalignements inspire deEuzenat et Shvaiko(2007) et leurstravaux sur les alignements entre les ontologies

    3.1 lments de reprsentation

    Le langage mdical est caractris par un vocabulaire extrmement riche et difficile manipuler. Les termes utiliss sont souvent trs imprcis et font rarement lobjetde dfinitions rigoureuses. Dans ce type de langage, il existe plusieurs faons dexpri-mer la mme chose (synonymies), ainsi que plusieurs interprtations possibles pourdes termes similaires. Cette situation nempche par le personnel mdical de communi-quer mais complique considrablement lautomatisation de ces communications. Ainsi,pour traiter linformation mdicale avec une machine , il faut fournir un modleformelZweigenbaum(1999). Ce modle est form de lensemble des termes du langage

    et des relations qui permettent de relier des concepts gnraux des concepts plusspcifiques. Plusieurs modles existent, les principaux (pour le domaine mdical) sont

  • 5/28/2018 th se_version_finale_TM

    38/181

    Chapitre 3. tat de lart 22

    la terminologie et lontologie. Dans une terminologie, on sintresse aux mots et aux

    relations entre eux; la relation structurante de base est la relation dhyperonymie etson inverse lhyponymie, tandis que dans une ontologie, on sintresse aux concepts etaux relations entre euxSmithet al.(2005).

    3.1.1 Terminologies

    DansRoche(2005), une terminologie est dfinie comme un ensemble de mots. Unedfinition plus prcise de la terminologie est donne dans Lefevre(2000) : Les ter-

    minologies sont des listes de termes dun domaine ou dun sujet donn reprsentantles concepts ou notions les plus frquemment utiliss ou les plus caractristiques .Formellement, Smith(2006) dfinit une terminologie comme un triplet ordonn :T=N,L,vo :

    Nreprsente aussi un ensemble de triplets p, Sp, d appels des noeuds o preprsente le libell unique (nomm aussi un terme prfr), Sp un ensemble desynonymess, s, s,. . .et dune dfinition optionnelle attache au noeud.

    Lun ensemble de pairs ordonnes r, Lrappeles des liens o r reprsente une

    relation de type (is_a ou part_of), et Lr reprsente une paire ordonnes, s de termes. Ainsi, s, r, s reprsente une relation dans la terminologieentreset s.

    vest un nombre qui reprsente la version de la terminologie.

    La norme ISOISO(2000) propose la meilleure et la plus simple des dfinitions en-semble de dsignations propre une langue de spcialistes , les dsignations peuventtre des termes (avec plusieurs statuts : termes prfrentiels, synonymes, noms, symboles. . .).De ce fait, le contenu et la structure dune terminologie dpendent de la fonction pourlaquelle cette terminologie va tre utilise. Dans une terminologie mdicale (ou systme

    terminologique mdical), des termes prcis sont utiliss pour spcifier les concepts dudomaine. Des relations peuvent aussi exister entre les termes. Par exemple, des rela-tions de gnralisation-spcialisation sont prises en compte par plusieurs terminologiespermettant de hirarchiser les termes du plus global au plus prcis. Dans une termino-logie, les concepts peuvent tre dsigns par plusieurs termes diffrents. Nous parleronsdans ce cas aussi dun systme de concept qui est dfini dans ISO(2000) commeun ensemble de concepts structurs selon des relations entre eux. Un terme prf-rentiel dsigne le nom du concept et plusieurs synonymes. En plus, les terminologiespeuvent tre multilingues (toutes les formes quivalentes sous le mme concept) dans

    des langues diffrentes.Moriet al.(1998) dcrit lvolution des terminologies en terme de trois gnrations.

  • 5/28/2018 th se_version_finale_TM

    39/181

    Chapitre 3. tat de lart 23

    Terminologie de premire gnration First generation : Elles sont caractri-

    ses par une organisation fixe (hirarchie simple) et une simple reprsentationcomme une liste indexe dune faon alphabtique. Par exemple, la classificationCIM10OMS(1993) ou le thsaurus MeSH;

    Terminologie de deuxime gnration Second generation : Elles sont caract-rises par une organisation dynamique (hirarchie multiple) avec une indexationmultiple. Par exemple, le dictionnaire mdical des activits de rglementationMedDRABrownet al.(1999) ou la SNOMED InternationalCtet al.(1993);

    Terminologie de troisime gnration Third generation : Elles sont fondessur un modle formel avec des symboles permettant de dnoter des concepts et

    un ensemble de rgles permettant de les manipuler. Par exemple, la SNOMEDCTSpackman(2000), GALENRectoret al.(1993).

    Dun autre ct, une classification des diffrentes terminologies mdicales a t dfiniedans la littraturede Keizeret al.(2000) ou dans les diffrentes normes du domaineISO(2007,2000). Ces classifications ont t tablies en fonction des diffrents objectifs pourle traitement de linformation en plus dun certain nombre de caractristiques propres chacune des terminologies :

    Vocabulaire contrl Un ensemble de termes sans organisation logique (en gnral)accompagns de leurs dfinitions. Cette dfinition englobe les termes diction-

    naires terminologiques , vocabulaires et gloassaires dfinies dans ISO(2000).

    Classification Une classification reprsente un ensemble de termes organiss et hi-rarchiss en classes et sous-classesde Keizeret al.(2000). Cette dfinition donneune vision plus simple de celle donne dans ISO(2007) o elle dfinit une clas-sification comme un ensemble exhaustif de catgories mutuellement exclusivespermettant le regroupement des donnes un niveau de spcialisation spci-fique . La structure de la classification et la granularit des classes dpend desobjectifs pour lesquels elle a t conue. LATC (classification Anatomique, Th-

    rapeutique) (voir section 4.3.1), la CCAM (Classification Commune des ActesMdicaux) (voir section4.4.1) et la CIM10 (Classification Internationale des Ma-ladies version 10) sont de bons exemples de classifications hirarchiques mdicales.

    Nomenclature Elle dsigne un ensemble de termes techniques, prsents selon unclassement mthodique. Cette dfinition est la mme utilise dans ISO(2000)pour dsigner une nomenclature. La nomenclature vise recenser les termes dundomaine de faon exhaustive. Les termes de la nomenclature peuvent tre r-partis selon plusieurs axes. Cette rpartition permet de composer un conceptcomplexe par combinaison de plusieurs concepts. Une nomenclature importantedans le domaine clinique laquelle nous nous intressons ici (voir section 6) estla Nomenclature Systmatique des Mdecines Humaine et Vtrinaire de Ct

  • 5/28/2018 th se_version_finale_TM

    40/181

    Chapitre 3. tat de lart 24

    et al.(1993).

    Thsaurus Est un ensemble structur de termes dun vocabulaire. Les termes sontorganiss de manire conceptuelle et relis entre eux par des relations sman-tiques. Trois types de relations entre les termes existent : relation hirarchique(spcialisation-gnralisation, tout-partie), relation dquivalence (synonymes) etrelation dassociation pour les sujets connexes. La terminologie MeSH introduitelors de la prsentation du projet CISMeF et dfinie en dtail dans la section3.1.3,est un thsaurus.Lors de lutilisation des codes pour dsigner chaque terme dans ces types determinologie, nous parlerons alors dun systme de codage. Dsigner comme un

    systme terminologique, un systme de codage est dfini dansISO(2007) commeune combinaison dun ensemble de concepts, dun ensembles de codes et daumoins dun schma de mapping entre codes et concepts. Notons aussi que la no-tion dontologie (dfinie dans la section3.1.2) est utilise comme synonyme pourun certain type de terminologies.La tableau3.1Nvol (2005) rsume les principales caractristiques de chaquetype de terminologie.

    Type de terminologie CaractristiquesVocabulaire contrl dfinition des termes

    Classification structuration

    liens nomms entre lestermes

    Nomenclature exhaustivit

    structuration

    Thsaurusnormalisation destermesrduction des am-

    bigits

    Tab.3.1 Les types de terminologies et leurs caractristiques

    3.1.2 Ontologie

    Lontologie comme discipline philosophique est dfinie comme la science qui soc-cupe de ce qui est, des genres et des structures des objets, des proprits, des vne-

    ments, des relations dans tous les secteurs de la ralitSmith(2003). Depuis environdeux dcennies, la communaut informatique a commenc sintresser aux ontologies.

  • 5/28/2018 th se_version_finale_TM

    41/181

    Chapitre 3. tat de lart 25

    Leur importance est largement reconnue dans divers domaines de rechercheGuarino

    (1998), tels que lingnierie des connaissances Gruber(1993); Uschold et Grninger(1996) et la reprsentation des connaissancesGuarino(1995);Sowa(2000).

    La premire dfinition de lontologie dans le domaine informatique est donne parGruber comme a specification of a conceptualization Gruber(1993). Bien que Smithpense que la contribution de Gruber soit la premire tentative de dfinition crdible,elle laisse cependant la place dautres interprtations possiblesSmith et Welty(2001).Selon Smith, des systmes dinformation tels que des catalogues, des glossaires, des th-saurus satisfont la dfinition de Gruber. Nanmoins, elle exprime une ide intuitive quireste vraie pour le sens de lontologie, tel quil est employ dans la grande majorit destravaux. Zweigenbaum(1999) prsente lontologie comme laboutissement formel dela dfinition dune terminologie.Dune manire gnrale, une ontologie fournit les moyens dexprimer les concepts dundomaine en les organisant hirarchiquement et en dfinissant leurs proprits sman-tiques dans un langage de reprsentation des connaissances formel Bourigault et al.(2004). La relation hirarchique gnralisation-spcialisation est unique, ce qui per-met de dfinir clairement la subsomption entre concepts. Des exemples dontologies sontles ontologies GALEN (General Architecture for Language and Nomenclatures)Rectoret al.(2003) et FMA (Foundational Model of Anatomy)Rosse et Mejino(2003).

    3.1.3 Les principales terminologies mdicales

    Dans le cadre de cette thse, nous avons utilis un certain nombre de terminologiesmdicales de diffrents types. La plupart sont traduites en franais. Nous dfinissonsdans cette section six terminologies importantes pour la suite de nos travaux car ellessont incluses dans UMLS et traduites en franais (F_UMLS): MeSH (Medical Subject

    Headings), CIM10 (Classification Internationale des Maladies version 10), CISP2 (Clas-sification Internationale des Soins Primaires, deuxime version), SNOMED 3.5 (Sys-tematized Nomenclature Of MEDicine), MedDRA (Medical Dictionary for RegulatoryActivities), WHO-ART (World Health Organisation - Adverse Reaction Terminology).Dautres terminologies vont tre dfinies dans diffrentes sections en fonction de leurutilisation.

  • 5/28/2018 th se_version_finale_TM

    42/181

    Chapitre 3. tat de lart 26

    MeSH (Medical Subject Headings) :

    Une premire liste officielle de sujets a t publie par la NLM (National Libraryof Medecine) tats-unienne en 1954. La premire version du MeSH a t publie en1960 pour indexer les articles scientifiques dans le systme bibliographique biomdi-cal automatis de stockage et de recherche MEDLARS Austin(1968) (devenu depuisMEDLINE regroupant plus de 18 millions darticles) Bachrach et Charen(1978). Leprojet CISMeF utilise la terminologie MeSH pour lindexation des ressources fran-cophones disponibles gratuitement sur Internet. Le MeSH est traduit en 11 langues(franais, anglais, espagnol, . . .). Toutes ces traductions sont prsentes dans UMLS.

    LINSERM (Institut National de la Sant Et de la Recherche Mdicale) a labor uneversion franaise du MeSH1. Une nouvelle version apparat tous les ans, la dernireen date est la version 2010. Il existe au maximum 11 niveaux hirarchiques dans leMeSH avec des relations de spcialisation-gnralisation et tout-partie diviseen 15 arborescences thmatiques auxquelles correspond un code spcifique : A pour anatomie , B pour organisme , C pour maladie etc. La figure 3.1prsente un extrait de larborescence : C maladie . Dans sa version 2010, le MeSHcomporte 25 588 mots cls, 84 qualificatifs ainsi que 186 702 concepts chimiques suppl-mentaires. Les qualificatifs sont des termes qui peuvent tre associs un mot cl afin

    den prciser le sens Darmoni et al. (2007). Par exemple, cancer des os/traitementmdicamenteux permet de restreindre le cancer des os au seul aspect du traitementmdicamenteux (qualificatif). Les qualificatifs sont organiss hirarchiquement du plusgnrique au plus prcis.

    Deux autres types de relations existent :

    La relation voir aussi permet de naviguer dun mot cl lautre et de relierdes termes proches.

    La relation ne pas confondre permet de prciser le sens et de lever les ambi-

    guts.Les types de publication sont des termes utiliss pour lindexation du contenant dans laNLM. Ces termes ont servi de rfrentiel de dpart pour crer les types des ressourcesutiliss dans CISMeF.

    MedDRA (Dictionnaire mdical des activits de rglementation) :

    La terminologie MedDRA, une initiative de la confrence internationale sur lhar-

    monisation (ICH)OMS(1993), est un dictionnaire uniformis de terminologies mdi-1http://ist.inserm.fr/mesh/html/mesh.html

    http://ist.inserm.fr/mesh/html/mesh.htmlhttp://ist.inserm.fr/mesh/html/mesh.html
  • 5/28/2018 th se_version_finale_TM

    43/181

    Chapitre 3. tat de lart 27

    Fig.3.1 Extrait de larborescence C (Maladies) du MeSH

  • 5/28/2018 th se_version_finale_TM

    44/181

    Chapitre 3. tat de lart 28

    calesBrownet al.(1999). Il est destin au partage de renseignements de rglementation

    lchelle internationale sur les produits mdicaux destins lusage humain. Depuisjanvier 2003, la terminologie mdicale de MedDRA sert aux changes lectroniques din-formations et dobservations de pharmacovigilance lchelle internationale. MedDRAest aussi utilis pour les effets secondaires dus aux instruments mdicaux. MedDRAest disponible en plusieurs langues dont le franais, langlais, lespagnol ou le japonais.Le support de maintenance de MedDRA est assur par le MSSO (Maintenance andSupport Services Organization).2

    MedDRA est construit selon une hirarchie constitue de 26 classes de haut niveau(SOC) permettant de dfinir et traduire les renseignements mdicaux selon 5 niveauxde prcision :

    Classe Organes/System Organ Class (SOC): il sagit du plus haut niveau de lahirarchie qui offre le plus large concept pour le regroupement des donnes par :

    tiologie (Infections and infestations)

    Site datteinte (Gastrointesinal disorders)

    Action (surgical and medical procedures)

    Termes de haut niveau/High Level Term (HLT): regroupent des termes prf-rs (PT) ayant en commun un lien anatomique, physiopathologique, tiologique

    ou fonctionnel.Le terme prfr/Preferred Terms (PT) : est un terme dcrivant un concept

    mdical unique. Il doit tre le moins ambigu et le plus spcifique et auto-descriptifpossible. Un PT doit tre reli au moins un SOC.

    Groupes de termes de haut niveau/High Level Group Term (HLGT) : reg-roupent plusieurs HLT ayant un lien anatomique, physiopathologique, tiologiqueou fonctionnel.

    Termes de bas niveau/Low Level Terms (LLT) : est le niveau prfrentiel decodage, il couvre en effet le plus grand nombre dentres possibles. Chaque LLT

    est reli un seul PT.Le tableau 3.2donne des exemples pour chaque type de termes ainsi que le nombrede termes dans MedDRA suivant chaque type.

    Une classe organe regroupe lensemble des concepts lis un organe. Chaque termeprfr est associ une classe organe unique et peut appartenir de faon optionnelle une ou plusieurs classes organes secondaires. Par exemple la nphropathie diabtiqueappartient la classe organe des troubles rnaux mais il existe un lien secondaire vers la

    classe organe des troubles mtaboliques. Les deux types de termes HLT et HLGT sont2www.meddramsso.com

    http://www.meddramsso.com/http://www.meddramsso.com/
  • 5/28/2018 th se_version_finale_TM

    45/181

    Chapitre 3. tat de lart 29

    Type de terme Exemple de terme

    Nombre de

    termes dansMedDRA

    System Organ Class (SOC) Troubles du foie et des voies biliaires 26High Level Group Term (HLGT) Maladies hpatobiliaires 332High Level Term (HLT) Hpatite 1 682Preferred Term (PT) Adipose douloureuse de Dercum 17 867Low Level Terms (LLT) Syndrome abdominal aigu 56 580

    Tab.3.2 Exemples et nombre de termes MedDRA suivant chaque type de terme

    utiliss uniquement pour lextraction de donnes et leur prsentation. Ils ne sont pasutiliss pour le codage. Le schma de la figure3.3reprsente la distribution hirarchiquedans la terminologie MedDRA. De plus, le dictionnaire MedDRA intgre des RequtesStandard MedDRA (RSM) (SMQ en anglais). Les RSM sont des regroupements determes qui se rapportent un domaine mdical spcifique (voir figure3.2).

    Fig.3.2 Exemple dune requte Standard MedDRA

    WHO-ART (World Health Organisation - Adverse Reaction Termi