Intégration de connaissances biomédicales hétérogènes grâce à un modèle basé sur les ontologies de support
Langue
fr
Thèses de doctorat
Date de soutenance
2019-10-10Spécialité
Santé publique Informatique et Santé
École doctorale
École doctorale Sociétés, politique, santé publique (Bordeaux)Résumé
Dans le domaine de la santé, il existe un nombre très important de sources de connaissances, qui vont de simples terminologies, classifications et vocabulaires contrôlés à des représentations très formelles, que sont les ...Lire la suite >
Dans le domaine de la santé, il existe un nombre très important de sources de connaissances, qui vont de simples terminologies, classifications et vocabulaires contrôlés à des représentations très formelles, que sont les ontologies. Cette hétérogénéité des sources de connaissances pose le problème de l’utilisation secondaire des données, et en particulier de l’exploitation de données hétérogènes dans le cadre de la médecine personnalisée ou translationnelle. En effet, les données à utiliser peuvent être codées par des sources de connaissances décrivant la même notion clinique de manière différente ou décrivant des notions distinctes mais complémentaires.Pour répondre au besoin d’utilisation conjointe des sources de connaissances encodant les données de santé, nous avons étudié trois processus permettant de répondre aux conflits sémantiques (difficultés résultant de leur mise en relation) : (1) l’alignement qui consiste à créer des relations de mappings (équivalence et/ou subsumption) entre les entités des sources de connaissances, (2) l’intégration qui consiste à créer des mappings et à organiser les autres entités dans une même structure commune cohérente et, enfin, (3) l’enrichissement sémantique de l’intégration qui consiste à créer des mappings grâce à des relations transversales en plus de celles d’équivalence et de subsumption.Dans un premier travail, nous avons aligné la terminologie d’interface du laboratoire d’analyses du CHU de Bordeaux à la LOINC. Deux étapes principales ont été mises en place : (i) le prétraitement des libellés de la terminologie locale qui comportaient des troncatures et des abréviations, ce qui a permis de réduire les risques de survenue de conflits de nomenclature, (ii) le filtrage basé sur la structure de la LOINC afin de résoudre les différents conflits de confusion.Deuxièmement, nous avons intégré RxNorm à la sous-partie de la SNOMED CT décrivant les connaissances sur les médicaments afin d’alimenter la SNOMED CT avec les entités de RxNorm. Ainsi, les médicaments dans RxNorm ont été décrits en OWL grâce à leurs éléments définitionnels (substance, unité de mesure, dose, etc.). Nous avons ensuite fusionné cette représentation de RxNorm à la structure de la SNOMED CT, résultant en une nouvelle source de connaissances. Nous avons ensuite comparé les équivalences inférées (entre les entités de RxNorm et celles de la SNOMED CT) grâce à cette nouvelle structure avec les équivalences créées de manière morphosyntaxique. Notre méthode a résolu des conflits de nomenclature mais s’est confrontée à certains conflits de confusion et d’échelle, ce qui a mis en évidence le besoin d’améliorer RxNorm et SNOMED CT.Finalement, nous avons réalisé une intégration sémantiquement enrichie de la CIM10 et de la CIMO3 en utilisant la SNOMED CT comme support. La CIM10 décrivant des diagnostics et la CIMO3 décrivant cette notion suivant deux axes différents (celui des lésions histologiques et celui des localisations anatomiques), nous avons utilisé la structure de la SNOMED CT pour retrouver des relations transversales entre les concepts de la CIM10 et de la CIMO3 (résolution de conflits ouverts). Au cours du processus, la structure de la SNOMED CT a également été utilisée pour supprimer les mappings erronés (conflits de nomenclature et de confusion) et désambiguïser les cas de mappings multiples (conflits d’échelle).< Réduire
Résumé en anglais
In the biomedical domain, there are almost as many knowledge resources in health as there are application fields. These knowledge resources, described according to different representation models and for different contexts ...Lire la suite >
In the biomedical domain, there are almost as many knowledge resources in health as there are application fields. These knowledge resources, described according to different representation models and for different contexts of use, raise the problem of complexity of their interoperability, especially for actual public health problematics such as personalized medicine, translational medicine and the secondary use of medical data. Indeed, these knowledge resources may represent the same notion in different ways or represent different but complementary notions.For being able to use knowledge resources jointly, we studied three processes that can overcome semantic conflicts (difficulties encountered when relating distinct knowledge resources): the alignment, the integration and the semantic enrichment of the integration. The alignment consists in creating a set of equivalence or subsumption mappings between entities from knowledge resources. The integration aims not only to find mappings but also to organize all knowledge resources’ entities into a unique and coherent structure. Finally, the semantic enrichment of integration consists in finding all the required mapping relations between entities of distinct knowledge resources (equivalence, subsumption, transversal and, failing that, disjunction relations).In this frame, we firstly realized the alignment of laboratory tests terminologies: LOINC and the local terminology of Bordeaux hospital. We pre-processed the noisy labels of the local terminology to reduce the risk of naming conflicts. Then, we suppressed erroneous mappings (confounding conflicts) using the structure of LOINC.Secondly, we integrated RxNorm to SNOMED CT. We constructed formal definitions for each entity in RxNorm by using their definitional features (active ingredient, strength, dose form, etc.) according to the design patterns proposed by SNOMED CT. We then integrated the constructed definitions into SNOMED CT. The obtained structure was classified and the inferred equivalences generated between RxNorm and SNOMED CT were compared to morphosyntactic mappings. Our process resolved some cases of naming conflicts but was confronted to confounding and scaling conflicts, which highlights the need for improving RxNorm and SNOMED CT.Finally, we performed a semantically enriched integration of ICD-10 and ICD-O3 using SNOMED CT as support. As ICD-10 describes diagnoses and ICD-O3 describes this notion according to two different axes (i.e., histological lesions and anatomical structures), we used the SNOMED CT structure to identify transversal relations between their entities (resolution of open conflicts). During the process, the structure of the SNOMED CT was also used to suppress erroneous mappings (naming and confusion conflicts) and disambiguate multiple mappings (scale conflicts).< Réduire
Mots clés
Intégration sémantique
Terminologies biomédicales
Ontologies de support
Mots clés en anglais
Semantic integration
Biomedical terminologie
Pivot ontologies
Origine
Importé de STAR