Détection de problèmes de qualité dans les ontologies construites automatiquement à partir de textes
Par : Gherasim, Toader
Document archivé le : 27/08/2015
La démocratisation de l’utilisation des ontologies dans des domaines très variés a stimulé le développement d’approches proposant différents degrés d’automatisation du processus de construction d’une ontologie. Cependant, malgré le réel intérêt de ces approches, parfois les résultats obtenus peuvent être d’une faible qualité. L’objectif des travaux présentés dans cette thèse est de contribuer à l’amélioration de la qualité des ontologies construites automatiquement à partir de textes. Nos principales contributions sont : (1) une démarche pour la comparaison des approches, (2) une typologie des problèmes qui affectent la qualité les ontologies, et (3) une première réflexion sur l’automatisation de la détection des problèmes. Notre démarche de comparaison des approches comporte trois étapes complémentaires : (1) sur la base de leur degré de complétude et d’automatisation ; (2) puis sur la base de leurs caractéristiques techniques et fonctionnelles, et (3) expérimentalement par comparaison de leurs résultats avec une ontologie construite manuellement. La typologie proposée organise les problèmes de qualité selon deux dimensions : les erreurs versus les situations indésirables et les aspects logiques versus les aspects sociaux. Notre typologie contient 24 classes de problèmes qui recouvrent, en les complétant, les problèmes décrits dans la littérature. Pour la détection automatique nous avons recensé quelques unes des méthodes existantes pour chaque problème de notre typologie et nous avons mis en évidence les problèmes qui semblent encore ouverts. Et, nous avons proposé une heuristique pour un problème qui apparaît fréquemment dans nos expérimentations (étiquettes polysémiques).
IMPORTANT : OBLIGATIONS DE LA PERSONNE CONSULTANT CE DOCUMENT
Conformément au Code de la propriété intellectuelle, nous rappelons que le document est
destiné à un usage strictement personnel. Les "analyses et les courtes citations justifiées
par le caractère critique, polémique, pédagogique, scientifique ou d'information" sont autorisées
sous réserve de mentionner les noms de l'auteur et de la source (article L. 122-4 du Code de la
propriété intellectuelle). Toute autre représentation ou reproduction intégrale ou partielle,
faite sans le consentement de l'auteur ou de ses ayants droit, est illicite.
De ce fait, nous vous rappelons notamment que, sauf accord explicite de l'auteur de la thèse, vous n'êtes pas autorisé à rediffuser ce document sous quelque forme que ce soit (impression papier, transfert par voie électronique, ou autre). Tout contrevenant s'expose aux peines prévues par la loi.
Fichier(s) associé(s) au document :
2013NANT2091_GHERASIM_these.pdf
2013NANT2091_GHERASIM_these.pdf