Apprentissage de grammaires catégorielles : transducteurs d’arbres et clustering pour induction de grammaires catégorielles

SANDILLON REZER, Noémie Fleur

La plateforme OSKAR Bordeaux évolue pour rejoindre l'archive ouverte HAL. Retrouvez tous vos dépôts sur le nouveau portail HAL UB : https://u-bordeaux.hal.science/. Pour toute aide ou information, contactez-nous info@oskar-bordeaux.fr

Afficher la notice abrégée

dc.contributor.advisor	Retoré, Christian
dc.contributor.advisor	Moot, Richard
dc.contributor.author	SANDILLON REZER, Noémie Fleur
dc.contributor.other	Danlos, Laurence
dc.contributor.other	Nasr, Alexis
dc.contributor.other	Senizergues, Géraud
dc.contributor.other	Van de Cruys, Tim
dc.date	2013-12-09
dc.date.accessioned	2020-12-14T21:12:19Z
dc.date.available	2020-12-14T21:12:19Z
dc.identifier.uri	http://ori-oai.u-bordeaux1.fr/pdf/2013/SANDILLON_REZER_NOEMIE_FLEUR_2013.pdf
dc.identifier.uri	https://tel.archives-ouvertes.fr/tel-00946548
dc.identifier.uri	https://oskar-bordeaux.fr/handle/20.500.12278/21945
dc.identifier.nnt	2013BOR14940
dc.description.abstract	De nos jours, il n’est pas rare d’utiliser des logiciels capables d’avoir une conversation, d’interagir avec nous (systèmes questions/réponses pour les SAV, gestion d’interface ou simplement Intelligence Artificielle - IA - de discussion). Ceux-ci doivent comprendre le contexte ou réagir par mot-clefs, mais générer ensuite des réponses cohérentes, aussi bien au niveau du sens de la phrase (sémantique) que de la forme (syntaxe). Si les premières IA se contentaient de phrases toutes faites et réagissaient en fonction de mots-clefs, le processus s’est complexifié avec le temps. Pour améliorer celui-ci, il faut comprendre et étudier la construction des phrases. Nous nous focalisons sur la syntaxe et sa modélisation avec des grammaires catégorielles. L’idée est de pouvoir aussi bien générer des squelettes de phrases syntaxiquement correctes que vérifier l’appartenance d’une phrase à un langage, ici le français (il manque l’aspect sémantique). On note que les grammaires AB peuvent, à l’exception de certains phénomènes comme la quantification et l’extraction, servir de base pour la sémantique en extrayant des λ-termes. Nous couvrons aussi bien l’aspect d’extraction de grammaire à partir de corpus arborés que l’analyse de phrases. Pour ce faire, nous présentons deux méthodes d’extraction et une méthode d’analyse de phrases permettant de tester nos grammaires. La première méthode consiste en la création d’un transducteur d’arbres généralisé, qui transforme les arbres syntaxiques en arbres de dérivation d’une grammaire AB. Appliqué sur les corpus français que nous avons à notre disposition, il permet d’avoir une grammaire assez complète de la langue française, ainsi qu’un vaste lexique. Le transducteur, même s’il s’éloigne peu de la définition usuelle d’un transducteur descendant, a pour particularité d’offrir une nouvelle méthode d’écriture des règles de transduction, permettant une définition compacte de celles-ci. Nous transformons actuellement 92,5% des corpus en arbres de dérivation. Pour notre seconde méthode, nous utilisons un algorithme d’unification en guidant celui-ci avec une étape préliminaire de clustering, qui rassemble les mots en fonction de leur contexte dans la phrase. La comparaison avec les arbres extraits du transducteur donne des résultats encourageants avec 91,3% de similarité. Enfin, nous mettons en place une version probabiliste de l’algorithme CYK pour tester l’efficacité de nos grammaires en analyse de phrases. La couverture obtenue est entre 84,6% et 92,6%, en fonction de l’ensemble de phrases pris en entrée. Les probabilités, appliquées aussi bien sur le type des mots lorsque ceux-ci en ont plusieurs que sur les règles, permettent de sélectionner uniquement le “meilleur” arbre de dérivation.Tous nos logiciels sont disponibles au téléchargement sous licence GNU GPL.
dc.description.abstractEn	Nowadays, we have become familiar with software interacting with us using natural language (for example in question-answering systems for after-sale services, human-computer interaction or simple discussion bots). These tools have to either react by keyword extraction or, more ambitiously, try to understand the sentence in its context. Though the simplest of these programs only have a set of pre-programmed sentences to react to recognized keywords (these systems include Eliza but also more modern systems like Siri), more sophisticated systems make an effort to understand the structure and the meaning of sentences (these include systems like Watson), allowing them to generate consistent answers, both with respect to the meaning of the sentence (semantics) and with respect to its form (syntax). In this thesis, we focus on syntax and on how to model syntax using categorial grammars. Our goal is to generate syntactically accurate sentences (without the semantic aspect) and to verify that a given sentence belongs to a language - the French language. We note that AB grammars, with the exception of some phenomena like quantification or extraction, are also a good basis for semantic purposes. We cover both grammar extraction from treebanks and parsing using the extracted grammars. On this purpose, we present two extraction methods and test the resulting grammars using standard parsing algorithms. The first method focuses on creating a generalized tree transducer, which transforms syntactic trees into derivation trees corresponding to an AB grammar. Applied on the various French treebanks, the transducer’s output gives us a wide-coverage lexicon and a grammar suitable for parsing. The transducer, even if it differs only slightly from the usual definition of a top-down transducer, offers several new, compact ways to express transduction rules. We currently transduce 92.5% of all sen- tences in the treebanks into derivation trees.For our second method, we use a unification algorithm, guiding it with a preliminary clustering step, which gathers the words according to their context in the sentence. The comparision between the transduced trees and this method gives the promising result of 91.3% of similarity.Finally, we have tested our grammars on sentence analysis with a probabilistic CYK algorithm and a formula assignment step done with a supertagger. The obtained coverage lies between 84.6% and 92.6%, depending on the input corpus. The probabilities, estimated for the type of words and for the rules, enable us to select only the “best” derivation tree. All our software is available for download under GNU GPL licence.
dc.language.iso	fr
dc.subject	Grammaires AB
dc.subject	Inférence grammaticale
dc.subject	Clustering
dc.subject	Transducteur d’arbres
dc.subject	Apprentissage automatique
dc.subject.en	AB grammar
dc.subject.en	Grammatical inference
dc.subject.en	Clustering
dc.subject.en	Tree transducer
dc.subject.en	Automatic learning
dc.title	Apprentissage de grammaires catégorielles : transducteurs d’arbres et clustering pour induction de grammaires catégorielles
dc.title.en	Learning categorial grammars
dc.type	Thèses de doctorat
bordeaux.hal.laboratories	Thèses de l'Université de Bordeaux avant 2014	*
bordeaux.hal.laboratories	Laboratoire bordelais de recherche en informatique
bordeaux.institution	Université de Bordeaux
bordeaux.institution	Bordeaux INP
bordeaux.type.institution	Bordeaux 1
bordeaux.thesis.discipline	Informatique
bordeaux.ecole.doctorale	École doctorale de mathématiques et informatique (Talence, Gironde)
star.origin.link	https://www.theses.fr/2013BOR14940
dc.contributor.rapporteur	Foret, Annie
dc.contributor.rapporteur	Steedman, Mark
bordeaux.COinS	ctx_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.title=Apprentissage%20de%20grammaires%20cat%C3%A9gorielles%20:%20transducteurs%20d%E2%80%99arbres%20et%20clustering%20pour%20induction%20de%20grammaires%20cat%C3%A9gorielles&rft.atitle=Apprentissage%20de%20grammaires%20cat%C3%A9gorielles%20:%20transducteurs%20d%E2%80%99arbres%20et%20clustering%20pour%20induction%20de%20grammaires%20cat%C3%A9gorielles&rft.au=SANDILLON%20REZER,%20No%C3%A9mie%20Fleur&rft.genre=unknown

Fichier(s) constituant ce document

Fichiers	Taille	Format	Vue
Il n'y a pas de fichiers associés à ce document.

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée