Reconnaissance de parole pour le français et intégration dans un système de compréhension du langage parlé
Idioma
fr
Thèses de doctorat
Fecha de defensa
2021-10-20Especialidad
Informatique
Escuela doctoral
École doctorale de mathématiques et informatiqueResumen
Dans une société où un nombre considérable de systèmes complexes et d'objets connectés voient le jour, le besoin de simplifier les interactions Homme-Machine est devenu une problématique importante aussi bien pour la ...Leer más >
Dans une société où un nombre considérable de systèmes complexes et d'objets connectés voient le jour, le besoin de simplifier les interactions Homme-Machine est devenu une problématique importante aussi bien pour la communauté scientifique que les entreprises. Dans ce cadre, la parole étant considérée comme un moyen de communication évident, la définition d'un système de Reconnaissance Automatique de Parole (RAP) répondant à différents critères de performance, de robustesse et de rapidité s'avère cruciale. Celui-ci doit aussi admettre un caractère évolutif et pouvoir s'adapter facilement en considération de l'évolution d'une langue, d'un contexte métier précis ou encore de la mise en relation avec d'autres briques logicielles de la chaîne de communication (p. ex., les modules de détection des intentions utilisateurs ou de compréhension d'un énoncé textuel). Dans ce contexte, l’objectif principal de cette thèse est le développement d'un système de reconnaissance automatique de parole pour le français et sa mise en relation avec un système de compréhension du langage naturel (CLN) proposé par la société Airudit, porteuse de cette thèse avec le Laboratoire Bordelais de Recherche en Informatique (LaBRI). Afin de répondre au premier objectif, nous proposons une étude comparative des principales approches de RAP existantes de nos jours pour le français. Une attention particulière est donnée ici sur le type d'approche (RAP traditionnelle ou RAP bout-en-bout), la définition de l'architecture optimale ainsi que le type d’unités en sortie (caractères, sous-mots ou mots). Cette étude est ensuite étendue par une comparaison des erreurs formulées par les différents systèmes produits en vue d'une interprétation par un système de compréhension du langage naturel. Parallèlement, je présente mes contributions dans le cadre du projet ESPnet qui met à disposition de la communauté scientifique des outils pour le traitement de la parole. Toujours dans une optique de construction d'un système de RAP optimal pour le français, une attention particulière a été donnée sur la proposition de techniques d'entraînement de d'inférence pour l'un des systèmes les plus performants durant notre première étude : le RNN-Transducer.Concernant le second objectif visant à étudier et améliorer la mise en relation avec un système de compréhension, nous proposons de plus une nouvelle approche ayant donné lieu à un brevet. Celle-ci vise à restituer des mécanismes observés de la communication naturelle (p. ex., la connaissance a priori du contexte, l'inférence du sens malgré le manque d'informations ou la présence d'erreurs) et se propose aussi de résoudre des problèmes inhérents de l'association d'un système de RAP traditionnel avec un système de CLN, créés et optimisés de manière indépendante.< Leer menos
Resumen en inglés
In a world where a considerable number of complex systems and smart objects are emerging, the need to simplify human-machine interactions has become an important issue for both the scientific community and the industrial ...Leer más >
In a world where a considerable number of complex systems and smart objects are emerging, the need to simplify human-machine interactions has become an important issue for both the scientific community and the industrial field. In this context, speech is considered an obvious means of communication. Thus, the definition of an Automatic Speech Recognition (ASR) system answering different criteria of performance, robustness, and speed is becoming crucial. This system must also admit an evolutionary trait and be able to adapt easily in consideration of the evolution of a language, of a precise context, or even of the connection with other programs making up the communication chain (e.g.: user-intent detection, language understanding). In this context, the main objective of this thesis is the development of an automatic speech recognition (ASR) system for French and its linking with a natural language understanding (NLU) system proposed by the company Airudit, which is the advisor of this thesis with the Laboratoire Bordelais de Recherche en Informatique (LaBRI).In order to address the first objective, we propose a comparative study of the main ASR approaches existing nowadays, applied to French. A focus is given on the type of approach (traditional ASR or end-to-end ASR), the definition of the optimal architecture, as well as the type of output units (characters, sub-words, or words). This study is then extended by a comparison of the errors formulated by the different systems with an emphasis on the interpretation by a natural language understanding system. At the same time, I present my contributions to the ESPnet project which provides the scientific community with tools for speech processing. With the perspective of building an optimal ASR system for French, a particular attention has been given to the proposal of training and inference techniques for one of the most performing systems during our first study: the RNN-Transducer.Concerning the second objective aiming at studying and improving the relationship with a comprehension system, we also propose a new approach that has been patented. This approach aims at restoring some observed mechanisms of the natural communication (e.g.: prior context knowledge, meaning extraction from incomplete or erroneous information) and also proposes to solve problems inherent to the association of a traditional ASR system with an NLU system, created and optimized independently.< Leer menos
Palabras clave
Reconnaissance Automatique de Parole
Reconnaissance de Parole bout-en-bout
Compréhension du Langage Parlé
Apprentissage profond
Palabras clave en inglés
Automatic speech recognition
Spoken Language Understanding
End-to-End Speech Recognition
Deep learning
Orígen
Recolectado de STARCentros de investigación