Représentations relationnelles et apprentissage interactif pour l'apprentissage efficace du comportement coopératif

MUNZER, Thibaut

dc.contributor.advisor	Lopes, Manuel
dc.contributor.author	MUNZER, Thibaut
dc.contributor.other	Lopes, Manuel
dc.contributor.other	Oudeyer, Pierre-Yves
dc.contributor.other	Chetouani, Mohamed
dc.contributor.other	Bicho, Estela
dc.contributor.other	Daney, David
dc.contributor.other	Dias, João
dc.date	2017-04-21
dc.identifier.uri	http://www.theses.fr/2017BORD0574/abes
dc.identifier.uri	https://tel.archives-ouvertes.fr/tel-01526955
dc.identifier.nnt	2017BORD0574
dc.description.abstract	Cette thèse présente de nouvelles approches permettant l’apprentissage efficace et intuitif de plans de haut niveau pour les robots collaboratifs. Plus précisément, nous étudions l’application d’algorithmes d’apprentissage par démonstration dans des domaines relationnels. L’utilisation de domaines relationnels pour représenter le monde permet de simplifier la représentation de comportements concurrents et collaboratifs. Nous avons commencé par développer et étudier le premier algorithme d’apprentissage par renforcement inverse pour domaines relationnels. Nous avons ensuite présenté comment utiliser le formalisme RAP pour représenter des tâches collaboratives comprenant un robot et un opérateur humain. RAP est une extension des MDP relationnels qui permet de modéliser des activités concurrentes. Utiliser RAP nous a permis de représenter à la fois l’humain et le robot dans le même processus, mais également de modéliser des activités concurrentes du robot. Sous ce formalisme, nous avons montré qu’il était possible d’apprendre le comportement d’une équipe, à la fois comme une politique et une récompense. Si des connaissances a priori sur la tâche à réaliser sont disponibles, il est possible d’utiliser le même algorithme pour apprendre uniquement les préférences de l’opérateur. Cela permet de s’adapter à l’utilisateur. Nous avons montré que l’utilisation des représentations relationnelles permet d’apprendre des comportements collaboratifs à partir de peu de démonstrations.Ces comportements sont à la fois robustes au bruit, généralisables à de nouveaux états, et transférables à de nouveaux domaines (par exemple en ajoutant des objets). Nous avons également introduit une architecture d’apprentissage interactive qui permet au système de faire moins d’erreurs tout en demandant moins d’efforts à l’opérateur humain. Le robot, en estimant sa confiance dans ses décisions, est capable de demander des instructions quand il est incertain de l’activité à réaliser. Enfin, nous avons implémenté ces approches sur un robot et montré leurs impacts potentiels dans un scenario réaliste.
dc.description.abstractEn	This thesis presents new approaches toward efficient and intuitive high-level plan learning for cooperative robots. More specifically this work study Learning from Demonstration algorithm for relational domains. Using relational representation to model the world, simplify representing concurrentand cooperative behavior.We have first developed and studied the first algorithm for Inverse ReinforcementLearning in relational domains. We have then presented how one can use the RAP formalism to represent Cooperative Tasks involving a robot and a human operator. RAP is an extension of the Relational MDP framework that allows modeling concurrent activities. Using RAP allow us to represent both the human and the robot in the same process but also to model concurrent robot activities. Under this formalism, we have demonstrated that it is possible to learn behavior, as policy and as reward, of a cooperative team. Prior knowledge about the task can also be used to only learn preferences of the operator.We have shown that, using relational representation, it is possible to learn cooperative behaviors from a small number of demonstration. That these behaviors are robust to noise, can generalize to new states and can transfer to different domain (for example adding objects). We have also introduced an interactive training architecture that allows the system to make fewer mistakes while requiring less effort from the human operator. By estimating its confidence the robot is able to ask for instructions when the correct activity to dois unsure. Lastly, we have implemented these approaches on a real robot and showed their potential impact on an ecological scenario.
dc.language.iso	fr
dc.subject	Coopératif
dc.subject	Robotique
dc.subject	Apprentissage par imitation
dc.subject	Représentations relationnelles
dc.subject	Apprentissage interactif
dc.subject.en	Cooperative
dc.subject.en	Robotics
dc.subject.en	Imitation Learning
dc.subject.en	Relational Representations
dc.subject.en	Interactive Learning
dc.title	Représentations relationnelles et apprentissage interactif pour l'apprentissage efficace du comportement coopératif
dc.title.en	Relational representations and interactive learning for efficient cooperative behavior learning
dc.type	Thèses de doctorat
dc.contributor.jurypresident	Oudeyer, Pierre-Yves
bordeaux.hal.laboratories	Flowers
bordeaux.type.institution	Bordeaux
bordeaux.thesis.discipline	Informatique
bordeaux.ecole.doctorale	École doctorale de mathématiques et informatique (Talence, Gironde)
star.origin.link	https://www.theses.fr/2017BORD0574
dc.contributor.rapporteur	Chetouani, Mohamed
dc.contributor.rapporteur	Bicho, Estela
bordeaux.COinS	ctx_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.title=Repr%C3%A9sentations%20relationnelles%20et%20apprentissage%20interactif%20pour%20l'apprentissage%20efficace%20du%20comportement%20coop%C3%A9ratif&rft.atitle=Repr%C3%A9sentations%20relationnelles%20et%20apprentissage%20interactif%20pour%20l'apprentissage%20efficace%20du%20comportement%20coop%C3%A9ratif&rft.au=MUNZER,%20Thibaut&rft.genre=unknown

Archivos en el ítem

Archivos	Tamaño	Formato	Ver
No hay archivos asociados a este ítem.

Este ítem aparece en la(s) siguiente(s) colección(ones)

Thèses de l’Université de Bordeaux

Mostrar el registro sencillo del ítem