Un robot curieux pour l’apprentissage actif par babillage d’objectifs : choisir de manière stratégique quoi, comment, quand et de qui apprendre

NGUYEN, Sao Mai

dc.contributor.advisor	Oudeyer, Pierre-Yves
dc.contributor.author	NGUYEN, Sao Mai
dc.contributor.other	Stasse, Olivier
dc.contributor.other	Sigaud, Olivier
dc.date	2013-11-27
dc.date.accessioned	2020-12-14T21:12:05Z
dc.date.available	2020-12-14T21:12:05Z
dc.identifier.uri	http://ori-oai.u-bordeaux1.fr/pdf/2013/NGUYEN_SAO_MAI_2013.pdf
dc.identifier.uri
dc.identifier.uri	https://tel.archives-ouvertes.fr/tel-00977385
dc.identifier.uri	https://oskar-bordeaux.fr/handle/20.500.12278/21898
dc.identifier.nnt	2013BOR15223
dc.description.abstract	Les déﬁs pour voir des robots opérant dans l’environnement de tous les jours des humains et sur unelongue durée soulignent l’importance de leur adaptation aux changements qui peuvent être imprévisiblesau moment de leur construction. Ils doivent être capable de savoir quelles parties échantillonner, et quelstypes de compétences il a intérêt à acquérir. Une manière de collecter des données est de décider par soi-même où explorer. Une autre manière est de se référer à un mentor. Nous appelons ces deux manièresde collecter des données des modes d’échantillonnage. Le premier mode d’échantillonnage correspondà des algorithmes développés dans la littérature pour automatiquement pousser l’agent vers des partiesintéressantes de l’environnement ou vers des types de compétences utiles. De tels algorithmes sont appelésdes algorithmes de curiosité artiﬁcielle ou motivation intrinsèque. Le deuxième mode correspond au guidagesocial ou l’imitation, où un partenaire humain indique où explorer et où ne pas explorer.Nous avons construit une architecture algorithmique intrinsèquement motivée pour apprendre commentproduire par ses actions des eﬀets et conséquences variées. Il apprend de manière active et en ligne encollectant des données qu’il choisit en utilisant plusieurs modes d’échantillonnage. Au niveau du metaapprentissage, il apprend de manière active quelle stratégie d’échantillonnage est plus eﬃcace pour améliorersa compétence et généraliser à partir de son expérience à un grand éventail d’eﬀets. Par apprentissage parinteraction, il acquiert de multiples compétences de manière structurée, en découvrant par lui-même lesséquences développementale.
dc.description.abstractEn	The challenges posed by robots operating in human environments on a daily basis and in the long-termpoint out the importance of adaptivity to changes which can be unforeseen at design time. The robot mustlearn continuously in an open-ended, non-stationary and high dimensional space. It must be able to knowwhich parts to sample and what kind of skills are interesting to learn. One way is to decide what to exploreby oneself. Another way is to refer to a mentor. We name these two ways of collecting data sampling modes.The ﬁrst sampling mode correspond to algorithms developed in the literature in order to autonomously drivethe robot in interesting parts of the environment or useful kinds of skills. Such algorithms are called artiﬁcialcuriosity or intrinsic motivation algorithms. The second sampling mode correspond to social guidance orimitation where the teacher indicates where to explore as well as where not to explore. Starting fromthe study of the relationships between these two concurrent methods, we ended up building an algorithmicarchitecture with a hierarchical learning structure, called Socially Guided Intrinsic Motivation (SGIM).We have built an intrinsically motivated active learner which learns how its actions can produce variedconsequences or outcomes. It actively learns online by sampling data which it chooses by using severalsampling modes. On the meta-level, it actively learns which data collection strategy is most eﬃcient forimproving its competence and generalising from its experience to a wide variety of outcomes. The interactivelearner thus learns multiple tasks in a structured manner, discovering by itself developmental sequences.
dc.language.iso	en
dc.subject	Apprentissage actif
dc.subject	Apprentissage interactif
dc.subject	Apprentissage par imitation
dc.subject	Exploration orientée par objectifs
dc.subject	Collecte de données
dc.subject	Apprentissage par démonstration
dc.subject.en	Active learning
dc.subject.en	Interactive learning
dc.subject.en	Imitation learning
dc.subject.en	Goal-oriented exploration
dc.subject.en	Data-collection, exploration
dc.subject.en	Programming by demonstration
dc.title	Un robot curieux pour l’apprentissage actif par babillage d’objectifs : choisir de manière stratégique quoi, comment, quand et de qui apprendre
dc.title.en	A Curious Robot Learner for Interactive Goal-Babbling : Strategically Choosing What, How, When and from Whom to Learn
dc.type	Thèses de doctorat
dc.contributor.jurypresident	Wrede, Britta
bordeaux.hal.laboratories	Thèses de l'Université de Bordeaux avant 2014	*
bordeaux.hal.laboratories	Laboratoire bordelais de recherche en informatique
bordeaux.institution	Université de Bordeaux
bordeaux.institution	Bordeaux INP
bordeaux.type.institution	Bordeaux 1
bordeaux.thesis.discipline	Informatique
bordeaux.ecole.doctorale	École doctorale de mathématiques et informatique (Talence, Gironde)
star.origin.link	https://www.theses.fr/2013BOR15223
dc.contributor.rapporteur	Gaussier, Philippe
dc.contributor.rapporteur	Demiris, Yiannis
bordeaux.COinS	ctx_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.title=Un%20robot%20curieux%20pour%20l%E2%80%99apprentissage%20actif%20par%20babillage%20d%E2%80%99objectifs%20:%20choisir%20de%20mani%C3%A8re%20strat%C3%A9gique%20quoi,%20comme&rft.atitle=Un%20robot%20curieux%20pour%20l%E2%80%99apprentissage%20actif%20par%20babillage%20d%E2%80%99objectifs%20:%20choisir%20de%20mani%C3%A8re%20strat%C3%A9gique%20quoi,%20comm&rft.au=NGUYEN,%20Sao%20Mai&rft.genre=unknown

Fichier(s) constituant ce document

Fichiers	Taille	Format	Vue
Il n'y a pas de fichiers associés à ce document.

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée

Un robot curieux pour l’apprentissage actif par babillage d’objectifs : choisir de manière stratégique quoi, comment, quand et de qui apprendre

Fichier(s) constituant ce document

Ce document figure dans la(les) collection(s) suivante(s)

Publications correspondantes

Le rôle de la motivation intrinsèque basée sur le progrès dans l'apprentissage : preuves du comportement humain et orientations futures progrès ﻿

Stabilité macroéconomique, apprentissage et politique monétaire : une approche comparative : modélisation DSGE versus modélisation multi-agents ﻿

Les systèmes cognitifs dans les réseaux autonomes : une méthode d'apprentissage distribué et collaboratif situé dans le plan de connaissance pour l'auto-adaptation ﻿

Le rôle de la motivation intrinsèque basée sur le progrès dans l'apprentissage : preuves du comportement humain et orientations futures progrès

Stabilité macroéconomique, apprentissage et politique monétaire : une approche comparative : modélisation DSGE versus modélisation multi-agents

Les systèmes cognitifs dans les réseaux autonomes : une méthode d'apprentissage distribué et collaboratif situé dans le plan de connaissance pour l'auto-adaptation