Reconnaissance du patrimoine Mexicaine sous forme numérique par des réseaux d'apprentissage profond

MONTOYA-OBESO, Abraham

Metadata

Show full item record

License

MONTOYA-OBESO, Abraham

Language

Thèses de doctorat

Date

2020-07-09

Speciality

Informatique

Doctoral school

École doctorale de mathématiques et informatique (Talence, Gironde ; 1991-....)

Abstract

Au Mexique, l'un des problèmes technologiques prioritaires est la préservation du patrimoine culturel sous sa forme numérique. Dans cette recherche, l'intérêt principal est la commande, la gestion et l'identification du patrimoine culturel immatériel en images.En vision par ordinateur, l'intégration du système visuel humain dans les méthodes d'apprentissage automatique et les classificateurs est devenue un domaine de recherche intensif pour la reconnaissance d'objets et l'extraction de contenu. Les cartes dites de saillance, sont définies comme une représentation topographique de l'attention visuelle sur une scène, modélisant l'attention instantanément et attribuant un degré d'intérêt à chaque valeur de pixel de l'image. Les cartes des points saillants se sont avérées très efficaces pour mettre en évidence les régions d'intérêt dans plusieurs tâches de contenu visuel et de sa compréhension. Dans ce contexte, nous nous concentrons sur l'intégration des modèles d'attention visuelle dans le pipeline de formation des réseaux neuronaux profonds pour la reconnaissance des structures architecturales mexicaines.Nous considérons que les principales contributions de cette recherche se situent dans les domaines d'intérêt suivants :i) Ensemble de données à usage spécifique : la collecte de données relatives au sujet est une tâche essentielle pour résoudre le problème de la classification architecturale.ii) Sélection des données : nous utilisons des méthodes de prédiction des points saillants pour sélectionner et recadrer les régions pertinentes pour le contexte sur les images.iii) Modélisation de l'attention visuelle : nous annotons les images par une tâche réelle d'observation des images, nous enregistrons les fixations des yeux avec un système de suivi des yeux pour construire des cartes de saillance subjective.iv) Intégration de l'attention visuelle : nous intégrons l'attention visuelle dans les réseaux neuronaux profonds de deux manières : a) pour filtrer les caractéristiques dans une couche de regroupement basée sur les points saillants et b) avec des mécanismes d'attention.Dans cette recherche, différentes composantes essentielles à la formation d'un réseau neuronal sont abordées dans le but de reconnaître le contenu culturel mexicain et d'extrapoler ces résultats à des bases de données à grande échelle dans des tâches de classification similaires, comme dans ImageNet. Enfin, nous montrons que l'intégration de modèles d'attention visuelle « générés par une expérience psycho-visuelle » permet de réduire le temps de formation et d'améliorer les performances en termes de précision.Read less <

English Abstract

In Mexico, one of the priority technological problems is the preservation of cultural heritage in its digital form. In this research, the main interest is the ordering, management and identification of intangible cultural heritage in images. In computer vision, the integration of the Human Visual System (HVS) into automatic learning methods and classifiers has become an intensive research field for object recognition and content mining. The so-called saliency maps, are defined as a topographic representation of visual attention on a scene, modeling attention instantaneously and assigning a degree of interest to each pixel value on the image. Saliency maps proved to be very efficient to point out regions of interest in several tasks of visual content and its understanding. In this context, we focus on the integration of visual attention models in the training pipeline of Deep Neural Networks (DNNs) for the recognition of Mexican architectural structures. We consider the main contributions of this research are in the following areas of interest: • Specific purpose dataset: gathering data related to the topic is a key task to solve the problem of architectural classification. • Data selection: we use saliency prediction methods to select and crop context-relevant regions on images. • Visual attention modeling: we annotate images through a real task of image observation, we record eye-fixations with an eye-tracker system to build subjective saliency maps. • Visual attention integration: we integrate visual attention in deep neural networks in two ways; i) to filter out features in a saliency-based pooling layer and ii) in attention mechanisms. In this research, different essential components for the training of a neural network are tackled down with the aim of recognizing Mexican cultural content and extrapolating these findings to large-scale databases in similar classification tasks, such as in ImageNet. Finally, we show that the integration of visual attention models generated through a psycho-visual experiment allows to reduce training time and improve performances in terms of accuracy.Read less <

Keywords

Attention Visuelle

Patrimoine Culturel

Apprentissage profond

English Keywords

Visual Attention

Cultural Heritage

Deep Learning

Origin

STAR imported

Metadata

Share this item!

License