Etude et prédiction d'attention visuelle avec les outils d'apprentissage profond en vue d'évaluation des patients atteints des maladies neuro-dégénératives
Langue
fr
Thèses de doctorat
Date de soutenance
2017-12-08Spécialité
Informatique
École doctorale
Laboratoire de mathématiques et d'informatique (Bordeaux)Résumé
Cette thèse est motivée par le diagnostic et l’évaluation des maladies neuro-dégénératives et dans le but de diagnostique sur la base de l’attention visuelle.Néanmoins, le dépistage à grande échelle de la population n’est ...Lire la suite >
Cette thèse est motivée par le diagnostic et l’évaluation des maladies neuro-dégénératives et dans le but de diagnostique sur la base de l’attention visuelle.Néanmoins, le dépistage à grande échelle de la population n’est possible que si des modèles de prédiction automatique suffisamment robustes peuvent être construits. Dans ce contexte nous nous intéressons `a la conception et le développement des modèles de prédiction automatique pour un contenu visuel spécifique à utiliser dans l’expérience psycho-visuelle impliquant des patients atteints des maladies neuro-dégénératives. La difficulté d’une telle prédiction réside dans une très faible quantité de données d’entraînement. Les modèles de saillance visuelle ne peuvent pas être fondés sur les caractérisitiques “bottom-up” uniquement, comme le suggère la théorie de l’intégration des caractéristiques. La composante “top-down” de l’attention visuelle humaine devient prépondérante au fur et à mesure d’observation de la scène visuelle. L’attention visuelle peut-être prédite en se basant sur les scènes déjà observées. Les réseaux de convolution profonds (CNN) se sont révèlés être un outil puissant pour prédire les zones saillantes dans les images statiques.Dans le but de construire un modèle de prédiction automatique pour les zones saillantes dans les vidéos naturels et intentionnellement dégradées, nous avons conçu une architecture spécifique de CNN profond. Pour surmonter le manque de données d’apprentissage,nous avons conçu un système d’apprentissage par transfert dérivé de la méthode de Bengio.Nous mesurons ses performances lors de la prédiction de régions saillantes. Les r´esultatsobtenus sont int´eressants concernant la r´eaction des sujets t´emoins normaux contre leszones d´egrad´ees dans les vid´eos. La comparaison de la carte de saillance pr´edite des vid´eosintentionnellement d´egrad´ees avec des cartes de densit´e de fixation du regard et d’autresmod`eles de r´ef´erence montre l’int´erˆet du mod`ele d´evelopp´e.< Réduire
Résumé en anglais
This thesis is motivated by the diagnosis and the evaluation of the dementia diseasesand with the aim of predicting if a new recorded gaze presents a complaint of thesediseases. Nevertheless, large-scale population screening ...Lire la suite >
This thesis is motivated by the diagnosis and the evaluation of the dementia diseasesand with the aim of predicting if a new recorded gaze presents a complaint of thesediseases. Nevertheless, large-scale population screening is only possible if robust predictionmodels can be constructed. In this context, we are interested in the design and thedevelopment of automatic prediction models for specific visual content to be used in thepsycho-visual experience involving patients with dementia (PwD). The difficulty of sucha prediction lies in a very small amount of training data.Visual saliency models cannot be founded only on bottom-up features, as suggested byfeature integration theory. The top-down component of human visual attention becomesprevalent as human observers explore the visual scene. Visual saliency can be predictedon the basis of seen data. Deep Convolutional Neural Networks (CNN) have proven tobe a powerful tool for prediction of salient areas in static images. In order to constructan automatic prediction model for the salient areas in natural and intentionally degradedvideos, we have designed a specific CNN architecture. To overcome the lack of learningdata we designed a transfer learning scheme derived from bengio’s method. We measureits performances when predicting salient regions. The obtained results are interestingregarding the reaction of normal control subjects against degraded areas in videos. Thepredicted saliency map of intentionally degraded videos gives an interesting results comparedto gaze fixation density maps and other reference models.< Réduire
Mots clés
R´eseaux de convolution profond
Apprentissage par transfert
Vi- sion par ordinateur
Modèle de saillance
Attention visuelle
Maladies neuro- dégénératives
Mouvement r´esiduel,
Mouvement r´esiduel, vid´eos naturels
Mots clés en anglais
Deep convolutional networks
Transfer learning
Computer vision
Saliency models
Visual attention
Neuro-degenerative diseases
Residual mo- tion
Natural videos
Origine
Importé de STAR