Identification de vêtements dans des images : de la segmentation d'instances à la classification multi-étiquettes faiblement supervisée
JOUANNEAU, Warren
Laboratoire Bordelais de Recherche en Informatique [LaBRI]
Institut de Mathématiques de Bordeaux [IMB]
Laboratoire Bordelais de Recherche en Informatique [LaBRI]
Institut de Mathématiques de Bordeaux [IMB]
JOUANNEAU, Warren
Laboratoire Bordelais de Recherche en Informatique [LaBRI]
Institut de Mathématiques de Bordeaux [IMB]
< Réduire
Laboratoire Bordelais de Recherche en Informatique [LaBRI]
Institut de Mathématiques de Bordeaux [IMB]
Langue
fr
Thèses de doctorat
École doctorale
École doctorale de mathématiques et informatique (Talence, Gironde ; 1991-....)Résumé
Pour l’industrie textile et de la mode, les images de vêtements sont essentielles à différentes fins : décisionnelles, collaboratives, promotionnelles, pour tous les types de produits : intemporels, saisonniers, tendance, ...Lire la suite >
Pour l’industrie textile et de la mode, les images de vêtements sont essentielles à différentes fins : décisionnelles, collaboratives, promotionnelles, pour tous les types de produits : intemporels, saisonniers, tendance, et à toutes les phases de leur cycle de vie : de la conception à la vente. Il est donc nécessaire de faciliter leur accès et leur recherche parmi un grand nombre d’images candidates. Cela repose le plus souvent sur l’apposition de mots clefs afin de les indexer et de les référencer. Il est alors fondamental d’automatiser la saisie manuelle de ces mots clefs lors de tout dépôt ou collecte d’images. Cette opération chronophage est source d’erreurs ou de descriptions incomplètes des données. De plus, elle est irréalisable pour des cas de collecte ou d’analyse à grande échelle. En apprentissage supervisé, l’attribution d’une étiquette (c.-à-d. un mot clef) se transpose en un problème de classification. Sans information sur la composition de l’image, la classification se fait sur l’image dans sa globalité. Pour avoir des prédictions plus fines, l’approche retenue dans cette thèse se décompose en deux étapes : localisation de chacun des vêtements pour les différencier, puis caractérisation plus fine du contenu de chaque détection. La localisation et la caractérisation sont indépendantes et peuvent être effectuées par différents types de méthodes. Les méthodes de segmentation d’instances, qui sont la forme de localisation la plus fine, ont été retenues. En effet, ces approches permettent d’estimer, sous la forme d’un masque, l’ensemble des pixels constituant un objet donné. Elles offrent de plus l’avantage de différencier les objets d’une même étiquette, ce qui permet une caractérisation indépendante par la suite. Une étude des méthodes de segmentation d’instances a ainsi été réalisée pour le cas particulier des images de vêtements. Nous disposons de données annotées et recourrons donc à des méthodes de segmentation issues de l’apprentissage supervisé, qui reposent sur un étiquetage connu a priori et considéré comme vérité à reproduire. Ces méthodes peuvent alors être évaluées en mesurant l’écart des prédictions à ces annotations. Après avoir montré que les approches classiques de validation de masques de segmentation ne sont pas adaptées à nos cas d’usages, un protocole d’évaluation à trois niveaux a été proposé : global, contour, contenu, afin de discriminer correctement les architectures retenues. Les travaux sur la caractérisation des vêtements se sont concentrés sur trois caractéristiques : type fin du vêtement (ex. jean, pantalon de costume, jogging etc.), motif tissu (ex. rayure, pois, uni etc.), couleur dominante (ex. saumon, fuchsia, corail, etc.). Pour le type de vêtement et le motif tissu, une méthode de classification a été développée pour exploiter les images enrichies de la zone du vêtement. Cependant, certains motifs tissus apparaissent ou disparaissent selon la résolution (ex. rayure fine). Une approche extrayant des patchs à résolution native a alors été proposée. Pour la couleur dominante, les problématiques de dénomination et de partitionnement d’espace de couleur ont été abordées. Ces travaux nous ont permis d’obtenir un processus global d’attribution d’étiquette reversé à Lectra (intégrant segmentation et caractérisation). Enfin, il est parfois difficile de classer une image avec une unique étiquette. Cela est notamment le cas lorsque plusieurs tissus et motifs composent un même vêtement. La classification multi-étiquettes des images est alors plus adaptée. L’application des méthodes d’apprentissage supervisé à ce type de problème nécessite cependant des données dédiées, dont la collecte et l’annotation sont complexes. Pour répondre à ce problème, nous avons développé une méthode faiblement supervisée, nécessitant seulement une étiquette positive connue par image. L’entraînement repose alors sur une nouvelle stratégie efficace pour estimer des exemples négatifs pour chaque classe.< Réduire
Résumé en anglais
For the textile and fashion industry, clothing images are essential for different purposes: decisionmaking, collaborative, promotional, for all types of products: timeless, seasonal, trendy, and at all phases of their life ...Lire la suite >
For the textile and fashion industry, clothing images are essential for different purposes: decisionmaking, collaborative, promotional, for all types of products: timeless, seasonal, trendy, and at all phases of their life cycle : from design to sale. It is therefore necessary to facilitate their access and search among numerous candidate images. This is most often based on keywords to index and reference them. It is therefore essential to automate the manual entry of these keywords when submitting or collecting images. This time-consuming operation is a source of errors or incomplete descriptions of the data. Moreover, it is impractical for large-scale collection or analysis. In supervised learning, the assignment of a label (i.e. a keyword) is a classification problem. Without information on the composition of the image, the classification is done on the whole image. In order to have finer predictions, the approach adopted in this thesis is decomposed in two steps: localization of each garment to differentiate them, then finer characterization of the content of each detection. Localization and characterization are independent and can be performed by different types of methods. Instance segmentation methods, which are the finest form of localization, have been retained in the thesis. Indeed, these approaches make it possible to estimate, in the form of a mask, all the pixels constituting a given object. They also offer the advantage of differentiating objects with the same label, which later allows for independent characterization. A study of the instance segmentation methods has been realized for the particular case of clothing images. We dispose of annotated data and consider supervised learning segmentation methods, which are based on a labeling known a priori and considered as truth to be reproduced. These methods can then be evaluated by measuring the deviation of predictions from these annotations. After showing that classical approaches to validate segmentation masks are not adapted to all cases, a three-level evaluation protocol (global, contour, content) has been proposed in order to correctly discriminate the selected architectures. The work on garment characterization focused on three characteristics: fine type of garment (e.g. jeans, suit pants, sweatpants, etc.), fabric pattern (e.g. striped, polka dot, plain, etc.), dominant color (e.g. salmon, fuchsia, coral, etc.). For garment type and fabric pattern, a classification method has been developed to exploit the enriched images of the garment area. However, some fabric patterns appear or disappear depending on the resolution (e.g. fine stripe). An approach that extracts patches at native resolution was then proposed. For the dominant color, the problems of naming, taxonomy matching and color space partitioning have been addressed. This work allowed us to obtain a global process of label attribution transferred to Lectra (integrating segmentation and characterization). Finally, it is sometimes difficult to classify an image with a single label. This is particularly the case when several fabrics and patterns compose a single garment. The multi-label classification of images is then more appropriate. However, the application of supervised learning methods to this type of problem requires dedicated data, whose gathering and annotation are complex. To address this issue, we have developed a weakly supervised method, requiring only one known positive label per image. The training then relies on a new efficient strategy to estimate negative examples for each class.< Réduire
Mots clés
Traitement d'image
Apprentissage automatique
Classification
Segmentation
Mode
Vêtement
Mots clés en anglais
Image processing
Machine learning
Classification
Segmentation
Fashion
Clothing
Origine
Importé de halUnités de recherche