Une approche par classification de variables pour la typologie d'observations : le cas d'une enquête agriculture et environnement
Langue
fr
Article de revue
Ce document a été publié dans
Journal de la Société Française de Statistique. 2013, vol. 154, n° 2, p. p. 37 - p. 63
Société Française de Statistique et Société Mathématique de France
Résumé
Nous considérons le cas d'une enquête agriculture/environnement dont les données sont relatives aux transformations actuelles du métier d'agriculteur. Nous optons pour une démarche originale en remplaçant la première étape ...Lire la suite >
Nous considérons le cas d'une enquête agriculture/environnement dont les données sont relatives aux transformations actuelles du métier d'agriculteur. Nous optons pour une démarche originale en remplaçant la première étape classique d'analyse factorielle par un algorithme de classification de variables. L'objectif de la classification de variables est de construire des classes de variables fortement liées entre elles et de supprimer ainsi l'information redondante. L'approche ClustOfVar utilisée fournit simultanément des groupes de variables ainsi que les variables synthétiques associées aux classes de variables. Dans cet algorithme, le critère d'homogénéité repose sur la notion de corrélation pour les variables quantitatives et de rapport de corrélation pour les variables qualitatives. L'étape de classification de variables nous permet d'obtenir des variables synthétiques que nous proposons de lire comme une sorte de gradient. Sur nos données, les valeurs correspondent à des regroupements de modalités distincts et pertinents pour l'interprétation. Cette démarche nous permet de lire et d'étiqueter chaque variable synthétique. Nous mettons ainsi en évidence des tendances qui vont départager l'opinion des agriculteurs quant à leur prise en compte de l'environnement. Puis nous précisons ces résultats en réalisant une classification sur les scores des individus mesurés sur les variables synthétiques. Sur le plan sociologique, l'apport des variables synthétiques pour interpréter les profils-types obtenus est incontestable. / A survey on farming and environment dealing with the current transformations of the farmer job is considered. We propose to replace the usual data mining strategy which consists of applying Multiple Correspondence Analysis by a variable clustering approach. Clustering of variables aims at lumping together variables which are strongly related to each other and thus bring the same information. The ClustOfVar approach used in this paper provides at the same time groups of variables and their associated synthetic variables. In this algorithm, the homogeneity criterion of a cluster is defined by the squared Pearson correlation for the quantitative variables and by the correlation ratio for the qualitative variables. The step of variable clustering enables to get synthetic variables that can be read as a gradient. In our case study, values correspond to some relevant groupings of categories. This enables to interpret and name easily the synthetic variables. Trends in the opinion of farmers are thus highlighted with the variable clustering approach. Then we clarify these first results by applying a clustering method on the scores of the individuals measured by the synthetic variables. At the sociological level, the supply provided by the synthetic variables to interpret the clusters of farmers is obvious.< Réduire
Mots clés
CLASSIFICATION
ENQUETE
TYPOLOGIE DES EXPLOITATIONS
AGRICULTEUR
ENVIRONNEMENT
VARIABLE SYNTHETIQUE
Origine
Importé de halUnités de recherche