Traitement de données issues d’un corpus écrit multilingue. Approche agile pour l’analyse du discours eurorégional
hal.structure.identifier | Médiation, Information, Communication, Art [MICA] | |
hal.structure.identifier | Université Bordeaux Montaigne [UBM] | |
hal.structure.identifier | UFR Sciences des territoires et de la communication (STC) - Université Bordeaux Montaigne | |
dc.contributor.author | HERMAND, Marie-Hélène | |
dc.contributor.author | THOURAUD, Emmanuel | |
dc.date.issued | 2015 | |
dc.identifier.issn | 2416-5182 | |
dc.description.abstract | L'article présente quelques éléments de la procédure mise en place pour traiter un corpus comportant un peu plus de 600 textes (près de 500 000 mots) relatifs aux eurorégions. Complexe et hétérogène à plusieurs titres (technique, linguistique, éditorial, générique, énonciatif), le corpus pose la difficulté majeure de l’appréhension de données multilingues (français, italien, espagnol, anglais, allemand, néerlandais). Sa manipulation a nécessité une réflexion adaptée et une démarche de modélisation que nous qualifions d’« agile » en raison de son caractère souple et itératif. La plateforme d’analyse élaborée permet de disposer de résultats utiles à l’analyse qualitative ultérieure du discours eurorégional. Elle articule un logiciel d'analyse morpho-syntaxique éprouvé (TreeTagger) à des programmes (Perl) et à une base de données (SQLite) développés pour optimiser les requêtes multilingues simultanées et l’exportation automatique des résultats. Les fonctionnalités liées à la localisation contextualisée de mots-pivots et de co-occurrences, au recueil de dénominations et à la détection de segments répétés nous servent ici de guides pour exprimer les besoins de la recherche, les problèmes rencontrés et les solutions proposées. L'analyse d'observables récurrents, à savoir les notions de décision et de responsabilité, illustre le propos. | |
dc.description.abstractEn | The article presents some aspects of the model adapted to a corpus of around 600 texts (around 500 000 words) relative to the Euroregions. Complex and heterogeneous in several respects (technical, linguistic, editorial, generic, enunciative), the corpus raises the major challenge of the apprehension of multilingual data (French, Italian, Spanish, English, German, Dutch). Its handling required a suitable reflection and modeling process which we call "agile" because of its flexible and iterative character. The analysis platform can provide useful results for subsequent qualitative analysis of Euroregional discourse. It combines a proven part-of-speech tagger software (TreeTagger) with Perl modules and SQLite database developed to optimize simultaneous multilingual queries and automatic export of the results. The features related to the location of contextualized words and of co-occurrences, the collection of own names and detection of repeated segments serve as guides to express the needs of research, problems and proposed solutions. The analysis of the repeated expressions of decision and responsability in the corpus will illustrate the subject. | |
dc.language.iso | fr | |
dc.publisher | EDP Sciences | |
dc.subject | Corpus multilingues | |
dc.subject | Textométrie multilingue | |
dc.subject | Analyse du discours européen | |
dc.subject | Analyse du discours transfrontalier | |
dc.subject | Eurorégions | |
dc.subject.en | Multilingual corpora | |
dc.subject.en | Multilingual textometry | |
dc.subject.en | European discourse analysis | |
dc.subject.en | Cross-border discourse analysis | |
dc.subject.en | Euroregions | |
dc.title | Traitement de données issues d’un corpus écrit multilingue. Approche agile pour l’analyse du discours eurorégional | |
dc.title.en | Processing data from a multilingual corpus. Agile approach in an objective of discourse analysis | |
dc.type | Article de revue | |
dc.identifier.doi | 10.1051/shsconf/20152001009 | |
dc.subject.hal | Sciences de l'Homme et Société | |
dc.subject.hal | Sciences de l'Homme et Société/Sciences de l'information et de la communication | |
dc.subject.hal | Sciences de l'Homme et Société/Linguistique | |
bordeaux.journal | SHS Web of Conferences | |
bordeaux.page | 01009 | |
bordeaux.volume | 20 | |
bordeaux.peerReviewed | oui | |
hal.identifier | halshs-02168776 | |
hal.version | 1 | |
hal.popular | non | |
hal.audience | Internationale | |
hal.origin.link | https://hal.archives-ouvertes.fr//halshs-02168776v1 | |
bordeaux.COinS | ctx_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.title=Traitement%20de%20donn%C3%A9es%20issues%20d%E2%80%99un%20corpus%20%C3%A9crit%20multilingue.%20Approche%20agile%20pour%20l%E2%80%99analyse%20du%20discours%20euror%C3%A9gio&rft.atitle=Traitement%20de%20donn%C3%A9es%20issues%20d%E2%80%99un%20corpus%20%C3%A9crit%20multilingue.%20Approche%20agile%20pour%20l%E2%80%99analyse%20du%20discours%20euror%C3%A9gi&rft.jtitle=SHS%20Web%20of%20Conferences&rft.date=2015&rft.volume=20&rft.spage=01009&rft.epage=01009&rft.eissn=2416-5182&rft.issn=2416-5182&rft.au=HERMAND,%20Marie-H%C3%A9l%C3%A8ne&THOURAUD,%20Emmanuel&rft.genre=article |
Files in this item
Files | Size | Format | View |
---|---|---|---|
There are no files associated with this item. |