La transcription automatique : un rêve enfin accessible ? Analyse et comparaison d’outils pour les SHS. Nouvelle méthodologie et résultats
GAYRAUD, Laure
Centre d'études et de recherches sur les qualifications [CEREQ]
Centre Émile Durkheim [CED]
< Réduire
Centre d'études et de recherches sur les qualifications [CEREQ]
Centre Émile Durkheim [CED]
Langue
fr
Rapport
Ce document a été publié dans
2020-08-20
Résumé
Le recueil de la parole est au cœur des démarches de recherches qualitatives de nombreuses disciplines de sciences humaines et sociales. Depuis la démocratisation des outils d’enregistrement dans les années 80 et surtout ...Lire la suite >
Le recueil de la parole est au cœur des démarches de recherches qualitatives de nombreuses disciplines de sciences humaines et sociales. Depuis la démocratisation des outils d’enregistrement dans les années 80 et surtout 90, la pratique de la transcription de l’intégralité de la parole enregistrée est devenue quasiment la norme, mais elle demande beaucoup de temps et s’avère souvent fastidieuse et un peu décourageante. À l’heure de l’intégration de modules d’intelligence artificielle aux algorithmes de reconnaissance automatique de la parole, ces derniers progressent rapidement et le fantasme de pouvoir automatiser cette tâche longue et pénible semble se rapprocher, voire être déjà accessible. Ce rapport présente le résultat d’un travail de comparaison de 8 outils de transcription automatique (Go Transcribe, Happy Scribe, Headliner, Sonix, Video Indexer, Vocalmatic, Vocapia, You-Tube) effectué par des membres du réseau méthodologique CNRS MATE-SHS. Quatre extraits de fichiers audio de langue française ont servi de test, chacun avec ses spécificités propres : un texte lu, un cours magistral enregistré en situation, un entretien avec deux interlocuteurs, une réunion associative avec de nombreux locuteurs.< Réduire
Mots clés
corpus oraux
transcription automatique
retranscription entretien
données de la recherche
méthodologie
évaluation logiciels
Mots clés en anglais
interview transcription
research data
methodology
software evaluation
speech corpora
automatic transcription
Origine
Importé de hal