Hétérogénéité et extraction d'information factuelle dans un corpus de récits de voyage
VINOGRADOVA, Natalia
Linguistic signs, grammar and meaning: computational logic for natural language [SIGNES]
Linguistic signs, grammar and meaning: computational logic for natural language [SIGNES]
VINOGRADOVA, Natalia
Linguistic signs, grammar and meaning: computational logic for natural language [SIGNES]
< Leer menos
Linguistic signs, grammar and meaning: computational logic for natural language [SIGNES]
Idioma
fr
Article de revue
Este ítem está publicado en
Langages. 2012-09-01, vol. 3, n° 187, p. pp. 127-144
Armand Colin (Larousse jusqu'en 2003)
Resumen
L'extraction d'information nécessite une connaissance des objets à extraire. Nous cherchons dans ce travail à décrire le comportement des séquences textuelles présentant l'itinéraire au sein du récit de voyage. Le récit ...Leer más >
L'extraction d'information nécessite une connaissance des objets à extraire. Nous cherchons dans ce travail à décrire le comportement des séquences textuelles présentant l'itinéraire au sein du récit de voyage. Le récit de voyage est reconnu comme genre hétérogène, nous analysons donc cette hétérogénéité afin de pouvoir reconnaître les séquences homogènes, dont la description d'itinéraire fait partie. Nous menons notre analyse à plusieurs niveaux discursifs, ce qui nous permet d'avoir une vision globale du comportement de notre objet d'étude, l'itinéraire, et du contexte dans lequel il apparaît. Dans la perspective de l'extraction automatique d'itinéraire, nous utilisons de nombreux outils, chacun adapté au mieux au niveau d'analyse traité. En nous appuyant sur le cadre théorique de la SRDT (Segmented Discourse Representation Theory), dont nous montrons l'adéquation à l'étude, nous approchons le fonctionnement des descriptions des itinéraires, nous poussant à enrichir la méthode d'extraction afin de gérer l'hétérogénéité des unités discursives dans lesquels l'itinéraire est énoncé.< Leer menos
Resumen en inglés
The information extraction task requires a good knowledge of the object to be extracted. In this work we explore the behavior of textual sequences describing the itinerary within the travel writing. Travel novel is a ...Leer más >
The information extraction task requires a good knowledge of the object to be extracted. In this work we explore the behavior of textual sequences describing the itinerary within the travel writing. Travel novel is a specific genre that is recognized to be heterogeneous, so we analyze its heterogeneity in order to discriminate homogeneous sequences, one of which being the itinerary description. Our analysis holds on different discourse levels, it allows us to get an overview of itinerary behavior through the narration. In order to automatize the extraction of itineraries, we use different tools, each one being perfectly adapted to the discourse level in question. Our theoretical framework at the semantic representation level, the SDRT (Segmented Discourse Representation Theory), complies with such kind of analysis, as we see in the course of this work. This study makes us understand the itinerary sequences behavior, leading us to enrich our extraction method to cope with heterogeneity of the discourse units dedicated to the itinerary.< Leer menos
Palabras clave
hétérogénéité
récit de voyage
itinéraires
séquences textuelles
segments de discours
extraction d'information
SDRT
types fonctionnels
Palabras clave en inglés
heterogeneity
travel writing
itineraries
textual sequences
discourse segments
information extraction
functional types
Orígen
Importado de HalCentros de investigación