La restructuration des documents graphiques destructurés
Idioma
fr
Thèses de doctorat
Fecha de defensa
2019-11-18Especialidad
Informatique
Escuela doctoral
École doctorale de mathématiques et informatique (Talence, Gironde ; 1991-....)Resumen
Cette thèse traite de la restructuration des documents déstructurés de type PDF contenant des éléments graphiques tels que les schémas, les plans et les dessins, dans l’objectif de les restructurer. En nous appuyant sur ...Leer más >
Cette thèse traite de la restructuration des documents déstructurés de type PDF contenant des éléments graphiques tels que les schémas, les plans et les dessins, dans l’objectif de les restructurer. En nous appuyant sur la méthode KDD (Knowledge Discovery in Database) pour la restructuration des données, nous introduisons la méthode (A)KDD (Antropocentric Knowledge Discovery in Database) que nous avons développé et qui est dérivée de la méthode KDD en ajoutant l’aspect incrémental et l’aspect centré sur l’utilisateur. Nous présentons, en particulier, une technique fondée sur le principe du tri par paquet pour extraire efficacement les symboles graphiques contenus dans un document PDF. Elle est comparée aux résultats de Puglissi sur les chaînes de caractères. Puis, nous formulons l’hypothèse selon laquelle la prise en compte de l’ordre chronologique présent dans les fichiers PDF dans le processus incrémental améliore la restructuration des documents. Nous montrons la validité de cette hypothèse sur un certain nombre d’exemples. Enfin, nous montrons l’efficacité du processus pour identifier les symboles en même temps que les équipotentielles. Le mémoire se conclut en montrant les avancées et les limites de la solution de la méthode (A)KDD et nous proposons des perspectives.< Leer menos
Resumen en inglés
This thesis deals with the restructuring of unstructured PDF documents containing graphical elements such as schematics, plans and drawings, with the aim of restructuring them. Using the KDD (Knowledge Discovery in Database) ...Leer más >
This thesis deals with the restructuring of unstructured PDF documents containing graphical elements such as schematics, plans and drawings, with the aim of restructuring them. Using the KDD (Knowledge Discovery in Database) method for data restructuring, we introduce the (A) KDD (Antropocentric Knowledge Discovery in Database) method that we developed which is derived from the KDD method by adding an incremental aspect and an user-centered approach. We present, in particular, a technique based on on the bucket sort algorithm pattern in order to extract with efficiency graphic symbols contained in a PDF file. It is compared to the results obtained by Puglissi on strings. Then, we formulate the hypothesis:”taking into account the chronological order present in the PDF files in the incremental process improves the restructuring of the documents”. We illustrate the validity of this hypothesis on several examples. Finally, we show the efficiency of the process in the identification of the symbols at the same time as the equipotentials. The thesis concludes by showing the advances and the limits of the solution of the (A) KDD method and we propose some perspectives.< Leer menos
Palabras clave
Analyse de contenu
Reconnaissances de symboles
PDF
DAO/CAO
Recherche de motifs
Palabras clave en inglés
Content analysis
Symbol recognition
PDF
CAD/CAM
Patter search
Orígen
Recolectado de STARCentros de investigación