Afficher la notice abrégée

dc.rights.licenseopenen_US
hal.structure.identifierLaboratoire Bordelais de Recherche en Informatique [LaBRI]
hal.structure.identifierESTIA INSTITUTE OF TECHNOLOGY
dc.contributor.authorPERE LAPERNE, Jacques
hal.structure.identifierESTIA INSTITUTE OF TECHNOLOGY
hal.structure.identifierLaboratoire Bordelais de Recherche en Informatique [LaBRI]
dc.contributor.authorCOUTURE, Nadine
ORCID: 0000-0001-7959-5227
IDREF: 111534275
dc.date.accessioned2023-11-24T13:57:56Z
dc.date.available2023-11-24T13:57:56Z
dc.date.issued2017-06-25
dc.date.conference2017-06-25
dc.identifier.urihttps://oskar-bordeaux.fr/handle/20.500.12278/186126
dc.description.abstractChaque jour le volume de données numériques mondiales augmente considérablement. Plus de 75% de ces données sont non structurées. Cet article concerne la restructuration des informations graphiques contenues dans les fichiers PDF (Portable Document Format) et/ou les fichiers vectoriels. Ces documents sont détenus en général par les services de la « Smart Factory » : les bureaux d’études, les services des méthodes, les services des travaux neufs, les services de maintenance des entreprises. Pour restructurer ces données, nous proposons d’utiliser les méthodes d’Extraction des Connaissances dans les Données (ECD) ou, en anglais, Knowledge Discovery in Databases (KDD). Si, en théorie, l’utilisateur est présent lors de l’ECD, dans la pratique, ce n’est pas le cas. C’est le constat que faisait Fayard en 2003 lors de la conférence KDD. En général l’utilisateur n’est présent que lors de la phase de validation. Nous montrons pourquoi, dans la restructuration des données, il faut que l’utilisateur soit au centre du processus et présent à toutes les étapes. On peut parler d’E(A)CD pour une Extraction Anthropocentrée des Connaissances dans les Données.
dc.description.abstractEnEvery day, the volume of the world's digital data increases considerably. Over 75% of these data are non-structured. This paper is about restructuring graphic information contained in Portable Document Format (PDF) files and/or vector files. These documents are generally held by ''Smart Factory'' services: design offices, methods departments, new work departments and company maintenance services. To restructure these data, we propose using Knowledge Discovery in Databases (KDD) methods. Although, theoretically, the user is present during the KDD, in practice, this is not the case. This was observed by Fayard in 2003 at the KDD conference. Generally, the user is only present during the validation phase. We show why, in data restructuring, the user must be at the heart of the process and present at all stages. We can talk about (A)KDD for the Anthropocentric Knowledge Discovery in Databases .The first stage of this restructuring consists of extracting graphic and text objects contained in Portable Document Format (PDF) files to put them in a pivot data format. The second stage consists of coding this information in the form of an alphabet. The third stage consists of recreating the graphic and text components which are repeated in these files (which we shall refer to as graphemes). And the fourth stage consists either (1) of automatically identifying these graphemes based on knowledge or (2) presenting them so the user identifies and introduces them into the knowledge base. It is this entire restructuring process, which we will describe in this paper. As we highlighted, in this incremental process it is people who play the main role, assisted by computers and not the opposite.
dc.language.isoENen_US
dc.publisherBerntzen, L. et al.en_US
dc.rights.urihttp://hal.archives-ouvertes.fr/licences/copyright/
dc.subject.enKnowledge Discovery in Databases (KDD)
dc.subject.enPattern recognition
dc.subject.enGraphic reconstruction
dc.subject.enData Minning
dc.subject.enComputer Human Interface (CHI)
dc.subject.enPortable Document Format (PDF)
dc.title.enRestructuring Unstructured Documents
dc.title.enOn the use of smart and semi-automatic interfaces to structure unstructured data
dc.typeCommunication dans un congrèsen_US
dc.subject.halInformatique [cs]/Intelligence artificielle [cs.AI]en_US
dc.subject.halInformatique [cs]/Interface homme-machine [cs.HC]en_US
bordeaux.page60-65en_US
bordeaux.hal.laboratoriesESTIA - Rechercheen_US
bordeaux.hal.laboratoriesLaboratoire Bordelais de Recherche en Informatique (LaBRI) - UMR 5800en_US
bordeaux.institutionUniversité de Bordeauxen_US
bordeaux.institutionBordeaux INPen_US
bordeaux.institutionBordeaux Sciences Agroen_US
bordeaux.conference.titleSMART INTERFACES 2017, The Symposium for Empowering and Smart Interfaces in Engineeringen_US
bordeaux.countryiten_US
bordeaux.title.proceedingSixth International Conference on Smart Cities, Systems, Devices and Technologies (SMART 2017)en_US
bordeaux.conference.cityVeniceen_US
bordeaux.import.sourcehal
hal.identifierhal-01653656
hal.version1
hal.invitednonen_US
hal.proceedingsouien_US
hal.conference.end2017-06-26
hal.popularnonen_US
hal.audienceInternationaleen_US
hal.exportfalse
workflow.import.sourcehal
dc.rights.ccPas de Licence CCen_US
bordeaux.COinSctx_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.date=2017-06-25&rft.spage=60-65&rft.epage=60-65&rft.au=PERE%20LAPERNE,%20Jacques&COUTURE,%20Nadine&rft.genre=unknown


Fichier(s) constituant ce document

Thumbnail

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée