Fusion des connaissances en analyse de documents - Exemples sur des documents d'archives
نویسنده
چکیده
RÉSUMÉ. La reconnaissance de collections de documents structurés numérisés et notamment de documents d’archives est difficile non seulement par la complexité de l’organisation des documents, mais aussi par la dégradation des documents (tâches, déchirures, encre traversant le papier, courbures produites à la numérisation. . . ). Afin d’améliorer la qualité de la reconnaissance tout en gérant le bruit induit par ces dégradations, il est nécessaire d’exploiter le maximum de connaissances dans le processus d’analyse. Or, les sources de connaissances pour l’analyse de documents sont multiples. En se centrant sur la notion de page, nous pouvons les décomposer selon trois types : les connaissances a priori sur la page (liées à un type de document), les connaissances internes à la page (présentes dans l’image et qu’il est nécessaire d’extraire), et les connaissances externes à la page (provenant d’autres pages d’une collection de documents ou bien d’utilisateurs interrogés sur le contenu dans un processus interactif). Nous montrerons comment il est possible de fusionner et d’exploiter ces différents types de connaissances en s’appuyant sur un langage de description de documents, des calques perceptifs, une mémoire visuelle et une analyse itérative. Ces éléments peuvent être ajoutés à un système existant pour lui fournir de nouvelles capacités. Nous avons ainsi pu construire un système générique multirésolution de traitement de collections de documents intégrant des mécanismes de vision perceptive tout en proposant une interaction asynchrone, capable d’amener au niveau de la page, des connaissances externes à la page, provenant d’un utilisateur, d’autres pages ou d’autres traitements. Ce système perceptif engendre des mécanismes d’analyse plus complexes, tout en étant plus simple à définir, et ayant une combinatoire plus faible. Ces principes ont été validés sur plus de 600 000 documents de types différents, allant de partitions musicales, de formules mathématiques à des documents d’archives. Nous présenterons des résultats sur des registres matricules militaires, des décrets de naturalisation, de la presse ancienne ou des registres de ventes de la Révolution Française. Sur ces derniers documents nous montrerons, à titre d’illustration, comment une analyse interactive asynchrone combinée à des reconnaisseurs d’écriture manuscrite, des mécanismes de word spotting et des utilisateurs, permet de mettre en place une transcription assistée de patronymes manuscrits, dans laquelle l’utilisateur est pratiquement deux fois moins sollicité.
منابع مشابه
Impact de la réactualisation de recommandations de pratiques cliniques sur l'évolution d'une base de connaissances
HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt età la diffusion de documents scientifiques de niveau r...
متن کاملAnalyse d'information relationnelle par des graphes interactifs de grandes tailles
RESUME : La découverte de connaissances à partir d'importantes masses de données hétérogènes débouche le plus souvent sur l'analyse relationnelle. La recherche d'informations stratégiques s'appuie en effet sur les liens fonctionnels et sémantiques entre documents, acteurs, terminologie et concepts d'un domaine sans oublier le paramètre temps. De nombreuses méthodes sont proposées pour identifie...
متن کاملUn modèle pour la représentation des connaissances temporelles dans les documents historiques
Résumé : Traiter et publier les données des sciences historiques dans le web sémantique constitue un défi intéressant où la représentation des aspects temporels joue un rôle clé. Nous proposons dans cet article un modèle de représentation des connaissances temporelles adapté au travail sur les documents historiques. Ce modèle est basé sur la notion de fluent que l'on représente dans des graphes...
متن کاملE-learning : normes et spécifications Caractérisation des documents numériques avec LOM et IMS-QTI pour l'acquisition et l'évaluation des connaissances
RÉSUMÉ. Autour des standards ouverts de l’internet, il est devenu nécessaire de recourir à des systèmes de description, de codification et de mise en jeu de contenus à caractère pédagogique basés sur des spécifications ouvertes et partagées. Notre propos ici est de présenter une analyse critique des normes en devenir permettant de décrire de manière fine des ressources pédagogiques et des conte...
متن کاملDeduction Automatique et Systemes Transformationnels
RESUME : Les syst~mes transformatiounels utilisent des processus d6duetifs d'une approche diff6rente des syst~mes utilis6s en intelligence artificielle. A travers une comparaison du langage Prolog et du lan-gage Sygmart, il est montr~ comment r~aliser dans les syst~mes transformationnels des applications utili-sant des raisonnements et des bases de connaissances. I. INTRODUCTION : Le traitement...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2012