Utilisation du Web pour la reconnaissance de mots manuscrits hors vocabulaire

نویسندگان

  • Cristina Oprean
  • Laurence Likforman-Sulem
  • Adrian Popescu
  • Chafic Mokbel
چکیده

Handwriting recognition systems rely on predefined classifiers. Small and static dictionaries are usually exploited to obtain high in-vocabulary (IV) accuracy at the expense of coverage. Thus the recognition of out-of-vocabulary (OOV) words cannot be handled efficiently. To improve OOV recognition while keeping IV dictionaries small, we introduce a multi-step approach that exploits Web resources. After an initial IV-OOV classification, external resources are used to create OOV sequence-adapted dynamic dictionaries. A final CTC-based decoding is performed over the dynamic dictionary to determine the most probable word for the OOV sequence. We validate our approach with experiments conducted on the RIMES dataset. Results show that improvements are obtained compared to standard handwriting recognition. MOTS-CLÉS : reconnaissance d’écriture manuscrite, dictionnaires dynamiques, Wikipédia

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Exploitation de l'échelle d'écriture pour améliorer la reconnaissance automatique des textes manuscrits arabe

RÉSUMÉ. Les documents manuscrits arabes présentent des défis spécifiques pour la reconnaissance du fait de la nature de l'écriture cursive et d'autres facteurs, comme la taille de l'écriture. Une des plus grandes bases étiquetées des documents manuscrits arabes, la base de données NIST­OpenHaRT inclut de grandes variabilités dans la taille du texte inter et intra mots et lignes. Nous proposons ...

متن کامل

La Théorie de la Résonance Adaptative et les Moments de Zernike pour la Reconnaissance de Mots Arabes Manuscrits

Résumé. La reconnaissance de l'écriture arabe manuscrite est un domaine de recherche relativement récent et qui a connu ces dernières années des progrès remarquables. Il présente un intérêt indéniable dans l’accomplissement de tâches considérées fastidieuses dans certains domaines comme le tri postal, la lecture de chèques bancaires, la lecture des bordereaux, etc. Ce papier présente la concept...

متن کامل

Un modèle neuro markovien profond pour l'extraction de séquences dans des documents manuscrits

RÉSUMÉ. Dans cet article, nous proposons un système d’extraction de mots clés dans des documents manuscrits. Notre approche est basée sur la reconnaissance des lignes de texte à l’aide d’un modèle HMM capable de rejeter les mots n’appartenant pas à un lexique prédéfini. Afin d’être plus discriminant, nous avons remplacé les mélanges de gaussiennes des HMM par un réseau de neurones profond pour ...

متن کامل

Parole et Traduction Automatique: Le Module de Reconnaissance RAPHAEL

Pour la traduction de parole, il est n6cessaire de disposer d'un syst~me de reconnaissance de la parole spontan6e grand vocabulaire, tournant en temps r6el. Le module RAPHAEL a 6t6 con~u sur la plateforme logicielle de JANUS-III d6velopp6e au laboratoire ISL (Interactive Systems Laboratory) des universit6s Karlsruhe et Carnegie Mellon. Le corpus BREF-80 (textes lus extraits du Journal Le Monde)...

متن کامل

Système Neuro-Markovien pour la Reconnaissance de l'Écriture Manuscrite Arabe à Vocabulaire Limité

Résumé. Nous proposons une manière de coopérer des MMC et des réseaux neuronaux dans une architecture probabiliste en tirant avantage des deux outils : la génération d’une liste des N meilleures hypothèses de mots ainsi que leurs segmentations en caractères par un classifieur MMC et les propriétés de modélisation des réseaux neuronaux appliquées aux caractères. Le classifieur RN utilise la segm...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2014