La Classification non Supervisée (Clustering) de Documents Textuels par les Automates Cellulaires
نویسندگان
چکیده
Résumé : Dans cet article nous présentons un automate cellulaire (Class_AC) pour résoudre un problème de text mining en l’occurrence la classification non supervisée (Clustering). Avant de procéder à l’expérimentation par l’automate cellulaire, nous avons vectorisés nos données en procédant à l’indexation des documents textuels provenant de la base de donnée REUTERS 21578 par l’approche Wordnet. L’automate que nous proposons dans cet article est une grille de cellules de structure plane avec un voisinage découlant de cette structure (planaire). Trois fonctions de transitions ont servi à faire varier l’automate ayant quatre états pour chaque cellule. Les résultats obtenus montrent que la machine virtuelle à calcul parallèle (Class_AC) regroupe efficacement des documents similaires à un seuil prés.
منابع مشابه
Classification Automatique Non supervisée de Documents Textuels basés sur Wordnet
Mettre en œuvre l’une des méthodes de classification non supervisée consiste en premier lieu à choisir une manière de représenter les documents (Sebastiani, 2002) ; dans un second temps il faut choisir une mesure de similarité, et en dernier lieu choisir un algorithme de classification que l'on va mettre au point à partir des descripteurs et de la métrique choisis. Tout document dj sera transfo...
متن کاملAnalyse des suites aléatoires engendrées par des automates cellulaires et applications à la cryptographie
On s'intéresse aux interactions entre la cryptologie et les automates cellulaires. Il a ´ eté montré récemment qu'il n'existe pas de r` eglé elémentaire d'automate cellulaire non-linéaire robustè a la corrélation. Ce résultat limite fortement l'usage d'automates cellulaires pour la construction de suites pseudo-aléatoires servant de clés utilisables en cryptographiè a clé secrète. De plus, pour...
متن کاملClassification non supervisée floue des termes basée sur la proximité pour les systèmes de recherche d'information
RÉSUMÉ. Le regroupement des termes basé sur la mesure de proximité est une stratégie menant efficacement à trouver les documents pertinents. Contrairement à ce qu’ont montré les études récentes qui ont utilisé la proximité des termes pour le classement des documents, le processus de recherche d’information est entièrement revu dans ce travail en ce qui concerne les étapes d’indexation et d’inte...
متن کاملUne nouvelle approche pour la classification non supervisée en segmentation d'image
Résumé. La segmentation des images en régions est un problème crucial pour l’analyse et la compréhension des images. Parmi les approches existantes pour résoudre ce problème, la classification non supervisée est fréquemment employée lors d’une première étape pour réaliser un partitionnement de l’espace des intensités des pixels (qu’il s’agisse de niveaux de gris, de couleurs ou de réponses spec...
متن کاملSemi-supervised incremental clustering of categorical data
Résumé. Le clustering semi-supervisé combine l’apprentissage supervisé and non-supervisé pour produire meilleurs clusterings. Dans la phase initiale supervisée de l’algorithme, un échantillon d’apprentissage est produit par selection aléatoire. On suppose que les exemples de l’échantillon d’apprentissage sont étiquetés par un attribut de classe. Puis, un algorithme incrémentiel développé pour l...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2009