Sélection de Caractéristiques pour le Filtrage de Spams

نویسندگان

  • Kamilia Menghour
  • Labiba Souici-Meslati
چکیده

Feature selection is an important step in classification systems. It aims at reducing the number of features while trying to preserve or improve classifier performance. In this article, we propose a machine learning based feature selection approach, in the context of spam filtering which is considered as a text categorization task. Our approach consists in an individual evaluation of each attribute describing the textual messages in order to sort the features and then select a subset according to a performance evaluation that uses bayesian or SVM classifiers (Naive Bayes or Support Vector Machines respectively). We carried out an experimental comparison by testing several combinations which correspond to variations of classifier types, selection strategies (forward/backward) and individual feature evaluation methods, and we obtained interesting results. Indeed, in some cases, we achieved a significant reduction of the feature number in addition to a performance improvement. MOTS-CLÉS : Sélection de caractéristiques, Filtrage de spams, Classification, Apprentissage automatique.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Étude sur l'impact du sous-langage dans la classification automatique d'appels d'offres

Résumé: Dans cet article nous évaluons diverses approches pour filtrer le contenu « procédural » d’un document, et mesurons leur impact sur la classification d’une collection d’appels d’offres. Deux types d’approches sont testées : la sélection de termes à partir d’un vocabulaire de référence, constitué à partir des descriptions du schéma de classification, et le filtrage de phrases. Nous ne tr...

متن کامل

Classification et sélection de caractéristiques de textures. Utilisation d'algorithmes automatiques supervisés de sélection d'attributs pour la classification d'images

RÉSUMÉ. Les experts en classification d’images utilisent des caractéristiques variées pour représenter les textures. Nous proposons de choisir les plus pertinentes à l’aide d’une procédure automatique de sélection de caractéristiques. Nous comparons pour cela l’efficacité de plusieurs algorithmes de sélection récents. L’ensemble des algorithmes est évalué à l’aide de critères heuristiques ainsi...

متن کامل

A Constraint Satisfaction based Approach to View Selection in a Distributed Context

Les vues matérialisées sont utilisées dans les systèmes de gestion de bases de données commercialisés pour accélérer le temps de traitement des requêtes. Cette technique est aussi très utile dans les entrepôts de données pour améliorer les performances des requêtes décisionnelles. Cependant, le problème de sélection de vues a été étudié surtout dans un contexte centralisé. Dans cet article, nou...

متن کامل

RELIEFS : Un système pour le filtrage adaptatif de documents textuels basé sur la notion de résonance

Résumé : Nous présentons le système RELIEFS pour RELevance Information Extraction Fuzzy System dédié au filtrage adaptatif de documents textuels. Ce système s'inspire très largement de mécanismes cognitifs intervenant dans les processus de sélection d'information. En particulier, il implémente l'idée de résonance introduite dans la théorie cognitive ART [GROS 76] qui rend compte de la façon don...

متن کامل

Méthodologie de sélection de caractéristiques pour la classification d'images satellitaires

Résumé : Choisir les descripteurs d’une image en vue de son indexation n’est pas aisé, du fait de la variété des choix présentés dans la littérature. Nous développons à cet effet une méthodologie permettant de comparer différents ensembles de caractéristiques extraits d’une même base d’images. Cette méthodologie repose sur des algorithmes supervisés et non supervisés de sélection de caractérist...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2010