Komparasi Ekstraksi Fitur dalam Klasifikasi Teks Multilabel Menggunakan Algoritma Machine Learning
نویسندگان
چکیده
Ektraksi fitur dan algoritma klasifikasi teks merupakan bagian penting dari pekerjaan teks, yang memiliki dampak langsung pada efek teks. Algoritma machine learning tradisional seperti Na¨ıve Bayes, Support Vector Machines, Decision Tree, K-Nearest Neighbors, Random Forest, Logistic Regression telah berhasil dalam melakukan dengan ektraksi i.e. Bag ofWord (BoW), Term Frequency-Inverse Document Frequency (TF-IDF), Documents to (Doc2Vec), Word (word2Vec). Namun, bagaimana menggunakan vektor kata untuk merepresentasikan lebih baik selalumenjadi poin sulit Natural Language Processing saat ini. Makalah ini bertujuan membandingkan kinerja ekstraksi BoW, TF-IDF, Doc2Vec Word2Vec learning. Dataset digunakan sebanyak 1000 sample berasal tribunnews.com split data 50:50, 70:30, 80:20 90:10. Hasil percobaan menunjukkan bahwa Bayes akurasi tertinggi TF-IDF sebesar 87% BoW 83%. Untuk Doc2Vec, SVM 81%. Sedangkan (i.e. Regression) model dibawah 50%. Hal menyatakan, kurang optimal bersama learning, khususnya dataset tribunnews.com.
منابع مشابه
Klasifikasi Data Cardiotocography Dengan Integrasi Metode Neural Network Dan Particle Swarm Optimization
Backpropagation (BP) adalah sebuah metode yang digunakan dalam training Neural Network (NN) untuk menentukan parameter bobot yang sesuai. Proses penentuan parameter bobot dengan menggunakan metode backpropagation sangat dipengaruhi oleh pemilihan nilai learning rate (LR)-nya. Penggunaan nilai learning rate yang kurang optimal berdampak pada waktu komputasi yang lama atau akurasi klasifikasi yan...
متن کاملPenambahan emosi menggunakan metode manipulasi prosodi untuk sistem text to speech bahasa Indonesia
Abstrak—Text To Speech (TTS) merupakan suatu sistem yang dapat mengonversi teks dalam format suatu bahasa menjadi ucapan sesuai dengan pembacaan teks dalam bahasa yang digunakan. Fokus penelitian yaitu suatu konsep pengucapan natural, dengan usaha “memanusiakan” pelafalan sintesa suara sistem Text To Speech yang dihasilkan. Kebutuhan utama yang digunakan untuk sistem Text To Speech dalam peneli...
متن کاملKlasifikasi Komponen Argumen Secara Otomatis pada Dokumen Teks berbentuk Esai Argumentatif
Abstrak Dengan pengenalan argumen secara otomatis dari dokumen teks, penulis esai dapat melakukan inspeksi pada teks yang mereka tulis. Hal ini akan membantu penilaian esai secara lebih objektif dan tepat karena penilai esai akan melihat seberapa baik komponen argumentasi terbentuk. Beberapa peneliti mencoba untuk melakukan pendeteksian dan klasifikasi argumen serta penerapannya pada berbagai d...
متن کاملProbabilistic Latent Semantic Analysis (PLSA) untuk Klasifikasi Dokumen Teks Berbahasa Indonesia
Abstrak Salah satu pekerjaan yang ada di dalam mengelola dokumen adalah bagaimana menemukan intisari dari dokumen. Topic modeling merupakan teknik yang dikembangkan untuk menghasilkan representasi dokumen berupa kata-kata kunci dari dokumen. Kata-kata kunci tersebut yang akan digunakan dalam proses pengindeksan serta pencarian dokumen untuk ditemukan kembali sesuai kebutuhan pengguna. Pada pene...
متن کاملSistem Informasi Pengarsipan Menggunakan Algoritma Levensthein String pada Kecamatan Seberang Ulu II
Archival information systems in government agency is one of the most used applications for daily acitivities. One feature in application management information document is searching. This feature serves to search for documents from a collection of available information based on keywords entered by the user. But some researches on a search engine (searching) concluded that the average user error...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ژورنال
عنوان ژورنال: Matrik: jurnal manajemen, teknik informatika, dan rekayasa komputer
سال: 2022
ISSN: ['2476-9843']
DOI: https://doi.org/10.30812/matrik.v21i3.1851