Klasterisasi Berita Bahasa Indonesia Dengan Menggunakan K-Means Dan Word Embedding
نویسندگان
چکیده
Jumlah berita atau dokumen yang sangat melimpah merupakan sumber pengetahuan berharga dan dapat digunakan untuk memperoleh wawasan dalam pengambilan keputusan. Namun, pertumbuhan jumlah dengan dimensi tinggi menjadi sebuah tantangan besar, menyebabkan sulitnya informasi pada dikategorikan secara efisien cepat. Kesulitan ini semakin kompleks tidak adanya kelas label tersebut. Analisis konten dari belum memiliki dilakukan pendekatan data mining. Salah satu metode mining mengelompokkan tanpa label, sulit manual adalah klastering. Klastering teks salah penambangan bertujuan berdasarkan kesamaan kemiripan di antara teks. Penelitian memberikan baru Bahasa Indonesia klastering, dimana ekstraksi fitur melalui Neural Network (Word Embedding) menunjukkan antar kata mempertahankan semantik konteks ada berita. Sumber portal “Tempo” terdiri 520863 Hasil penelitian bahwa klaster k = 4, parameter Word Embedding: min_count=1 embedding_size=300 nilai silhouette coefficient terbaik sebesar 0.73. klasterisasi divisualisasikan bentuk berbeda visualisasi World Cloud menganalisis mengevaluasi diusulkan ini. AbstractThe enormous amount of news or documents is a precious source knowledge and can be used to gain insight into decision-making. However, the growth in number stories with high dimensions big challenge, making it difficult for information on categorized efficiently quickly. This difficulty further complicated by absence classes labels news. Analysis content that does not yet have class done approach. The most method group tremendous without clustering. Text clustering task aims based similarities. study provides new approach classifying Indonesian method, where feature extraction carried out through show similarities between words maintain semantics context from "Tempo," which consists 5208063 results showed clusters Embedding parameters: embedding_size=300, produced best value were visualized form different visualization analyze evaluate proposed method.
منابع مشابه
Aplikasi belajar membaca iqro' berbasis mobile
Abstrak Kemajuan Ilmu Pengetahuan dan Teknologi (IPTEK) hendaklah diikuti dengan Iman dan Takwa (IMTAK), sangat disayangkan, jika masih banyak masyarakat yang belum bisa membaca huruf hijaiyah yang merupakan dasar dari Al-Qur’an. Masyarakat sekarang telah disibukkan dengan berbagai aktipitas sehingga mereka sulit untuk belajar dengan Ustad atau Ustadza mengenai huruf hijaiyah. Untuk mengatasi m...
متن کاملPenambahan emosi menggunakan metode manipulasi prosodi untuk sistem text to speech bahasa Indonesia
Abstrak—Text To Speech (TTS) merupakan suatu sistem yang dapat mengonversi teks dalam format suatu bahasa menjadi ucapan sesuai dengan pembacaan teks dalam bahasa yang digunakan. Fokus penelitian yaitu suatu konsep pengucapan natural, dengan usaha “memanusiakan” pelafalan sintesa suara sistem Text To Speech yang dihasilkan. Kebutuhan utama yang digunakan untuk sistem Text To Speech dalam peneli...
متن کاملMultidimensi Pada Data Warehouse Dengan Menggunakan Rumus Kombinasi
Multidimensional in data warehouse is a compulsion and become the most important for information delivery, without multidimensional data warehouse is incomplete. Multidimensional give the able to analyze business measurement in many different ways. Multidimensional is also synonymous with online analytical processing (OLAP).
متن کاملValidasi data dengan menggunakan objek lookup pada borland delphi 7.0
s: Developing an application with some tables must concern the validation of input (scpecially in Table Child). In order to maximize the accuracy and input data validation. Its called lookup (took data from other dataset). There are 2 (two) ways to lookup data from Table Parent: 1) Using Objects (DBLookupComboBox & DBLookupListBox), or 2) Arranging The Properties Of Fields Data Type (shown by u...
متن کاملDeterminants of systolic blood pressure in Indonesian elderly men:
Tujuan penelitian ini adalah untuk mengetahui determinan tekanan darah sistolik pada kelompok lanjut usia pria. Suatu studi dengan rancangan ‘cross sectional’ dilakukan di 4 kota besar di Indonesia dengan menggunakan metoda ‘multistage random sampling’. Jumlah responden 320 orang lanjut usia pria, yang merupakan sub-sampel dari 981 responden pada penelitian yang lebih besar. Pengumpulan data di...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ژورنال
عنوان ژورنال: Jurnal Teknologi Informasi dan Ilmu Komputer
سال: 2023
ISSN: ['2528-6579', '2355-7699']
DOI: https://doi.org/10.25126/jtiik.20231026468