Peringkasan Teks Automatis Dokumen Berita Menggunakan Metode K-means Clustering

Ferdian Noprianto, Surya Agustian, Muhammad Irsyad

Abstract


Perkembangan teknologi informasi yang pesat menyebabkan peningkatan secara drastis jumlah dokumen teks, artikel dan berita yang tersedia secara digital. Peningkatan jumlah dokumen tersebut menimbulkan kesulitan dalam memilih dan menyaring informasi yang relevan dengan efisien. Peringkasan teks otomatis menjadi solusi penting dalam memberikan informasi secara ringkas dan cepat. Penelitian ini mengusulkan peringkasan teks otomatis dengan teknik clustering menggunakan metode K-Means. Word2Vec digunakan untuk kalkulasi word embeddings dari kalimat-kalimat yang terdapat dalam setiap dokumen. Hasil ringkasan diperoleh dengan mengambil 1 kalimat yang memiliki jarak terdekat antara sentence embeddings-nya dengan centroid, dari masing-masing klaster. Evaluasi hasil ringkasan pada data testing dibandingkan dengan ringkasan manual buatan manusia menggunakan ROUGE, dengan F1-score sebagai metrik pengukuran utama. Metode ini cukup baik untuk tingkat kompresi yang kecil, yaitu F1-score rata-rata 51.96% untuk tingkat kompresi 30%. Sedangkan untuk tingkat kompresi 50% F1-score yang dicapai masih rendah.

Keywords


Peringkasan Teks Otomatis, K-Means Clustering, ROUGE, Word2vec

Full Text:

PDF

References


I. W. A. Setyadi, D. C. Khrisne, and I. M. A. Suyadnya, “Automatic Text Summarization Menggunakan Metode Graph dan Metode Ant Colony Optimization,” vol. 17, no. 1, pp. 124–130, 2018.

K. Ivanedra and M. Mustikasari, “Implementasi Metode Recurrent Neural Network Pada Text the Implementation of Text Summarization With Abstractive,” J. Teknol. Inf. dan Ilmu Komput., vol. 6, no. 4, 2019, doi: 10.25126/jtiik.201961067.

F. Husniah, S. Agustian, and I. Afrianty, “Peringkasan Teks Otomatis Artikel Berbahasa Indonesia Menggunakan Algoritma Textrank,” Teknoka 7, 2022.

Halimah, Surya Agustian, and Siti Ramadhani, “Peringkasan teks otomatis (automated text summarization) pada artikel berbahasa indonesia menggunakan algoritma lexrank,” J. CoSciTech (Computer Sci. Inf. Technol., vol. 3, no. 3, pp. 371–381, 2022, doi: 10.37859/coscitech.v3i3.4300.

Y. Yuliska and K. U. Syaliman, “Literatur Review Terhadap Metode, Aplikasi dan Dataset Peringkasan Dokumen Teks Otomatis untuk Teks Berbahasa Indonesia,” IT J. Res. Dev., vol. 5, no. 1, pp. 19–31, 2020, doi: 10.25299/itjrd.2020.vol5(1).4688.

K. E. Dewi and N. I. Widiastuti, “The Design of Automatic Summarization of Indonesian Texts Using a Hybrid Approach,” J. Teknol. Inf. dan Pendidik., vol. 15, no. 1, pp. 37–43, 2022, doi: 10.24036/jtip.v15i1.451.

Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013b. "Distributed Representations of Words and Phrases and their Compositionality". In Proceedings of NIPS, 2013.

H. Juwiantho et al., “Sentiment Analysis Twitter Bahasa Indonesia Berbasis WORD2VEC Menggunakan Deep Convolutional Neural Network,” J. Teknol. Inf. dan Ilmu Komput., vol. 7, no. 1, pp. 181–188, 2020, doi: 10.25126/jtiik.202071758.

M. Rusli, “Ekstraksi Fitur Menggunakan Model Word2Vec Pada Sentiment Analysis Kolom Komentar Kuisioner Evaluasi Dosen Oleh Mahasiswa,” Klik - Kumpul. J. Ilmu Komput., vol. 7, no. 1, p. 35, 2020, doi: 10.20527/klik.v7i1.296.

S. Khomsah, “Sentiment Analysis On YouTube Comments Using Word2Vec and Random Forest,” Telematika, vol. 18, no. 1, p. 61, 2021, doi: 10.31315/telematika.v18i1.4493.

D. I. Af’idah, Dairoh, S. F. Handayani, and R. W. Pratiwi, “Pengaruh Parameter Word2Vec terhadap Performa Deep Learning pada Klasifikasi Sentimen,” J. Inform. Jurunal Pengemb. IT, vol. 6, no. 3, pp. 156–161, 2021.

A. Fadilah, “Penerapan Algoritma K-Nearest Neighbor untuk Mendeteksi Ujaran Kebencian dan Bahasa Kasar pada Twitter Bahasa Indonesia,” Tugas Akhir, Universitas Islam Negeri Sultan Syarif Kasim Riau, 2021.

J. Nasir, “Penerapan Data Mining Clustering Dalam Mengelompokan Buku Dengan Metode K-Means,” Simetris J. Tek. Mesin, Elektro dan Ilmu Komput., vol. 11, no. 2, pp. 690–703, 2021, doi: 10.24176/simet.v11i2.5482.

G. Gustientiedina, M. H. Adiya, and Y. Desnelita, “Penerapan Algoritma K-Means Untuk Clustering Data Obat-Obatan,” J. Nas. Teknol. dan Sist. Inf., vol. 5, no. 1, pp. 17–24, 2019, doi: 10.25077/teknosi.v5i1.2019.17-24.

R. A. Farissa, R. Mayasari, and Y. Umaidah, “Perbandingan Algoritma K-Means dan K-Medoids Untuk Pengelompokkan Data Obat dengan Silhouette Coefficient di Puskesmas Karangsambung,” J. Appl. Informatics Comput., vol. 5, no. 2, pp. 109–116, 2021, doi: 10.30871/jaic.v5i1.3237.

Pedregosa et al., Scikit-learn: Machine Learning in Python, JMLR 12, pp. 2825-2830, 2011.


Refbacks

  • There are currently no refbacks.


Editorial Office :

Prosiding SENDIKO (Seminar Nasional Hasil Penelitian & Pengabdian Masyarakat Bidang Ilmu Komputer)
Published by Universitas PGRI Madiun
Managed by Program Studi Sistem Informasi Fakultas Teknik Universitas PGRI Madiun
Address Jl. Auri 14-16 Kota Madiun Kampus III Universitas PGRI Madiun 63118
Website http://prosiding.unipma.ac.id/index.php/sendiko/index
Email sendiko@unipma.ac.id

e-ISSN:  3025-4604