Peringkas Teks Otomatis Menggunakan Metode Latent Dirichlet Allocation (LDA)

Agit Fadillah Rihardi, Surya Agustian, Eka Pandu Cynthia

Abstract


Saat ini pertumbuhan jumlah dokumen, artikel, tulisan berita, email dan bentuk teks lainnya yang tayang di internet, sangat cepat setiap harinya. Bagi pengguna yang membutuhkan informasi secara cepat dari berbagai dokumen tersebut, membaca keseluruhan isi teks dokumen akan sangat memboroskan waktu. Sistem peringkas teks otomatis membantu pengguna mendapatkan informasi secara cepat, tanpa mengabaikan inti dari informasi tersebut. Penilitian ini mengusulkan pemodelan topik sebagai metode untuk meringkas teks. Metode yang digunakan adalah Latent Dirichlet Allocation (LDA) yang membangkitkan topik dari keseluruhan isi teks. Ringkasan dibuat berdasarkan kalimat yang terpilih dari relevansi antara topik dengan kalimat-kalimat tersebut, yang diukur menggunakan jackard similarity. Performa sistem dievaluasi menggunakan ROUGE, dengan membandingkan ringkasan yang dihasilkan oleh sistem dengan ringkasan yang dibuat oleh manusia (gold standard). Dari optimasi yang dilakukan, pengujian untuk 150 artikel dengan kompresi 50%, memberikan hasil F1-score untuk ROUGE-1, ROUGE-2, dan ROUGE-L masing-masing sebesar 67.81%, 59.96%, dan 67.44%. Sedangkan untuk kompresi 30% mendapat F1-score untuk ROUGE-1, ROUGE-2, dan ROUGE-L masing-masing adalah 52.37%, 42.11%, dan 51.47%. Penilitian ini menghasilkan skor yang baik dan kompetitif dibandingkan dengan penilitian-penilitian lain yang terkait.

Keywords


Jaccard Similarity, LDA, Pemodelan Topik, Peringkas Otomatis, ROUGE

Full Text:

PDF

References


R. Deepa, J. Konshi, A. Haritha, and K. Shobini, “Automatic Text Summarization System,” 2019. [Online]. Available: http://www.ripublication.com

A. P. Widyassari et al., “Review of automatic text summarization techniques & methods,” Journal of King Saud University - Computer and Information Sciences, vol. 34, no. 4. King Saud bin Abdulaziz University, pp. 1029–1046, Apr. 01, 2022. doi: 10.1016/j.jksuci.2020.05.006.

Y. S. Maulidia and N. F. Siti, “Peringkasan Teks Otomatis pada Modul Pembelajaran Berbahasa Indonesia Menggunakan Metode Cross Latent Semantic Analysis (CLSA),” Jurnal Edukasi dan Penelitian Informatika, vol. 7, no. 2, pp. 153–159, 2021

D. M. Blei, “Probabilistic topic models,” in Communications of the ACM, Apr. 2012, pp. 77–84. doi: 10.1145/2133806.2133826.

M. Kondath, D. P. Suseelan, and S. M. Idicula, “Extractive summarization of Malayalam documents using latent Dirichlet allocation: An experience,” Journal of Intelligent Systems, vol. 31, no. 1, pp. 393–406, Jan. 2022, doi: 10.1515/jisys-2022-0027.

R. C. Belwal, S. Rai, and A. Gupta, “Text summarization using topic-based vector space model and semantic measure,” Inf Process Manag, vol. 58, no. 3, May 2021, doi: 10.1016/j.ipm.2021.102536.

U. T. Setijohatmo, S. Rachmat, T. Susilawati, and Y. Rahman, “Analisis Metoda Latent Dirichlet Allocation untuk Klasifikasi Dokumen Laporan Tugas Akhir Berdasarkan Pemodelan Topik,” 2020.

R. Siringoringo, R. Perangin-Angin, and Jamaluddin, “Pemodelan Topik Berita Menggunakan Latent Dirichlet Allocation dan K-Means Clustering,” Jurnal Informatika Kaputama (JIK), vol. 4, no. 2, pp. 216-222, 2020.

H. Gupta and M. Patel, “Method of Text Summarization Using LSA and Sentence Based Topic Modelling with Bert,” in Proceedings - International Conference on Artificial Intelligence and Smart Systems, ICAIS 2021, Institute of Electrical and Electronics Engineers Inc., Mar. 2021, pp. 511–517. doi: 10.1109/ICAIS50930.2021.9395976.

F. Husniah, S. Agustian, and I. Afrianty, “Peringkasan Teks Otomatis Artikel Berbahasa Indonesia Menggunakan Algoritma Textrank,” Teknoka 7, 2022.

Halimah, Surya Agustian, and Siti Ramadhani, “Peringkasan teks otomatis (automated text summarization) pada artikel berbahasa indonesia menggunakan algoritma lexrank,” Jurnal CoSciTech (Computer Science and Information Technology), vol. 3, no. 3, pp. 371–381, Dec. 2022, doi: 10.37859/coscitech.v3i3.4300.

M. Anandarajan, C. Hill, and T. Nolan, Practical Text Analytics: Maximizing the Value of Text Data. in Advances in Analytics and Data Science. Springer International Publishing, 2018. [Online]. Available: https://books.google.co.id/books?id=cwZ0DwAAQBAJ

D. M. Blei, A. Y. Ng, and J. B. Edu, “Latent Dirichlet Allocation Michael I. Jordan,” 2003.

S. Kadagadkai, M. Patil, A. Nagathan, A. Harish, and A. MV, “Summarization tool for multimedia data,” Global Transitions Proceedings, vol. 3, no. 1, pp. 2–7, Jun. 2022, doi: 10.1016/j.gltp.2022.04.001.

C.-Y. Lin, “ROUGE: A Package for Automatic Evaluation of summaries,” in Proceedings of the ACL Workshop: Text Summarization Braches Out 2004, Jun. 2004, p. 10.


Refbacks

  • There are currently no refbacks.


Editorial Office :

Prosiding SENDIKO (Seminar Nasional Hasil Penelitian & Pengabdian Masyarakat Bidang Ilmu Komputer)
Published by Universitas PGRI Madiun
Managed by Program Studi Sistem Informasi Fakultas Teknik Universitas PGRI Madiun
Address Jl. Auri 14-16 Kota Madiun Kampus III Universitas PGRI Madiun 63118
Website http://prosiding.unipma.ac.id/index.php/sendiko/index
Email sendiko@unipma.ac.id

e-ISSN:  3025-4604