K-means is applicable for Javanese stopwords list generation. The algorithm indicates the stopword location is in the first cluster of the words list (Wibawa, A.P., et.al., 2020). - PUBLIKA | UPT. Publikasi Ilmiah Universitas Negeri Malang

Wibawa, A. P., Fithri, H. K., Zaeni, I. A. E., & Nafalski, A. (2020). Generating Javanese Stopwords List using K-means Clustering Algorithm. Knowledge Engineering and Data Science, 3(2), 106-111. http://dx.doi.org/10.17977/um018v3i22020p106-111.

Penghapusan stopwords penting dalam Information Retrieval untuk menghilangkan kata-kata yang sering muncul dan bersifat umum, sehingga mengurangi penyimpanan memori. Algoritma yang ada menghilangkan kata yang persis sama dengan kata dalam daftar stopwords yang telah ditentukan sebelumnya. Namun, pembuatan daftar ini bisa memakan waktu, memerlukan kata-kata khusus domain yang divalidasi oleh para ahli. Penelitian ini memperkenalkan pendekatan baru untuk menghasilkan daftar stopwords dengan menggunakan metode K-means Clustering. Teknik ini mengelompokkan kata-kata berdasarkan frekuensinya. Studi ini mengevaluasi kinerja pendekatan tersebut dengan menggunakan matriks kebingungan, membandingkan hasilnya dengan daftar stopwords valid yang disusun oleh seorang ahli linguistik Jawa. Metode yang diusulkan mencapai akurasi sebesar 78,28% (K=7). Temuan menunjukkan bahwa penghasilan daftar stopwords bahasa Jawa menggunakan metode pengelompokan ini dapat diandalkan.