Analisis Komparatif Pengukuran Kemiripan Artikel Ilmiah menggunakan Jaccard dan Levenshtein serta Blocking

Isi Artikel Utama

Muhammad Rizqi Nur
Gandhi Surya Buana
Nur Aini Rakhmawati

Abstrak

Mesin pencarian artikel telah memudahkan akademisi melakukan studi literatur. Namun, mudah bukan berarti akurat. Untuk topik niche tertentu, hasil pencarian sering kali belum sesuai. Snowballing dapat dilakukan untuk mengatasi ini, tapi terbatas pada artikel awal yang dimiliki, khususnya akses penulis ketika artikel dibuat. Sebagai alternatif, database artikel menyediakan rekomendasi artikel relevan dari sebuah artikel, tapi terbatas pada database itu saja. Sebuah alat untuk mencari artikel mirip tanpa tergantung database tertentu akan sangat membantu, tapi sebelum itu, metode pengukuran kemiripan artikel yang tepat perlu dicari. Penelitian ini bertujuan melakukan pengukuran kemiripan artikel berdasarkan judul, penulis, dan keyword menggunakan Weighted Jaccard Measure dan Levenshtein distance dan mengevaluasinya. Penelitian ini juga membandingkan kinerja dengan ditambahkannya blocking dengan overlap blocking dan penghilangan stop words. Hasil pengukuran dengan Jaccard cukup buruk, tapi hasil pengukuran dengan Levenshtein + Jaccard cukup baik. Selain itu, ditemukan bahwa menitikberatkan pembobotan pada judul menghasilkan hasil terbaik. Overlap blocking dan penghilangan stop words justru meningkatkan waktu pemrosesan secara signifikan. Overlap blocking bisa mengurangi jumlah pengukuran hingga hampir setengahnya dengan jumlah overlap=1, tapi jumlah overlap di atas 1 akan membuang banyak pasangan yang seharusnya mirip. Penghilangan stop words meningkatkan kinerja Jaccard dan Levenshtein tapi perlu penyesuaian threshold.

Unduhan

Data unduhan belum tersedia.

Rincian Artikel

Cara Mengutip
[1]
M. R. Nur, G. S. Buana, dan N. A. Rakhmawati, “Analisis Komparatif Pengukuran Kemiripan Artikel Ilmiah menggunakan Jaccard dan Levenshtein serta Blocking”, JuTISI, vol. 9, no. 2, hlm. 272 –, Agu 2023.
Bagian
Articles