Saat Mesin Bertanya: Siapa Tetanggaku yang Terdekat?

Articles

Bayangkan sebuah mesin yang setiap harinya menerima data baru: data kesehatan, gambar, atau sekadar angka-angka. Ketika data baru itu datang, si mesin mulai “berpikir” : “Data ini mirip dengan siapa, ya?” Atau dalam istilah algoritma machine learning: siapa tetangga terdekatku?

Inilah prinsip dasar dari salah satu algoritma populer di dunia kecerdasan buatan, yaitu K-Nearest Neighbor (K-NN). Algoritma ini mengambil keputusan berdasarkan kedekatan data satu dengan data lainnya. Namun, tunggu dulu, apa sebenarnya yang dimaksud dengan “dekat”? Apakah semua jarak itu sama bagi mesin?

Jawabannya: tidak. Mesin memiliki berbagai cara untuk mengukur jarak, dan masing-masing cara bisa menghasilkan keputusan yang berbeda. Cara-cara itu disebut sebagai distance metrics.

Apa Itu Distance Metrics?

Distance metrics adalah metode matematis yang digunakan untuk mengukur seberapa dekat dua data dalam ruang berdimensi. Setiap metrik memiliki pendekatannya sendiri, dan penting bagi seorang data scientist atau praktisi machine learning untuk memilih metrik yang paling sesuai dengan karakteristik datanya.

Mari kita bahas beberapa jenis metrik yang sering digunakan dalam algoritma K-NN, dan bagaimana cara mereka “melihat” jarak.

1. Euclidean Distance: Jarak Garis Lurus

Ini adalah metrik yang paling umum dan mudah dipahami. Euclidean distance mengukur jarak lurus antara dua titik, seperti menarik penggaris dari titik A ke titik B.

Contoh: jika data A berada di koordinat (1, 2) dan data B di (4, 6), maka Euclidean distance akan menghitung panjang sisi miring dari segitiga yang terbentuk.

Metrik ini cocok digunakan jika semua fitur memiliki skala yang sama dan distribusi data relatif seimbang.

2. Manhattan Distance: Jalan Blok Kota

Pernah berjalan di kota dengan jalan-jalan berbentuk kotak seperti papan catur? Itulah analogi Manhattan distance. Jarak dihitung berdasarkan langkah horizontal dan vertikal, bukan diagonal.

Metrik ini lebih tahan terhadap outlier, karena tidak memperbesar efek perbedaan kecil secara drastis seperti Euclidean.

3. Minkowski Distance: Si Serbaguna

Minkowski adalah metrik umum yang dapat berperan sebagai Euclidean ataupun Manhattan, tergantung pada nilai parameternya (biasanya disebut nilai p).

Jika $p = 1$ , hasilnya sama seperti Manhattan.
Jika $p = 2$ , hasilnya sama seperti Euclidean.

Keunggulannya adalah fleksibilitas, sehingga cocok digunakan saat kita ingin bereksperimen dengan berbagai cara pengukuran jarak.

4. Chebyshev Distance: Fokus pada Perbedaan Terbesar

Chebyshev distance hanya mempertimbangkan perbedaan terbesar di antara semua dimensi. Metrik ini sangat cocok digunakan saat satu fitur sangat dominan atau krusial untuk keputusan akhir.

Dalam dunia nyata, ini seperti mempertimbangkan faktor risiko tertinggi saat membuat keputusan, bukan rata-rata dari semuanya.

5. Cosine Similarity (Cosine Distance): Menilai Arah, Bukan Besarnya

Kadang, bukan jaraknya yang penting, tetapi arahnya. Cosine similarity mengukur kemiripan antara dua vektor berdasarkan sudut di antara mereka.

Bayangkan dua anak panah yang panjangnya berbeda, tetapi arahnya hampir sama, mereka dianggap serupa menurut Cosine. Metrik ini sering digunakan untuk data berdimensi tinggi seperti teks

Jadi, Jarak Mana yang Terbaik?

Jawabannya: tergantung.

Untuk data dengan skala yang sama dan terdistribusi normal, Euclidean bisa menjadi pilihan tepat.
Untuk data dengan banyak nilai ekstrim, Manhattan atau Chebyshev mungkin lebih cocok.
Jika ingin fleksibilitas, Minkowski memberi ruang untuk eksplorasi.
Untuk data berbasis arah seperti representasi teks atau gambar, Cosine memberikan keunggulan.

Penutup

“Saat mesin bertanya: siapa tetanggaku yang terdekat?”

jawaban dari pertanyaan itu sangat bergantung pada cara ia mengukur jarak. Pemilihan distance metric bukan sekadar aspek teknis, melainkan keputusan yang memengaruhi seberapa cerdas sebuah sistem dapat mengenali pola dan membuat keputusan.

Sebagai mahasiswa atau praktisi di bidang Computer Science, memahami konsep dasar seperti ini akan membuka wawasan lebih luas tentang bagaimana algoritma berpikir dan bekerja.

REFERENSI :

[1] S. Y. Prasetyo, G. Z. Nabiilah, Z. N. Izdihar, A. S. Prabowo, and H. Ash Shiddiqi, “K-Nearest Neighbor Algorithm for Heart Disease Detection: A Comparative Evaluation of Minkowski and Manhattan Distances,” 2023 6th International Seminar on Research of Information Technology and Intelligent Systems (ISRITI), Batam, Indonesia, 2023, pp. 237–241, doi: 10.1109/ISRITI60336.2023.10467899.

[2] S. Y. Prasetyo, P. Wicaksono, Z. N. Izdihar, and P. Arisaputra, “Optimizing K-NN Algorithm for Breast Cancer Diagnosis: A Focus on Chebyshev and Minkowski Metrics,” 2024 2nd International Symposium on Information Technology and Digital Innovation (ISITDI), Bukittinggi, Indonesia, 2024, pp. 113–118, doi: 10.1109/ISITDI62380.2024.10797091.

[3] S. Y. Prasetyo, A. Kurniawan, E. F. A. Sihotang, R. Puspita, and K. E. Setiawan, “Heart Disease Risk Prediction using K-Nearest Neighbor: A Study of Euclidean and Cosine Distance Metrics,” 2023 3rd International Conference on Smart Cities, Automation & Intelligent Computing Systems (ICON-SONICS), Bali, Indonesia, 2023, pp. 236–240, doi: 10.1109/ICON-SONICS59898.2023.10435299.

Ir. Simeon Yuda Prasetyo, S.Kom., M.Kom., IPP, CSCU Bina Nusantara University