Definisi, Karakteristik, dan Manfaat Data Mining -Seri Data Mining for Business Intelligence (2)

By : Albert Verasius Dian Sano, S.T., M.Kom.

Definisi, karakteristik, dan manfaat

Definisi data mining, secara sederhana, adalah istilah yang digunakan untuk menjelaskan proses pencarian atau penambangan knowledge dari data yang sangat besar. Menurut analogi, orang mungkin berpikir bahwa istilah data mining adalah sesuatu yang tidak tepat; menambang emas dari bebatuan atau lumpur diacu sebagai  ‘penambangan emas’ dan bukannya penambangan ‘batu’ atau ‘lumpur’. Jadi, data mining barangkali lebih cocok diberi nama ‘knowledge mining’ atau ‘knowledge discovery’. Meskipun ada ketidakcocokan antara makna dan istilah, data mining telah menjadi pilihan bagi komunitas ilmu ini. Banyak nama-nama lain yang ter-asosiasi dengan data mining antara lain ‘knowledge extraction’, ‘pattern analysis’, ‘data archaeology’, ‘information harvesting’, ‘pattern searching’, dan ‘data dredging’.

Secara teknis, data minig adalah proses yang memanfaatkan teknik-teknik statistik, matematika, dan kecerdasan buatan untuk mengekstrak dan mengidentifikasi informasi dan knowledge selanjutnya (atau pola-pola) yang berasal dari sekumpulan data yang sangat besar.  Berbagai macam pola tersebut bisa dalam bentuk aturan bisnis, kesamaan-kesamaan, korelasi, trend, atau model-model prediksi. Kebanyakan literatur mendefinisikan data mining sebagai “proses yang rumit untuk mengidentifikasi pola-pola yang valid, baru, memiliki potensi bermanfaat, dan bisa dipahami, terhadap data yang disimpan di dalam database yang terstruktur”, dimana data diorganisir dalam baris-baris yang terstruktur menurut kategori, ordinal/berurutan, dan variable-variabel yang berkesinambungan. Dalam definisi ini, beberapa arti dari kata-kata kunci di atas adalah seperti berikut:

  • Proses: artinya data mining terdiri dari banyak langkah perulangan Rumit: artinya bahwa ada suatu dugaan/kesimpulan atau pencarian yang berbasis eksperimentasi yang dilibatkan; yang artinya bahwa, itu bukanlah suatu hal yang mudah seperti komputasi terhadap suatu kuantitas yang sudah ditetapkan sebelumnya
  • Valid: artinya bahwa pola-pola yang ditemukan seharusnya tetap benar bila diterapkan pada data yang baru dengan tingkat kepastian yang tinggi
  • Baru: artinya bahwa pola-pola tidaklah diketahui sebelumnya oleh pengguna dalam konteks sistem yang sedang dianalisa
  • Berpotensi bermanfaat: artinya adalah bahwa pola-pola yang ditemukan harus membawa manfaat bagi pengguna atau pada pekerjaan
  • Dapat dipahami: artinya bahwa pola harus masuk akal secara bisnis yang membuat pengguna berkata “mmmm! Ini masuk akal; mengapa saya tidak memikirkan hal itu” .

 

Data mining bukanlah disiplin ilmu baru, tetapi lebih pada definisi yang baru untuk pemanfaatan banyak disiplin ilmu. Data mining diposisikan erat di irisan berbagai disiplin ilmu, termasuk statistik, artificial intelligence (kecerdasan buatan), machine learning, management science, information systems (sistem informasi), dan database. Lihat gambar di bawah ini:

Dengan menggunakan perkembangan di semua disiplin itu, data mining berusaha membuat perkembangan dalam mengekstrak informasi dan knowledge dari database yang besar.  Ini adalah bidang ilmu yang muncul ke permukaan dan menarik banyak perhatian dalam waktu yang singkat.

Berikut adalah karakteristik utama dan tujuan dari data mining:

  • Data seringkali terkubur dalam database yang sangat besar, yang terkadang berisi data selama bertahun-tahun. Dalam banyak kasus, data dibersihkan dan disatukan ke dalam data warehouse.
  • Environment data mining pada umumnya adalah arsitektur client-server atau arsitektur sistem informasi berbasis web.
  • Berbagai tool baru yang canggih, termasuk berbagai tool visualisasi yang canggih, membantu untuk mengangkat biji informasi yang terkubur dalam file-file korporat atau record-record arsip. Untuk mendapatkannya akan melibatkan memoles dan mensinkronisasikan data untuk mendapatkan hasil-hasil yang tepat. Data miners yang mutakhir juga memeriksa kemanfaatan data (misalnya, teks yang tak terstruktur yang disimpan dalam tempat-tempat seperti database Lotus Notes, file-file teks di internet, atau intranet korporat).

 

  • Si penambang seringkali adalah end-user, yang didukung dengan ‘bor-bor data’ dan berbagai tool query handal lainnya untuk menanyakan pertanyaan-pertanyaan dengan tujuan tertentu dan mendapatkan jawaban-jawaban dengan cepat, dengan sedikit atau bahkan tanpa skill pemrograman sekalipun.
  • Dalam menemukan pola seringkali menemukan hasil yang tak diharapkan dan meminta end-user untuk berpikir secara kreatif dalam menjalankan proses, termasuk interpretasi terhadap temuan.
  • Banyak tool data mining siap dikombinasikan dengan berbagai spreadsheet dan tool development software lainnya. Jadi,  data yang ditambang bisa dianalisa dan diterapkan dengan cepat dan mudah.
  • Karena jumlah data yang sangat besar dan usaha pencarian yang massif, kadang-kadang perlu menggunakan pemrosesan parallel untuk data mining.

Perusahaan yang secara efektif memanfaatkan tool-tool dan teknologi data mining bisa mendapatkan dan mempertahankan  keunggulan kompetitif strategis. Data mining  menawarkan perusahaan suatu environment yang sangat diperlukan untuk meningkatkan keputusan untuk memanfaatkan peluang-peluang baru dengan mentransformasikan data menjadi senjata yang strategis.