Proses dalam Data Mining – Seri Data Mining for Business Intelligence (5)

By : Albert Verasius Dian Sano, S.T., M.Kom.

Proses dalam Data Mining

Untuk melaksanakan project-project dalam Data Mining (DM) secara sistematis, suatu proses yang umum berlaku biasanya diterapkan. Berdasarkan ‘best practice’, para praktisi dan peneliti DM mengusulkan beberapa proses (workflow atau pendekatan step-by-step yang sederhana) untuk memperbesar peluang keberhasilan dalam melaksanakan project-project DM. Usaha-usaha itu akhirnya menghasilkan beberapa proses yang dijadikan sebagai standard, beberapa diantaranya (yang paling popular) dibahas dalam bagian ini.

 

Salah satu proses yang sudah dijadikan standard tersebut dan boleh dibilang sebagai yang paling populer, yaitu ‘Cross-Industry Standard Process for Data Mining’ – atau CRISP-DM – telah diusulkan pada pertengahan 1990an oleh konsorsium perusahaan-perusahaan eropa untuk dijadikan methodology standard non-proprietary bagi DM (CRISP-DM, 2009). Gambar berikut di bawah ini menggambarkan proses yang diusulkan tersebut, yang merupakan enam tahap berurutan yang dimulai dengan pemahaman bisnis yang baik dan perlunya project DM dan berakhir dengan ‘deployment’ solusi yang memuaskan kebutuhan bisnis tertentu.

Enam tahap proses CRISP-DM dalam data mining

Meskipun langkah-langkah tersebut pada dasarnya berurutan, tetapi pada umumnya ada banyak sekali ‘backtracking’ (pelacakan kembali ke belakang).  Karena DM didorong oleh pengalaman dan eksperimen, bergantung pada situasi problem saat itu dan pengetahuan/pengalaman dari si analis, maka proses secara keseluruhan bisa sangat iterative (berulang-ulang, misalnya seseorang harus bergerak maju mundur dalam langkah-langkah di atas beberapa kali) dan memakan waktu. Karena langkah-langkah berikutnya dibuat berdasarkan hasil-hasil dari langkah-langkah sebelumnya, maka kita harus menaruh perhatian lebih pada langkah-langkah awal supaya tidak menempatkan seluruh kajian pada jalur yang salah sejak awal.

 

Langkah 1: Pemahaman terhadap bisnis (Business Understanding)

Elemen kunci dari kajian DM apapun adalah mengetahui secara pasti untuk apa kajian tersebut dilakukan. Untuk menjawab pertanyaan ini sebaiknya dimulai dengan suatu pemahaman yang lengkap mengenai kebutuhan manajerial terhadap knowledge baru dan suatu spesifikasi eksplisit dari tujuan bisnis mengenai kajian yang dilakukan. Tujuan-tujuan spesifik seperti berikut diperlukan: “Apakah ciri-ciri umum dari pelanggan yang pindah ke kompetitor akhir-akhir ini?” atau “Bagaimanakah profil khusus dari pelanggan kita, dan berapa nilai yang mereka berikan kepada kita?”. Kemudian rencana project untuk menemukan knowledge seperti itu dibuat sehingga akhirnya menetapkan orang-orang yang bertanggungjawab untuk mengoleksi data, menganalisa data, dan melaporkan temuan-temuan yang didapatkan. Pada tahap yang sangat awal ini, budget untuk mendukung kajian ini seharusnya juga ditetapkan, paling tidak pada tingkat atas dengan jumlah angka kasar.

 

Langkah 2: Pemahaman terhadap data (Data Understanding)

Kajian dalam DM adalah khusus membahas mengenai suatu pekerjaaan bisnis yang sudah terdefinisi dengan baik, dan pekerjaan-pekerjaan bisnis yang berbeda memerlukan ‘set-data’ yang berbeda pula. Setelah pemahaman terhadap bisnis, aktivitas utama dari proses DM berikutnya adalah mengidentifikasi data yang relevan dari berbagai database yang ada. Beberapa poin kunci harus dipikirkan dalam proses identifikasi data dan fase pemilihan (data). Yang pertama dan yang terpenting adalah bahwa sang analis harus jelas dan padat mengenai deskripsi pekerjaan DM sehingga data yang relevan bisa identifikasi. Contohnya, project DM untuk retail mungkin ingin mengetahui mengenai perilaku belanja para wanita penggemar belanja yang membeli baju-baju untuk musiman berdasarkan demografis mereka, transaksi kartu kredit mereka, dan ciri-ciri sosioekonomi mereka. Lebih lanjut lagi, sang analis harus membangun pemahaman yang mendalam mengenai berbagai sumber data (misalnya, dimana data yang relevan tersebut disimpan dan dalam bentuk apa; bagaimana proses mengumpulkan data—otomatis versus manual; siapa saja yang mengumpulkan data dan seberapa sering data di-update) dan berbagai variable (misalnya, variabel-variabel apa sajakah yang paling relevan? Apakah ada variable-variabel yang sinonim dan/atau homonym? Apakah variabel-variabel itu tidak bergantung satu sama lain—apakah mereka berdiri sendiri sebagai sumber informasi yang lengkap tanpa tumpang tindih atau bertentangan satu sama lain?).

Supaya memahami data dengan lebih baik, sang analis harusnya sering menggunakan berbagai macam teknik statistik dan grafik, seperti ringkasan statistic sederhana (misalnya, untuk variabel numerik adalah  nilai rerata/average, nilai minimum/maksimum, nilai tengah/median, deviasi standar/standard deviation, sedangkan untuk variabel kategori adalah tabel modus/nilai yang sering muncul dan frekwensi), analisa korelasi, scatter-plots (diagram kartesian), histograms (diagram batang), dan box-plots (diagram kotak). Identifikasi dan pemilihan sumber data yang jeli dan variabel-variabel yang relevan bisa memudahkan algoritma-algoritma yang digunakan dalam DM untuk menemukan secara cepat pola-pola knowledge yang bermanfaat.

 

Sumber data untuk proses pemilihan data bisa bermacam-macam. Normalnya, sumber data untuk aplikasi bisnis meliputi data demografi (seperti pendapatan/income, pendidikan/education, jumlah anggota rumah tangga, dan usia), sosiografi (seperti hobby, keanggotaan klub, dan entertainment), data transaksi (catatan penjualan, jumlah belanja menggunakan kartu kredit, jumlah cek uang dikeluarkan), dan seterusnya.

 

Data bisa dikategorikan sebagai kuantitatif dan kualitatif. Data kuantitatif diukur dengan nilai-nilai numerik. Data tersebut bisa berupa bilangan diskrit (seperti integer atau bilangan bulat) atau bilangan kontinyu seperti bilangan decimal atau pecahan). Data kualitatif, atau disebut juga data kategori, meliputi data nominal dan ordinal. Data nominal berisi data yang tak-diurutkan dan terbatas (misalnya, data gender yang hanya memiliki dua nilai: laki-laki dan perempuan). Data ordinal memiliki nilai yang di-urut-kan dan terbatas. Contohnya, ratings kredit pelanggan adalah data ordinal karena ratings bisa berupa ‘excellent’, ‘fair’, dan ‘bad’. [silahkan baca: Jenis-jenis Atribut Data dalam Data Mining]

 

Data kuantitatif bisa dengan mudah disajikan dengan semacam distribusi probabilitas. Suatu distribusi probabilitas menjelaskan bagaimana data tersebar dan terbentuk. Contohnya, data yang terdistribusi normal adalah simetris dan pada umumnya disebut dengan ‘kurva bel’ (bell-shaped curve). Data kualitatif bisa saja dituliskan dalam angka-angka dan kemudian dijelaskan dengan distribusi frekwensi. Setelah data yang relevan dipilih berdasarkan tujuan bisnis DM, pra-pemrosesan data haruslah segera disiapkan.

 

Langkah 3: Persiapan data (Data Preparation)

 

Maksud dari persiapan data (atau yang lebih dikenal dengan pra-pemrosesan data) adalah mengambil data yang diidentifikasi pada tahap sebelumnya dan menyiapkan nya untuk analisa dengan menggunakan metode-metode DM. Dibandingkan dengan tahapan-tahapan lainnya dalam CRISP-DM, pra-pemrosesan data menyita waktu dan usaha paling banyak; banyak orang percaya bahwa tahap ini bertanggungjawab atas sekitar 80 persen dari total waktu yang diluangkan untuk project DM. Penyebab dari usaha yang sedemikian besar itu yang dihabiskan untuk tahap ini adalah karena data riil (di ‘real-world’) yang ada pada umumnya tidak lengkap (tidakadanya nilai pada atribut-atributnya, tidakadanya atribut tertentu yang menjadi perhatian, atau hanya berisi data yang sudah ringkas dan digabungkan), ‘noisy’ (berisi data yang error atau data yang tidak diinginkan), dan data yang tidak konsisten (berisi data yang berbeda antara kode-kode dan nama-nama).  Gambar dibawah ini menunjukkan empat langkah utama yang dibutuhkan untuk mengonversi data mentah riil menjadi dataset yang bisa digali.