Data understanding adalah sebuah tahapan di dalam metodologi sains data dan pengembangan AI yang bertujuan untuk mendapatkan pemahaman awal mengenai data yang dibutuhkan untuk memecahkan permasalahan bisnis yang diberikan. Data dari masing-masing sumber belum tentu dapat langsung digunakan karena:

  1. Maksud dan tujuan data berbeda-beda
  2. Keadaan asal terpisah-pisah atau justru terintegrasi secara ketat
  3. Tingkat kekayaan (richness) berbeda-beda
  4. Tngkat keandalan (reliability) berbeda-beda

Proses data understanding antara lain:

  1. Identifikasi “titik sentuh” data dengan proses bisnis
  2. Penentuan sumber utama data dan cara aksesnya
  3. Asesmen nilai tambah bisnis dari data
  4. Identifikasi sumber data tambahan untuk perbaikan

Data understanding memberikan gambaran awal tentang:

  1. Kekuatan data
  2. Kekurangan dan batasan penggunaan data
  3. Tingkat kesesuaian data dengan masalah bisnis yang akan dipecahkan
  4. Ketersediaan data (terbuka/tertutup, biaya akses, dsb)