Data Science

  • Suatu proses memproduksi pengetahuan data (data insight).
  • Ilmu atau teknik untuk mengeksplorasi dan mengekstrak sekumpulan data atau database sehingga dapat ditemukan model, bentuk, atau pola serta wawasan baru yang dapat digunakan sebagai salah satu alat untuk pengambilan keputusan.

Data Scientist harus:

  • memiliki kemampuan analisis menggunakan konsep matematika dan statistik, kemampuan pemrograman untuk pengolahan data, dan pemahaman pada subjek spesifik pada bidang bisnis yang digeluti.
  • mempunyai pengetahuan mengenai database,
  • memahami algorithm dan machine learningdiantaranya: Decision Tree, K-Means, Neural Network, Linear Regression, Logistic Regression, FP-Growth, Association Rulesdll,
  • memahami tools atau pemograman untuk statistikseperti  SPSS, Stata, SAS, Pyhtonataupun R
  • (nilai tambah) menguasai NoSQL à menguasai bahasa pemrograman scala serta framework untuk mengeksplorasi Bigdata seperti MapReduce, Hadoop, Spark, Storm, dll.

 

 

DATA MINING

  • Data mining hanyalah proses mengumpulkan informasi dari database besar yang sebelumnya tidak dapat dipahami dan tidak diketahui, kemudian menggunakan informasi tersebut untuk membuat keputusan bisnis yang relevan.
  • Lebih sederhananya, Data Mining adalah seperangkat berbagai metode yang digunakan dalam proses penemuan pengetahuan untuk membedakan hubungan dan pola yang sebelumnya tidak diketahui. Oleh karena itu, kita dapat membuat data mining sebagai pertemuan berbagai bidang lainnya seperti kecerdasan buatan, basis data virtual base management, pengenalan pola, visualisasi data, pembelajaran mesin (machine learning), studi statistik, dsb.
  • Tujuan utama dari proses data mining adalah untuk mengekstrak informasi dari berbagai rangkaian data dalam upaya untuk mengubahnya dalam struktur yang tepat dan mudah dimengerti untuk penggunaan akhirnya.
  • Oleh karena itu, Data Mining merupakan proses yang digunakan oleh ilmuwan data dan penggemar machine learning untuk mengubah kumpulan data menjadi sesuatu yang lebih bermanfaat.

MACHINE LEARNING

  • Machine Learning adalah cabang dari kecerdasan buatan, merupakan disiplin ilmu yang mencakup perancangan dan pengembangan algoritma yang memungkinkan komputer untuk mengembangkan perilaku yang didasarkan kepada data empiris, seperti dari sensor data pada basis data.
  • Fokus besar penelitian Machine Learning adalah bagaimana mengenali secara otomatis pola kompleks dan membuat keputusan cerdas berdasarkan data.
  • Algoritma dalam Machine Learning dapat dikelompokkan berdasarkan keluaran yang diharapkan dari algoritma.
  1. Pembelajaran terarah (supervised learning) membuat fungsi yang memetakan masukan ke keluaran yang dikehendaki. Yang tergolong supervised learning adalah klasifikasi (menentukan pada class apa sebuah instance itu berada) dan regresi (prediksi dari nilai numerik). Contoh: k-Nearest Neighbors, Naive Bayes, Support vector machines, Decision trees.
  2. Pembelajaran tak terarah (unsupervised learning) memodelkan himpunan masukan, seperti penggolongan (clustering). Yang tergolong supervised learning adalah clustering, assosiation rule, sequential pattern. Contoh: k-Means, DBSCAN.

Dalam standar data digital, setidaknya TIPIKAL DATA tersebut terbagi ke dalam tiga jenis:

  1. Data terstruktur(structured data); yakni data yang sudah dikelola, diproses dan dimanipulasi dalam RDBMS (Relational Database Management System). Misalnya data tabel hasil masukan formulir pendaftaran di sebuah layanan web.
  2. Data tidak terstruktur(unscructured data); yakni berupa data mentah yang baru didapat dari beragam jenis aktivitas dan belum disesuaikan ke dalam format basis data. Misalnya berkas video yang didapat dari kamera.
  3. Data semi terstruktur (semistructured data); yakni berupa data yang memiliki struktur, misalnya berupa tag, akan tetapi belum sepenuhnya terstruktur dalam sistem basis data. Misalnya data yang memiliki keseragaman tag, namun memiliki isian yang berbeda didasarkan pada karakteristik pengisi.