Penggunaan R untuk Data Science
Penerapan R pada data science meliputi data exploration, data preprocessing, data cleansing, dan data modeling. Data exploration meliputi scraping, crawling, data mining, coding, dan query. Data preprocessing meliputi seleksi fitur, statistika deskriptif, class balancing, visualisasi data, dan transformasi fitur: categorical encoding, binning. Data cleansing meliputi menangani nilai kosong (missing values), menghapus baris terduplikasi, data formating, dan menangani data pencilan (outliers). Data modeling meliputi klasifikasi, regresi, prediksi, dan klasterisasi. Beberapa bahasa pemrograman yang sering digunakan untuk data science yaitu:
- Python
- R
- SQL
- Spark
- AWS
- Java
- Tableau
- Hadoop
- TensorFlow
- Scala
Kelebihan menggunakan R antara lain:
- Bersifat open source
- Banyak package dan function di R yang dapat mempermudah pekerjaan praktisi data
- Bisa digunakan untuk banyak hal
- Populer dan digunakan oleh perusahaan besar
- Script yang ada bisa disimpan
- Adanya komunitas R di Indonesia
- Dapat terintegrasi dengan bahasa pemrograman lainnya
- Dapat mengelola berbagai jenis data.
Comments :