Big Data, yang sering disebut-sebut sebagai “banyak hal bagi banyak orang”, bukanlah suatu ke-iseng-an belaka tentang teknologi yang baru. Big Data adalah prioritas bisnis yang berpotensi untuk mengubah secara mendalam landskap kompetitif pada ekonomi yang terintegrasi secara global saat ini. Selain memberikan solusi-solusi yang inovatif untuk menghadapi masalah bisnis yang selalu ada (masalah yang abadi ??), Big Data dan Analytics mendorong cara-cara baru dalam mentransformasi berbagai macam proses, organisasi, seluruh industri, dan bahkan semua masyarakat. Tetapi, pemberitaan media yang sangat ekstensif membuatnya sulit membedakan antara yang sensasi dan kenyataan.

Apa yang dimaksud dengan Big Data?

Otak kita bekerja dengan sangat cepat dan sangat efisien dan serba bisa dalam memproses berbagai macam data: entah itu data berupa gambar, teks, suara, bau, dan video. Kita memproses semua bentuk data yang berbeda-beda dengan relatif mudah.

Tetapi komputer, sebaliknya, masih sulit mengikuti cara kerja otak manusia tentang data apa yang dihasilkan, apalagi menganalisanya dengan cepat. Inilah mengapa kita sekarang punya problem tentang “Big Data”. Jadi, apakah Big Data itu? Sederhananya (definisi dan pengertian tentang Big Data yang lebih lengkap akan ada dalam post artikel berikutnya), Big Data adalah data yang tidak bisa disimpan dalam satu unit penyimpanan data saja. Big Data secara khusus mengacu pada data yang tersaji dalam berbagai macam bentuk yang berbeda-beda: entah data terstruktur, tak-terstruktur, data stream, dan sebagainya. Banyak sekali data seperti itu muncul dari ‘clickstream’ dari suatu situs web, posting-posting di media sosial seperti Facebook, dan data dari trafik internet, sensor-sensor, atau bahkan cuaca. Mesin pencari seperti Google perlu mencari dan meng-index miliaran laman web untuk menghasilkan hasil pencarian yang relevan dalam sepersekian detik. Meskipun hal itu tidak dilakukan secara real-time, menghasilkan index dari semua laman web di internet bukanlah pekerjaan yang mudah. Untungnya bagi Google, dia mampu memecahkan problem ini. Teknik yang diterapkan antara lain adalah dia menerapkan teknik Big Data analytical.

Ada dua aspek dalam mengelola data dengan skala ini: 1) menyimpan dan 2) memproses. Bila kita membeli suatu solusi tempat penyimpanan data (storage) yang sangat mahal untuk menyimpan semua itu di suatu tempat pada satu unit saja, untuk membuat unit tersebut “fault tolerant” pasti akan melibatkan biasa yang besar. Solusi yang lebih bagus dan cerdik yang diusulkan adalah dengan menyimpan data-data itu ke dalam unit-unit yang lebih kecil penyimpanan data pada mesin yang berbeda yang dikoneksikan melalui jaringan–kemudian meletakkan satu atau dua copy dari data yang disimpan dalam unit penyimpanan kecil tadi di lokasi jaringan yang berbeda, baik secara lojik maupun fisik. Solusi ini pada awalnya digunakan oleh Google (yang kemudian disebut dengan Google File System) dan kemudian dikembangkan lebih lanjut dan di-rilis sebagai Apache project seperti halnya Hadoop Distributed File System (HDFS).

Tetapi, menyimpan data seperti itu adalah setengah saja dari problem yang ada. Data tidak akan berguna apabila tidak memberikan nilai bisnis, dan supaya data mampu memberikan nilai bisnis, data harus di-analisa. Bagaimana menganalisa data yang sedemikian besar? Melakukan seluruh komputasi pada satu komputer super tidak akan berhasil; skala ini akan membuat konsekwensi (biaya) tambahan pada komputer super. Solusi lain yang lebih baik dan lebih cerdas sudah diusulkan, yaitu: Paksakan/buat komputasi pada data daripada memaksakan data masuk ke node (mesin) komputasi. Ini adalah paradigma baru dan memunculkan keseluruhan cara baru dalam memproses data. Inilah apa yang kita kenal sekarang dengan istilah paradigma pemrograman MapReduce, yang membuat pemrosesan Big Data menjadi kenyataan. MapReduce pada awalnya dikembangkan oleh Google, dan versi berikutnya di-rilis oleh Apache project yang disebut dengan Hadoop MapReduce.