Big data series 3 – 10 Fakta Tentang Hadoop Yang Bertentangan Dengan Anggapan Banyak Orang

Computer Science

Meskipun Hadoop dan beberapa teknologi terkait sudah muncul selama lebih dari 7 tahun dari sekarang, tetapi masih banyak orang yang masih salah paham dengan beberapa konsepsi tentang Hadoop dan beberapa teknologi terkait seperti MapReduce dan Hive. Berikut di bawah ini adalah 10 daftar fakta yang dimaksuudkan untuk menjelaskan apakah Hadoop itu dan bagaimana kaitannya dengan Business Intelligence (BI), dan juga pada situasi bisnis dan teknologi yang bagaimana BI yang berbasis Hadoop, data warehousing, dan analitycs bisa bermanfaat.

Fakta #1. Hadoop terdiri dari banyak produk.

Kita berdiskusi tentang Hadoop seolah-olah Hadoop adalah sesuatu yang satu monolitik. Padahal Hadoop adalah suatu keluarga produk-produk dan teknologi yang open-source yang dikelola oleh Apache Software Foundation (ASF). Catatan: beberapa produk Hadoop juga tersedia melalui distribusi vendor; nanti dibahas dalam post artikel lain.

Library Apache Hadoop meliputi (urutan menurut prioritas BI) Hadoop Distributed File System (HDFS), MapReduce, Hive, Hbase, Pig, Zookeeper, Flume, Sqoop, Oozie, Hue, dan seterusnya. Kita bisa menggabungkan itu semua dengan berbagai macam cara, tetapi HDFS dan MapReduce (barangkali juga Hbase dan Hive) merupakan rangkaian teknologi yang sangat bermanfaat untuk penerapan pada BI (Business Intelligence), Data Warehouse, dan analytics.

Fakta #2. Hadoop adalah open-source tetapi juga tersedia di vendor-vendor juga.

Library open-source dari Apache Hadoop tersedia di website ASF di apache.org. bagi para pengguna yang menginginkan package yang sudah lebih siap untuk level enterprise, ada beberapa vendor yang menawarkan distribusi Hadoop yang mencakup beberapa tool administratif tambahan dan support teknis.

Fakta #3. Hadoop adalah suatu ekosistem, dan bukan satu produk tunggal.

Selain produk-produk dari Apache, ekosistem Hadoop tambahan meliputi produk-produk dari vendor-vendor yang terus bertambah yang mengintegrasikan dengan beberapa teknologi Hadoop yang sudah dikembangkan lebih lanjut.

Fakta #4. HDFS adalah suatu file system, bukan database management system (DBMS).

Hadoop pada intinya adalah suatu file system terdistribusi dan dan kemampuannya kurang maksimal bila kita menghubungkannya dengan suatu DBMS seperti indexing, random access ke data, dan mendukung SQL. Hal itu juga bisa, karena HDFS melakukan hal-hal yang tidak bisa dilakukan oleh DBMS.

Fakta #5. Hive mirip dengan SQL tetapi bukan SQL yang standard.

Banyak dari kita yang sangat familiar dengan SQL karena memahaminya dengan baik. Bagi orang yang paham SQL bisa dengan cepat belajar menulis kode dengan Hive, tetapi hal itu tidak berarti mengatasi masalah kompatibilitas dengan tool berbasis SQL. Sangat mungkin bahwa produk-produk Hadoop akan segera men-support SQL standard, sehingga hal ini tidak akan lagi menjadi masalah yang diperdebatkan.

Fakta #6. Hadoop dan MapReduce saling terkait tetapi tidak saling bergantung satu sama lain.

Para developer di Google sudah mengembangkan MapReduce sebelum HDFS ada, dan beberapa variasi pekerjaan MapReduce dengan berbagai macam teknologi penyimpanan data, termasuk HDFS, file system yang lain, dan beberapa DBMS.

Fakta #7. MapReduce menyediakan kontrol terhadap analytics, bukan melulu analytics saja.

MapReduce adalah mesin eksekusi yang serbaguna yang menangani kompleksitas komunikasi jaringan, pemrograman parallel, dan fault-tolerance untuk aplikasi apapun dimana kita bisa menuliskan kode pemrograman bukan hanya analytics saja.

Fakta #8. Hadoop adalah tentang keberagaman data, bukan hanya tentang volume data.

Secara teori, HDFS bisa mengelola storage dan akses terhadap data apapun asalkan kita bisa menaruh data di dalam suatu file dan me-copy file tersebut ke dalam HDFS. Kelihatannya nampak sederhana, tetapi nyatanya memang begitu, dan itulah yang membuat banyak pengguna menggunakan Apache HDFS.

Fakta #9. Hadoop melengkapi Data Warehouse; jarang sekali dimanfaatkan sebagai pengganti Data Warehouse.

Sebagian besar perusahaan sudah mendesain Data Warehouse mereka untuk menyimpan data relasional, data terstruktur, yang sulit untuk memunculkan value (manfaat) BI dari data yang tak-terstruktur dan semi-terstruktur. Hadoop menjanjikan sebagai pelengkap Data Warehouse dengan menangani jenis-jenis data yang multi-terstruktur yang tidak bisa ditangani oleh sebagian besar Data Warehouse.

Fakta #10. Hadoop memungkinkan berbagai macam jenis analytics, bukan sekedar web analytics.

Hadoop mendapatkan banyak bahasan di dunia pers tentang bagaimana persuhaan-perusahaan internet menggunakannya untuk menganalisa berbagai macam log di web dan data-data web lainnya, tetapi untuk penggunaan yang lainnya juga bisa. Contohnya, anggap saja Big Data yang berasal dari berbagai macam perangkat sensor seperti robot-robot di manufaktur, RFID di retail, dan lain-lain. Penerapan-penerapan analytics yang lebih tua sebelumnya seperti segmentasi pelanggan, deteksi kecurangan, analisa risiko bisa memanfaatkan Big Data yang diolah oleh Hadoop. Demikian juga, data lain Hadoop bisa dibentangkan dengan view 360 derajat untuk membuat view yang lebih lengkap dan granular/detil.

Albert Verasius Dian Sano, S.T., M.Kom. Computer Science