Pengujian A/B – Apa Itu?
Salah satu cara untuk mengevaluasi situs web, bagian dari suatu situs web, aplikasi, atau aplikasi mobile adalah dengan melakukan eksperimen skala besar untuk mengevaluasi kinerja dua kelompok pengguna menggunakan dua desain yang berbeda—salah satunya akan berfungsi sebagai kontrol dan yang lainnya sebagai kondisi eksperimental, yaitu desain baru yang diuji. Pendekatan seperti ini dikenal sebagai pengujian A/B, dan pada dasarnya merupakan eksperimen terkontrol tetapi sering kali melibatkan ratusan atau ribuan peserta. Seperti halnya dalam desain eksperimental, “Studi Evaluasi: Dari Setting Terkontrol ke Setting Alami,” pengujian A/B melibatkan desain eksperimental “antara subjek” di mana dua kelompok peserta yang serupa dipilih secara acak dari satu populasi pengguna yang besar, misalnya, dari pengguna media sosial seperti Twitter, Facebook, atau Instagram. Perbedaan utama antara pengujian A/B dan eksperimen adalah pada skalanya dan biasanya pengujian A/B dilakukan secara online.
Untuk melakukan pengujian A/B, variabel yang ingin diuji diidentifikasi, misalnya desain iklan. Grup A menggunakan desain A, yaitu desain yang existing, dan grup B menggunakan desain B, yaitu desain baru. Ukuran variabel dependen kemudian diidentifikasi, seperti berapa kali peserta di setiap grup, A dan B, mengklik iklan yang mereka tampilkan selama periode waktu tertentu, misalnya dalam sehari, seminggu, atau sebulan. Karena ini adalah eksperimen terkontrol, hasilnya dapat dianalisis secara statistik untuk menetapkan probabilitas bahwa pengamatan perbedaan tersebut, betul-betul karena  suatu perlakuan (dalam hal ini, desain) dan bukan karena hal yang kebetulan.
Seperti yang disebutkan Ron Kohavi, pengujian A/B memberikan pendekatan berbasis data untuk mengevaluasi dampak perbedaan kecil atau besar dalam desain situs web dan media sosial. Mulai dari perubahan antarmuka pengguna front-end hingga algoritma backend, dari mesin pencari (seperti Google, Bing, dan Yahoo!) hingga retail (misalnya, Amazon, eBay, dan Etsy) hingga layanan jejaring sosial (seperti Facebook, LinkedIn, dan Twitter) hingga layanan perjalanan (misalnya, Expedia, Airbnb, dan Booking.com) ke banyak perusahaan rintisan, eksperimen terkontrol online kini digunakan untuk membuat keputusan berdasarkan data di berbagai perusahaan.
Untuk mendapatkan manfaat maksimal dari pengujian A/B online, Ron Kohavi dan Roger Longbotham merekomendasikan untuk menjalankan pengujian A/A terlebih dahulu. Ini adalah tes di mana kedua populasi peserta melihat desain yang sama dan harus memiliki pengalaman yang sama. Hasil uji A/A kemudian diperiksa, dan seharusnya tidak menunjukkan perbedaan yang signifikan secara statistik. Dengan mengikuti prosedur ini berarti memastikan bahwa dua populasi yang dipilih secara acak memang acak dan bahwa kondisi di mana eksperimen berjalan memang serupa. Ini penting karena Internet itu sangat kompleks, dan interaksi pengguna dapat dipengaruhi dengan cara yang tidak diharapkan peneliti (misalnya oleh bot atau cara browser dalam refresh laman atau redirect), yang dapat mengurangi nilai pengujian A/B, bahkan mungkin bisa menggagalkannya.
Meskipun pengujian A/B mungkin handal, peneliti disarankan untuk memeriksa rencana mereka secara mendetail untuk memastikan bahwa mereka menguji apa yang mereka harapkan untuk diuji. Misalnya, Ron Kohabi dan Roger Longbottom melakukan pengujian A/B pada dua versi desain untuk versi awal halaman beranda pada Microsoft Office 2007. Idenya adalah untuk menguji keefektifan halaman beranda yang baru dan lebih modern dengan tujuan utama meningkatkan jumlah klik unduhan. Namun, alih-alih jumlah klik unduhan naik seperti yang diharapkan, malah sebaliknya menurun 64%. Para peneliti bertanya-tanya apa yang menyebabkan hasil yang tidak terduga seperti itu. Setelah pemeriksaan lebih teliti dari dua desain, mereka melihat kata-kata dalam desain baru adalah “Beli sekarang” dengan harga $149,95, sedangkan desain lama mengatakan, “Coba 2007 gratis” dan “Beli sekarang”. Dampak diminta untuk membayar $149,95 mendistorsi eksperimen, meskipun desain baru mungkin sebenarnya lebih baik. Microsoft Office telah melalui banyak revisi sejak pengujian versi 2007, tetapi contoh ini dituliskan karena menunjukkan hal yang diperlukan saat menyiapkan pengujian A/B untuk memastikan bahwa itu benar-benar menguji fitur desain yang dimaksud. Fitur desain lainnya, terutama yang melibatkan pembayaran oleh pengguna, dapat memiliki konsekuensi tak terduga yang kuat yang bahkan mungkin diabaikan oleh peneliti berpengalaman seperti Ron Kohabi dan Roger Longbottom saat menyiapkan pengujian.