Masalah Overdispersi dan Cara Mengatasinya
Model regresi logistik multinomial merupakan pengembangan dari model regresi logistik binomial dimana variabel responnya mempunyai lebih dari dua kategori (politokomus). Model ini juga merupakan kelompok model linear terampat (generalized linear model), di mana komponen acaknya mengasumsikan bahwa distribusi dari variabel respon mengikuti distribusi multinomial. Salah satu asumsi yang harus dipenuhi dalam model regresi logistik multinomial ini adalah variabel responnya merupakan variabel acak yang saling bebas dan kategorinya bersifat mutually exclusive. Apabila asumsi ini dilanggar maka akan muncul masalah yang dikenal dengan masalah overdispersi. Konsekuensi dari adanya masalah overdispersi dalam data akan menghasilkan suatu model yang tidak valid. Salah satu cara untuk mengatasi masalah overdispersi dalam model regresi logistik multinomial dengan mengadopsi apa yang dilakukan oleh McCullagh dan Nelder (1989) yang mengkoreksi matriks varians kovariansnya.
Ada beberapa asumsi dasar yang harus dipenuhi pada saat mengaplikasikan model regresi logistik multinomial pada gugus data tertentu. Asumsi-asumsi itu diantaranya adalah (1) bahwa variabel respon merupakan variabel acak yang saling bebas dan kategorinya bersifat mutually exclusive; (2) Tidak terdapat masalah multikolinearitas diantara variabel prediktor yang diamatinya; 3) Adanya transformasi logit pada variabel respon; 4) Tidak ada data pencilan yang berpotensi sebagai data yang berpengaruh. Apabila terdapat satu atau lebih asumsi yang tidak terpenuhi, maka akan diperoleh suatu model regresi logistik multinomial yang tidak valid. Jika hal ini terjadi, maka tentu perlu ada upaya untuk mengatasi masalah akibat adanya pelanggaran asumsi, sehingga akan diperoleh suatu model yang valid. Dalam hal ini akan difokuskan pada salah satu asumsi mengenai independensi dari variabel respon.
Ketidakbebasan antar variabel respon dimaknai sebagai adanya korelasi diantara variabel respon, hal tersebut merupakan suatu indikasi adanya masalah overdispersi dalam data. Sebagaimana yang diungkapkan oleh McCullagh dan Nelder (1989) masalah overdispersi akan sering dijumpai dalam analisis data diskrit, baik variabel respon yang berbentuk biner (dikotomus), cacahan, maupun politokomus seperti dalam model regresi logistik multinomial ini. Munculnya masalah overdispersi dalam pengamatan data diskrit dapat dijelaskan oleh dua hal, yaitu: adanya keragaman dalam peluang respon dan adanya korelasi antar variabel respon. Kedua kejadian tersebut merupakan kejadian yang saling berhubungan, artinya jika terdapat keragaman dalam peluang respon, maka terdapat korelasi antar variabel respon. Begitu juga sebaliknya, jika terdapat korelasi antara variabel respon, maka terdapat keragaman dalam peluang respon. McCullagh dan Nelder (1989) menyatakan bahwa kedua kejadian tersebut dapat terjadi karena adanya pengelompokan (clustering) dalam populasi. Penggunaan metode statistika yang mengasumsikan ketidakbebasan antara variabel respon (seperti dalam regresi logistik binomial ataupun multinomial) dapat menjadi tidak tepat. Jika terdapat korelasi antar pengamatan, maka nilai penaksir parameter dari model tidak memberikan korelasi yang mungkin mempunyai galat baku yang bersifat underestimated jika terdapat korelasi yang positif (Hosmers, 1989). Konsekuensi lain dari adanya masalah overdispersi dalam data diskrit adalah pada nilai penaksir variansnya. Apabila penaksir varians ini digunakan untuk menghitung selang kepercayaan, maka akan diperoleh rata-rata yang terlalu kecil sehingga akan berakibat pada selang kepercayaan yang terlalu pendek. Apabila penaksir varians ini digunakan untuk mengerjakan pengujian hipotesis statistik, maka akan selalu menolak hipotesis .
Comments :