07 November 2008

Tips: Mengestimasi Perbedaan Rata-rata Dua Kelompok Observasi

Regresi dengan variabel dummy dapat digunakan untuk mengestimasi perbedaan variabel antar dua kelompok observasi. Misalnya kita ingin menghitung apakah upah buruh laki-laki dan perempuan yang berkerja di sebuah/beberapa perusahaan berbeda secara statistik, dan jika ya berapa besar perbedaannya (nilai rata-rata). Atau ingin mengetahui perbedaan kesejahteraan sekelompok petani dengan sekelompok lainnya. Atau mungkin juga ingin mengetahui apakah ada perbedaan produktivitas pegawai setelah diikutkan pelatihan emotional quotient misalnya. Atau ingin tahu apakah jumlah uang beredar berbeda antara sebelum dan sesudah sebuah kebijakan moneter dikeluarkan oleh BI, dan lain-lain.

Misalnya untuk membedakan upah buruh laki-laki dan perempuan di tiga perusahaan tekstil (sebagai satu kelompok observasi), dengan menggunakan model seperti:

Y = a + bD + e ................(1),

di mana Y= besar upah yg diterima masing-masing buruh, D adalah variabel dummy laki-laki dan perempuan, e adalah faktor penggangu (error term), kita secara sederhana dapat menjawab dua pertanyaan sekaligus yaitu: 1) apakah upah buruh berbeda antara laki-laki dan perempuan atau tidak dan 2) jika ya, seberapa besarkah perbedaan rata-rata upah di antara keduanya.
Untuk menghasilkan jawaban pertanyaan itu, langkah-langkah yang dilakukan adalah, 1) kumpulkan data pendapatan masing-masing buruh laki-laki dan perempuan di tiga perusahaan tekstil tersebut (tentu saja dengan syarat kecukupan data dan metode sampling yang dapat dipertanggungjawabkan), 2) susun data dalam tabel sebagai berikut:

3) estimasi data tersebut dengan menggunakan persamaan (1), dan 4) baca hasilnya, misalnya:

Y = 593000 + 25513D ............(2)

Setelah yakin bahwa hasil regresi sudah baik (BLUE), hasil regresi sudah dapat dibaca.
Jika variabel dummy hasil regresi adalah signifikan secara statistik (t hitung melebihi t kritis, misalnya dengan alfa=5%, pengujian dua sisi) berarti rata-rata upah buruh laki-laki dan perempuan di tiga perusahaan tersebut berbeda secara statistik. Rata-rata upah buruh perempuan di tiga perusahaan tekstil adalah Rp 593.000, dan upah rata-rata laki-laki lebih tinggi sebesar adalah Rp 25.513 dari perempuan, yaitu sebesar Rp 618.513. Trus, kita tinggal mencari tahu sebab-sebab perbedaan ini. Ada apa? Tinggal buruh-buruh cewek berdemonstrasi deh, menuntut upah yang sama dengan para pria. Tapi, jika variabel D tidak signifikan, berarti rata-rata upah buruh perempuan dan upah buruh laki-laki di tiga perusahaan tekstil tersebut tidak berbeda, alias sama. Bagaimana jika tanda koefisien D negatif? Itu artinya upah buruh laki-laki lebih rendah dari upah perempuan (tentu saja jika signifikan). Jadi tanda tidak menunjukkan hubungan negatif atau positif seperti regresi dengan variabel independen X.
Model regresi dengan dummy saja (tanpa ada variabel independen X) seperti ini disebut dengan model regresi anova. Tapi berbeda kan dengan uji beda rata-rata anova di satitstika?

12 komentar:

  1. Apa bedanya apabila menggunakan decriptive statistics ?

    BalasHapus
  2. Apa yang dimaksud statistik deskriptif? Analisis of variance dan regresi dummy model anova sama-sama bukan descriptive statistics karena berbasis pada probabilitas (keduanya masuk dalam wilayah statistik inferensi). Ringkasnya, kita ingin menjelaskan/menyimpulkan besaraam parameter populasi dengan menggunakan informasi (besaran2/statisktik) dari sebagian saja dari populasi itu, yaitu sampel.
    Analisis pada tahap statistik deskriptif tidak menggunakan probabilita dan merupakan analisis sederhana terhadap data (seperti pertumbuhan, mean, median dll), sehingga tidak bisa diperbandingkan dengan analisis regresi (yang sudah ada ditahap inferensi). Tapi ini bukanlah sesuatu yang dipisah-pisahkan dalam statistik, karena ukuran2 deskriptif data tetap digunakan dalam analisis inferensi. Ciao! tnx diskusinya!

    BalasHapus
  3. OK pak Thx... Btw, just for share, metode ini akan rumit bila ada > 2 kelompok, misal: yang melibatkan jawaban responden setuju, biasa, tidak setuju. Mungkin kalo 3 masih ok, tapi klo 4 ato 5 gmn ya (sangat setuju, setuju, ragu-ragu, tidak setuju, sangat tidak setuju)...???. Belum lagi kalau menggunakan lebih dari satu pertanyaan seperti itu. Mungkin ada solusi ? Thx b4

    BalasHapus
  4. to mas krisna. wah saya telat menanggapi tanggapan kedua anda. Asalkan variabel dependen kuantitatif (skala rasio atau interval), variabel dengan data skala order seperti yang anda sebutkan tetap dapat diregres dengan metode OLS sebagai sebuah variabel (catatan: hanya signifikansi pengaruh secara statistik yang dapat dibaca, besaran koefisien tidak). Dapat pula skala order (mis menggunakan skala likert) tadi dijadikan skala katrgori seperti dummy yang saya contohkan. tinggal sekarang jumlah dummy-nya menjadi m-1. m = jumlah pilihan (sangat setuju sd sangat tidak setuju). misal m = 5, dummy yang diaplikasikan dalam persamaan jadi 4. Sekarang, selain signifikansi pengaruh variabel dummy independen dapat dibaca, koefisienpun jadi bermakna.
    Untuk lebih dari satu pertanyaan, jika yang dimaksud akan menghasilkan dummy jenis berbeda, ya akan ada tambahan dummy bersesuaian dengan tamabahan tersebut (juga menggunakan hukum m-1). OK..mungkin perlu contoh kali ya??? tnx diskusinya

    BalasHapus
  5. assalamu'laikum
    mas, bisa kasih contoh untuk regresi dummy model manova
    dan contoh bila variabel dependennya berupa kategori.
    makasih mas,
    wassalamu'laikum

    BalasHapus
  6. to outletcoklat
    wa'alaikumsalam ww
    nama untuk regresi dengan variabel dummy saja di sisi kanan dinamakan anova digunakan karena kemiripan analisis yang digunakan dengan anlisis ANOVA (uji beda untuk satu variabel dependen dalam grup yang sama, dengan kelompok data yang berbeda). Ada lagi penamaan regresi Ancova, karena memasukkan variabel independen kuantitatif (sisi kanan persamaan, selain dummy variabel juga ada variabel independen X). Kelihatannya nama regresi manova tidak digunakan.
    Jika yang dimaksud dalam manova (misal dengan variasi dua variabel dependen satu grup), dapat digunakan regresi terpisah untuk masing-masing variabel dependen, tetapi tidak dapat menjawab sejauh yang dapat dilakukan dengan analisis Manova (non regresi).
    Untuk lebih dari satu grup, dapat digunakan regresi anova dengan dua atau lebih jenis dummy.
    Misalnya seperti contoh di atas, upah buruh tidak hanya dipengaruhi oleh jenis kelamin, tetapi juga status pernikahan.
    Sebenarnya penekanan saya mengenai regresi dengan dummy variabel ini untuk memantapkan konsep-konsep yang mendasari regresi model panel data.

    BalasHapus
  7. pagi,bang! saya seven,mw tanya ni bang, maksudnya excluded variable apa ya? penyebabnya apa? akibatnya apa? cara mengatasinya gmn bang?
    critanya begini, saya menggunakan 1 variabel (pola tanam) ada 7 pola tnm, jd variabel dummy-nya ada 6.dari 7 pola tanam ada 2 pola tanam yg hny diterapkan 2 sampel (1 pola tanam 1 sampel), apa ini penyebb trjdnya excluded variable?total jlh sampel 30 sampel.tlg ya bang..ud bingung ni mw tny ma siapa lagi..makasi banyak ya bang..

    BalasHapus
  8. halo seven..
    kuperkirakan excluded variable itu adalah variabel2 yang otomatis disingkirkan/dikeluarkan oleh software dalam proses estimasi.
    penyebabnya bs macam2, salah satu kemgknnya krn ada data yang tdk dapat dibaca oleh software di 1 atau lebih variabel.
    menurutku sampelmu termasuk kecil. degree of freedomnya (df) jd kecil krn dummy sj sdh 6, var independen brp? itu akan memakan df yg banyak. shg hsl estimasinya bs jd nggak valid.
    salah satu kelemahan menggunakan dummy ya itu, akan memakan df.
    cara memperbaikinya dapat sj smpl ditambah, ini jg utk meningkatkan smpl 2 pola tanam yg pny @ 1 sampel itu. sehingga variasi nilai 1 dibanding 0 nya dalam setiap dummy menjadi cukup berimbang.
    kl nggak, 2 pola tanam itu digabung (bkn dikurangi lho) dg pola tanam yg lain shg mgk pola tanam menjadi hny 5, so variabel dummynya hnya 4. keuntungan: df dan variasi data.
    Tapi apakah penggabungan itu beralasan secara teoritis? artinya apakah ada dasar yg jelas utk menggabung 2 pola tanam itu ke pola tanam lainnya? hny peneliti yg tau.
    Selamat bekerja!

    BalasHapus
  9. assalamualaikum wr wb,
    mas saya mau tanya,
    saya pernah baca, kalau mau uji pengaruh, bila data berdistribusi normal maka uji yang digunakan uji regeresi linier, tapi jika data tidak berdistribusi normal digunakan uji variabel dummy,
    uji variabel dummy yang bagaimanakah yang digunakan sebagai uji pengaruh?
    terimakasih

    BalasHapus
  10. mbak diyah....
    analisis regresi sendiri merupakan alat anlisis untuk mengestimasi rata-rata suatu variabel berdasarkan nilai tetap suatu atau lebih variabel lain.
    jadi tidak dikatakan sebagai uji regresi. untuk menghasilkan seberapa besar parameter regresi yang terbaik memang butuh prasyarat-prasyarat, seperti pengujian asumsi klasik (untuk mendapatkan parameter estimasi terbaik), dan pengujian hipotesis untuk menguji secara statistik pengaruh variabel-variabel bebas terhadap variabel terikat dalam model regresi.
    Data berdistribusi normal tidak disyaratkan oleh regresi (mau itu data kuantitatif spt skala rasio or interval, atau data kualitatif spt skala nominal - dummy - bisa saja ada dan diestimasi dengan analisis regresi).
    Selagi variabel dummy berada di sisi kanan persamaan, metode regresi OLS dapat dilakukan, sebagaimana persamaan regresi yang memiliki variabel2 kuantitatif di sisi kanan.
    pengujian hipotesis utnuk menguji secara statistik bagaimana pengaruh variabel2 bebas (sisi kanan)thd variabel terikat dilakukan dg standar yg sama saja, baik itu variabel dummy or variabel kuantitatif biasa. Misalnya menggunakan t test, F test..
    Jika menggunakan metode regresi MLE
    dpt menggunakan z test, LR test dll..
    Catatan, interpretasi koefisien pada variabel dummy tidak seperti variabel "biasa", dan tanda koefisien jg tidak bermakna arah pengaruh....

    BalasHapus
  11. selamat malam bapak saya ingin bertanya kepada bapak mengenai skripsi saya. jadi untuk menghitung satu variabel ConCoef (rumus : (betaRit+betaRitxDRit)/betaRit) harus melakukan regresi variabel NI (laba)sbg dependen, Rit(return), DRit(dummy variabel 1 bila return positif, 0 sebaliknya), dan interaksi antara RitdanDRit. namun ketika saya regresikan variabel Rit masuk ke dalam exclude variabel, padahal yang saya butuhkan nilai beta dari Rit dan interaksi (RitxDRit) , namun variabel Rit malah masuk exclude variabel dan tidak muncul koefisien beta nya...bagaimana ya pak? apa sebabnya? mohon bantuan bapak terimakasih

    BalasHapus
  12. Selamat malam... saya mau tanya. Model penelitian saya ini terdiri dari 5 dimensi variabel esq terhadap variabel kepuasan yg dimoderasi oleh budaya. dalam analisis data spss, saya menggunakan data moderasi budaya melalui geerthofstede, sdgkan utk data dimensi esq saya ambil dri penyebaran kuesioner. Tp kenapa setelah saya analisis variabel moderasi, variabel moderasi budaya saya justru masuk kedalam excluded variabel dan tdk menghasilkan data apapun didalam tabel excluded variabel? Saya mau tau apa penyebabnya yh dan solusi terbaiknya gimana yh? Terima kasih..

    BalasHapus