Demonstrasi Regresi Logistik Binomial

Analisis Regresi Logistik Binomial

Variabel:

- `putus_studi`: outcome (0 = lanjut, 1 = putus studi sebelum semester ke-5)

- `usia`: 18–65 tahun

- `jenis_kelamin`: 0 = Perempuan, 1 = Laki-laki

- `presensi_kuliah`: 1 = Tatap Muka Terbatas, 2 = Daring, 3 = Mandiri, tanpa kuliah

- `kecemasan_akademik`: skor kecemasan awal (0–63)

- `jarak_pokjar_km`: 0.5–50 km

- `keterlibatan_akademik`: skor keterlibatan (1–7)

Pertanyaan penelitian: Apa saja faktor yang memprediksi dropout rate mahasiswa yang mengikuti program pembelajaran jarak jauh (PJJ)?

Model Fit Measures
Overall Model Test
ModelDevianceAICBICMcFNχ²dfp
14945105430.1240.20169.87<.001

Note. Models estimated using sample size of N=450

 

Uji ini membandingkan model dengan semua prediktor terhadap null model (tanpa prediktor). Hasil χ²(6) = 69.87, p < .001 menunjukkan bahwa penambahan prediktor secara bersama-sama meningkatkan prediksi secara signifikan. Model layak dilanjutkan ke analisis koefisien.

Omnibus Likelihood Ratio Tests
Predictorχ²dfp
usia1.59661.206
jarak_pokjar_km21.21571<.001
keterlibatan_akademik31.64561<.001
jenis_kelamin0.11841.731
metode_kuliah3.33952.188
kecemasan_akademik0.04141.839
[3]

 

Dari enam prediktor, hanya jarak ke pokjar dan keterlibatan akademik yang berkontribusi signifikan terhadap prediksi putus studi. Prediktor demografis (usia, jenis kelamin) dan akademik lainnya (kecemasan, metode kuliah) tidak signifikan pada α = .05.

Perhatikan bahwa presensi_kuliah memiliki df = 2, bukan 1. Ini karena variabel tersebut adalah variabel kategorikal dengan 3 kategori (Tatap Muka Terbatas, Daring, Mandiri), sehingga dikodekan menjadi 2 dummy variable. Konsekuensinya, uji LR-nya pun memiliki 2 df.

Berbeda dari uji Wald (yang menguji koefisien β), uji Likelihood Ratio di sini bersifat model comparison. Ia membandingkan ketepatan full model vs. model tanpa prediktor (null model) tersebut. Secara umum, LR test dianggap lebih andal daripada uji Wald, terutama ketika sampel tidak sangat besar.

Model Coefficients - putus_studi
95% Confidence Interval
PredictorEstimateSEZpOdds ratioLowerUpper
Intercept1.343290.78051.721.0853.8320.83017.690
usia0.014860.01181.263.2071.0150.9921.039
jarak_pokjar_km0.045900.01034.452<.0011.0471.0261.068
keterlibatan_akademik-0.611850.1147-5.334<.0010.5420.4330.679
jenis_kelamin:       
laki-laki – perempuan-0.077580.2253-0.344.7310.9250.5951.439
metode_kuliah:       
Daring penuh – Tatap muka terbatas-0.160200.2814-0.569.5690.8520.4911.479
Mandiri, tanpa kuliah – Tatap muka terbatas-0.476500.2715-1.755.0790.6210.3651.057
kecemasan_akademik-0.002680.0132-0.203.8390.9970.9721.023

Note. Estimates represent the log odds of "putus_studi = putus studi sebelum semester 5" vs. "putus_studi = lanjut"

 

Tabel ini menampilkan estimasi koefisien log-odds (B), standard error, uji Wald (Z), odds ratio (OR), dan interval kepercayaan 95% untuk setiap prediktor.

jarak_pokjar_km (B = 0.046, OR = 1.047, p < .001) Setiap penambahan 1 km jarak ke pokjar meningkatkan odds putus studi sebesar 4.7%, dengan semua prediktor lain dikontrol. Meskipun efek per-km terkesan kecil, perlu diingat rentang variabel ini cukup lebar (0.5–50 km). Mahasiswa yang tinggal 50 km dari pokjar memiliki odds putus studi ≈ e^(0.046×50) ≈ 10.1 kali lebih tinggi dibanding mahasiswa yang tinggal 0.5 km.

keterlibatan_akademik (B = -0.612, OR = 0.542, p < .001) Setiap kenaikan 1 poin keterlibatan akademik menurunkan odds putus studi sebesar 45.8% (1 - 0.542). Ini adalah prediktor terkuat dalam model, jadi mahasiswa yang lebih terlibat secara akademik secara substansial lebih kecil kemungkinannya untuk putus studi.

Uji Wald vs. LR Test: Perhatikan bahwa nilai p pada tabel koefisien (uji Wald, berbasis Z) secara umum konsisten dengan LR test di tabel sebelumnya — keduanya menunjukkan hanya jarak_pokjar_km dan keterlibatan_akademik yang signifikan. Namun untuk variabel kategorikal seperti presensi_kuliah, uji Wald hanya menguji masing-masing kontras (misal Daring vs. Tatap Muka), sedangkan LR test menguji variabel secara keseluruhan. Inilah mengapa penting membaca kedua tabel secara bersamaan.

Odds Ratio vs. Probabilitas: OR bukan probabilitas dan tidak boleh diinterpretasikan langsung sebagai "kemungkinan". OR = 1.047 tidak berarti "probabilitas naik 4.7%", melainkan odds-nya yang naik 4.7%. Konversi ke probabilitas memerlukan nilai baseline dari intercept dan nilai prediktor lainnya.

Intercept tidak signifikan (p = .085): Ini bukan masalah serius. Intercept merepresentasikan log-odds ketika semua prediktor bernilai nol, yang seringkali tidak bermakna substantif. p-value intercept umumnya tidak diinterpretasikan.

Assumption Checks

Collinearity Statistics
 VIFTolerance
usia1.000.997
jarak_pokjar_km1.010.992
keterlibatan_akademik1.010.991
jenis_kelamin1.010.992
metode_kuliah1.000.996
kecemasan_akademik1.000.998
[3]

 

Tabel ini mengevaluasi apakah terdapat masalah multikolinearitas — yaitu kondisi di mana prediktor-prediktor saling berkorelasi tinggi satu sama lain, yang dapat mendistorsi estimasi koefisien dan standard error.

Seluruh nilai VIF berada sangat dekat dengan 1.0, dan seluruh nilai Tolerance mendekati 1.0 (jauh di atas ambang batas kritis 0.10). Ini menunjukkan bahwa tidak ada multikolinearitas di antara prediktor dalam model ini.

Apa itu VIF dan Tolerance?

Ambang batas yang umum digunakan:

Prediction

Classification Table – …
Predicted
Observedlanjutputus studi sebelum semester 5% Correct
lanjut2822492.2
putus studi sebelum semester 5974732.6

Note. The cut-off value is set to 0.5

 

Tabel ini mengevaluasi akurasi prediksi model dengan membandingkan kategori yang diprediksi vs. yang benar-benar terjadi, menggunakan cut-off probabilitas 0.5.

Model berhasil mengklasifikasikan 92.2% mahasiswa yang benar-benar lanjut kuliah (specificity tinggi), tetapi hanya mampu mengidentifikasi 32.6% mahasiswa yang benar-benar putus studi (sensitivity rendah). Dengan kata lain, dari 144 mahasiswa yang aktualnya putus studi, model gagal mendeteksi 97 di antaranya (salah diklasifikasikan sebagai "lanjut").

Ketidakseimbangan kelas (class imbalance): Perhatikan distribusi aktual dalam data:

Ketika kelas mayoritas jauh lebih banyak, model regresi logistik cenderung "berpihak" pada kategori mayoritas (mahasiswa yang lanjut), karena secara matematis lebih baik untuk selalu memprediksi "lanjut". Akurasi keseluruhan 73.1% terlihat cukup baik, tetapi angka ini menyesatkan: bahkan model null yang selalu memprediksi "lanjut" pun sudah mencapai akurasi 68%.Masalah cut-off 0.5: Cut-off default 0.5 tidak selalu optimal, terutama dalam konteks di mana kesalahan prediksi tidak simetris. Dalam konteks dropout, false negative (mahasiswa berisiko yang tidak terdeteksi) jauh lebih merugikan daripada false positive (mahasiswa aman yang salah diklasifikasikan). Menurunkan cut-off (misalnya ke 0.3) akan meningkatkan sensitivity meskipun mengorbankan specificity.
Predictive Measures
AccuracySpecificitySensitivityAUC
0.7310.9220.3260.721

Note. The cut-off value is set to 0.5

 

Tabel ini mengonfirmasi dan melengkapi temuan dari Classification Table sebelumnya dengan satu tambahan metrik penting: AUC.

AUC = 0.721 mengindikasikan bahwa model memiliki kemampuan diskriminasi yang cukup baik (acceptable discrimination) secara umum. Artinya, jika diambil satu mahasiswa yang putus studi dan satu yang lanjut secara acak, model memiliki probabilitas 72.1% untuk memberikan skor risiko yang lebih tinggi pada mahasiswa yang putus studi.

Panduan interpretasi AUC (Hosmer & Lemeshow):

ROC Curve

[4]

Gambar ini memvisualisasikan performa model di semua nilai cut-off secara sekaligus, bukan hanya pada cut-off 0.5.

Sumbu X = 1 - Specificity (tingkat false positive) Sumbu Y = Sensitivity (tingkat true positive)

Garis diagonal hitam = performa model acak (AUC = 0.5, tidak berguna sama sekali)

Garis kurva merah = performa model ini (AUC = 0.721)

Cara melaporkannya dalam artikel ilmiah

Regresi logistik binomial dilakukan untuk mengidentifikasi faktor-faktor yang memprediksi putus studi sebelum semester ke-5 pada mahasiswa program pembelajaran jarak jauh (PJJ), dengan prediktor meliputi usia, jenis kelamin, jarak ke pokjar, metode kuliah, kecemasan akademik, dan keterlibatan akademik (N = 450). Sebelum interpretasi, uji kolinearitas menunjukkan tidak adanya masalah multikolinearitas (semua VIF < 1.02, semua Tolerance > 0.99).

Model secara keseluruhan signifikan, χ²(6) = 69.87, p < .001, dengan pseudo-R² McFadden = .12 dan Nagelkerke = .20. Model menunjukkan akurasi klasifikasi keseluruhan sebesar 73.1% dan nilai AUC = 0.721, yang mengindikasikan kemampuan diskriminasi yang acceptable. Namun demikian, sensitivity model tergolong rendah (32.6%), yang berarti model kurang optimal dalam mendeteksi mahasiswa yang berisiko putus studi pada cut-off probabilitas 0.5. Temuan ini perlu diperhatikan dalam konteks ketidakseimbangan kelas (class imbalance) pada data (lanjut: 68%; putus studi: 32%).

Hasil uji likelihood ratio per prediktor menunjukkan bahwa hanya jarak ke pokjar, χ²(1) = 21.22, p < .001, dan keterlibatan akademik, χ²(1) = 31.65, p < .001, yang memberikan kontribusi signifikan. Prediktor lainnya — usia, jenis kelamin, metode kuliah, dan kecemasan akademik — tidak signifikan (semua p > .05).

Pada level parameter model, jarak ke pokjar berhubungan positif dengan putus studi (B = 0.046, SE = 0.010, p < .001, OR = 1.047, 95% CI [1.026, 1.068]): setiap penambahan 1 km jarak ke pokjar meningkatkan odds putus studi sebesar 4.7%, dengan prediktor lain dikontrol. Sebaliknya, keterlibatan akademik berhubungan negatif dengan putus studi (B = -0.612, SE = 0.115, p < .001, OR = 0.542, 95% CI [0.433, 0.679]): setiap kenaikan 1 poin skor keterlibatan akademik menurunkan odds putus studi sebesar 45.8%. Prediktor lainnya tidak signifikan secara statistik (semua p > .079).

Binomial Logistic Regression dengan suku interaksi

Model Fit Measures
Overall Model Test
ModelDevianceAICBICMcFNχ²dfp
14935015180.1250.20370.73<.001

Note. Models estimated using sample size of N=450

 

Omnibus Likelihood Ratio Tests
Predictorχ²dfp
jarak_mc11.791<.001
keterlibatan_mc30.841<.001
jarak_mc ✻ keterlibatan_mc6.121.013
[3]

 

Model Coefficients - putus_studi
95% Confidence Interval
PredictorEstimateSEZpOdds ratioLowerUpper
Intercept-0.88170.1125-7.84<.0010.4140.3320.516
jarak_mc0.03950.01133.50<.0011.0401.0181.064
keterlibatan_mc-0.60960.1156-5.27<.0010.5440.4330.682
jarak_mc ✻ keterlibatan_mc-0.02840.0123-2.32.0200.9720.9490.996

Note. Estimates represent the log odds of "putus_studi = putus studi sebelum semester 5" vs. "putus_studi = lanjut"

 

Main dan interaction effects ketiganya signifikan.

Estimated Marginal Means

jarak_mc ✻ keterlibatan_mc

Estimated Marginal Means - jarak_mc ✻ keterlibatan_mc
95% Confidence Interval
keterlibatan_mcjarak_mcProbabilitySELowerUpper
-1.05-10.80.2710.04570.1910.369
1.17e-16μ0.4400.03710.3690.513
10.80.6240.05080.5200.717
-2.79e−16μ-10.80.2130.02730.1640.271
1.17e-16μ0.2930.02330.2490.340
10.80.3880.04000.3130.469
1.05-10.80.1640.03390.1080.242
1.17e-16μ0.1790.02630.1330.237
10.80.1950.04560.1210.300

Note. ⁻ mean - 1SD, μ mean, ⁺ mean + 1SD

 

Probability dropout paling besar terjadi ketika keterlibatan di bawah rata-rata dan jarak di atas rata2.

[5]

References

[1] The jamovi project (2025). jamovi. (Version 2.7) [Computer Software]. Retrieved from https://www.jamovi.org.

[2] R Core Team (2025). R: A Language and environment for statistical computing. (Version 4.5) [Computer software]. Retrieved from https://cran.r-project.org. (R packages retrieved from CRAN snapshot 2025-05-25).

[3] Fox, J., & Weisberg, S. (2024). car: Companion to Applied Regression. [R package]. Retrieved from https://cran.r-project.org/package=car.

[4] Sing, T., Sander, O., Beerenwinkel, N., & Lengauer, T., Unterthiner, T., & Ernst, F. G. M. (2020). ROCR: Visualizing the Performance of Scoring Classifiers. [R package]. Retrieved from https://cran.r-project.org/package=ROCR.

[5] Lenth, R. (2025). emmeans: Estimated Marginal Means, aka Least-Squares Means. [R package]. Retrieved from https://cran.r-project.org/package=emmeans.