Statistik dalam Penelitian Psikologi
2026-05-11
Outcome Biner
Outcome dari semua penelitian di atas bukan skor 1–100 (data continous). Variabel-variabel di atas adalah keputusan biner: terjadi (1) atau tidak terjadi (0). Kita membutuhkan metode statistik yang dirancang untuk memodelkan probabilitas kejadian seperti ini.
Misalnya kita ingin memprediksi putus studi mahasiswa PJJ berdasarkan jarak ke kelompok belajar (pokjar):
| Mahasiswa | Jarak ke pokjar | Prediksi P(putus studi) dengan OLS | Valid? |
|---|---|---|---|
| A | 5 km | 0.25 | ✓ |
| B | 50 km | 1.45 | ✗ |
| C | 0 km | −0.10 | ✗ |
\[P = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X)}}\]
Tiga karakteristik penting kurva S (sigmoid):

Rentang outcome selalu 0-1 meskipun prediktor nilainya ekstrim
Tidak peduli seberapa ekstrim nilai prediktor (X), probabilitas yang diprediksi tetap berada dalam rentang yang valid.
\[P(A) = \frac{\text{jumlah kejadian A}}{\text{total kemungkinan}}\]
Contoh:
| Konteks | Probabilitas |
|---|---|
| 135 dari 450 mahasiswa putus studi sebelum semester ke-5 | P(putus studi) = 0.30 |
| 8 dari 200 mahasiswa pernah mencoba bunuh diri | P(percobaan) = 0.04 |
| 60 dari 200 karyawan resign dalam 1 tahun | P(turnover) = 0.30 |
\[\text{Odds} = \frac{P}{1 - P}\]
Definisi: “Berapa kali suatu kejadian lebih mungkin terjadi dibandingkan tidak terjadi”
Contoh: Jika P(putus studi) = 0.30, maka Odds = 0.30 / 0.70 = 0.43
Cara baca: “Untuk setiap 7 mahasiswa yang bertahan, ada 3 yang putus studi” (3:7)
| P(kejadian) | Odds | Cara baca |
|---|---|---|
| 0.10 | 0.11 | 1 banding 9 |
| 0.25 | 0.33 | 1 banding 3 |
| 0.50 | 1.00 | Sama rata |
| 0.75 | 3.00 | 3 banding 1 |
| 0.90 | 9.00 | 9 banding 1 |

Masalahnya, rentang odds hanya antara 0 sampai ∞, dan tidak simetris — nilai di bawah 1 terkompresi, nilai di atas 1 tidak terbatas.
Solusinya, gunakan log odds (logit) yang bisa membuat odds menjadi simetris dan linear.
\[\text{Logit}(P) = \ln\!\left(\frac{P}{1-P}\right)\]
| P | Odds | Logit |
|---|---|---|
| 0.10 | 0.11 | −2.20 |
| 0.25 | 0.33 | −1.10 |
| 0.50 | 1.00 | 0.00 |
| 0.75 | 3.00 | +1.10 |
| 0.90 | 9.00 | +2.20 |
Perhatikan: logit simetris di sekitar 0 dan rentangnya −∞ sampai +∞. Inilah yang dimodelkan secara linear oleh regresi logistik.
Persamaan dalam logit (yang berjalan di balik software):
\[\ln\!\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k\]
Untuk memprediksi probabilitas, balik transformasinya:
\[P = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k)}}\]
Komponen:
Odds ratio (OR) merupakan effect size utama dari model regresi logistik.
\[OR = e^{\beta}\]
OR mengukur seberapa banyak odds berubah ketika prediktor naik 1 unit, dengan asumsi prediktor yang lain nilainya konstan, tidak berubah (i.e., kalau ada beberapa prediktor di dalam model).
| OR | Interpretasi |
|---|---|
| = 1.00 | Tidak ada efek |
| > 1.00 | Odds outcome naik |
| < 1.00 | Odds outcome turun |
| = 1.50 | Odds naik 50% |
| = 2.00 | Odds naik 100% (dua kali lipat) |
| = 0.50 | Odds turun 50% (setengahnya) |
Selalu cek dan laporkan 95% Confidence Interval untuk OR!
Jika CI melewati 1.0, prediktor tidak signifikan secara statistik — misalnya OR = 1.20, 95% CI [0.85, 1.69] → tidak signifikan.
Konteks: 450 mahasiswa PJJ; 30% putus studi sebelum semester ke-5
Prediktor: Jarak ke pokjar, keterlibatan akademik, kecemasan akademik awal
| Prediktor | β | OR | 95% CI | p | Interpretasi |
|---|---|---|---|---|---|
| Jarak (per 10 km) | 0.49 | 1.63 | [1.21, 2.19] | <.001 | Jarak +10 km → odds +63% |
| Keterlibatan akademik | −0.65 | 0.52 | [0.38, 0.71] | <.001 | Keterlibatan ↑ → odds −52% |
| Kecemasan akademik | 0.02 | 1.02 | [0.99, 1.05] | .182 | Tidak signifikan |
Interpretasi
Keterlibatan akademik yang tinggi dapat “mencegah” efek jarak yang jauh antara tempat tinggal mahasiswa dengan pokjar. Interpretasinya: temuan ini bisa dijadikan dasar untuk mendesain intervensi yang mencegah dropout mahasiswa program PJJ.
Regresi linear (OLS):
Cari β yang meminimalkan jumlah kuadrat error (SSE)
Regresi logistik (MLE):
Cari β yang membuat variabel outcome yang kita observasi “paling mungkin terjadi”
Mengapa MLE❓
Karena MLE, kita tidak mendapatkan F-statistics seperti dalam OLS/ANOVA. Sebagai gantinya, kita mendapatkan χ² sebagai uji signifikansi keseluruhan model.
Jika software menampilkan peringatan algorithm did not converge, biasanya tanda sampel terlalu kecil atau ada perfect separation (akan dibahas di bagian berikutnya).
Deviance = −2 × log-likelihood (makin kecil, makin baik)
| Terminologi | Nilai Deviance | Interpretasi |
|---|---|---|
| Null deviance | 612.4 | Model tanpa prediktor (null model) |
| Residual deviance | 487.2 | Model dengan prediktor |
| Penurunan | 125.2 | Bukti bahwa prediktor meningkatkan kemampuan model memprediksi outcome |
Likelihood Ratio Test:
\[\chi^2 = \text{Null deviance} - \text{Residual deviance}\]
\[\chi^2(3) = 125.2,\ p < .001 \rightarrow \text{Model secara keseluruhan signifikan!}\]
Uji Omnibus
Ini adalah uji omnibus — setara dengan uji F keseluruhan dalam regresi linear. Di jamovi, angka ini muncul di bagian Model Fit sebagai Model χ².
Prinsipnya sama dengan regresi OLS yang sudah kita pelajari di Bagian 2: menambah prediktor selalu menurunkan deviance, bahkan ketika prediktor itu tidak bermakna secara substantif untuk menjelaskan variabel outcome (overfitting).
\[\text{AIC} = -2\log L + 2k \qquad \text{BIC} = -2\log L + k\ln(n)\]
Di mana k = jumlah parameter, n = ukuran sampel. Makin kecil, makin baik — hanya bermakna kalau ada model lain yang digunakan sebagai perbandingan.
| Model | Prediktor | AIC | BIC | |
|---|---|---|---|---|
| Model 1 | Jarak saja | 502.1 | 510.3 | |
| Model 2 | Jarak + Keterlibatan | 489.7 | 502.1 | ← Terbaik |
| Model 3 | Jarak + Keterlibatan + Usia + Gender | 493.2 | 518.9 |
| Nagelkerke R² | Interpretasi |
|---|---|
| < 0.20 | Lemah |
| 0.20–0.40 | Cukup |
| 0.40–0.60 | Baik |
| > 0.60 | Sangat baik |
Laporkan Adjusted OR
Dalam artikel ilmiah, selalu laporkan adjusted OR dari model dengan prediktor yang jumlahnya lebih dari 1, bukan unadjusted OR dari analisis bivariat.
Pertanyaan: Apakah efek jarak pada putus studi berbeda tergantung tingkat keterlibatan akademik?
\[\text{logit}(P) = \beta_0 + \beta_1(\text{Jarak}) + \beta_2(\text{Keterlibatan}) + \beta_3(\text{Jarak} \times \text{Keterlibatan})\]
Masukkan suku interaksi (interaction terms) antara jarak dan keterlibatan di dalam model.
Selalu Centering Prediktor!
Agar main effects dapat diinterpretasi, maka semua prediktor yang dibuatkan suku interaksinya, harus selalu di-centering. Artinya, nilai setiap orang dikurangi dengan nilai rata-rata, sehingga nilai 0 = rata-rata.
Hasil: β₃ = −0.08, p = .03 → Interaksi signifikan!
| Subkelompok | Efek jarak pada odds putus studi | Interpretasi |
|---|---|---|
| Keterlibatan rendah | OR = 1.12 per km | Jarak ada efeknya |
| Keterlibatan tinggi | OR = 1.02 per km | Jarak hampir tidak ada efeknya |
Interpretasi
Keterlibatan akademik yang tinggi bisa men-buffer dampak jarak yang jauh, sehingga bisa dijadikan dasar untuk merancang intervensi yang tepat sasaran.
✅ Theory-driven (direkomendasikan)
⚠️ Stepwise selection (kontroversial)
Kapan analisis eksplorasi dibenarkan?
Analisis eksplorasi boleh dilakukan untuk mengenerate hipotesis, tapi harus dipisahkan dari analisis konfirmatori. Mencampur keduanya dalam satu sampel yang sama adalah salah satu bentuk questionable research practice.
Yang HARUS dipenuhi:
Yang TIDAK perlu:
Tetap harus dicek
Meskipun lebih longgar, asumsi yang ada tetap harus dicek dan dilaporkan. Terutama multikolinearitas (dengan VIF) dan kemungkinan perfect separation.
Cara memeriksa dan interpretasinya sama persis seperti dalam regresi OLS — gunakan VIF:
| VIF | Interpretasi |
|---|---|
| < 5 | Tidak ada masalah |
| 5–10 | Moderate — perlu hati-hati |
| > 10 | Masalah serius |
Contoh problem: “Durasi studi (semester)” dan “biaya kuliah kumulatif” — keduanya naik bersama, korelasi r = 0.95 → VIF ≈ 18 → model sulit diestimasi secara stabil.
Tip
jamovi menampilkan VIF secara otomatis di output regresi logistik — centang Collinearity Statistics di opsi Model Coefficients.
Ada kemungkinan Anda harus menangani prediktor yang bisa memisahkan outcome secara sempurna.
Contohnya, semua mahasiswa dengan jarak > 45 km putus studi (100%). Semua mahasiswa dengan jarak ≤ 45 km lanjut studi (100%).
Akibatnya, koefisien slope meluncur ke ±∞, standard error sangat besar, model tidak bisa diestimasi (non-convergence problem).
Tanda-tanda di output
Algorithm did not convergeJika ini terjadi, cek distribusi prediktor dan outcome karena umumnya berarti bahwa ada kejadian yang frekuensi terjadinya terlalu kecil.
Setelah model diestimasi, gunakan threshold default P ≥ 0.50 → prediksi outcome terjadi; P < 0.50 → prediksi tidak terjadi.
| Prediksi: Tidak Terjadi | Prediksi: Terjadi | |
|---|---|---|
| Aktual: Tidak Terjadi | 240 (TN) | 30 (FP) |
| Aktual: Terjadi | 50 (FN) | 130 (TP) |
Dari confusion matrix tadi (TP=130, TN=240, FP=30, FN=50, N=450):
| Metrik | Formula | Nilai | Pertanyaan yang dijawab |
|---|---|---|---|
| Akurasi | (TP+TN)/N | 82.2% | Berapa % prediksi kejadian yang benar? |
| Sensitivity | TP/(TP+FN) | 72.2% | Dari yang benar-benar terjadi, berapa % terdeteksi? |
| Specificity | TN/(TN+FP) | 88.9% | Dari yang tidak terjadi, berapa % diprediksi benar? |
Trade-off sensitivity vs specificity
Default threshold = 0.50 — bisa disesuaikan sesuai konteks dan pertimbangan etis.
AUC (Area Under the ROC Curve) = probabilitas bahwa model memberikan predicted probability yang lebih tinggi kepada kasus positif dibanding kasus negatif yang diambil secara acak.
| AUC | Interpretasi |
|---|---|
| 0.50 | Tidak lebih baik dari tebakan acak |
| 0.60–0.70 | Lemah |
| 0.70–0.80 | Cukup |
| 0.80–0.90 | Baik |
| > 0.90 | Sangat baik — tetapi bisa jadi model overfitting1? Cek dulu! |
Note
ROC curve dan AUC tersedia di jamovi. Pembahasan mendalam tentang analisis ROC — termasuk PPV/NPV, Youden’s Index, dan penentuan cut-off optimal — ada di Bagian 4.
jamovidataset-dropout.omv)Variabel:
putus_studi: outcome (0 = lanjut, 1 = putus studi sebelum semester ke-5)usia: 18–65 tahunjenis_kelamin: 0 = Perempuan, 1 = Laki-lakimetode_kuliah: 1 = Tatap Muka Terbatas, 2 = Daring, 3 = Mandiri, tanpa kuliahkecemasan_akademik: skor kecemasan awal (0–63)jarak_pokjar_km: 0.5–50 kmketerlibatan_akademik: skor keterlibatan (1–7)jamoviMenjalankan regresi logistik:
jamovi akan melakukan dummy coding secara otomatis untuk variabel kategorikalOutput yang harus dicek:
☑ Model Fit — Model χ², Nagelkerke R²
☑ Model Coefficients — β, OR, 95% CI, p
☑ Collinearity Statistics — VIF
☑ Prediction Table — akurasi, sensitivity, specificity
☑ ROC Curve — AUC
Urutan membaca output
Omnibus (Model χ²) → Pseudo R² → Koefisien per prediktor (OR + CI) → VIF → Akurasi klasifikasi → AUC
☐ Deskripsi variabel — outcome biner (0/1), distribusi prediktor
☐ Uji signifikansi model — Model χ², df, p (dari Likelihood Ratio Test)
☐ Pseudo R² — Nagelkerke R²
☐ Koefisien per prediktor — β, SE, Wald χ², p, OR, 95% CI
☐ Multikolinearitas — VIF
☐ Akurasi klasifikasi — akurasi keseluruhan, sensitivity, specificity
☐ AUC (opsional tapi dianjurkan)
☐ AIC/BIC jika membandingkan model
“Regresi logistik binomial dilakukan untuk memprediksi putus studi mahasiswa PJJ menggunakan tiga prediktor: jarak ke pokjar, kecemasan akademik awal, dan keterlibatan akademik. Model secara keseluruhan signifikan, χ²(3, N = 450) = 125.2, p < .001, Nagelkerke R² = .32. Model berhasil mengklasifikasikan 82.2% kasus dengan benar (sensitivity = 72.2%, specificity = 88.9%, AUC = .84).
Jarak ke pokjar secara signifikan memprediksi putus studi (OR = 1.05, 95% CI [1.02, 1.08], p < .001): setiap tambahan 10 km jarak dari pokjar, odds putus studi mahasiswa meningkat sebesar 63%. Keterlibatan akademik juga berperan signifikan (OR = 0.52, 95% CI [0.38, 0.71], p < .001) — mahasiswa dengan keterlibatan lebih tinggi memiliki odds putus studi yang lebih rendah. Kecemasan akademik awal tidak memprediksi putus studi secara signifikan (OR = 1.02, 95% CI [0.99, 1.05], p = .182).”
Contoh: OR = 1.05 untuk jarak ke pokjar (per 1 km)
Opsi 1 — Persentase perubahan odds: “Setiap tambahan 1 km jarak dari pokjar, odds putus studi naik 5%.”
Opsi 2 — Interval konkrit: “Mahasiswa yang tinggal 10 km lebih jauh dari pokjar punya odds putus studi 1.63 kali lebih tinggi dibandingkan mahasiswa yang tinggal 10 km lebih dekat.” (karena 1.05^10 = 1.63)
OR ≠ Risk Ratio (RR)
Data yang sama, cara menghitung berbeda:
| Cara menghitung | Contoh (30% vs 20%) | |
|---|---|---|
| RR | P(A) / P(B) | 30% / 20% = 1.50 |
| OR | Odds(A) / Odds(B) | (30/70) / (20/80) = 1.71 |
OR selalu lebih ekstrim (lebih jauh dari 1.0) dibanding RR ketika prevalensi outcome tinggi. Jangan gunakan “X kali lebih mungkin” untuk OR. Istilah yang tepat adalah: “X kali lebih tinggi odds-nya” (Zhang & Yu, 1998).
Mengaburkan OR dengan Risk Ratio — “X kali lebih mungkin” bukan cara yang benar untuk menginterpretasikan OR. Kata yang tepat: “X kali lebih tinggi odds-nya”.
Mengklaim kausalitas — Regresi logistik adalah analisis korelasional. Kausalitas harus memenuhi asumsi temporalitas dan kendali terhadap confounding, sehingga harus diuji dengan desain eksperimental atau quasi-eksperimental.
Mengabaikan multikolinearitas — “Usia” dan “tahun lahir” keduanya dimasukkan sebagai prediktor? Sudah pasti multikolinear.
Tidak memeriksa asumsi — Terutama linearitas dalam logit dan kemungkinan perfect separation.
Hanya melaporkan prediktor yang signifikan — Laporkan semua prediktor yang dimasukkan ke model, jangan hanya yang “signifikan” (p < .05.)
EPV terlalu rendah — Events per variable (EPV): minimal 10 kejadian per prediktor. Dengan hanya 50 kejadian (events), jangan masukkan lebih dari 5 prediktor — estimasi akan tidak stabil.
Note