Statistik dalam Penelitian Psikologi
2026-04-12
Note
Outcome ini bukan skor 1–100 (data continous). Mereka adalah keputusan biner: terjadi (1) atau tidak terjadi (0). Kita membutuhkan metode statistik yang dirancang untuk memodelkan probabilitas kejadian seperti ini.
Misalnya kita ingin memprediksi putus studi mahasiswa PJJ berdasarkan jarak ke kelompok belajar (pokjar):
| Mahasiswa | Jarak ke pokjar | Prediksi P(putus studi) dengan OLS | Valid? |
|---|---|---|---|
| A | 5 km | 0.25 | ✓ |
| B | 50 km | 1.45 | ✗ |
| C | 0 km | −0.10 | ✗ |
\[P = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X)}}\]
Tiga sifat penting kurva S (sigmoid):
Rentang outcome selalu 0-1 meskipun prediktor nilainya ekstrim
Tidak peduli seberapa ekstrim nilai prediktor (X), probabilitas yang diprediksi tetap berada dalam rentang yang valid. Inilah keunggulan utama regresi logistik dibanding OLS untuk outcome biner.

\[P(A) = \frac{\text{jumlah kejadian A}}{\text{total kemungkinan}}\]
Contoh dari dataset PJJ (N = 450):
| Konteks | Probabilitas |
|---|---|
| 135 dari 450 mahasiswa putus studi sebelum semester ke-5 | P(putus studi) = 0.30 |
| 8 dari 200 mahasiswa pernah mencoba bunuh diri | P(percobaan) = 0.04 |
| 60 dari 200 karyawan resign dalam 1 tahun | P(turnover) = 0.30 |
\[\text{Odds} = \frac{P}{1 - P}\]
Definisi: “Berapa kali suatu kejadian lebih mungkin terjadi dibandingkan tidak terjadi” Contoh: Jika P(putus studi) = 0.30, maka Odds = 0.30 / 0.70 = 0.43
Cara baca: “Untuk setiap 7 mahasiswa yang bertahan, ada 3 yang putus studi” (3:7)
| P(kejadian) | Odds | Cara baca |
|---|---|---|
| 0.10 | 0.11 | 1 banding 9 |
| 0.25 | 0.33 | 1 banding 3 |
| 0.50 | 1.00 | Sama rata |
| 0.75 | 3.00 | 3 banding 1 |
| 0.90 | 9.00 | 9 banding 1 |

Masalah odds: Rentangnya 0 sampai ∞, dan tidak simetris — nilai di bawah 1 terkompresi, nilai di atas 1 tidak terbatas.
Solusi: Log odds (logit)
\[\text{Logit}(P) = \ln\!\left(\frac{P}{1-P}\right)\]
| P | Odds | Logit |
|---|---|---|
| 0.10 | 0.11 | −2.20 |
| 0.25 | 0.33 | −1.10 |
| 0.50 | 1.00 | 0.00 |
| 0.75 | 3.00 | +1.10 |
| 0.90 | 9.00 | +2.20 |
Perhatikan: logit simetris di sekitar 0 dan rentangnya −∞ sampai +∞. Inilah yang dimodelkan secara linear oleh regresi logistik.
Persamaan dalam logit (yang berjalan di belakang layar):
\[\ln\!\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k\]
Untuk memprediksi probabilitas, balik transformasinya:
\[P = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k)}}\]
Komponen:
\[OR = e^{\beta}\]
OR mengukur seberapa banyak odds berubah ketika prediktor naik 1 unit, dengan prediktor lain dikontrol.
| OR | Interpretasi |
|---|---|
| = 1.00 | Tidak ada efek |
| > 1.00 | Odds outcome naik |
| < 1.00 | Odds outcome turun |
| = 1.50 | Odds naik 50% |
| = 2.00 | Odds naik 100% (dua kali lipat) |
| = 0.50 | Odds turun 50% (setengahnya) |
Selalu laporkan 95% Confidence Interval untuk OR!
Jika CI melewati 1.0, prediktor tidak signifikan secara statistik — misalnya OR = 1.20, 95% CI [0.85, 1.69] → tidak signifikan.
Konteks: 450 mahasiswa PJJ; 30% putus studi sebelum semester ke-5
Prediktor: Jarak ke pokjar, keterlibatan akademik, kecemasan akademik awal
| Prediktor | β | OR | 95% CI | p | Interpretasi |
|---|---|---|---|---|---|
| Jarak (per 10 km) | 0.49 | 1.63 | [1.21, 2.19] | <.001 | Jarak +10 km → odds +63% |
| Keterlibatan akademik | −0.65 | 0.52 | [0.38, 0.71] | <.001 | Keterlibatan ↑ → odds −48% |
| Kecemasan akademik | 0.02 | 1.02 | [0.99, 1.05] | .182 | Tidak signifikan |
Interpretasi
Keterlibatan akademik yang tinggi dapat “mencegah” efek jarak yang jauh antara tempat tinggal mahasiswa dengan pokjar. Bisa dijadikan dasar untuk mendesain intervensi program PJJ.
Regresi linear (OLS):
Cari β yang meminimalkan jumlah kuadrat error (SSE)
Regresi logistik (MLE):
Cari β yang membuat variabel outcome yang kita observasi “paling mungkin terjadi”
Mengapa MLE
Karena MLE, kita tidak mendapatkan F-statistic seperti dalam OLS/ANOVA. Sebagai gantinya, kita mendapatkan χ² sebagai uji signifikansi keseluruhan model.
Jika software menampilkan peringatan Algorithm did not converge — biasanya tanda sampel terlalu kecil atau ada perfect separation (lihat bagian berikutnya).
Deviance = −2 × log-likelihood (makin kecil, makin baik)
| Deviance | Arti | |
|---|---|---|
| Null deviance | 612.4 | Model tanpa prediktor — “tebakan terbaik tanpa informasi” |
| Residual deviance | 487.2 | Model dengan prediktor kita |
| Penurunan | 125.2 | Bukti bahwa prediktor berguna |
Likelihood Ratio Test:
\[\chi^2 = \text{Null deviance} - \text{Residual deviance}\]
\[\chi^2(3) = 125.2,\ p < .001 \rightarrow \text{Model secara keseluruhan signifikan!}\]
Uji Omnibus
Ini adalah uji omnibus — setara dengan uji F keseluruhan dalam regresi linear. Di jamovi, angka ini muncul di bagian Model Fit sebagai Model χ².
Prinsipnya sama dengan regresi OLS yang sudah kita pelajari di Bagian 3: menambah prediktor selalu menurunkan deviance, bahkan jika prediktor itu tidak bermakna (overfitting).
\[\text{AIC} = -2\log L + 2k \qquad \text{BIC} = -2\log L + k\ln(n)\]
Di mana k = jumlah parameter, n = ukuran sampel. Makin kecil, makin baik — hanya bermakna untuk membandingkan model.
| Model | Prediktor | AIC | BIC | |
|---|---|---|---|---|
| Model 1 | Jarak saja | 502.1 | 510.3 | |
| Model 2 | Jarak + Keterlibatan | 489.7 | 502.1 | ← Terbaik |
| Model 3 | Jarak + Keterlibatan + Usia + Gender | 493.2 | 518.9 |
Model 2 menang: fit bagus tanpa terlalu kompleks. BIC lebih ketat dari AIC karena penaltinya lebih besar — pilih BIC jika prioritasnya parsimoni.
Masalah: Regresi logistik tidak punya R² seperti OLS karena tidak ada “total variance” yang bisa dibagi seperti dalam OLS.
Solusi: Pseudo R² — ada beberapa versi, yang paling sering dilaporkan adalah Nagelkerke R²:
| Nagelkerke R² | Interpretasi |
|---|---|
| < 0.20 | Lemah |
| 0.20–0.40 | Cukup |
| 0.40–0.60 | Baik |
| > 0.60 | Sangat baik |
Interpretasi Pseudo R²
Pseudo R² bukan “proporsi varians yang dijelaskan” seperti R² OLS, jadi jangan diinterpretasikan dengan cara yang sama! Lebih tepat diartikan sebagai “peningkatan fit dibanding null model.” Nilainya cenderung lebih rendah dari R² OLS.
Masalah confounding: Dalam analisis bivariat, efek yang terlihat bisa dipengaruhi oleh variabel ketiga.
Contoh: Mahasiswa yang tinggal jauh dari pokjar cenderung punya keterlibatan akademik yang lebih rendah (karena kesempatan terlibat lebih terbatas). Efek jarak dan efek keterlibatan saling tumpang tindih.
| Prediktor | Unadjusted OR | Adjusted OR | 95% CI |
|---|---|---|---|
| Jarak (per 10 km) | 1.70 | 1.63 | [1.21, 2.19] |
| Keterlibatan akademik | 0.48 | 0.52 | [0.38, 0.71] |
| Usia (per 10 tahun) | 1.15 | 1.08 | [0.88, 1.32] |
Setelah dikontrol, efek jarak sedikit mengecil — sebagian efeknya bekerja melalui keterlibatan akademik.
Laporkan Adjusted OR
Dalam artikel ilmiah, selalu laporkan adjusted OR dari model dengan prediktor berganda, bukan unadjusted OR dari analisis bivariat.
Pertanyaan: Apakah efek jarak pada putus studi berbeda tergantung tingkat keterlibatan akademik?
\[\text{logit}(P) = \beta_0 + \beta_1(\text{Jarak}) + \beta_2(\text{Keterlibatan}) + \beta_3(\text{Jarak} \times \text{Keterlibatan})\]
Hasil: β₃ = −0.08, p = .03 → Interaksi signifikan!
| Subgrup | Efek jarak pada odds putus studi | Interpretasi |
|---|---|---|
| Keterlibatan rendah | OR = 1.12 per km | Jarak sangat berpengaruh |
| Keterlibatan tinggi | OR = 1.02 per km | Jarak hampir tidak berpengaruh |
Tip
Keterlibatan akademik yang tinggi bisa men-buffer dampak jarak yang jauh, sehingga bisa dijadikan dasar untuk merancang intervensi yang tepat sasaran.
✅ Theory-driven (direkomendasikan)
⚠️ Stepwise selection (kontroversial)
Kapan analisis eksplorasi dibenarkan?
Analisis eksplorasi boleh dilakukan untuk generate hipotesis, tapi harus dipisahkan dari analisis konfirmatori. Mencampur keduanya dalam satu sampel adalah salah satu bentuk questionable research practice.
Yang HARUS dipenuhi:
Yang TIDAK perlu:
Tetap harus dicek
Meskipun lebih longgar, asumsi yang ada tetap harus dicek dan dilaporkan. Terutama multikolinearitas (dengan VIF) dan kemungkinan perfect separation.
Cara memeriksa dan interpretasinya sama persis seperti dalam regresi OLS — gunakan VIF:
| VIF | Interpretasi |
|---|---|
| < 5 | Tidak ada masalah |
| 5–10 | Moderate — perlu hati-hati |
| > 10 | Masalah serius |
Contoh masalah: “Durasi studi (semester)” dan “biaya pendidikan kumulatif” — keduanya naik bersama, korelasi r = 0.95 → VIF ≈ 18 → tidak bisa diestimasi secara stabil.
Tip
Jamovi menampilkan VIF secara otomatis di output regresi logistik — centang Collinearity Statistics di opsi Model Coefficients.
Masalah: Satu prediktor memisahkan outcome secara sempurna — semua Y = 1 ada di satu sisi, semua Y = 0 di sisi lain.
Contoh: Semua mahasiswa dengan jarak > 45 km putus studi (100%). Semua mahasiswa dengan jarak ≤ 45 km lanjut studi (100%).
Akibat: Koefisien meluncur ke ±∞, standard error sangat besar, model tidak converge.
Tanda-tanda di output
Jika ini terjadi, cek distribusi prediktor dan outcome — sering kali tanda bahwa ada kategori yang terlalu kecil.
Setelah model difit, gunakan threshold default P ≥ 0.50 → prediksi outcome terjadi; P < 0.50 → prediksi tidak terjadi.
| Prediksi: Tidak Terjadi | Prediksi: Terjadi | |
|---|---|---|
| Aktual: Tidak Terjadi | 240 (TN) | 30 (FP) |
| Aktual: Terjadi | 50 (FN) | 130 (TP) |
Dari confusion matrix tadi (TP=130, TN=240, FP=30, FN=50, N=450):
| Metrik | Formula | Nilai | Pertanyaan yang dijawab |
|---|---|---|---|
| Akurasi | (TP+TN)/N | 82.2% | Berapa % prediksi yang benar? |
| Sensitivity | TP/(TP+FN) | 72.2% | Dari yang benar-benar terjadi, berapa % terdeteksi? |
| Specificity | TN/(TN+FP) | 88.9% | Dari yang tidak terjadi, berapa % diprediksi benar? |
Trade-off sensitivity vs specificity
Default threshold = 0.50 — bisa disesuaikan sesuai konteks dan pertimbangan etis.
AUC (Area Under the ROC Curve) = probabilitas bahwa model memberikan predicted probability yang lebih tinggi kepada kasus positif dibanding kasus negatif yang diambil secara acak.
| AUC | Interpretasi |
|---|---|
| 0.50 | Tidak lebih baik dari tebakan |
| 0.60–0.70 | Lemah |
| 0.70–0.80 | Cukup |
| 0.80–0.90 | Baik |
| > 0.90 | Sangat baik — atau overfitting? Cek dulu! |
Note
ROC curve dan AUC tersedia di jamovi. Pembahasan mendalam tentang analisis ROC — termasuk PPV/NPV, Youden’s Index, dan penentuan cut-off optimal — ada di Bagian 4.
☐ Deskripsi variabel — outcome biner (0/1), distribusi prediktor
☐ Uji signifikansi model — Model χ², df, p (dari Likelihood Ratio Test)
☐ Pseudo R² — Nagelkerke R²
☐ Koefisien per prediktor — β, SE, Wald χ², p, OR, 95% CI
☐ Multikolinearitas — VIF
☐ Akurasi klasifikasi — akurasi keseluruhan, sensitivity, specificity
☐ AUC (opsional tapi dianjurkan)
☐ AIC/BIC jika membandingkan model
“Regresi logistik binomial dilakukan untuk memprediksi putus studi mahasiswa PJJ menggunakan tiga prediktor: jarak ke pokjar, kecemasan akademik awal, dan keterlibatan akademik. Model secara keseluruhan signifikan, χ²(3, N = 450) = 125.2, p < .001, Nagelkerke R² = .32. Model berhasil mengklasifikasikan 82.2% kasus dengan benar (sensitivity = 72.2%, specificity = 88.9%, AUC = .84).
Jarak ke pokjar secara signifikan memprediksi putus studi (OR = 1.05, 95% CI [1.02, 1.08], p < .001): setiap tambahan 10 km jarak dari pokjar, odds putus studi mahasiswa meningkat sebesar 63%. Keterlibatan akademik juga berperan signifikan (OR = 0.52, 95% CI [0.38, 0.71], p < .001) — mahasiswa dengan keterlibatan lebih tinggi memiliki odds putus studi yang lebih rendah. Kecemasan akademik awal tidak memprediksi putus studi secara signifikan (OR = 1.02, 95% CI [0.99, 1.05], p = .182).”
Jangan serahkan interpretasi ke pembaca — terjemahkan OR ke kalimat yang konkrit.
Contoh: OR = 1.05 untuk jarak ke pokjar (per 1 km)
Opsi 1 — Persentase perubahan odds: “Setiap tambahan 1 km jarak dari pokjar, odds putus studi naik 5%.”
Opsi 2 — Interval konkrit: “Mahasiswa yang tinggal 10 km lebih jauh punya odds putus studi 1.63 kali lebih tinggi.” (karena 1.05^10 = 1.63)
Opsi 3 — Perbandingan probabilitas: “Mahasiswa yang tinggal 5 km dari pokjar memiliki peluang ~20% putus studi; mahasiswa yang tinggal 15 km memiliki peluang ~30%.”
Warning
OR ≠ Risk Ratio (RR). Jangan tulis “X kali lebih mungkin” untuk OR — itu bahasa RR. OR harus dikatakan: “X kali lebih tinggi odds-nya” (Zhang & Yu, 1998, JAMA). Perbedaan ini penting terutama jika prevalensi outcome > 10%.
Mengaburkan OR dengan Risk Ratio — “X kali lebih mungkin” bukan cara yang benar untuk menginterpretasikan OR. Kata yang tepat: “X kali lebih tinggi odds-nya”.
Mengklaim kausalitas — Regresi logistik adalah korelasional. Kausalitas membutuhkan desain eksperimental atau quasi-eksperimental.
Mengabaikan multikolinearitas — “Usia” dan “tahun lahir” keduanya dimasukkan sebagai prediktor? Sudah pasti multikolinear.
Tidak memeriksa asumsi — Terutama linearitas dalam logit dan kemungkinan perfect separation.
Hanya melaporkan prediktor yang signifikan — Laporkan semua prediktor yang dimasukkan ke model — bukan cherry-pick yang p < .05.
EPV terlalu rendah — Events per variable (EPV): minimal 10 kejadian per prediktor. Dengan hanya 50 kejadian (events), jangan masukkan lebih dari 5 prediktor — estimasi akan tidak stabil.
dataset-social-support.omv)
Menjalankan regresi logistik:
Output yang harus dicek:
☑ Model Fit — Model χ², Nagelkerke R²
☑ Model Coefficients — β, OR, 95% CI, p
☑ Collinearity Statistics — VIF
☑ Prediction Table — akurasi, sensitivity, specificity
☑ ROC Curve — AUC
Urutan membaca output
Omnibus (Model χ²) → Pseudo R² → Koefisien per prediktor (OR + CI) → VIF → Akurasi klasifikasi → AUC
Note