Statistik dalam Penelitian Psikologi
2026-04-12
Gold standard
Gold standard adalah metode referensi terbaik yang tersedia — bisa berupa wawancara diagnostik terstruktur (misal: SCID, MINI), penilaian panel ahli, atau diagnosis resmi. Akurasi alat yang kita uji selalu relatif terhadap gold standard yang digunakan.
Mengapa tidak cukup hanya dengan korelasi?
Korelasi tinggi antara alat baru dan gold standard belum menjamin akurasi diagnostik yang baik — korelasi tidak memberikan informasi tentang cut-off optimal, sensitivity, atau specificity pada berbagai titik potong.
Dari Bagian 3 (Regresi Logistik), kita sudah mengenal confusion matrix. Di sini kita menggunakannya dalam konteks uji diagnostik: membandingkan hasil alat screening dengan gold standard.
| Gold standard: Negatif | Gold standard: Positif | |
|---|---|---|
| Alat: Negatif | TN (True Negative) | FN (False Negative) |
| Alat: Positif | FP (False Positive) | TP (True Positive) |
\[\text{Sensitivity} = \frac{TP}{TP + FN}\]
Pertanyaan yang dijawab: “Dari semua orang yang benar-benar mengalami gangguan, berapa persen yang berhasil dideteksi oleh alat ini?”
Note
Sensitivity juga dikenal sebagai True Positive Rate (TPR) atau Recall.
\[\text{Specificity} = \frac{TN}{TN + FP}\]
Pertanyaan yang dijawab: “Dari semua orang yang tidak mengalami gangguan, berapa persen yang benar-benar dinyatakan negatif oleh alat ini?”
Note
Specificity juga dikenal sebagai True Negative Rate (TNR). Kebalikannya (FP/(TN+FP)) disebut False Positive Rate (FPR) — sumbu X kurva ROC.
Konteks: N = 300; 90 orang dengan gangguan mental-emosional (SRQ-20 positif), 210 orang sehat
| Cut-off MHI = 50 | Gold standard: Sehat | Gold standard: Gangguan |
|---|---|---|
| MHI: Negatif (< 50) | TN = 168 | FN = 18 |
| MHI: Positif (≥ 50) | FP = 42 | TP = 72 |
\[\text{Sensitivity} = \frac{72}{72 + 18} = 0.80 \quad (80\%)\]
\[\text{Specificity} = \frac{168}{168 + 42} = 0.80 \quad (80\%)\]
Tip
Dengan cut-off 50, alat MHI berhasil mendeteksi 80% kasus gangguan dan 80% kasus sehat. Tetapi apakah ini cut-off yang optimal? Inilah yang akan dijawab oleh analisis ROC.
\[\text{PPV} = \frac{TP}{TP + FP}\]
Pertanyaan yang dijawab: “Jika alat menunjukkan hasil positif, seberapa besar kemungkinan orang ini benar-benar mengalami gangguan?”
Dari contoh tadi:
\[\text{PPV} = \frac{72}{72 + 42} = 0.63 \quad (63\%)\]
PPV bergantung pada prevalensi
PPV bukan sifat tetap dari alat ukur — ia sangat bergantung pada prevalensi gangguan dalam populasi yang dites. Alat yang sama akan menghasilkan PPV berbeda jika digunakan pada populasi dengan prevalensi berbeda.
\[\text{NPV} = \frac{TN}{TN + FN}\]
Pertanyaan yang dijawab: “Jika alat menunjukkan hasil negatif, seberapa besar kemungkinan orang ini benar-benar sehat?”
Dari contoh tadi:
\[\text{NPV} = \frac{168}{168 + 18} = 0.90 \quad (90\%)\]
Empat metrik dalam satu tabel:
| Metrik | Nilai | Pertanyaan |
|---|---|---|
| Sensitivity | 80% | Dari yang sakit, berapa % terdeteksi? |
| Specificity | 80% | Dari yang sehat, berapa % “lolos”? |
| PPV | 63% | Jika positif, seberapa yakin? |
| NPV | 90% | Jika negatif, seberapa yakin? |
Pemilihan cut-off adalah keputusan etis dan klinis
Tidak ada cut-off “terbaik” secara universal — pilihan tergantung pada:
Mengapa “Receiver Operating Characteristic”?
Nama ini berasal dari radar engineering di era Perang Dunia II — digunakan untuk mengevaluasi kemampuan sistem radar dalam memisahkan sinyal pesawat musuh dari noise. Konsep yang sama diterapkan dalam diagnostik medis dan psikologis sejak tahun 1970-an.
Definisi probabilistik: AUC adalah probabilitas bahwa apabila kita mengambil satu orang dengan gangguan dan satu orang sehat secara acak, alat akan memberikan skor yang lebih tinggi kepada orang dengan gangguan.
| AUC | Interpretasi |
|---|---|
| 0.50 | Tidak lebih baik dari tebakan acak — alat tidak bermanfaat |
| 0.60–0.70 | Lemah — performa terbatas, perlu perbaikan alat |
| 0.70–0.80 | Cukup — bisa digunakan dengan hati-hati |
| 0.80–0.90 | Baik — alat performa tinggi |
| 0.90–1.00 | Sangat baik — atau overfitting? Cek dulu! |
AUC bukan satu-satunya pertimbangan
AUC yang tinggi tidak secara otomatis berarti alat siap digunakan secara klinis. Pertimbangkan juga: sensitivity dan specificity pada cut-off yang dipilih, PPV/NPV dalam populasi target, dan kemudahan penggunaan alat.
Dari Bagian 3, kita sudah mengenal AUC sebagai ukuran performa model regresi logistik.
Confidence interval untuk AUC
Selalu laporkan 95% CI untuk AUC. Jika CI melewati 0.50, performa alat tidak berbeda secara signifikan dari tebakan acak.
\[J = \text{Sensitivity} + \text{Specificity} - 1\]
Kapan Youden’s Index tidak cukup?
Youden’s Index memperlakukan sensitivity dan specificity sebagai sama pentingnya. Jika konteks klinis menuntut prioritas berbeda (misalnya sensitivity lebih penting daripada specificity), gunakan fungsi utility atau pertimbangan klinis eksplisit dalam memilih cut-off.
Contoh tabel cut-off untuk alat MHI (sebagian):
| Cut-off | Sensitivity | Specificity | Youden’s J |
|---|---|---|---|
| 40 | 0.94 | 0.60 | 0.54 |
| 45 | 0.89 | 0.70 | 0.59 |
| 50 | 0.80 | 0.80 | 0.60 ← optimal |
| 55 | 0.69 | 0.88 | 0.57 |
| 60 | 0.53 | 0.93 | 0.46 |
Tip
Cut-off 50 memberikan Youden’s J tertinggi (0.60). Dalam jamovi, tabel ini tersedia secara otomatis melalui opsi Sensitivity-Specificity Tables di modul PPDA → TestROC.
Analisis ROC juga bisa digunakan untuk menjawab: “Dari dua alat screening ini, mana yang lebih akurat?”
Pertimbangan lain selain AUC
Bahkan jika dua alat memiliki AUC serupa, salah satunya mungkin lebih dipilih karena: lebih singkat (item lebih sedikit), lebih mudah dipahami peserta, biaya lebih rendah, atau memiliki profil sensitivity-specificity yang lebih sesuai dengan konteks penggunaan.
Sensitivity dan specificity adalah sifat intrinsik alat ukur — tidak berubah ketika prevalensi berubah. Tetapi PPV dan NPV sangat bergantung pada prevalensi.
Simulasi: alat dengan sensitivity = 80%, specificity = 80%
| Prevalensi | PPV | NPV |
|---|---|---|
| 50% (klinik psikiatri) | 80% | 80% |
| 30% (layanan primer) | 63% | 90% |
| 10% (skrining populasi umum) | 31% | 97% |
| 2% (skrining wajib semua orang) | 8% | >99% |
Implikasi untuk penggunaan alat
Jika alat skrining yang sama digunakan pada populasi dengan prevalensi sangat rendah (misalnya 2%), sebagian besar hasil “positif” adalah false positive — hanya 8% dari mereka yang dinyatakan positif benar-benar mengalami gangguan! Ini mempunyai konsekuensi etis yang serius.
Dataset: Dataset Contoh Analisis ROC (roc.omv)
Variabel:
Pertanyaan penelitian: Pada cut-off berapa MHI dapat memisahkan peserta dengan dan tanpa gangguan mental-emosional dengan optimal?
SRQ-20 adalah alat skrining standar WHO yang digunakan dalam RISKESDAS (2007, 2013, 2018) — sehingga menjadi gold standard yang tepat untuk konteks Indonesia.
Persiapan:
roc.omvMenjalankan TestROC:
Output yang harus diaktifkan:
☑ ROC Curves — visualisasi kurva ROC
☑ Standard error bars — confidence interval pada kurva
☑ Sensitivity-Specificity Tables — tabel untuk memilih cut-off
☑ AUC — area under the curve dan CI-nya
Urutan membaca output:
AUC (+ 95% CI) → Kurva ROC → Tabel cut-off → Pilih cut-off berdasarkan Youden’s J → Hitung PPV dan NPV
☐ Deskripsi alat dan gold standard — apa yang diukur, bagaimana gold standard ditetapkan
☐ Prevalensi dalam sampel — proporsi kasus positif
☐ AUC — nilai, 95% CI, dan interpretasi
☐ Cut-off yang dipilih — nilai dan justifikasinya (misalnya: Youden’s Index)
☐ Sensitivity dan specificity pada cut-off yang dipilih
☐ PPV dan NPV — sertakan catatan tentang prevalensi yang digunakan
☐ Kurva ROC — sertakan sebagai figur jika memungkinkan
“Analisis ROC dilakukan untuk menentukan cut-off optimal Mental Health Inventory (MHI) menggunakan keputusan diagnostik SRQ-20 WHO sebagai gold standard (N = 300; prevalensi gangguan mental-emosional = 30%). AUC = 0.87 (95% CI [0.82, 0.92]), mengindikasikan performa diagnostik yang baik.
Berdasarkan Youden’s Index, cut-off optimal MHI adalah ≥ 50 (J = 0.60), dengan sensitivity = 80%, specificity = 80%, PPV = 63%, dan NPV = 90%. Temuan ini menunjukkan bahwa MHI memiliki performa diagnostik yang memadai untuk digunakan sebagai alat screening pada populasi layanan kesehatan primer dengan prevalensi setara.”
Ingat batasan pelaporan PPV/NPV
Selalu sebutkan prevalensi yang digunakan saat menghitung PPV dan NPV — karena nilai tersebut tidak berlaku untuk populasi dengan prevalensi yang berbeda.
Menggunakan cut-off dari literatur tanpa validasi lokal — cut-off yang optimal di satu populasi (misal: Barat, klinik spesialis) mungkin tidak optimal di populasi yang berbeda (misal: Indonesia, layanan primer). Selalu validasi secara lokal.
Mengabaikan konteks ketika memilih cut-off — Youden’s Index hanyalah titik awal. Keputusan klinis akhir harus mempertimbangkan konsekuensi false negative vs false positive yang spesifik untuk konteks penggunaan.
Melaporkan PPV/NPV tanpa menyebutkan prevalensi — PPV = 63% tidak bermakna tanpa informasi bahwa angka itu dihitung pada prevalensi 30%. Pembaca yang menggunakan alat di populasi dengan prevalensi 10% akan mendapat gambaran yang sangat menyesatkan.
Note