Analisis ROC (Receiver Operating Characteristic)

Statistik dalam Penelitian Psikologi

Rizqy Amelia Zein

Departemen Psikologi, Universitas Airlangga

Research Data & Methods Team, Center for Advanced Internet Studies

2026-04-12

Outline

Uji diagnostik dalam psikologi: konteks dan permasalahan
Review: confusion matrix, sensitivity, dan specificity
Positive Predictive Value (PPV) dan Negative Predictive Value (NPV)
Trade-off antara sensitivity dan specificity
Kurva ROC: cara membangun dan membacanya
Area Under the Curve (AUC): ringkasan performa dalam satu angka
Youden’s Index: menentukan cut-off optimal
Membandingkan beberapa alat ukur sekaligus
Pengaruh prevalensi pada PPV dan NPV
Demonstrasi di jamovi
Pelaporan hasil

Uji diagnostik dalam psikologi

Apa yang ingin kita ketahui?

Seorang psikolog klinis ingin membuat screening tool sederhana untuk mendeteksi dini gejala depresi pada mahasiswa baru.
Setelah mengembangkan alat tersebut, ia perlu menjawab pertanyaan: seberapa akurat alat ini dalam memisahkan antara mahasiswa yang mengalami depresi dengan yang tidak?
Untuk menjawabnya, ia membandingkan hasil ukur alat barunya dengan hasil asesmen mendalam oleh psikolog klinis berlisensi sebagai gold standard.
Perbandingan inilah yang menjadi inti analisis ROC.

Gold standard

Gold standard adalah metode referensi terbaik yang tersedia — bisa berupa wawancara diagnostik terstruktur (misal: SCID, MINI), penilaian panel ahli, atau diagnosis resmi. Akurasi alat yang kita uji selalu relatif terhadap gold standard yang digunakan.

Contoh-contoh uji diagnostik dalam psikologi

Skrining depresi: PHQ-9 dibandingkan dengan wawancara SCID sebagai gold standard
Deteksi gangguan kecemasan: GAD-7 dibandingkan dengan diagnosis klinis DSM-5
Skrining burnout: alat screening singkat dibandingkan dengan MBI (Maslach Burnout Inventory) penuh
Deteksi mental health umum: Self-Reporting Questionnaire (SRQ-20 WHO) digunakan untuk memisahkan populasi dengan dan tanpa gangguan mental-emosional di layanan kesehatan primer

Mengapa tidak cukup hanya dengan korelasi?

Korelasi tinggi antara alat baru dan gold standard belum menjamin akurasi diagnostik yang baik — korelasi tidak memberikan informasi tentang cut-off optimal, sensitivity, atau specificity pada berbagai titik potong.

Confusion matrix: fondasi evaluasi diagnostik

Review dari Bagian 3

Dari Bagian 3 (Regresi Logistik), kita sudah mengenal confusion matrix. Di sini kita menggunakannya dalam konteks uji diagnostik: membandingkan hasil alat screening dengan gold standard.

	Gold standard: Negatif	Gold standard: Positif
Alat: Negatif	TN (True Negative)	FN (False Negative)
Alat: Positif	FP (False Positive)	TP (True Positive)

TP: Alat mengatakan positif — dan memang positif ✓
TN: Alat mengatakan negatif — dan memang negatif ✓
FP: Alat mengatakan positif — padahal negatif ✗ (false alarm)
FN: Alat mengatakan negatif — padahal positif ✗ (miss)

Sensitivity — kemampuan mendeteksi yang sakit

\[\text{Sensitivity} = \frac{TP}{TP + FN}\]

Pertanyaan yang dijawab: “Dari semua orang yang benar-benar mengalami gangguan, berapa persen yang berhasil dideteksi oleh alat ini?”

Sensitivity tinggi berarti sedikit false negative — kasus yang sakit jarang terlewat
Sangat penting ketika konsekuensi miss sangat besar: skrining risiko bunuh diri, skrining gangguan psikosis dini, skrining kekerasan dalam rumah tangga
Sensitivity = 1.0 berarti alat tidak pernah melewatkan satu pun kasus positif — tapi biasanya dicapai dengan mengorbankan specificity

Note

Sensitivity juga dikenal sebagai True Positive Rate (TPR) atau Recall.

Specificity — kemampuan membebaskan yang sehat

\[\text{Specificity} = \frac{TN}{TN + FP}\]

Pertanyaan yang dijawab: “Dari semua orang yang tidak mengalami gangguan, berapa persen yang benar-benar dinyatakan negatif oleh alat ini?”

Specificity tinggi berarti sedikit false positive — orang sehat jarang salah diklasifikasikan
Sangat penting ketika konsekuensi false alarm sangat besar: stigma, intervensi yang tidak perlu, biaya yang tinggi, keputusan seleksi/rekrutmen
Specificity = 1.0 berarti alat tidak pernah salah mengklasifikasikan orang sehat sebagai positif

Note

Specificity juga dikenal sebagai True Negative Rate (TNR). Kebalikannya (FP/(TN+FP)) disebut False Positive Rate (FPR) — sumbu X kurva ROC.

Contoh: SRQ-20 sebagai gold standard, MHI sebagai alat yang diuji

Konteks: N = 300; 90 orang dengan gangguan mental-emosional (SRQ-20 positif), 210 orang sehat

Cut-off MHI = 50	Gold standard: Sehat	Gold standard: Gangguan
MHI: Negatif (< 50)	TN = 168	FN = 18
MHI: Positif (≥ 50)	FP = 42	TP = 72

\[\text{Sensitivity} = \frac{72}{72 + 18} = 0.80 \quad (80\%)\]

\[\text{Specificity} = \frac{168}{168 + 42} = 0.80 \quad (80\%)\]

Tip

Dengan cut-off 50, alat MHI berhasil mendeteksi 80% kasus gangguan dan 80% kasus sehat. Tetapi apakah ini cut-off yang optimal? Inilah yang akan dijawab oleh analisis ROC.

PPV dan NPV: nilai prediktif dalam konteks klinis

Positive Predictive Value (PPV)

\[\text{PPV} = \frac{TP}{TP + FP}\]

Pertanyaan yang dijawab: “Jika alat menunjukkan hasil positif, seberapa besar kemungkinan orang ini benar-benar mengalami gangguan?”

Dari contoh tadi:

\[\text{PPV} = \frac{72}{72 + 42} = 0.63 \quad (63\%)\]

PPV bergantung pada prevalensi

PPV bukan sifat tetap dari alat ukur — ia sangat bergantung pada prevalensi gangguan dalam populasi yang dites. Alat yang sama akan menghasilkan PPV berbeda jika digunakan pada populasi dengan prevalensi berbeda.

Negative Predictive Value (NPV)

\[\text{NPV} = \frac{TN}{TN + FN}\]

Pertanyaan yang dijawab: “Jika alat menunjukkan hasil negatif, seberapa besar kemungkinan orang ini benar-benar sehat?”

Dari contoh tadi:

\[\text{NPV} = \frac{168}{168 + 18} = 0.90 \quad (90\%)\]

Empat metrik dalam satu tabel:

Metrik	Nilai	Pertanyaan
Sensitivity	80%	Dari yang sakit, berapa % terdeteksi?
Specificity	80%	Dari yang sehat, berapa % “lolos”?
PPV	63%	Jika positif, seberapa yakin?
NPV	90%	Jika negatif, seberapa yakin?

Sensitivity vs specificity: dua tujuan yang saling tarik-menarik

Setiap alat diagnostik memiliki satu distribusi skor untuk kelompok “positif” (cases) dan satu untuk kelompok “negatif” (controls).
Ketika dua distribusi ini saling tumpang tindih, tidak ada cut-off yang bisa memisahkan keduanya dengan sempurna.
Menurunkan cut-off → sensitivity naik (lebih banyak kasus tertangkap) tapi specificity turun (lebih banyak false alarm).
Menaikkan cut-off → specificity naik (lebih sedikit false alarm) tapi sensitivity turun (lebih banyak kasus terlewat).

Pemilihan cut-off adalah keputusan etis dan klinis

Tidak ada cut-off “terbaik” secara universal — pilihan tergantung pada:

Konsekuensi false negative vs false positive
Biaya intervensi
Prevalensi gangguan
Konteks penggunaan (skrining vs diagnosis formal)

Kurva ROC

Apa itu kurva ROC?

Kurva ROC (Receiver Operating Characteristic) adalah visualisasi performa diagnostik sebuah alat di semua nilai cut-off yang mungkin secara bersamaan.
Untuk setiap cut-off, kita menghitung sensitivity (TPR) dan false positive rate (1 − specificity), lalu memplotnya:
- Sumbu Y: Sensitivity (TPR) — 0 sampai 1
- Sumbu X: False Positive Rate (1 − Specificity) — 0 sampai 1
Garis diagonal (dari [0,0] ke [1,1]) = kinerja alat yang setara dengan tebakan acak (no discrimination).
Kurva yang melengkung jauh ke sudut kiri atas menunjukkan alat yang baik: sensitivity tinggi tanpa banyak false positive.

Membaca kurva ROC

Sudut kiri atas [0, 1] = titik ideal: sensitivity = 1 dan false positive rate = 0 — alat sempurna.
Garis diagonal = kinerja acak — tidak lebih baik dari koin yang dilempar.
Titik-titik di sepanjang kurva merepresentasikan performa pada berbagai nilai cut-off.
Semakin tinggi cut-off, titik bergerak ke kiri bawah (sensitivity turun, specificity naik).
Semakin rendah cut-off, titik bergerak ke kanan atas (sensitivity naik, specificity turun).

Mengapa “Receiver Operating Characteristic”?

Nama ini berasal dari radar engineering di era Perang Dunia II — digunakan untuk mengevaluasi kemampuan sistem radar dalam memisahkan sinyal pesawat musuh dari noise. Konsep yang sama diterapkan dalam diagnostik medis dan psikologis sejak tahun 1970-an.

Area Under the Curve (AUC)

AUC — satu angka untuk merangkum keseluruhan performa

Definisi probabilistik: AUC adalah probabilitas bahwa apabila kita mengambil satu orang dengan gangguan dan satu orang sehat secara acak, alat akan memberikan skor yang lebih tinggi kepada orang dengan gangguan.

AUC	Interpretasi
0.50	Tidak lebih baik dari tebakan acak — alat tidak bermanfaat
0.60–0.70	Lemah — performa terbatas, perlu perbaikan alat
0.70–0.80	Cukup — bisa digunakan dengan hati-hati
0.80–0.90	Baik — alat performa tinggi
0.90–1.00	Sangat baik — atau overfitting? Cek dulu!

AUC bukan satu-satunya pertimbangan

AUC yang tinggi tidak secara otomatis berarti alat siap digunakan secara klinis. Pertimbangkan juga: sensitivity dan specificity pada cut-off yang dipilih, PPV/NPV dalam populasi target, dan kemudahan penggunaan alat.

AUC: perbandingan dengan konteks yang sudah familiar

Dari Bagian 3, kita sudah mengenal AUC sebagai ukuran performa model regresi logistik.

Di Bagian 3, AUC mengukur seberapa baik model regresi logistik (dengan semua prediktornya) memisahkan kasus positif dari negatif.
Di analisis ROC ini, AUC mengukur seberapa baik satu alat ukur tunggal (dengan berbagai cut-off) memisahkan kasus positif dari negatif.
Prinsip interpretasinya sama persis — yang berbeda adalah objek yang dievaluasi: model multivariat vs. satu alat ukur dengan ambang batas.

Confidence interval untuk AUC

Selalu laporkan 95% CI untuk AUC. Jika CI melewati 0.50, performa alat tidak berbeda secara signifikan dari tebakan acak.

Youden’s Index: cut-off optimal

Apa itu Youden’s Index?

\[J = \text{Sensitivity} + \text{Specificity} - 1\]

Youden’s Index (J) adalah ukuran yang menyeimbangkan sensitivity dan specificity dalam satu angka.
Nilainya berkisar dari 0 (kinerja setara tebakan) hingga 1 (kinerja sempurna).
Cut-off optimal berdasarkan Youden’s Index adalah nilai cut-off yang memaksimalkan J — yang memberikan kombinasi sensitivity + specificity tertinggi.
Ini merupakan titik pada kurva ROC yang paling jauh dari garis diagonal ke arah sudut kiri atas.

Kapan Youden’s Index tidak cukup?

Youden’s Index memperlakukan sensitivity dan specificity sebagai sama pentingnya. Jika konteks klinis menuntut prioritas berbeda (misalnya sensitivity lebih penting daripada specificity), gunakan fungsi utility atau pertimbangan klinis eksplisit dalam memilih cut-off.

Tabel sensitivity-specificity: memilih cut-off dengan tepat

Contoh tabel cut-off untuk alat MHI (sebagian):

Cut-off	Sensitivity	Specificity	Youden’s J
40	0.94	0.60	0.54
45	0.89	0.70	0.59
50	0.80	0.80	0.60 ← optimal
55	0.69	0.88	0.57
60	0.53	0.93	0.46

Tip

Cut-off 50 memberikan Youden’s J tertinggi (0.60). Dalam jamovi, tabel ini tersedia secara otomatis melalui opsi Sensitivity-Specificity Tables di modul PPDA → TestROC.

Membandingkan beberapa alat ukur

ROC untuk membandingkan dua tes sekaligus

Analisis ROC juga bisa digunakan untuk menjawab: “Dari dua alat screening ini, mana yang lebih akurat?”

Buat kurva ROC untuk masing-masing alat pada sampel yang sama dengan gold standard yang sama.
Bandingkan AUC kedua alat — alat dengan AUC lebih tinggi secara umum lebih akurat.
Gunakan uji signifikansi untuk membandingkan AUC (metode DeLong et al., 1988) — tersedia di jamovi PPDA.
Jika interval kepercayaan AUC kedua alat saling tumpang tindih, perbedaan mungkin tidak signifikan secara statistik.

Pertimbangan lain selain AUC

Bahkan jika dua alat memiliki AUC serupa, salah satunya mungkin lebih dipilih karena: lebih singkat (item lebih sedikit), lebih mudah dipahami peserta, biaya lebih rendah, atau memiliki profil sensitivity-specificity yang lebih sesuai dengan konteks penggunaan.

Pengaruh prevalensi pada PPV dan NPV

Mengapa prevalensi sangat penting?

Sensitivity dan specificity adalah sifat intrinsik alat ukur — tidak berubah ketika prevalensi berubah. Tetapi PPV dan NPV sangat bergantung pada prevalensi.

Simulasi: alat dengan sensitivity = 80%, specificity = 80%

Prevalensi	PPV	NPV
50% (klinik psikiatri)	80%	80%
30% (layanan primer)	63%	90%
10% (skrining populasi umum)	31%	97%
2% (skrining wajib semua orang)	8%	>99%

Implikasi untuk penggunaan alat

Jika alat skrining yang sama digunakan pada populasi dengan prevalensi sangat rendah (misalnya 2%), sebagian besar hasil “positif” adalah false positive — hanya 8% dari mereka yang dinyatakan positif benar-benar mengalami gangguan! Ini mempunyai konsekuensi etis yang serius.

Demonstrasi di jamovi

Konteks: MHI vs SRQ-20

Dataset: Dataset Contoh Analisis ROC (roc.omv)
- Dapat diunduh dari navbar di laman mata kuliah
Variabel:
- MentalHealthIndex: skor total Mental Health Inventory (MHI) yang ingin diuji akurasinya
- SRQ_Diagnostik: keputusan diagnosis berdasarkan Self-Reporting Questionnaire (SRQ-20 WHO) — digunakan sebagai gold standard
Pertanyaan penelitian: Pada cut-off berapa MHI dapat memisahkan peserta dengan dan tanpa gangguan mental-emosional dengan optimal?
SRQ-20 adalah alat skrining standar WHO yang digunakan dalam RISKESDAS (2007, 2013, 2018) — sehingga menjadi gold standard yang tepat untuk konteks Indonesia.

Langkah-langkah di jamovi

Persiapan:

Pasang module PPDA terlebih dahulu
- Menu ☰ → Manage modules → Available → PPDA
Buka dataset roc.omv
Pastikan variabel diagnostik (gold standard) sudah dalam format kategorikal (0 = negatif, 1 = positif)

Menjalankan TestROC:

PPDA → TestROC
Masukkan MentalHealthIndex ke kolom Dependent Variable
Masukkan SRQ_Diagnostik ke kolom Class Variable

Output yang harus diaktifkan:

☑ ROC Curves — visualisasi kurva ROC

☑ Standard error bars — confidence interval pada kurva

☑ Sensitivity-Specificity Tables — tabel untuk memilih cut-off

☑ AUC — area under the curve dan CI-nya

Urutan membaca output:

AUC (+ 95% CI) → Kurva ROC → Tabel cut-off → Pilih cut-off berdasarkan Youden’s J → Hitung PPV dan NPV

Checklist pelaporan analisis ROC

☐ Deskripsi alat dan gold standard — apa yang diukur, bagaimana gold standard ditetapkan

☐ Prevalensi dalam sampel — proporsi kasus positif

☐ AUC — nilai, 95% CI, dan interpretasi

☐ Cut-off yang dipilih — nilai dan justifikasinya (misalnya: Youden’s Index)

☐ Sensitivity dan specificity pada cut-off yang dipilih

☐ PPV dan NPV — sertakan catatan tentang prevalensi yang digunakan

☐ Kurva ROC — sertakan sebagai figur jika memungkinkan

Contoh paragraf hasil

“Analisis ROC dilakukan untuk menentukan cut-off optimal Mental Health Inventory (MHI) menggunakan keputusan diagnostik SRQ-20 WHO sebagai gold standard (N = 300; prevalensi gangguan mental-emosional = 30%). AUC = 0.87 (95% CI [0.82, 0.92]), mengindikasikan performa diagnostik yang baik.

Berdasarkan Youden’s Index, cut-off optimal MHI adalah ≥ 50 (J = 0.60), dengan sensitivity = 80%, specificity = 80%, PPV = 63%, dan NPV = 90%. Temuan ini menunjukkan bahwa MHI memiliki performa diagnostik yang memadai untuk digunakan sebagai alat screening pada populasi layanan kesehatan primer dengan prevalensi setara.”

Ingat batasan pelaporan PPV/NPV

Selalu sebutkan prevalensi yang digunakan saat menghitung PPV dan NPV — karena nilai tersebut tidak berlaku untuk populasi dengan prevalensi yang berbeda.

Tiga kesalahan umum dalam analisis ROC

Menggunakan cut-off dari literatur tanpa validasi lokal — cut-off yang optimal di satu populasi (misal: Barat, klinik spesialis) mungkin tidak optimal di populasi yang berbeda (misal: Indonesia, layanan primer). Selalu validasi secara lokal.
Mengabaikan konteks ketika memilih cut-off — Youden’s Index hanyalah titik awal. Keputusan klinis akhir harus mempertimbangkan konsekuensi false negative vs false positive yang spesifik untuk konteks penggunaan.
Melaporkan PPV/NPV tanpa menyebutkan prevalensi — PPV = 63% tidak bermakna tanpa informasi bahwa angka itu dihitung pada prevalensi 30%. Pembaca yang menggunakan alat di populasi dengan prevalensi 10% akan mendapat gambaran yang sangat menyesatkan.

Ada pertanyaan❓

Note

Paparan disusun dengan menggunakan dan Quarto dengan template dari UNAIR Theme.
Kontak saya via amelia.zein@psikologi.unair.ac.id