Statistik Dasar dalam Penelitian Psikologi
2026-04-25
Esmeralda menjual permen yang konon bisa menyembuhkan diare. Kita ingin tahu: apakah permen itu benar-benar efektif, atau hanya efek plasebo belaka?
Logika uji hipotesis:
Note
Ini adalah logika falsifikasionis dari Karl Popper: kita tidak bisa membuktikan kebenaran suatu klaim, tetapi kita bisa menguji seberapa tidak konsisten data kita dengan asumsi bahwa klaim itu salah.
Prosedur standar NHST:
Important
Perhatikan bahasa yang tepat: kita “gagal menolak” \(H_0\), bukan “menerima \(H_0\)”. Tidak menemukan bukti penolakan ≠ bukti tidak ada efek.
Hipotesis nol (\(H_0\))
Hipotesis alternatif (\(H_1\))
Uji dua sisi (two-tailed)
\[H_1: \mu_1 \neq \mu_2\]
Uji satu sisi (one-tailed)
\[H_1: \mu_1 > \mu_2 \text{ atau } \mu_1 < \mu_2\]
Dalam pengujian hipotesis, ada empat kemungkinan hasil — dua di antaranya adalah kesalahan:
| \(H_0\) benar (permen tidak efektif) | \(H_0\) salah (permen efektif) | |
|---|---|---|
| Tolak \(H_0\) (uji mengatakan efektif) | False Positive / Type I error (α) | True Positive ✅ |
| Gagal menolak \(H_0\) (uji mengatakan tidak efektif) | True Negative ✅ | False Negative / Type II error (β) |
Important
Kita tidak pernah tahu hasil mana yang sebenarnya terjadi dalam penelitian nyata — kita hanya mengontrol probabilitas membuat kesalahan tersebut.
Contoh:
Kita menyimpulkan permen Esmeralda efektif menyembuhkan diare, padahal permen itu tidak lebih baik dari plasebo. Esmeralda untung, konsumen dirugikan.
Note
Standar α = 0.05 bukan hukum alam — ini konvensi yang ditetapkan oleh Ronald Fisher. Beberapa bidang (fisika partikel, genomik) menggunakan α yang jauh lebih ketat (misalnya, 5 × 10⁻⁸).
Contoh:
Studi kita menyimpulkan permen Esmeralda tidak efektif, padahal sebenarnya permen itu memang membantu. Esmeralda tidak bisa berjualan, padahal produknya bagus.
Note
β dan α berada dalam hubungan trade-off: menurunkan α (lebih ketat) akan meningkatkan β (lebih banyak false negative), dan sebaliknya. Untuk mengurangi keduanya sekaligus, satu-satunya cara adalah memperbesar ukuran sampel.
Bayangkan kita menguji 100 klaim berbeda, di mana masing-masing punya peluang 50/50 untuk benar (50 klaim efektif, 50 tidak efektif).
Dengan α = 0.05 dan power = 80% (β = 20%):
| H₀ benar (50 klaim) | H₀ salah (50 klaim) | Total | |
|---|---|---|---|
| Tolak H₀ | 2-3 (false positive) | 40 (true positive) | ~42-43 |
| Gagal tolak H₀ | ~48 (true negative) | 10 (false negative) | ~58 |
Important
Dari ~42-43 hasil “signifikan”, 2-3 di antaranya adalah kesalahan (false positive). Semakin rendah base rate kebenaran klaim (misalnya bidang preklinik), semakin besar proporsi false positive di antara hasil signifikan — inilah salah satu akar replication crisis.
\[\text{Power} = 1 - \beta\]
Faktor yang memengaruhi power:
Tip
Power yang rendah bukan hanya membuang-buang sumber daya (sampel terlalu kecil) — ia juga menghasilkan estimasi efek yang inflated (winner’s curse): hanya efek yang besar secara kebetulan yang bisa melewati threshold signifikansi.
Meningkatkan power dengan:
Important
Jangan menambah sampel setelah melihat data (optional stopping)
Menambah sampel hanya ketika p mendekati 0.05 — lalu berhenti ketika signifikan — adalah bentuk p-hacking yang menggelembungkan false positive rate secara dramatis.
Important
Signifikansi statistik ≠ signifikansi praktis
Dengan N yang sangat besar, perbedaan yang sangat kecil pun akan signifikan secara statistik. Selalu laporkan effect size bersama p-value.
Untuk membandingkan dua mean (t-test), ukuran efek yang paling umum adalah Cohen’s d:
\[d = \frac{\bar{X}_1 - \bar{X}_2}{s_{\text{pooled}}}\]
Di mana \(s_{\text{pooled}}\) adalah standar deviasi yang digabungkan dari kedua kelompok.
Interpretasi (konvensi Cohen, 1988):
| Cohen’s d | Interpretasi |
|---|---|
| 0.2 | Efek kecil (small) |
| 0.5 | Efek sedang (medium) |
| 0.8 | Efek besar (large) |
Note
Cohen sendiri meminta agar benchmark ini tidak digunakan secara mekanis — besaran efek yang “kecil” bisa sangat bermakna di bidang kebijakan publik (misalnya vaksin yang mengurangi kematian 0.2%), tapi tidak berarti di konteks klinis. Selalu interpretasikan d dalam konteks bidang dan pertanyaan penelitian kalian.
| Ukuran efek | Digunakan untuk | Rentang nilai |
|---|---|---|
| Cohen’s d | Perbedaan dua mean (t-test) | Tak terbatas, biasanya 0–3 |
| η² (eta-squared) | ANOVA — proporsi varians yang dijelaskan | 0–1 |
| ω² (omega-squared) | Alternatif η² yang lebih unbiased | 0–1 |
| r Pearson | Korelasi dua variabel kontinu | -1 – +1 |
| Cramér’s V | Asosiasi dua variabel kategorikal | 0–1 |
| Odds ratio (OR) | Perbandingan odds antar kelompok | 0–∞ |
Tip
Pelaporan standar APA (edisi ke-7) mewajibkan pelaporan effect size untuk semua analisis inferensial. Jamovi secara default sudah menyediakan effect size — manfaatkan fitur ini.
Dua pendekatan analisis power:
Important
Hindari post-hoc power analysis
“Observed power” yang dihitung setelah studi hanya mencerminkan ulang p-value — ia tidak memberikan informasi tambahan yang berguna. Lakukan analisis power sebelum mengumpulkan data.
G*Power adalah program gratis untuk menghitung ukuran sampel dan power analisis.
Parameter yang perlu ditentukan:
| Parameter | Keterangan |
|---|---|
| Effect size | Besaran efek yang ingin dideteksi (dari literatur atau pertimbangan teoritis) |
| α (sig. level) | Tingkat signifikansi (biasanya 0.05) |
| Power (1-β) | Biasanya 0.80 atau 0.95 |
| Tails | Satu sisi atau dua sisi |
Rafael ingin menguji apakah obat diare barunya lebih efektif dari plasebo. Dari literatur, ia memperkirakan efek kecil (Cohen’s d = 0.2). Ia menggunakan α = 0.05 dan menginginkan power 80%.
Langkah di G*Power (Independent Samples t-test):
Hasil: N = 788 (394 per kelompok)
Note
Efek kecil membutuhkan sampel yang sangat besar untuk dideteksi. Ini menjelaskan mengapa banyak studi psikologi klasik dengan N < 100 hampir mustahil mendeteksi efek kecil yang sesungguhnya.
Marimar ingin menguji apakah sesi hipnosis mengurangi kecemasan mahasiswa sebelum ujian. Ia menggunakan desain within-subjects (sebelum dan sesudah hipnosis), memperkirakan efek sedang (Cohen’s d = 0.5), dan menggunakan uji satu sisi karena hipnosis diprediksi menurunkan kecemasan.
Langkah di G*Power (Paired Samples t-test):
Hasil: N = 27
Tip
Desain within-subjects jauh lebih efisien — hanya perlu 27 orang dibanding 788 untuk efek dua kali lebih besar! Ini karena kita mengontrol variabilitas antar-individu dengan menggunakan orang yang sama sebagai kontrol mereka sendiri.
Kalian berencana meneliti perbedaan skor stres (perceived stress scale, PSS) antara mahasiswa yang tinggal di kos dan yang tinggal bersama keluarga di Surabaya.
Pertanyaan untuk didiskusikan:
Konsep inti NHST:
Pelaporan yang baik:
Tip
Materi berikutnya akan menerapkan logika NHST ini ke analisis konkret: t-test (perbedaan mean), analisis kategorikal (\(\chi^2\)), korelasi, ANOVA, dan regresi. Semua teknik itu hanyalah spesialisasi dari kerangka yang sama yang baru saja kita pelajari.
Note