Statistik Dasar dalam Penelitian Psikologi
2026-04-25
Bayangkan Alfonso mengukur durasi membaca kucing pada minggu ke-1, ke-2, dan ke-3 dari kucing yang sama. Jika ia menjalankan ANOVA satu jalur biasa:
Masalah: Observasi tidak independen!
Kucing yang membaca lama di minggu ke-1 cenderung juga membaca lama di minggu ke-2 dan ke-3. Ini bukan karena perlakuan, tapi karena karakteristik individu kucing tersebut.
Important
ANOVA satu jalur mengasumsikan bahwa semua observasi independen satu sama lain. Ketika subjek yang sama diukur berulang kali, asumsi ini dilanggar — dan p-value yang dihasilkan tidak valid.
Repeated Measures ANOVA (RM-ANOVA) — disebut juga within-subjects ANOVA atau related ANOVA — dirancang khusus untuk situasi di mana subjek yang sama diukur pada tiga atau lebih kondisi/waktu pengukuran.
Kapan digunakan:
Keunggulan dibanding between-subjects ANOVA:
Dalam ANOVA satu jalur biasa: \[SS_{\text{tot}} = SS_{\text{between}} + SS_{\text{within}}\]
Dalam RM-ANOVA, \(SS_{\text{within}}\) dipartisi lebih lanjut: \[SS_{\text{within}} = SS_{\text{perlakuan}} + SS_{\text{individu}} + SS_{\text{error}}\]
| Komponen | Interpretasi |
|---|---|
| \(SS_{\text{perlakuan}}\) | Perubahan akibat kondisi/waktu pengukuran |
| \(SS_{\text{individu}}\) | Perbedaan antar-individu yang konsisten (dikontrol) |
| \(SS_{\text{error}}\) | Sisa variabilitas yang tidak dapat dijelaskan |
Note
Dengan “mengeluarkan” \(SS_{\text{individu}}\) dari error, denominator rasio F menjadi lebih kecil — sehingga F lebih besar dan power meningkat.
Alfonso ingin mengetahui apakah memperdengarkan musik klasik secara rutin dapat meningkatkan durasi membaca kucing. Ia memilih satu kelompok kucing dan:
Variabel:
Dataset: minat-baca.omv
| Waktu | Mean (detik) | SD |
|---|---|---|
| Minggu ke-1 | 42.3 | 8.14 |
| Minggu ke-2 | 78.6 | 11.5 |
| Minggu ke-3 | 130.4 | 14.2 |
Secara deskriptif, durasi membaca meningkat dari minggu ke minggu. Namun apakah perbedaan ini signifikan secara statistik?
Note
Dalam RM-ANOVA, kita membandingkan apakah mean antar kondisi berbeda, setelah mengontrol variabilitas antar-individu. Ini membuat uji lebih sensitif dibanding ANOVA biasa.
Sphericity adalah asumsi kritis RM-ANOVA yang menyatakan bahwa varians dari perbedaan antara semua pasangan kondisi adalah sama.
Lebih mudahnya: varians dari (Minggu 2 − Minggu 1), (Minggu 3 − Minggu 1), dan (Minggu 3 − Minggu 2) harus kurang lebih sama.
Important
Ketika asumsi sphericity dilanggar, rasio F dari RM-ANOVA terlalu besar (inflated) — artinya kita akan terlalu sering menolak \(H_0\) yang benar (Type I error meningkat). Uji F standar tidak valid jika sphericity dilanggar.
Catatan penting:
Mauchly’s W menguji apakah asumsi sphericity terpenuhi:
\[H_0: \text{asumsi } sphericity \text{ terpenuhi}\] \[H_a: \text{asumsi } sphericity \text{ dilanggar}\]
Cara membaca:
| Hasil Mauchly’s W | Tindakan |
|---|---|
| p ≥ .05 | Asumsi terpenuhi — gunakan F tanpa koreksi |
| p < .05 | Asumsi dilanggar — terapkan koreksi df |
Pada studi Alfonso: Mauchly’s W = 0.812, p = .043 → asumsi sphericity dilanggar — perlu koreksi.
Ketika sphericity dilanggar, kita menyesuaikan degrees of freedom menggunakan faktor koreksi ε (epsilon):
\[F_{\text{corrected}} \text{ menggunakan } df^* = df \times \varepsilon\]
Dua pilihan koreksi:
Greenhouse-Geisser (GG)
Huynh-Feldt (HF)
Tip
Aturan praktis: periksa nilai ε Greenhouse-Geisser terlebih dahulu. Jika ε < 0.75, gunakan koreksi GG. Jika ε ≥ 0.75, gunakan koreksi HF (lebih powerful). Pada studi Alfonso: ε = 0.831 > 0.75 → gunakan koreksi Huynh-Feldt.
jamovijamoviBuka dataset kucing-membaca.omv, kemudian:
Output Mauchly’s W di jamovi:
| Mauchly’s W | p | ε (Greenhouse-Geisser) | ε (Huynh-Feldt) |
|---|---|---|---|
| 0.812 | .043 | 0.831 | 0.921 |
p = .043 < .05 → sphericity dilanggar → gunakan koreksi.
ε (GG) = 0.831 > 0.75 → gunakan Huynh-Feldt.
Note
Jamovi secara otomatis menampilkan tabel ANOVA dengan koreksi GG dan HF. Pilih baris yang sesuai dengan nilai ε yang relevan untuk pelaporan.
Tabel RM-ANOVA (dengan koreksi HF):
| Sumber | F | df (HF) | p | η² | η²G |
|---|---|---|---|---|---|
| waktu | 3292.4 | 1.843, 182.4 | < .001 | 0.957 | 0.957 |
| Residuals | — | 182.4 | — | — | — |
Cara melaporkan:
“Terdapat perbedaan yang signifikan dalam durasi membaca kucing antara minggu ke-1, ke-2, dan ke-3, F(1.843, 182.4) = 3292.4, p < .001, η²G = 0.957 — efek yang sangat besar.”
Important
Perhatikan bahwa df yang dilaporkan adalah df setelah dikoreksi (bukan integer bulat). Ini menandakan bahwa koreksi sphericity telah diterapkan.
Untuk RM-ANOVA, ada dua ukuran effect size yang relevan:
\[\eta^2 = \frac{SS_{\text{perlakuan}}}{SS_{\text{perlakuan}} + SS_{\text{error}}}\]
\[\eta^2_G = \frac{SS_{\text{perlakuan}}}{SS_{\text{perlakuan}} + SS_{\text{individu}} + SS_{\text{error}}}\]
| η² | η²G (Generalisasi) | |
|---|---|---|
| Penyebut | Hanya SS error | SS total termasuk SS individu |
| Interpretasi | Bisa melebih-lebihkan ES | Lebih konservatif dan dapat dibandingkan antar desain |
| Rekomendasi | Kurang disarankan | Lebih disarankan untuk perbandingan lintas studi |
Tip
Gunakan η²G jika kalian ingin membandingkan effect size studi RM dengan studi between-subjects — η²G lebih stabil dan dapat digeneralisasi. Konvensi Cohen (kecil: .01, sedang: .06, besar: .14) berlaku untuk keduanya.
Setelah RM-ANOVA yang signifikan, post-hoc test mengidentifikasi minggu mana yang berbeda satu sama lain:
Hasil post-hoc (Bonferroni):
| Perbandingan | Perbedaan mean | SE | t | p (Bonferroni) |
|---|---|---|---|---|
| Minggu 1 vs Minggu 2 | −36.3 | 1.42 | −25.6 | < .001 |
| Minggu 1 vs Minggu 3 | −88.1 | 1.87 | −47.1 | < .001 |
| Minggu 2 vs Minggu 3 | −51.8 | 1.53 | −33.8 | < .001 |
Semua pasangan minggu berbeda secara signifikan (semua p < .001) — durasi membaca meningkat secara progresif setiap minggunya.
Note
Post-hoc dalam RM-ANOVA menggunakan paired comparisons — bukan independent samples — karena data berasal dari subjek yang sama. Ini lebih powerful dibanding post-hoc biasa.
RM-ANOVA memerlukan parameter tambahan dibanding ANOVA biasa karena kita perlu mengantisipasi korelasi antar pengukuran.
Langkah di G*Power:
Korelasi antar pengukuran (r):
Pengukuran berulang pada subjek yang sama cenderung berkorelasi. Estimasi r memengaruhi sampel yang dibutuhkan:
| Korelasi antar pengukuran | Implikasi |
|---|---|
| Tinggi (r ≈ 0.5–0.8) | Butuh lebih sedikit sampel — RM-ANOVA lebih powerful |
| Rendah (r ≈ 0–0.2) | Keunggulan RM-ANOVA berkurang; butuh sampel lebih besar |
| Negatif | RM-ANOVA bisa kurang powerful dari between-subjects |
Koreksi nonsphericity (ε):
Alfonso ingin mengulangi studi musik pada kelinci dengan asumsi:
Di G*Power: masukkan semua parameter di atas.
Hasil: N ≈ 220 kelinci
Note
Dibanding ANOVA between-subjects yang mungkin membutuhkan N = 600+ untuk power yang sama dengan f = 0.15, RM-ANOVA jauh lebih efisien — meskipun korelasi antar pengukuran sangat kecil.
jamoviSeorang peneliti ingin menguji efek program mindfulness 4 sesi pada skor stres peserta. Stres diukur sebelum sesi 1, setelah sesi 2, dan setelah sesi 4.
Pertanyaan untuk didiskusikan:
Note