Statistik Dasar dalam Penelitian Psikologi
2026-04-25
T-test adalah kelompok uji statistik untuk membandingkan mean — satu kelompok dengan nilai tertentu, dua kondisi dalam kelompok yang sama, atau dua kelompok yang berbeda.
| Jenis | Pertanyaan | Contoh |
|---|---|---|
| One-sample | Apakah mean sampel kita berbeda dari nilai referensi? | Apakah rata-rata IQ mahasiswa berbeda dari 100? |
| Paired samples | Apakah ada perubahan sebelum-sesudah dalam kelompok yang sama? | Apakah sesi konseling menurunkan skor kecemasan? |
| Independent samples | Apakah dua kelompok yang berbeda memiliki mean yang berbeda? | Apakah skor kepuasan hidup berbeda antara pria dan wanita? |
Note
Semua t-test menggunakan distribusi t (Student’s t), bukan distribusi normal — karena kita menggunakan standar deviasi sampel (bukan populasi) sebagai estimasi. Semakin besar n, semakin distribusi t mendekati distribusi normal.
Logika dasar semua t-test:
\[t = \frac{\text{perbedaan yang diamati}}{\text{standard error perbedaan}}\]
Makin besar perbedaan relatif terhadap variabilitasnya → nilai t makin besar → p-value makin kecil.
Degrees of freedom (df) menentukan bentuk distribusi t:
Esmeralda mendapat nilai 60 pada ujian MK Sejarah dan Aliran Psikologi (Sapsi). Nilai rata-rata nasional untuk mahasiswa S1 Psikologi adalah μ = 55 (σ tidak diketahui).
Pertanyaan: Apakah nilai Esmeralda signifikan berbeda dari rata-rata nasional?
One-sample t-test membandingkan mean sampel kita dengan nilai referensi yang sudah diketahui:
\[t = \frac{\bar{X} - \mu_0}{s / \sqrt{n}}\]
Di mana \(\mu_0\) adalah nilai referensi (nilai yang ingin kita bandingkan), dan \(s/\sqrt{n}\) adalah standard error of the mean.
Note
One-sample t-test jarang digunakan dalam penelitian psikologi karena kita jarang punya nilai referensi populasi yang pasti. Namun ia adalah fondasi konseptual yang penting untuk memahami t-test lainnya.
Buka dataset ujian.omv, kemudian uji apakah mean skor SAPSI mahasiswa berbeda dari nilai referensi nasional (μ₀ = 55):
Pertanyaan untuk didiskusikan:
Esmeralda selanjutnya ingin menguji apakah minum kopi meningkatkan konsentrasi mahasiswa sebelum ujian. Sebanyak 540 mahasiswa diukur skor konsentrasinya sebelum dan sesudah minum kopi.
Buka dataset ujian.omv
Desain within-subjects:
Paired samples t-test menghitung selisih tiap pasang pengukuran, lalu menguji apakah mean selisih berbeda dari nol:
\[t = \frac{\bar{D}}{s_D / \sqrt{n}}\]
Di mana \(\bar{D}\) adalah mean selisih dan \(s_D\) adalah standar deviasi selisih.
Buka dataset ujian.omv, kemudian uji apakah minum kopi meningkatkan skor konsentrasi:
Pertanyaan untuk didiskusikan:
Hasil analisis:
Important
Kesimpulan: Kopi tidak signifikan meningkatkan konsentrasi
Meski 540 mahasiswa adalah sampel yang besar, perbedaan rata-rata konsentrasi sebelum-sesudah minum kopi sangat kecil (d = 0.055) dan tidak signifikan (p = 0.903). Efek kopi mungkin bervariasi antar individu atau tidak ada secara rata-rata.
Note
p = 0.903 bukan berarti kopi “terbukti tidak berguna” — kita hanya gagal menemukan bukti bahwa kopi berguna dalam kondisi eksperimen ini. Mungkin prosedur pengukuran, jenis kopi, atau waktu tunggu setelah minum kopi perlu dipertimbangkan.
Seorang peneliti iseng menguji apakah mahasiswa yang percaya pada jimat batu akik mendapat nilai ujian yang lebih tinggi. Sampel: 540 mahasiswa percaya jimat, 660 mahasiswa tidak percaya jimat.
Desain between-subjects:
Independent samples t-test (formula sederhana):
\[t = \frac{\bar{X}_1 - \bar{X}_2}{s_{\text{pooled}} \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\]
Hasil analisis:
Pelajaran penting: N besar mengungkap efek yang sangat kecil
Dengan N = 1200, bahkan perbedaan yang sangat kecil (d = 0.186) bisa signifikan secara statistik. Secara praktis, perbedaan nilai ujian antara dua kelompok ini hampir tidak berarti. Ini bukan artinya batu akik “terbukti berbahaya” — ini hanya menunjukkan ada korelasi kecil yang perlu dijelaskan lebih lanjut.
Note
Dalam situasi seperti ini, selalu tanyakan: “Berapa besar efeknya?” bukan hanya “Apakah signifikan?” p < .001 dengan d = 0.186 jauh berbeda dari p < .001 dengan d = 0.8.
Buka dataset ujian.omv, kemudian uji perbedaan nilai ujian antara kelompok percaya dan tidak percaya jimat:
Pertanyaan untuk didiskusikan:
| Asumsi | Berlaku untuk | Cara memeriksa |
|---|---|---|
| Normalitas distribusi variabel dependen (atau selisih, untuk paired) | Semua t-test | Shapiro-Wilk, histogram, Q-Q plot |
| Homogenitas varians (homoscedasticity) | Independent samples saja | Levene’s test |
| Independensi observasi | Semua t-test | Desain penelitian — tidak bisa diuji statistik |
Important
Independensi observasi adalah asumsi yang paling sering dilanggar tanpa disadari.
Jika data berasal dari mahasiswa dalam kelas yang sama, pasangan suami-istri, atau anggota kelompok yang sama — observasi mereka tidak independen. Melanggar asumsi ini dapat membuat p-value tidak valid dan memerlukan teknik multilevel/mixed effects.
Jika Levene’s test signifikan (varians tidak homogen), gunakan Welch’s t-test sebagai pengganti:
\[t_{\text{Welch}} = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}\]
Tip
Di jamovi, Welch’s correction adalah pilihan default untuk independent samples t-test. Anda bisa melihat kedua versi (Student’s dan Welch’s) secara bersamaan untuk membandingkan hasilnya.
T-test relatif robust terhadap pelanggaran normalitas, terutama jika:
Kapan normalitas benar-benar menjadi masalah:
Note
Untuk sampel kecil dengan data yang jelas tidak normal, pertimbangkan alternatif non-parametrik — Wilcoxon signed-rank test (untuk paired) atau Mann-Whitney U test (untuk independent).
Non-parametrik tidak mengasumsikan distribusi tertentu untuk data — ia bekerja dengan rank (peringkat) alih-alih nilai asli.
Gunakan non-parametrik ketika:
Padanan non-parametrik dari t-test:
| T-test | Non-parametrik |
|---|---|
| One-sample t-test | Wilcoxon signed-rank test (vs. median) |
| Paired samples t-test | Wilcoxon signed-rank test |
| Independent samples t-test | Mann-Whitney U test |
Note
Non-parametrik tidak berarti bebas asumsi — ia tetap mengasumsikan independensi observasi dan (untuk uji dua kelompok) distribusi yang berbentuk serupa antara dua kelompok. Statistical power-nya juga sedikit lebih rendah dibanding t-test jika data memang normal.
Dengan dataset ujian.omv, ulangi analisis menggunakan Wilcoxon signed-rank test:
Pertanyaan untuk didiskusikan:
Sebelum mengumpulkan data, gunakan G*Power untuk menentukan berapa sampel yang dibutuhkan.
Parameter kunci:
Important
Jangan mengestimasi effect size terlalu optimis
Banyak peneliti memperkirakan d = 0.5 atau lebih karena itu menghasilkan sampel yang kecil dan mudah dikumpulkan. Tetapi jika efek sesungguhnya hanya d = 0.2, studi akan underpowered dan lebih mungkin menghasilkan false negative atau estimasi efek yang inflated.
Kalian ingin meneliti apakah mahasiswa yang menggunakan teknik mindfulness sebelum ujian memiliki skor kecemasan yang lebih rendah dibandingkan yang tidak menggunakannya.
Pertanyaan untuk didiskusikan:
Note