Statistik Dasar dalam Penelitian Psikologi
2026-05-17
Populasi
Sampel
Important
Target populasi harus didefinisikan dengan jelas sebelum penelitian dimulai. “Mahasiswa Psikologi Unair angkatan 2023” dan “mahasiswa Indonesia” adalah dua populasi yang sangat berbeda, sehingga membutuhkan strategi sampling yang berbeda pula.
Teknik-teknik di mana setiap anggota populasi memiliki peluang yang diketahui untuk terpilih:
| Teknik | Cara kerja | Keunggulan |
|---|---|---|
| Simple random sampling | Setiap individu dipilih secara acak murni | Paling bebas bias |
| Systematic sampling | Pilih setiap individu ke-k dari daftar | Praktis untuk populasi besar |
| Stratified sampling | Bagi populasi ke strata, ambil sampel proporsional dari tiap strata | Menjamin representasi subkelompok |
| Cluster sampling | Pilih kelompok (cluster) secara acak, ukur semua anggota kelompok terpilih | Efisien secara biaya |
Teknik-teknik di mana peluang terpilihnya anggota populasi tidak diketahui:
| Teknik | Cara kerja | Keterbatasan |
|---|---|---|
| Convenience sampling | Ambil yang paling mudah diakses (misalnya, mahasiswa sendiri) | Rentan bias seleksi |
| Purposive sampling | Pilih berdasarkan kriteria tertentu | Generalisasi terbatas |
| Snowball sampling | Responden merujuk ke responden lain | Jaringan memengaruhi sampel |
Important
Sebagian besar penelitian psikologi menggunakan convenience sampling (terutama mahasiswa). Ini membatasi generalisasi — temuan yang valid untuk mahasiswa psikologi belum tentu berlaku untuk populasi umum. Selalu deklarasikan keterbatasan ini dalam laporan penelitian.
Sampling bias dalam penelitian psikologi
Henrich et al. (2010) menemukan bahwa sekitar 96% sampel dalam jurnal psikologi bereputasi berasal dari populasi WEIRD, padahal populasi ini hanya mewakili 12% populasi manusia di bumi. Ini adalah krisis yang serius dalam Psikologi.
Ilustrasi:
Bayangkan kita melempar koin yang diasumsikan adil/tidak bias (P(gambar) = 0.5):
Penting diingat
Law of large numbers menjelaskan mengapa ukuran sampel kecil akan menimbulkan bermasalah dalam penelitian. Dengan N=20, mean sampel kita bisa sangat jauh dari mean populasi hanya karena kebetulan (sampling error). Inilah mengapa mengestimasi statistical power dan sample size itu penting sebelum penelitian dimulai.
Krisis replikasi di Psikologi: seberapa parah?
Open Science Collaboration (2015) berusaha mereplikasi 100 studi psikologi yang dipublikasikan, tetapi hanya 36-39% yang berhasil direplikasi. Salah satu faktor utama: ukuran sampel yang terlalu kecil di studi-studi aslinya.
Mengapa ini penting?
Teori paling penting dalam statistik:
Apabila kita mengambil sampel berukuran n dari populasi apapun yang memiliki mean μ dan standar deviasi σ yang terdefinisi, maka distribusi sampling dari mean sampel akan mendekati distribusi normal dengan: * Mean = μ * Standar deviasi = \(\frac{\sigma}{\sqrt{n}}\)
…ketika n cukup besar, terlepas dari bentuk distribusi populasi aslinya.
Penting diingat
CLT tidak berarti data kita harus berdistribusi normal. CLT menjamin normalitas pada distribusi sampling dari mean, bukan pada satu dataset/sampel. Perbedaan ini sering disalahpahami.
\[SE_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \approx \frac{s}{\sqrt{n}}\]
Faktor yang memengaruhi SE:
n hanya mengurangi SE sebesar faktor \(\sqrt{2}\) ≈ 1.41Konteks: Pemerintah ingin mengevaluasi dampak program Makan Bergizi Gratis (MBG) terhadap kemampuan kognitif siswa SD. Salah satu indikatornya adalah skor IQ rata-rata siswa penerima MBG.
Peneliti mengambil sampel n = 64 siswa dari sekolah penerima MBG di Surabaya, dan mendapatkan \(\bar{X}\) = 97.5 dengan s = 12.
\[SE_{\bar{X}} = \frac{12}{\sqrt{64}} = \frac{12}{8} = 1.5\]
\[SE_{\bar{X}} = \frac{12}{\sqrt{16}} = \frac{12}{4} = 3.0\]
Perhatikan:
Variabilitas sampel (s = 12) tidak berubah, tetapi yang berubah hanya n. Inilah mengapa memperbesar n adalah cara paling langsung untuk meningkatkan ketepatan estimasi kita.
Ketika variabel kita adalah proporsi (misalnya, persentase responden yang memilih kandidat tertentu), SE dihitung dengan:
\[SE_p = \sqrt{\frac{p(1-p)}{n}}\]
di mana p adalah proporsi sampel.
Konteks: Sebuah lembaga survei melakukan quick count menjelang Pemilihan Wali Kota Surabaya. Dari sampel n = 400 pemilih terdaftar, sebanyak 228 orang (57%) menyatakan akan memilih kandidat A.
\[p = \frac{228}{400} = 0.57\]
\[SE_p = \sqrt{\frac{0.57 \times 0.43}{400}} = \sqrt{\frac{0.2451}{400}} = \sqrt{0.000613} \approx 0.025\]
\[SE_p = \sqrt{\frac{0.57 \times 0.43}{100}} \approx 0.049\]
Ukuran sampel minimal
Inilah mengapa survei politik yang serius menggunakan sampel minimal 400 responden. Di bawah itu, margin of error-nya terlalu besar untuk membuat prediksi yang bermakna. Lembaga survei yang baik selalu melaporkan ukuran sampel dan margin of error-nya secara transparan.
Note
SE proporsi mencapai nilai maksimum ketika P = 0.5. Artinya, estimasi kita ketidakpastiannya paling besar ketika dukungan mendekati 50:50 (persaingan sangat ketat). Semakin jauh proporsi dari 0.5, semakin kecil SE-nya.
\[CI_{95\%} = \bar{X} \pm 1.96 \times SE_{\bar{X}}\]
\[CI_{95\%} = \bar{X} \pm t_{kritis} \times SE_{\bar{X}}\]
di mana \(t_{kritis}\) bergantung pada degrees of freedom (df = n - 1)
Interpretasi yang SALAH (tapi sangat umum):
“Ada probabilitas 95% bahwa parameter populasi berada dalam CI ini.”
Parameter populasi adalah nilai tetap (meskipun tidak kita ketahui) — ia tidak punya probabilitas untuk berada di suatu tempat.
Interpretasi yang BENAR:
“Jika kita mengulang pengambilan sampel dan menghitung CI berkali-kali dengan prosedur yang sama, 95% dari CI tersebut akan berisi parameter populasi yang sebenarnya.”
Ini adalah pernyataan tentang prosedur, bukan tentang satu CI yang spesifik.
| CI 95% | CI 99% | |
|---|---|---|
| Critical value (z) | 1.96 | 2.576 |
| Lebar interval | Lebih sempit | Lebih lebar |
| Kemungkinan berisi parameter | 95% | 99% |
| Presisi | Lebih tinggi | Lebih rendah |
Tip
Dalam pelaporan hasil penelitian, selalu laporkan CI bersama dengan point estimate (misalnya mean atau koefisien korelasi). CI memberikan informasi tentang presisi dan signifikansi praktis yang tidak diberikan oleh p-value saja.
Dari contoh sebelumnya (n = 64, \(\bar{X}\) = 97.5, SE = 1.5), hitung CI 95%:
\[CI_{95\%} = 97.5 \pm t_{kritis} \times 1.5\]
Dengan df = 63, \(t_{kritis}\) ≈ 2.00, sehingga: \(CI_{95\%} = 97.5 \pm 2.00 \times 1.5 = 97.5 \pm 3.00 = [94.50,\ 100.50]\)
Note
Karena σ populasi tidak diketahui (kita gunakan s), rumus yang tepat menggunakan t-kritis dari distribusi t (bukan z = 1.96). Untuk n = 64 (df = 63), perbedaannya kecil — t ≈ 2.00 vs z = 1.96 — tetapi secara prinsip penting untuk menggunakan distribusi t yang benar.
Interpretasi: Kita 95% yakin bahwa rata-rata skor IQ seluruh siswa SD penerima MBG di populasi yang diwakili sampel ini berada di antara 94.5 hingga 100.5.
\[CI_{95\%} = p \pm 1.96 \times SE_p\]
Dari contoh sebelumnya (n = 400, p = 0.57, SE = 0.025):
\[CI_{95\%} = 0.57 \pm 1.96 \times 0.025 = 0.57 \pm 0.049 = [0.521,\ 0.619]\]
Interpretasi: Kita 95% yakin bahwa dukungan nyata untuk kandidat A di populasi pemilih terdaftar berada di antara 52.1% hingga 61.9%.
Margin of error dalam survei politik
Lembaga survei profesional di Indonesia seperti LSI, Litbang Kompas, dan Indikator Politik selalu melaporkan margin of error (≈ 1.96 × SE) bersama hasil surveinya.
Saat melakukan analisis apapun di jamovi (t-test, ANOVA, regresi), selalu aktifkan opsi Confidence Interval:
Populasi (parameter: μ, σ tidak diketahui)
↓ sampling
Sampel (statistik: X̄, s — yang kita hitung)
↓ menggunakan CLT + SE
Distribusi sampling (distribusi teoritis semua X̄ yang mungkin)
↓ digunakan untuk
Inferensi: CI dan uji hipotesis
Sudah kita ketahui:
Yang akan kita pelajari selanjutnya:
Note