Uji Hipotesis

Statistik Dasar dalam Penelitian Psikologi

Rizqy Amelia Zein

Departemen Psikologi, Universitas Airlangga

2026-05-17

Outline

Logika dasar Null Hypothesis Significance Testing (NHST)
Hipotesis nol dan hipotesis alternatif
Type I error dan Type II error
Statistical power
Effect size
A priori power analysis

Logika dasar pengujian hipotesis

Masalah Esmeralda

Esmeralda menjual permen yang konon bisa menyembuhkan diare. Kita ingin tahu: apakah permen itu benar-benar efektif, atau hanya efek plasebo belaka?

Logika uji hipotesis:

Kita tidak bisa membuktikan bahwa permen itu efektif secara langsung
Yang bisa kita lakukan: mengumpulkan bukti untuk menolak kemungkinan bahwa permen itu tidak efektif
Jika bukti yang kita kumpulkan sangat tidak mungkin terjadi apabila permen itu tidak efektif, kita punya alasan untuk meragukan asumsi itu

Note

Ini adalah logika falsifikasionis dari Karl Popper: kita tidak bisa membuktikan kebenaran suatu klaim, tetapi kita bisa menguji seberapa tidak konsisten data kita dengan asumsi bahwa klaim itu salah.

Null Hypothesis Significance Testing (NHST)

Prosedur standar NHST:

Tetapkan hipotesis nol (\(H_0\)): asumsi “tidak ada efek / tidak ada perbedaan”
Tetapkan hipotesis alternatif (\(H_1\)): klaim yang ingin kita dukung
Tentukan tingkat signifikansi (α) — biasanya 0.05
Kumpulkan data dan hitung statistik uji
Hitung p-value: seberapa besar probabilitas mendapatkan data seperti yang kita amati (atau lebih ekstrem) jika \(H_0\) benar
Jika p < α → tolak \(H_0\) (hasil signifikan); jika p ≥ α → gagal menolak \(H_0\)

Important

Perhatikan bahasa yang tepat: kita “gagal menolak” \(H_0\), bukan “menerima \(H_0\)”. Tidak menemukan bukti penolakan ≠ bukti tidak ada efek.

Hipotesis nol dan hipotesis alternatif

Hipotesis nol (\(H_0\))

Pernyataan tentang “status quo” — tidak ada perbedaan, tidak ada efek, tidak ada hubungan
Contoh: “Permen Esmeralda tidak lebih efektif dari plasebo dalam menyembuhkan diare”
NHST dirancang untuk menguji \(H_0\), bukan \(H_1\)

Hipotesis alternatif (\(H_1\))

Pernyataan yang kita ingin dukung dengan data
Contoh: “Permen Esmeralda lebih efektif dari plasebo dalam menyembuhkan diare”

Uji dua sisi (two-tailed)

\[H_1: \mu_1 \neq \mu_2\]

Kita tidak tahu arah efeknya
Lebih konservatif, lebih umum digunakan

Uji satu sisi (one-tailed)

\[H_1: \mu_1 > \mu_2 \text{ atau } \mu_1 < \mu_2\]

Kita punya prediksi arah yang kuat secara teoritis
Power lebih tinggi, tapi klaim lebih sempit

Type I error dan Type II error

Dua jenis kesalahan dalam pengujian hipotesis

Dalam pengujian hipotesis, ada empat kemungkinan hasil — dua di antaranya adalah kesalahan:

	\(H_0\) benar (permen tidak efektif)	\(H_0\) salah (permen efektif)
Tolak \(H_0\) (uji mengatakan efektif)	False Positive / Type I error (α)	True Positive ✅
Gagal menolak \(H_0\) (uji mengatakan tidak efektif)	True Negative ✅	False Negative / Type II error (β)

Important

Kita tidak pernah tahu hasil mana yang sebenarnya terjadi dalam penelitian nyata — kita hanya mengontrol probabilitas membuat kesalahan tersebut.

Type I error (α) — False Positive

Menolak \(H_0\) padahal \(H_0\) sebenarnya benar
Kita menyimpulkan ada efek, padahal sebenarnya tidak ada
Probabilitasnya dikontrol dengan tingkat signifikansi (α)
Jika α = 0.05 → kita menerima risiko 5% melakukan false positive

Contoh:

Kita menyimpulkan permen Esmeralda efektif menyembuhkan diare, padahal permen itu tidak lebih baik dari plasebo. Esmeralda untung, konsumen dirugikan.

Note

Standar α = 0.05 bukan hukum alam — ini konvensi yang ditetapkan oleh Ronald Fisher. Beberapa bidang (fisika partikel, genomik) menggunakan α yang jauh lebih ketat (misalnya, 5 × 10⁻⁸).

Type II error (β) — False Negative

Gagal menolak \(H_0\) padahal \(H_0\) sebenarnya salah
Kita menyimpulkan tidak ada efek, padahal sebenarnya ada
Probabilitasnya disebut β — dikontrol secara tidak langsung melalui ukuran sampel

Contoh:

Studi kita menyimpulkan permen Esmeralda tidak efektif, padahal sebenarnya permen itu memang membantu. Esmeralda tidak bisa berjualan, padahal produknya bagus.

Note

β dan α berada dalam hubungan trade-off: menurunkan α (lebih ketat) akan meningkatkan β (lebih banyak false negative), dan sebaliknya. Untuk mengurangi keduanya sekaligus, satu-satunya cara adalah memperbesar ukuran sampel.

Ilustrasi numerik: base rate penting

Bayangkan kita menguji 100 klaim berbeda, di mana masing-masing punya peluang 50/50 untuk benar (50 klaim efektif, 50 tidak efektif).

Dengan α = 0.05 dan power = 80% (β = 20%):

	H₀ benar (50 klaim)	H₀ salah (50 klaim)	Total
Tolak H₀	2-3 (false positive)	40 (true positive)	~42-43
Gagal tolak H₀	~48 (true negative)	10 (false negative)	~58

Important

Dari ~42-43 hasil “signifikan”, 2-3 di antaranya adalah kesalahan (false positive). Semakin rendah base rate kebenaran klaim (misalnya bidang preklinik), semakin besar proporsi false positive di antara hasil signifikan — inilah salah satu akar replication crisis.

Statistical power

Apa itu statistical power?

\[\text{Power} = 1 - \beta\]

Statistical power adalah probabilitas mendeteksi efek yang nyata apabila efek itu memang ada
Power = 0.80 berarti kita punya 80% kemungkinan menemukan efek yang signifikan, jika efek itu memang ada di populasi
Standar minimum yang diterima secara umum: power ≥ 0.80 (Cohen, 1988)

Faktor yang memengaruhi power:

Ukuran sampel (n) — semakin besar n, semakin tinggi power
Ukuran efek — semakin besar efek yang ingin dideteksi, semakin mudah dideteksi
Tingkat signifikansi (α) — menurunkan α juga menurunkan power
Uji satu sisi vs dua sisi — uji satu sisi memiliki power lebih tinggi

Tip

Power yang rendah bukan hanya membuang-buang sumber daya (sampel terlalu kecil) — ia juga menghasilkan estimasi efek yang inflated (winner’s curse): hanya efek yang besar secara kebetulan yang bisa melewati threshold signifikansi.

Power dan ukuran sampel: trade-off

Meningkatkan power dengan:

Memperbesar ukuran sampel
Menggunakan desain yang lebih efisien (within-subjects vs between-subjects)
Mengurangi noise pengukuran (reliabilitas instrumen tinggi)
Menggunakan uji satu sisi (jika ada justifikasi teoritis)

Important

Jangan menambah sampel setelah melihat data (optional stopping)

Menambah sampel hanya ketika p mendekati 0.05 — lalu berhenti ketika signifikan — adalah bentuk p-hacking yang menggelembungkan false positive rate secara dramatis.

Effect size

Apa itu effect size?

Effect size mengukur besaran efek atau perbedaan secara praktis — terlepas dari signifikansi statistik
Statistik yang signifikan (p < 0.05) belum tentu bermakna secara praktis
Sebaliknya, efek yang bermakna secara praktis bisa saja tidak signifikan karena sampel terlalu kecil

Important

Signifikansi statistik ≠ signifikansi praktis

Dengan N yang sangat besar, perbedaan yang sangat kecil pun akan signifikan secara statistik. Selalu laporkan effect size bersama p-value.

Cohen’s d

Untuk membandingkan dua mean (t-test), ukuran efek yang paling umum adalah Cohen’s d:

\[d = \frac{\bar{X}_1 - \bar{X}_2}{s_{\text{pooled}}}\]

Di mana \(s_{\text{pooled}}\) adalah standar deviasi yang digabungkan dari kedua kelompok.

Interpretasi (konvensi Cohen, 1988):

Cohen’s d	Interpretasi
0.2	Efek kecil (small)
0.5	Efek sedang (medium)
0.8	Efek besar (large)

Note

Cohen sendiri meminta agar benchmark ini tidak digunakan secara mekanis — besaran efek yang “kecil” bisa sangat bermakna di bidang kebijakan publik (misalnya vaksin yang mengurangi kematian 0.2%), tapi tidak berarti di konteks klinis. Selalu interpretasikan d dalam konteks bidang dan pertanyaan penelitian kalian.

Effect size lainnya

Ukuran efek	Digunakan untuk	Rentang nilai
Cohen’s d	Perbedaan dua mean (t-test)	Tak terbatas, biasanya 0–3
η² (eta-squared)	ANOVA — proporsi varians yang dijelaskan	0–1
ω² (omega-squared)	Alternatif η² yang lebih unbiased	0–1
r Pearson	Korelasi dua variabel kontinu	-1 – +1
Cramér’s V	Asosiasi dua variabel kategorikal	0–1
Odds ratio (OR)	Perbandingan odds antar kelompok	0–∞

Tip

Pelaporan standar APA (edisi ke-7) mewajibkan pelaporan effect size untuk semua analisis inferensial. Jamovi secara default sudah menyediakan effect size — manfaatkan fitur ini.

A priori analisis power

Mengapa a priori analisis power?

Dua pendekatan analisis power:

A priori (sebelum pengumpulan data): tentukan berapa sampel yang dibutuhkan untuk mendeteksi efek tertentu dengan power yang cukup
Post-hoc (setelah pengumpulan data): hitung power dari studi yang sudah selesai — hasilnya sering menyesatkan dan tidak direkomendasikan

Important

Hindari post-hoc power analysis

“Observed power” yang dihitung setelah studi hanya mencerminkan ulang p-value — ia tidak memberikan informasi tambahan yang berguna. Lakukan analisis power sebelum mengumpulkan data.

GPower: alat analisis power*

G*Power adalah program gratis untuk menghitung ukuran sampel dan power analisis.

Unduh di: gpower.hhu.de
Mendukung berbagai jenis uji: t-test, ANOVA, korelasi, regresi, \(\chi^2\), dll.

Parameter yang perlu ditentukan:

Parameter	Keterangan
Effect size	Besaran efek yang ingin dideteksi (dari literatur atau pertimbangan teoritis)
α (sig. level)	Tingkat signifikansi (biasanya 0.05)
Power (1-β)	Biasanya 0.80 atau 0.95
Tails	Satu sisi atau dua sisi

Contoh: Rafael dan obat diare

Rafael ingin menguji apakah obat diare barunya lebih efektif dari plasebo. Dari literatur, ia memperkirakan efek kecil (Cohen’s d = 0.2). Ia menggunakan α = 0.05 dan menginginkan power 80%.

Langkah di G*Power (Independent Samples t-test):

Test family t tests
Statistical test Means: Difference between two independent groups
Type of power analysis A priori
Masukkan: Effect size d = 0.2, α = 0.05, Power = 0.80, Tails = 2
Klik Calculate

Hasil: N = 788 (394 per kelompok)

Note

Efek kecil membutuhkan sampel yang sangat besar untuk dideteksi. Ini menjelaskan mengapa banyak studi psikologi klasik dengan N < 100 hampir mustahil mendeteksi efek kecil yang sesungguhnya.

Contoh: Marimar dan hipnosis

Marimar ingin menguji apakah sesi hipnosis mengurangi kecemasan mahasiswa sebelum ujian. Ia menggunakan desain within-subjects (sebelum dan sesudah hipnosis), memperkirakan efek sedang (Cohen’s d = 0.5), dan menggunakan uji satu sisi karena hipnosis diprediksi menurunkan kecemasan.

Langkah di G*Power (Paired Samples t-test):

Test family t tests
Statistical test Means: Difference between two dependent groups (matched pairs)
Type of power analysis A priori
Masukkan: Effect size d = 0.5, α = 0.05, Power = 0.80, Tails = 1
Klik Calculate

Hasil: N = 27

Tip

Desain within-subjects jauh lebih efisien — hanya perlu 27 orang dibanding 788 untuk efek dua kali lebih besar! Ini karena kita mengontrol variabilitas antar-individu dengan menggunakan orang yang sama sebagai kontrol mereka sendiri.

Latihan: Analisis power di G*Power

Kalian berencana meneliti perbedaan skor stres (perceived stress scale, PSS) antara mahasiswa yang tinggal di kos dan yang tinggal bersama keluarga di Surabaya.

Buka G*Power t tests Means: Difference between two independent groups
Pilih A priori masukkan d = 0.3 (efek kecil-sedang), α = 0.05, Power = 0.80
Bandingkan hasilnya dengan d = 0.5 dan d = 0.8 — apa yang berubah?
Sekarang ubah Power dari 0.80 menjadi 0.95 — berapa sampel tambahan yang dibutuhkan?

Pertanyaan untuk didiskusikan:

Dari mana kita tahu berapa effect size yang harus dimasukkan sebelum melakukan penelitian?
Apa konsekuensinya jika effect size yang kita perkirakan ternyata terlalu optimis (terlalu besar)?

Ringkasan dan jembatan ke materi berikutnya

Apa yang sudah kita pelajari

Konsep inti NHST:

\(H_0\) vs \(H_1\) — logika falsifikasi
p-value — probabilitas data di bawah \(H_0\)
α — probabilitas false positive yang kita toleransi
Type I error (α) vs Type II error (β)
Power = 1 - β

Pelaporan yang baik:

Selalu laporkan effect size
Lakukan analisis power a priori
Gunakan bahasa yang tepat: “gagal menolak” bukan “menerima \(H_0\)”
p < 0.05 ≠ efek penting secara praktis

Tip

Materi berikutnya akan menerapkan logika NHST ini ke analisis konkret: t-test (perbedaan mean), analisis kategorikal (\(\chi^2\)), korelasi, ANOVA, dan regresi. Semua teknik itu hanyalah spesialisasi dari kerangka yang sama yang baru saja kita pelajari.

Ada pertanyaan❓

Note

Paparan disusun dengan menggunakan dan Quarto dengan template dari UNAIR Theme.
Kontak saya via amelia.zein@psikologi.unair.ac.id

Uji Hipotesis

Outline

Logika dasar pengujian hipotesis

Masalah Esmeralda

Null Hypothesis Significance Testing (NHST)

Hipotesis nol dan hipotesis alternatif

Type I error dan Type II error

Dua jenis kesalahan dalam pengujian hipotesis

Type I error (α) — False Positive

Type II error (β) — False Negative

Ilustrasi numerik: base rate penting

Statistical power

Apa itu statistical power?

Power dan ukuran sampel: trade-off

Effect size

Apa itu effect size?

Cohen’s d

Effect size lainnya

A priori analisis power

Mengapa a priori analisis power?

G*Power: alat analisis power

Contoh: Rafael dan obat diare

Contoh: Marimar dan hipnosis

Latihan: Analisis power di G*Power

Ringkasan dan jembatan ke materi berikutnya

Apa yang sudah kita pelajari

Ada pertanyaan❓

GPower: alat analisis power*