Principal Component Analysis & Exploratory Factor Analysis

Statistik dalam Penelitian Psikologi

Rizqy Amelia Zein

Departemen Psikologi, Universitas Airlangga

Research Data & Methods Team, Center for Advanced Internet Studies

2026-04-12

Outline

Mengapa kita perlu analisis faktor?
Principal Component Analysis (PCA)
Exploratory Factor Analysis (EFA)
Asumsi & kesiapan data
Evaluasi model & pelaporan hasil
Demonstrasi di jamovi

Mengapa analisis faktor?

Bayangkan skala psikologi dengan 20 item…

Seorang peneliti mengembangkan skala kelelahan kerja (burnout) dengan 20 item
Apakah 20 item itu mengukur 20 hal yang benar-benar berbeda?
Atau ada beberapa dimensi yang lebih mendasar di baliknya?
Masalah yang muncul kalau tidak ada reduksi:
- Tidak bisa divisualisasikan (kita tidak bisa memplot 20 dimensi sekaligus)
- Regresi dengan 20 prediktor: risiko overfitting sangat tinggi
- Item-item yang saling berkorelasi tinggi menunjukkan adanya redundansi

Measurement error mendistorsi estimasi

Dari Bagian 2 kita sudah tahu bahwa korelasi antar dua variabel selalu terlalu kecil karena measurement error (attenuation bias)

\[r_{XY_{observed}} = r_{T_X T_Y} \times \sqrt{\rho_{XX'} \times \rho_{YY'}}\]

Analisis faktor secara eksplisit memodelkan error per item memisahkan sinyal (common variance) dari noise (residual/unique variance)

Ingat dari Materi Korelasi!

Koefisien korelasi yang terobservasi selalu lebih kecil dari korelasi sesungguhnya antar true score, persis karena measurement error ini. Analisis faktor membantu kita mendapatkan estimasi korelasi yang lebih akurat.

Keluarga model variabel laten

Model	Pertanyaan yang dijawab	Dalam workshop ini
CTT	“Seberapa reliabel skor total ini?”	Bagian 5
EFA	“Berapa faktor laten yang mendasari item-item ini?”	Bagian 7
CFA	“Apakah struktur faktor yang saya hipotesiskan cocok dengan data?”	Bagian 8
SEM	“Bagaimana faktor-faktor laten saling mempengaruhi?”	Pengantar di Bagian 5–6

EFA vs CFA — sekilas

EFA	CFA
Jumlah faktor belum diketahui — biarkan data menunjukkan strukturnya	Jumlah faktor sudah ditentukan sebelum mengambil data
Peneliti tidak memiliki model hipotesis a priori	Peneliti sudah memiliki model hipotesis a priori
Cocok untuk eksplorasi dan pengembangan skala	Cocok untuk konfirmasi dan pengujian validitas konstruk

Warning

Sangat tidak disarankan melakukan EFA kemudian CFA pada sampel yang sama — kita akan bahas lebih dalam di Bagian 8.

Principal Component Analysis (PCA)

Apa itu PCA?

PCA mencari “arah” (component) dalam ruang data yang menangkap varians sebesar mungkin
Hasilnya adalah principal components yang merupakan kombinasi linear dari item-item asli
Tujuan utama: reduksi dimensi — meringkas banyak item menjadi sedikit variabel ringkasan (“payung”) yang lebih besar
Penting: PCA bukan model pengukuran — ia tidak mengasumsikan adanya konstruk laten yang menyebabkan item bervariasi

Hierarki komponen:

PC1 — arah dengan varians terbesar
PC2 — orthogonal terhadap PC1, varians terbesar berikutnya
PC3, PC4, … — dst., selalu orthogonal (tidak berkorelasi) terhadap semua komponen sebelumnya

Analogi sederhana:

Data asli = 20 kolom (item)
Component scores = 3–4 kolom ringkasan
Mempertahankan sebanyak mungkin informasi dengan sesedikit mungkin variabel

Aplikasi PCA: reduksi dimensi & machine learning

PCA adalah salah satu teknik unsupervised learning yang paling banyak digunakan dalam machine learning
Reduksi dimensi sebelum pemodelan prediktif
- Dataset dengan ratusan/ribuan variabel (misalnya data genomik, neuroimaging, NLP) susah dimodelkan langsung
- PCA meringkas variabel-variabel yang saling berkorelasi menjadi komponen yang independen (orthogonal)
- Komponen ini kemudian digunakan sebagai prediktor dalam regresi atau klasifikasi — mengurangi overfitting
Visualisasi data berdimensi tinggi
- Plot PC1 vs PC2 memungkinkan kita melihat “peta” distribusi observasi dalam 2D
Feature extraction dalam deep learning dan computer vision
- Misalnya: ribuan piksel wajah → beberapa principal components sebagai input model

Aplikasi EFA

EFA memiliki aplikasi yang berbeda, bukan untuk reduksi dimensi secara umum, melainkan khusus untuk mengidentifikasi konstruk laten dalam pengembangan dan validasi skala psikologi.

Eigenvalue & scree plot

Eigenvalue (λ): mengukur seberapa banyak variansi yang dijelaskan oleh setiap komponen. Total eigenvalue = jumlah item.
Kaiser criterion: pertahankan komponen dengan λ > 1
- Logika: komponen dengan λ < 1 menjelaskan variansi kurang dari satu item tunggal

Kaiser criterion sering over-extract

Kaiser criterion bisa menghasilkan terlalu banyak komponen — bahkan dari data yang sepenuhnya acak! Selalu kombinasikan dengan scree plot dan parallel analysis.

Scree plot: grafik eigenvalue dari tertinggi ke terendah — cari “elbow” (titik siku) di mana kurva mulai mendatar. Pertahankan komponen sebelum elbow.

Component loadings & rotasi

Component loading: korelasi antara item asli dengan komponen. Rentang −1 sampai +1.
- |loading| > 0.40 item bermakna untuk komponen ini (salient loading)
- |loading| < 0.30 item tidak relevan untuk komponen ini
Rotasi mengejar simple structure (Thurstone, 1947): setiap item load tinggi di satu komponen, mendekati nol di yang lain

	Orthogonal	Oblique
Komponen	Tidak berkorelasi	Boleh berkorelasi
Metode umum	Varimax	Promax, Direct Oblimin

Note

Rotasi tidak mengubah total variansi yang dijelaskan — hanya mendistribusikannya agar lebih mudah diinterpretasikan.

Exploratory Factor Analysis (EFA)

PCA vs EFA — kontras lengkap

Aspek	PCA	EFA
Tujuan	Reduksi dimensi; feature extraction	Identifikasi & validasi konstruk laten
Posisi dalam ML	Unsupervised learning — preprocessing sebelum model prediktif	Psikometri — pengembangan & validasi skala
Model	Komponen = fungsi linear item	Item = fungsi linear faktor + error
Variansi	Total variansi (termasuk unique & error)	Hanya common variance
Error pengukuran	Tidak dimodelkan	Eksplisit dimodelkan per item
Faktor/komponen	Selalu orthogonal (tidak berkorelasi)	Boleh berkorelasi (rotasi oblique)
Kapan digunakan	Tidak ada teori konstruk laten; tujuannya kompresi data	Ada teori tentang faktor laten; tujuannya pengukuran

Tip

Jika communalities tinggi (> 0.60) dan struktur jelas, hasil PCA dan EFA sering hampir identik secara praktis. Perbedaan muncul ketika communalities rendah atau struktur kompleks.

Komunalitas (h²) & keunikan

Komunalitas (h²): proporsi variansi item yang dijelaskan oleh semua faktor bersama
Keunikan (u²): 1 − h² = variansi yang tidak dijelaskan oleh faktor mana pun (variansi spesifik + error)

h²	Interpretasi
> 0.50	Baik
0.30–0.50	Cukup — perlu evaluasi
< 0.30	Bermasalah — pertimbangkan menghapus item

Warning

Item dengan h² rendah mengukur sesuatu yang unik apabila dibandingkan dengan item lain.

Evaluasi ulang redaksinya sebelum memutuskan untuk menghapus item.

Menentukan jumlah faktor — jangan hanya Kaiser!

Kaiser criterion (λ > 1) — mudah, tapi konsisten over-extract. Gunakan sebagai acuan awal saja.
Scree plot — visual dan intuitif, tapi subjektif. Dua peneliti bisa membaca scree plot yang sama secara berbeda.
Parallel analysis direkomendasikan
- Bandingkan eigenvalue data nyata dengan eigenvalue dari data acak (dimensi yang sama)
- Pertahankan faktor di mana eigenvalue nyata > eigenvalue acak (persentil ke-95)
- Paling akurat secara empiris; tidak subjektif (Hayton, Allen & Scarpello, 2004)
Teori — berapa faktor yang dihipotesiskan berdasarkan literatur?

Praktik terbaik

Gunakan kombinasi parallel analysis + scree plot + teori sebagai dasar keputusan. Di jamovi, parallel analysis tersedia langsung di menu EFA.

Rotasi dalam EFA

Orthogonal (faktor tidak berkorelasi) — Varimax
- Menghasilkan satu matriks: factor loadings
- Asumsi independensi sering tidak realistis dalam psikologi
Oblique (faktor boleh berkorelasi) — Promax, Direct Oblimin
- Menghasilkan pattern matrix (kontribusi unik faktor ke item) — ini yang dilaporkan
- Juga menghasilkan structure matrix dan factor correlation matrix

Tip

Konstruk psikologi hampir selalu berkorelasi, misalnya: kelelahan emosional dan sinisme pada burnout. Gunakan rotasi oblique sebagai default. Jika korelasi antar faktor sangat rendah (< 0.15), rotasi orthogonal bisa dipertimbangkan.

Metode ekstraksi di jamovi

Metode	Asumsi	Kapan digunakan
Minimum Residual (MinRes)	Tidak diperlukan normalitas	Default yang aman untuk data psikologi; meminimalkan residual korelasi
Principal Axis Factoring (PAF)	Tidak diperlukan normalitas	Data tidak normal; sampel moderat
Maximum Likelihood (ML)	Normalitas multivariat	Data mendekati normal; ingin fit indices formal (RMSEA, CFI)

Note

Untuk skala Likert yang tidak terlalu juling, MinRes sudah cukup baik. Gunakan ML jika ingin melaporkan fit indices secara formal dalam artikel.

Asumsi & Kesiapan Data

Kaiser-Meyer-Olkin (KMO)

Apakah pola korelasi antar item cukup kompak untuk analisis faktor?

KMO	Interpretasi
> 0.90	Marvelous
0.80–0.90	Meritorious
0.70–0.80	Middling
0.60–0.70	Mediocre
< 0.50	Tidak layak — jangan lanjutkan EFA

Bartlett’s test of sphericity

H₀: matriks korelasi = matriks identitas (tidak ada korelasi antar item)
p < .05 tolak H₀ ada korelasi yang cukup EFA layak dilakukan

Ukuran sampel yang dibutuhkan

N	Keterangan
< 100	Tidak memadai — hindari
100–200	Minimal, hanya jika loadings tinggi (> 0.70)
200–300	Cukup
300–500	Baik
> 500	Sangat baik

Aturan rasio item:partisipan yang direkomendasikan: 10:1
- Contoh: 20 item targetkan N ≥ 200, idealnya N ≥ 300

Rule of Thumb

Loadings rendah dan communalities rendah membutuhkan N yang lebih besar. Jangan memaksakan analisis faktor pada sampel yang terlalu kecil.

Evaluasi & Pelaporan

Fit indices (khusus ekstraksi ML)

Chi-square (χ²): H₀ = model fit sempurna; p > .05 = fit baik
- Masalah: sangat sensitif terhadap N besar — hampir selalu signifikan jika N > 300, meskipun model sebenarnya baik. Jangan jadikan satu-satunya kriteria.
RMSEA < .05 = sangat baik; .05–.08 = cukup baik; > .10 = tidak dapat diterima
- Selalu sertakan 90% CI
CFI/TLI > .95 = baik; > .90 = dapat diterima

Catatan

Ambang batas RMSEA < .06 (Hu & Bentler, 1999) sering dikutip, tapi berasal dari kondisi simulasi yang spesifik. Untuk model dengan banyak indikator atau sampel besar, RMSEA < .08 sudah dapat diterima, jangan terlalu kaku pada angka .06.

Reliabilitas: alpha vs omega

Cronbach’s α

Mengukur konsistensi internal
Mengasumsikan semua item berkontribusi sama (tau-equivalence)
Jika loadings berbeda-beda (yang hampir selalu terjadi), α bisa underestimate reliabilitas sesungguhnya
Sensitif terhadap jumlah item — lebih banyak item = α lebih tinggi, meskipun loadings biasa saja

McDonald’s ω (Omega)

Dihitung langsung dari factor loadings
Tidak mengasumsikan tau-equivalence
Lebih akurat ketika loadings item tidak setara — yang hampir selalu terjadi pada skala psikologi nyata

Tip

Laporkan keduanya — α dan ω. Jika ω > α secara substansial, berarti asumsi tau-equivalence tidak terpenuhi. Keduanya tersedia langsung di jamovi.

Checklist pelaporan EFA

☐ Deskripsi sampel — N, karakteristik, cara pengumpulan data

☐ Prosedur analisis — software, metode ekstraksi, kriteria jumlah faktor, jenis rotasi

☐ Kelayakan analisis — nilai KMO, hasil Bartlett’s test (χ², df, p)

☐ Hasil ekstraksi — jumlah faktor yang dipertahankan, eigenvalue, % variansi tiap faktor dan total

☐ Pattern matrix setelah rotasi, lengkap dengan komunalitas (h²)

☐ Korelasi antar faktor — jika menggunakan rotasi oblique

☐ Reliabilitas — Cronbach’s α dan/atau McDonald’s ω per faktor

☐ Fit indices — RMSEA + 90% CI, CFI, TLI (jika menggunakan ML)

Kesalahan umum dalam EFA

Hanya mengandalkan Kaiser criterion menghasilkan terlalu banyak faktor. Selalu gunakan parallel analysis.
Menggunakan PCA untuk pengembangan skala PCA bukan model pengukuran. Gunakan EFA.
Rotasi orthogonal tanpa alasan konstruk psikologi hampir selalu berkorelasi. Gunakan oblique sebagai default.
Mengabaikan cross-loadings item dengan cross-loading > 0.30 menandakan batas konstruk yang tidak jelas — jangan diabaikan.
Melaporkan hanya item yang “berhasil” laporkan semua item, termasuk yang dihapus beserta alasannya.
Tidak melakukan CFA di sampel independen EFA hanya eksplorasi. Validasi strukturnya dengan CFA di sampel yang berbeda.

Demonstrasi di `jamovi`

Konteks: Burnout pada tenaga kerja

Dataset yang kita gunakan: Dataset Contoh EFA (dataset-burnout.omv)
- Dapat diunduh dari navbar di laman workshop
Menggunakan skala burnout yang mengukur beberapa dimensi kelelahan kerja
- Item-item berbentuk skala Likert
Pertanyaan penelitian: berapa dimensi laten yang mendasari item-item dalam skala burnout ini?

Langkah-langkah di jamovi

Menjalankan EFA:

Analyses → Factor → Exploratory Factor Analysis
Masukkan semua item ke “Variables”
Extraction method: Minimum Residual
Rotation: Oblimin
Number of factors: Parallel Analysis

Output yang harus dicek:

☑ Factor loadings (sembunyikan |λ| < 0.30)

☑ Scree plot + parallel analysis plot

☑ Komunalitas (h²)

☑ KMO & Bartlett’s test

☑ Reliabilitas (α & ω)

Urutan membaca output

Asumsi (KMO & Bartlett’s) jumlah faktor (parallel analysis + scree) pattern matrix (loading & cross-loading) komunalitas reliabilitas

Ada pertanyaan❓

Note

Paparan disusun dengan menggunakan dan Quarto dengan template dari UNAIR Theme.
Kontak saya via amelia.zein@psikologi.unair.ac.id

Principal Component Analysis & Exploratory Factor Analysis

Outline

Mengapa analisis faktor?

Bayangkan skala psikologi dengan 20 item…

Measurement error mendistorsi estimasi

Keluarga model variabel laten

EFA vs CFA — sekilas

Principal Component Analysis (PCA)

Apa itu PCA?

Aplikasi PCA: reduksi dimensi & machine learning

Eigenvalue & scree plot

Component loadings & rotasi

Exploratory Factor Analysis (EFA)

PCA vs EFA — kontras lengkap

Komunalitas (h²) & keunikan

Menentukan jumlah faktor — jangan hanya Kaiser!

Rotasi dalam EFA

Metode ekstraksi di jamovi

Asumsi & Kesiapan Data

Kaiser-Meyer-Olkin (KMO)

Bartlett’s test of sphericity

Ukuran sampel yang dibutuhkan

Evaluasi & Pelaporan

Fit indices (khusus ekstraksi ML)

Reliabilitas: alpha vs omega

Checklist pelaporan EFA

Kesalahan umum dalam EFA

Demonstrasi di jamovi

Konteks: Burnout pada tenaga kerja

Langkah-langkah di jamovi

Ada pertanyaan❓

Demonstrasi di `jamovi`