Dasar-Dasar Structural Equation Modeling (SEM)

Multigroup Structural Equation Modeling: Bagian 5️⃣

Rizqy Amelia Zein

Departemen Psikologi, Universitas Airlangga

Research Data & Methods Team, Center for Advanced Internet Studies

2026-06-25

Outline

Dasar-Dasar SEM: Model struktural & pengukuran
Tahapan modeling dengan menggunakan SEM
Degree of freedom
Underidentified, just-identified, dan overidentified model
Jenis-jenis kriteria untuk menilai ketepatan model (model fit)
Menguji hipotesis (statistical power, ukuran sampel)
Membandingkan pendekatan dua-langkah vs empat-langkah
Menuliskan hasil analisis SEM dalam laporan penelitian

Pengantar SEM

SEM adalah full model menggabungkan model pengukuran dengan model jalur/struktural
Ada beberapa pendekatan dalam SEM (Jöreskog, 1993)
- Strictly confirmatory menguji apakah variance-covariance matrix yang dihipotesiskan (implied) sama dengan/didukung oleh data (observed variance-covariance matrix)
- Alternative model menguji beberapa model yang saling bersaing (competing models) pada dataset yang sama, kemudian memilih yang paling baik menggambarkan data — model-model tersebut bisa berjenjang (nested) maupun tidak (non-nested)
- Model generating dimulai dari model yang dihipotesiskan, kemudian dimodifikasi secara iteratif berdasarkan indikasi data (specification search) hingga fit statistics membaik

Model generating harus dilakukan dengan sangat hati-hati

Setiap modifikasi harus dijustifikasi secara teori, bukan semata-mata didorong oleh data. Pendekatan ini rentan terhadap capitalization on chance. Model yang tampak fit di satu sampel sering kali gagal direplikasi di sampel lain (MacCallum, Roznowski & Necowitz, 1992). Apabila modifikasi dilakukan, validasi hasilnya pada sampel yang berbeda.

Langkah-langkah melakukan analisis SEM

Spesifikasi model
Identifikasi model
Estimasi model
Menguji model
Memodifikasi model

Spesifikasi model

Peneliti menyusun model pengukuran dan model jalur dengan menggambar diagram jalur path diagram
Dalam SEM, justifikasi teori adalah suatu yang tidak bisa ditawar-tawar karena tanpa basis teori yang kuat, model testing akan selalu memberikan hasil yang mengecewakan (poor fit)
Sebelum melakukan SEM, peneliti sangat disarankan melakukan pilot study, atau setidaknya meta studies (e.g., systematic review, scoping review, meta analysis, studi replikasi, dsb.) yang dapat membantu peneliti menyusun hipotesis model yang baik

Identifikasi model

Model dapat diidentifikasi apabila degree of freedom (df) ≥ 0
Apabila df = 0, maka model tsb adalah saturated model atau just-identified model
- Jumlah ‘informasi yang diketahui’ dan ‘tidak diketahui’ sama persis
- Tidak bisa difalsifikasi, hampir ‘selalu tepat’, tetapi ‘selalu salah’
Apabila df bernilai negatif, maka model tsb under-identified karena jumlah parameter jalur yang harus diestimasi lebih banyak daripada jumlah nilai unik (non-redundant information) di variance-covariance matrix
- Lebih banyak ‘informasi yang tidak diketahui’ daripada yang ‘diketahui’
- Model ‘misterius’ dan ‘ambisius’😄

Identifikasi model

Model yang dapat diidentifikasi adalah over-identified model dimana jumlah parameter variance-covariance matrix lebih banyak daripada jumlah parameter jalur yang diestimasi (sehingga df ≥ 1)
- Lebih banyak ‘informasi yang diketahui’ daripada yang ‘tidak diketahui’
Degree of freedom dihitung dengan mengurangi jumlah nilai unik dalam variance-covariance matrix dengan jumlah parameter jalur yang hendak diestimasi

Over-identified model

Pada model ini jumlah nilai unik (non-redundant information) dalam variance-covariance matrix = 5(5+1)/2 = 15
Sedangkan jumlah parameter jalur yang akan diestimasi adalah 11 (5 factor loading, 6 error variance), sehingga
df = 15-11 = 4 🥇
Model dapat diidentifikasi karena memenuhi syarat (over-identified)

Under-identified model

Pada model ini jumlah nilai unik (non-redundant information) dalam variance-covariance matrix = 3(3+1)/2 = 6
Sedangkan jumlah parameter jalur yang akan diestimasi adalah 7 (3 factor loading, 4 error variance), sehingga
df = 6-7 = -1 😢
Model tidak dapat diidentifikasi karena tidak memenuhi syarat (under-identified)

Just-identified model

Pada model ini jumlah nilai unik (non-redundant information) dalam variance-covariance matrix = 3(3+1)/2 = 6
Sedangkan jumlah parameter jalur yang akan diestimasi adalah 6 (3 factor loading, 3 error variance), sehingga
df = 6-6 = 0 😢
Model tidak dapat diidentifikasi karena tidak ada ruang tersisa untuk melakukan estimasi (just-identified/saturated model)

Berapa banyak item dibutuhkan agar model diidentifikasi?

Untuk satu faktor/variabel laten, kita perlu sedikitnya 4 variabel indikator karena apabila ≤3, maka model akan just-identified atau under-identified
Tapi meskipun kita punya 4 variabel indikator untuk 1 variabel laten, kita masih mungkin memiliki model yang just-identified, ketika errornya berkorelasi
Apakah bisa 1 variabel laten diukur oleh 1 observed variable?

Variabel laten dengan 1 indikator

Masih bisa diestimasi dengan asumsi
- Item diasumsikan memiliki reliabilitas sempurna, sehingga varians error diconstraint = 0
- Reliabilitas diukur dengan test-retest, kemudian varians error diconstraint dengan mempertimbangkan reliabilitas dan standar deviasi

Mengestimasi & Menguji model

Pilih metode estimasi yang paling cocok dengan karakteristik data (ML, ULS, GLS, WLS, DWLS atau robust DWLS)
Metode estimasi ini yang akan menghitung standard error yang tepat sesuai dengan karakteristik model
Apabila metode estimasi yang dipilih tidak tepat dan tidak sesuai dengan kompatibilitas datanya, maka estimasi standard error menjadi bias sehingga model parameter memberikan informasi yang menyesatkan
Lihat Beaujean (2014), appendix A untuk perbandingan berbagai macam estimator yang opsinya tersedia di lavaan dan SEMLj
- Atau cek di laman web lavaan

Menguji ketepatan model

Umumnya peneliti ingin mendapatkan 3 informasi
- χ² sebagai global fit measure. χ² menguji perbedaan antara model-implied dengan variance-covariance matrix dari data.
- Apabila p-value dari χ² ≥ α (dengan α = 0.05), maka tidak ada perbedaan antara keduanya interpretasinya, data mendukung model
- p-value dari factor loading untuk setiap variabel dalam model
- Besar dan arah factor loading, yang memberikan informasi mengenai magnitude dan kontribusi variabel tersebut dalam menjelaskan variabel lainnya. Sedangkan arah factor loading (positif/negatif) memberikan informasi mengenai arah hubungan.

Menguji ketepatan model: Chi-square (χ²)

Dihitung dengan cara membandingkan model yang dihipotesiskan (implied model) dengan saturated model (model dengan fit sempurna, df = 0, yang mana semua parameter dibebaskan tanpa constraint)
- Incremental index seperti CFI dan NFI-lah yang membandingkan implied model dengan baseline/null model (model tanpa jalur sama sekali)
Umumnya, model dengan jumlah sampel yang besar akan memberikan hasil uji χ² yang signifikan, tetapi uji χ² yang signifikan ini tidak boleh diabaikan begitu saja❗
Selain χ², kita bisa mengevaluasi model dengan melihat alternative fit indices: Incremental index, Parsimony index, dan Absolute (standalone) index.

Incremental (comparative/relative) index

Didapatkan dengan membandingkan implied model dengan baseline model, yang meliputi:

Comparative Fit Index mendekati 1 = closer fit
Normed Fit Index mendekati 1 = better fit
Incremental Fit Index/Bollen’s Nonnormed Fit Index mendekati 1 = better fit
Tucker Lewis Index/Bentler-Bonnet Non-Normed Fit Index mendekati 1 = better fit

Parsimony index

Indeks ini secara khusus memberikan pinalti pada kompleksitas model, yang meliputi:

Expected Cross Validation Index digunakan untuk membandingkan dua model atau lebih. Nilai yang lebih kecil menunjukkan model yang lebih baik
Information-Theoretic Criterion meliputi AIC, BIC, dan SABIC. Nilai yang kecil menunjukkan model yang lebih baik
Noncentrality Parameter-based Index mendekati 1 = better fit
McDonald’s Noncentrality Index mendekati 1 = better fit
Parsimonious Normed Fit Index NFI yang mempertimbangkan parsimony model, mendekati 1 = better fit
Parsimony Goodness of Fit Index mendekati 1 = better fit

Absolute index 1️⃣

Indeks ini dihitung tanpa melakukan perbandingan dengan baseline, yang meliputi:

Root Mean Square Error of Approximation (RMSEA) merupakan estimasi seberapa besar approximation error per degree of freedom yang diperkirakan terjadi di populasi — close fit ketika nilainya < 0.05, acceptable fit ketika 0.05 – 0.08, poor fit ketika > 0.10
- p-value dapat digunakan untuk menguji H₀: RMSEA ≤ 0.05 (close fit)
- Oleh karena itu, gagal menolak H₀ (p > 0.05) menunjukkan bahwa model “close-fitting”
- RMSEA sangat dipengaruhi oleh kompleksitas model dan sample size, dan dapat menunjukkan misfiting bahkan untuk kesalahan spesifikasi yang kecil ketika sampelnya besar

Absolute index 2️⃣

Standardized Root Mean Square Residual (SRMR) akar kuadrat dari rata-rata kuadrat selisih antara observed dan model-implied correlation matrix, nilai < 0.08 menunjukkan acceptable fit
- SRMR (vs. RMSEA) relatif kurang dipengaruhi oleh sample size dan secara langsung mencerminkan selisih rata-rata antara observed dan model-implied correlation matrix
- Hu & Bentler (1999) merekomendasikan melaporkan keduanya (dual cutoff): CFI ≥ 0.95 dan SRMR ≤ 0.08

Absolute index 3️⃣

χ²/df ratio
Goodness of Fit Index mendekati 1 = better fit
Adjusted Goodness of Fit Index merupakan parsimony adjustment dari GFI, mendekati 1 = better fit
Hoelter’s Critical n nilainya sebaiknya > 200

Global vs. local fit

Parameter jalur bisa ditolak meskipun hasil omnibus test/global fit memuaskan, sehingga menginterpretasi koefisien jalur adalah proses yang juga harus dilakukan.
Berikut ini adalah beberapa prosedur yang direkomendasikan:
- Lihat tanda factor loading, apakah arahnya sudah benar (negatif/positif) dan p-valuenya
- Lihat standardized parameter estimates untuk tahu apakah ada factor loading yang nilainya diatas kewajaran
- Lakukan pengujian measurement invariance dengan mengasumsikan beberapa factor loading sama di berbagai kelompok yang berbeda akan kita lakukan di Bagian 6
- Cek error variance. Apabila error variance mendekati nol, hal tsb lebih mungkin disebabkan oleh adanya outlier, kurangnya jumlah sampel, atau kurangnya jumlah indikator

Global vs. local fit

Bagaimana kalau global fit ditolak (e.g., uji χ² dengan p < 0.05)
- Kline (2024) menyarankan untuk tentatively menolak model, tetapi cek korelasi residual antar item (local fit)
- Ketika korelasi residual menunjukkan tidak ada paired correlation > 0.3, maka model dapat dikatakan tepat menggambarkan data (fit) meskipun hasil uji χ² menyatakan sebaliknya (i.e., ada perbedaan signifikan antara observed dan implied model)
- Ini berkaitan dengan asumsi local independence dalam teori pengukuran psikologi
- Artinya, model dapat “diterima” meskipun global fit ditolak hanya dalam kondisi ketika asumsi local independence dapat dipertahankan
- jamovi bisa menyimpan residual correlation sebagai output yang bisa disimpan - klik Output options covariances and correlations centang Residual
- Reviewer yang familiar dengan SEM akan selalu menanyakan justifikasi keputusan peneliti untuk mempertahakan model ketika uji χ² signifikan

Statistical power

Statistical power dalam pengujian hipotesis dalam SEM peluang menolak H₀ apabila H₀ salah (power = 1 − β)
- Power di level model (global) Apakah sampel cukup besar untuk mendeteksi bahwa model gagal memenuhi standar poor fit (RMSEA ≥ 0.08), jika standar close fit yang ingin dipertahankan adalah RMSEA ≤ 0.05? H₀: RMSEA = 0.05, H₁: RMSEA = 0.08
- Power di level jalur (lokal) Apakah sampel cukup besar untuk mendeteksi bahwa koefisien jalur tertentu (misalnya, γ) secara signifikan berbeda dari nol, berdasarkan perbandingan model dengan dan tanpa koefisien tersebut? H₀: γ = 0, H₁: γ ≠ 0
- Intinya: di level model kita berharap gagal menolak H₀ (model dianggap fit), sedangkan di level jalur kita berharap berhasil menolak H₀ (koefisien jalur signifikan)

Statistical power

Statistical power ditentukan oleh
- true population model (yang kita tidak mungkin tahu, karena sifatnya selalu unknown parameter) sehingga untuk mengestimasi jumlah sampel, kita asumsikan bahwa model memang “tepat” menggambarkan data
- probabilitas melakukan kesalahan tipe 1 (α)
- degree of freedom model
- jumlah sampel

Mengestimasi jumlah sampel (`semTools` )

semTools::findRMSEAsamplesize(
  rmsea0 = 0.05,  # RMSEA di bawah H0 (batas close fit)
  rmseaA = 0.08,  # RMSEA sesungguhnya (true model, acceptable fit)
  df = 4,         # df model yang dihipotesiskan
  power = 0.90,   # power yang diinginkan (1 - β)
  alpha = 0.05    # probabilitas kesalahan tipe 1 (α)
)

Peringatan

Pendekatan findRMSEAsamplesize dengan semTools di atas menguji kecocokan model secara global, yaitu apakah model kita secara keseluruhan cukup baik merepresentasikan data, dengan membandingkan dua nilai RMSEA (misalnya, 0.05 vs 0.08), tanpa memperhatikan parameter spesifik dalam model.

Demonstrasi power analysis dengan PAMLj

A priori power analysis dengan mempertimbangkan parameter spesifik dalam model dapat dilakukan dengan module PAMLj, yang asalnya menggunakan semPower di . Unduh demonstrasinya di sini.

2️⃣ vs. 4️⃣ langkah estimasi model

2️⃣ langkah menyusun model (Anderson & Gerbing, 1988)
- Estimasi dulu measurement model
- Kemudian baru structural model… pada dataset yang sama
4️⃣ langkah menyusun model (Mulaik & Millsap, 2000)
- Spesifikasikan model pengukuran yang unrestricted dengan melakukan EFA untuk mengidentifikasi jumlah faktor (sepenuhnya bebas, tanpa asumsi teori apapun - utamanya ketika asumsi teori masih rapuh)
- Spesifikasikan model CFA yang restricted (confirmatory) — tentukan indikator mana yang mengukur faktor mana, lalu uji apakah model pengukuran sudah cocok dengan data
- Spesifikasikan model struktural yang unrestricted — semua jalur antar-variabel laten dibiarkan bebas (saturated structural model) untuk memeriksa apakah model pengukuran tetap fit sebelum hipotesis jalur struktural diterapkan
- Spesifikasikan model struktural yang restricted — terapkan batasan sesuai hipotesis teori (jalur mana yang ada/tidak ada), kemudian uji apakah model yang telah di-constraint ini masih tepat menggambarkan data

Apakah 4️⃣ langkah bisa menggunakan dataset yang sama?

Seharusnya, tidak.
Pendekatan 4️⃣ langkah idealnya dieksekusi dengan 3️⃣ dataset yang berbeda untuk menghindari capitalization on chance, karena setiap tahap yang melibatkan respesifikasi atau modifikasi akan “menghabiskan” dataset tersebut (MacCallum, Roznowski & Necowitz, 1992).

Apakah 4️⃣ langkah bisa menggunakan dataset yang sama?

Langkah 1️⃣ (EFA) dataset pertama: mengeksplorasi struktur faktor secara bebas. Langkah ini penting utamanya ketika model melibatkan konstruk yang belum established bukti empiriknya
Langkah 2️⃣ (CFA) dataset kedua: mengkonfirmasi dan merespesifikasi model pengukuran, memastikan construct validity — hasilnya (df, struktur faktor, indeks fit) menjadi dasar a priori power analysis sebelum pengujian model lengkap
Langkah 3️⃣–4️⃣ (model struktural) dataset ketiga: karena dataset kedua sudah “terpakai” untuk respesifikasi pengukuran, pengujian model struktural (unrestricted lalu restricted) dilakukan pada data yang benar-benar independen
Dalam praktiknya, apabila hanya tersedia satu dataset, peneliti dapat membaginya secara acak menjadi tiga bagian (tiga holdout sample) — meskipun tentu saja ada risiko mengurangi statistical power di setiap tahapannya

Mari kita renungkan 🧘

Baca “Cargo Cult Science” (Feynman, 1974) di sini

JARS APA: Apa saja yang harus dilaporkan?

Abstrak
- Laporkan setidaknya 2 global fit statistics (χ² [df, p-value], RMSEA/GFI/AGFI/TLI, BIC, AIC, dll)
Metode
- Deskripsikan variabel endogen dan eksogennya
- Berikan penjelasan, untuk setiap instrumen/variabel, apakah indikator atau kalaupun total skor, apakah skor diperoleh dari item yang homogen (e.g., dengan item parceling)
- Berikan penjelasan bagaimana skala/instrumen disusun, laporkan properti psikometriknya, serta penjelasan mengenai level pengukuran
- Laporkan bagaimana cara peneliti menentukan jumlah sampel (misalnya, dengan rule of thumb, a priori power analysis atau simulasi Monte Carlo)

JARS APA

Hasil penelitian
- Data diagnostics % data missing, distribusi data missing di semua variabel
- Missingness apabila ada data missing, maka peneliti harus menganalisis apakah data missingnya MCAR, MAR atau MNAR, kemudian bagaimana cara peneliti menangani data missing
- Distribusi data data normal/non-normal? Laporkan multivariate normality (Mardia’s coefficient)
- Data summary summary statistics yang bisa digunakan orang lain untuk melakukan replikasi, bisa variance-covariance atau correlation matrix

JARS APA

Spesifikasi model
- Jelaskan apakah model strictly confirmatory, comparison, atau model generation
- Buat diagram jalur. Bedakan antara variabel constrained, fixed/free, observed dan latent variables
- Kalau model yang diuji adalah bagian dari model yang lebih besar, jelaskan rasionalisasinya
- Kalau ada residual correlation pada error, interaction effect atau nonindependence, jelaskan rasionalisasinya
- Kalau membandingkan model, jelaskan parameter yang akan digunakan untuk membandingkan

JARS APA

Estimasi
- Jelaskan software dan versi yang digunakan, dan jelaskan metode estimasi yang digunakan
- Jelaskan default criteria di software yang digunakan
Model fit
- Laporkan omnibus (global) fit statisticsnya dan diinterpretasikan artinya.
- Laporkan local fit dan indicator estimates (factor loading)
- Kalau membandingkan antara dua model, jelaskan parameter yang digunakan
Respesifikasi
- Jelaskan prosedur modifikasi model
- Jelaskan rasionalisasi teorinya ketika peneliti melakukan modifikasi dan bandingkan dengan model yang sebelumnya

Demonstrasi SEM

Mari kita lihat contoh penggunaan SEM
Unduh datasetnya disini

Latihan mandiri 5️⃣: Membuat dan melaporkan SEM

Unduh Dataset Latihan SEM
Unduh Kamus Data disini
Silahkan buat hipotesisnya, lalu spesifikasi model SEM dari variabel yang tersedia di dataset. Satu model sedikitnya mengandung 2 variabel laten.

Ada pertanyaan❓

Note

Paparan disusun dengan menggunakan dan Quarto dengan template dari UNAIR Theme.
Kontak saya via amelia.zein@psikologi.unair.ac.id

Dasar-Dasar Structural Equation Modeling (SEM)

Outline

Pengantar SEM

Langkah-langkah melakukan analisis SEM

Spesifikasi model

Identifikasi model

Identifikasi model

Over-identified model

Under-identified model

Just-identified model

Berapa banyak item dibutuhkan agar model diidentifikasi?

Variabel laten dengan 1 indikator

Mengestimasi & Menguji model

Menguji ketepatan model

Menguji ketepatan model: Chi-square (χ²)

Incremental (comparative/relative) index

Parsimony index

Absolute index 1️⃣

Absolute index 2️⃣

Absolute index 3️⃣

Global vs. local fit

Global vs. local fit

Statistical power

Statistical power

Mengestimasi jumlah sampel (semTools )

2️⃣ vs. 4️⃣ langkah estimasi model

Apakah 4️⃣ langkah bisa menggunakan dataset yang sama?

Apakah 4️⃣ langkah bisa menggunakan dataset yang sama?

Mari kita renungkan 🧘

Mari kita renungkan 🧘

JARS APA: Apa saja yang harus dilaporkan?

JARS APA

JARS APA

JARS APA

Demonstrasi SEM

Latihan mandiri 5️⃣: Membuat dan melaporkan SEM

Ada pertanyaan❓

Mengestimasi jumlah sampel (`semTools` )