Dasar-Dasar Structural Equation Modeling (SEM)

Multigroup Structural Equation Modeling: Bagian 5️⃣

2026-05-09

Outline

  • Dasar-Dasar SEM: Model struktural & pengukuran
  • Tahapan modeling dengan menggunakan SEM
  • Degree of freedom
  • Underidentified, just-identified, dan overidentified model
  • Jenis-jenis kriteria untuk menilai ketepatan model (model fit)
  • Menguji hipotesis (statistical power, ukuran sampel)
  • Membandingkan pendekatan dua-langkah vs empat-langkah
  • Menuliskan hasil analisis SEM dalam laporan penelitian

Pengantar SEM

  • SEM adalah full model menggabungkan model pengukuran dengan model jalur/struktural

  • Ada beberapa pendekatan dalam SEM (Jöreskog, 1993)

    • Strictly confirmatory menguji apakah variance-covariance matrix yang dihipotesiskan (implied) sama dengan/didukung oleh data (observed variance-covariance matrix)

    • Alternative model menguji beberapa model yang saling bersaing (competing models) pada dataset yang sama, kemudian memilih yang paling baik menggambarkan data — model-model tersebut bisa berjenjang (nested) maupun tidak (non-nested)

    • Model generating dimulai dari model yang dihipotesiskan, kemudian dimodifikasi secara iteratif berdasarkan indikasi data (specification search) hingga fit statistics membaik

Model generating harus dilakukan dengan sangat hati-hati

Setiap modifikasi harus dijustifikasi secara teori, bukan semata-mata didorong oleh data. Pendekatan ini rentan terhadap capitalization on chance. Model yang tampak fit di satu sampel sering kali gagal direplikasi di sampel lain (MacCallum, Roznowski & Necowitz, 1992). Apabila modifikasi dilakukan, validasi hasilnya pada sampel yang berbeda.

Langkah-langkah melakukan analisis SEM

  • Spesifikasi model

  • Identifikasi model

  • Estimasi model

  • Menguji model

  • Memodifikasi model

Spesifikasi model

  • Peneliti menyusun model pengukuran dan model jalur dengan menggambar diagram jalur path diagram

  • Dalam SEM, justifikasi teori adalah suatu yang tidak bisa ditawar-tawar karena tanpa basis teori yang kuat, model testing akan selalu memberikan hasil yang mengecewakan (poor fit)

  • Sebelum melakukan SEM, peneliti sangat disarankan melakukan pilot study, atau setidaknya meta studies (e.g., systematic review, scoping review, meta analysis, studi replikasi, dsb.) yang dapat membantu peneliti menyusun hipotesis model yang baik

Identifikasi model

  • Model dapat diidentifikasi apabila degree of freedom (df) ≥ 0

  • Apabila df = 0, maka model tsb adalah saturated model atau just-identified model

    • Jumlah ‘informasi yang diketahui’ dan ‘tidak diketahui’ sama persis
    • Tidak bisa difalsifikasi, hampir ‘selalu tepat’, tetapi ‘selalu salah’
  • Apabila df bernilai negatif, maka model tsb under-identified karena jumlah parameter jalur yang harus diestimasi lebih banyak daripada jumlah nilai unik (non-redundant information) di variance-covariance matrix

    • Lebih banyak ‘informasi yang tidak diketahui’ daripada yang ‘diketahui’
    • Model ‘misterius’ dan ‘ambisius’😄

Identifikasi model

  • Model yang dapat diidentifikasi adalah over-identified model dimana jumlah parameter variance-covariance matrix lebih banyak daripada jumlah parameter jalur yang diestimasi (sehingga df ≥ 1)
    • Lebih banyak ‘informasi yang diketahui’ daripada yang ‘tidak diketahui’
  • Degree of freedom dihitung dengan mengurangi jumlah nilai unik dalam variance-covariance matrix dengan jumlah parameter jalur yang hendak diestimasi

Over-identified model

  • Pada model ini jumlah nilai unik (non-redundant information) dalam variance-covariance matrix = 5(5+1)/2 = 15

  • Sedangkan jumlah parameter jalur yang akan diestimasi adalah 11 (5 factor loading, 6 error variance), sehingga

  • df = 15-11 = 4 🥇

  • Model dapat diidentifikasi karena memenuhi syarat (over-identified)

Under-identified model

  • Pada model ini jumlah nilai unik (non-redundant information) dalam variance-covariance matrix = 3(3+1)/2 = 6

  • Sedangkan jumlah parameter jalur yang akan diestimasi adalah 7 (3 factor loading, 4 error variance), sehingga

  • df = 6-7 = -1 😢

  • Model tidak dapat diidentifikasi karena tidak memenuhi syarat (under-identified)

Just-identified model

  • Pada model ini jumlah nilai unik (non-redundant information) dalam variance-covariance matrix = 3(3+1)/2 = 6

  • Sedangkan jumlah parameter jalur yang akan diestimasi adalah 6 (3 factor loading, 3 error variance), sehingga

  • df = 6-6 = 0 😢

  • Model tidak dapat diidentifikasi karena tidak ada ruang tersisa untuk melakukan estimasi (just-identified/saturated model)

Berapa banyak item dibutuhkan agar model diidentifikasi?

  • Untuk satu faktor/variabel laten, kita perlu sedikitnya 4 variabel indikator karena apabila ≤3, maka model akan just-identified atau under-identified

  • Tapi meskipun kita punya 4 variabel indikator untuk 1 variabel laten, kita masih mungkin memiliki model yang just-identified, ketika errornya berkorelasi

  • Apakah bisa 1 variabel laten diukur oleh 1 observed variable?

Variabel laten dengan 1 indikator

  • Masih bisa diestimasi dengan asumsi

    • Item diasumsikan memiliki reliabilitas sempurna, sehingga varians error diconstraint = 0
    • Reliabilitas diukur dengan test-retest, kemudian varians error diconstraint dengan mempertimbangkan reliabilitas dan standar deviasi

Mengestimasi & Menguji model

  • Pilih metode estimasi yang paling cocok dengan karakteristik data (ML, ULS, GLS, WLS, DWLS atau robust DWLS)

  • Metode estimasi ini yang akan menghitung standard error yang tepat sesuai dengan karakteristik model

  • Apabila metode estimasi yang dipilih tidak tepat dan tidak sesuai dengan kompatibilitas datanya, maka estimasi standard error menjadi bias sehingga model parameter memberikan informasi yang menyesatkan

  • Lihat Beaujean (2014), appendix A untuk perbandingan berbagai macam estimator yang opsinya tersedia di lavaan dan SEMLj

Menguji ketepatan model

  • Umumnya peneliti ingin mendapatkan 3 informasi
    • χ² sebagai global fit measure. χ² menguji perbedaan antara model-implied dengan variance-covariance matrix dari data.

    • Apabila p-value dari χ² ≥ α (dengan α = 0.05), maka tidak ada perbedaan antara keduanya interpretasinya, data mendukung model

    • p-value dari factor loading untuk setiap variabel dalam model

    • Besar dan arah factor loading, yang memberikan informasi mengenai magnitude dan kontribusi variabel tersebut dalam menjelaskan variabel lainnya. Sedangkan arah factor loading (positif/negatif) memberikan informasi mengenai arah hubungan.

Menguji ketepatan model: Chi-square (χ²)

  • Dihitung dengan cara membandingkan model yang dihipotesiskan (implied model) dengan saturated model (model dengan fit sempurna, df = 0, yang mana semua parameter dibebaskan tanpa constraint)

    • Incremental index seperti CFI dan NFI-lah yang membandingkan implied model dengan baseline/null model (model tanpa jalur sama sekali)
  • Umumnya, model dengan jumlah sampel yang besar akan memberikan hasil uji χ² yang signifikan, tetapi uji χ² yang signifikan ini tidak boleh diabaikan begitu saja❗

  • Selain χ², kita bisa mengevaluasi model dengan melihat alternative fit indices: Incremental index, Parsimony index, dan Absolute (standalone) index.

Incremental (comparative/relative) index

Didapatkan dengan membandingkan implied model dengan baseline model, yang meliputi:

  • Comparative Fit Index mendekati 1 = closer fit

  • Normed Fit Index mendekati 1 = better fit

  • Incremental Fit Index/Bollen’s Nonnormed Fit Index mendekati 1 = better fit

  • Tucker Lewis Index/Bentler-Bonnet Non-Normed Fit Index mendekati 1 = better fit

Parsimony index

Indeks ini secara khusus memberikan pinalti pada kompleksitas model, yang meliputi:

  • Expected Cross Validation Index digunakan untuk membandingkan dua model atau lebih. Nilai yang lebih kecil menunjukkan model yang lebih baik
  • Information-Theoretic Criterion meliputi AIC, BIC, dan SABIC. Nilai yang kecil menunjukkan model yang lebih baik
  • Noncentrality Parameter-based Index mendekati 1 = better fit
  • McDonald’s Noncentrality Index mendekati 1 = better fit
  • Parsimonious Normed Fit Index NFI yang mempertimbangkan parsimony model, mendekati 1 = better fit
  • Parsimony Goodness of Fit Index mendekati 1 = better fit

Absolute index 1️⃣

Indeks ini dihitung tanpa melakukan perbandingan dengan baseline, yang meliputi:

  • Root Mean Square Error of Approximation (RMSEA) merupakan estimasi seberapa besar approximation error per degree of freedom yang diperkirakan terjadi di populasi — close fit ketika nilainya < 0.05, acceptable fit ketika 0.05 – 0.08, poor fit ketika > 0.10
    • p-value dapat digunakan untuk menguji H0: RMSEA ≤ 0.05 (close fit)
    • Oleh karena itu, gagal menolak H0 (p > 0.05) menunjukkan bahwa model “close-fitting
    • RMSEA sangat dipengaruhi oleh kompleksitas model dan sample size, dan dapat menunjukkan misfiting bahkan untuk kesalahan spesifikasi yang kecil ketika sampelnya besar

Absolute index 2️⃣

  • Standardized Root Mean Square Residual (SRMR) akar kuadrat dari rata-rata kuadrat selisih antara observed dan model-implied correlation matrix, nilai < 0.08 menunjukkan acceptable fit
    • SRMR (vs. RMSEA) relatif kurang dipengaruhi oleh sample size dan secara langsung mencerminkan selisih rata-rata antara observed dan model-implied correlation matrix
    • Hu & Bentler (1999) merekomendasikan melaporkan keduanya (dual cutoff): CFI ≥ 0.95 dan SRMR ≤ 0.08

Absolute index 3️⃣

  • χ²/df ratio

  • Goodness of Fit Index mendekati 1 = better fit

  • Adjusted Goodness of Fit Index merupakan parsimony adjustment dari GFI, mendekati 1 = better fit

  • Hoelter’s Critical n nilainya sebaiknya > 200

Global vs. local fit

  • Parameter jalur bisa ditolak meskipun hasil omnibus test/global fit memuaskan, sehingga menginterpretasi koefisien jalur adalah proses yang juga harus dilakukan.

  • Berikut ini adalah beberapa prosedur yang direkomendasikan:

    • Lihat tanda factor loading, apakah arahnya sudah benar (negatif/positif) dan p-valuenya

    • Lihat standardized parameter estimates untuk tahu apakah ada factor loading yang nilainya diatas kewajaran

    • Lakukan pengujian measurement invariance dengan mengasumsikan beberapa factor loading sama di berbagai kelompok yang berbeda akan kita lakukan di Bagian 6

    • Cek error variance. Apabila error variance mendekati nol, hal tsb lebih mungkin disebabkan oleh adanya outlier, kurangnya jumlah sampel, atau kurangnya jumlah indikator

Global vs. local fit

  • Bagaimana kalau global fit ditolak (e.g., uji χ² dengan p < 0.05)
    • Kline (2024) menyarankan untuk tentatively menolak model, tetapi cek korelasi residual antar item (local fit)
    • Ketika korelasi residual menunjukkan tidak ada paired correlation > 0.3, maka model dapat dikatakan tepat menggambarkan data (fit) meskipun hasil uji χ² menyatakan sebaliknya (i.e., ada perbedaan signifikan antara observed dan implied model)
    • Ini berkaitan dengan asumsi local independence dalam teori pengukuran psikologi
    • Artinya, model dapat “diterima” meskipun global fit ditolak hanya dalam kondisi ketika asumsi local independence dapat dipertahankan
    • jamovi bisa menyimpan residual correlation sebagai output yang bisa disimpan - klik Output options covariances and correlations centang Residual
    • Reviewer yang familiar dengan SEM akan selalu menanyakan justifikasi keputusan peneliti untuk mempertahakan model ketika uji χ² signifikan

Statistical power

  • Statistical power dalam pengujian hipotesis dalam SEM peluang menolak H0 apabila H0 salah (power = 1 − β)
    • Power di level model (global) Apakah sampel cukup besar untuk mendeteksi bahwa model gagal memenuhi standar poor fit (RMSEA ≥ 0.08), jika standar close fit yang ingin dipertahankan adalah RMSEA ≤ 0.05? H0: RMSEA = 0.05, H1: RMSEA = 0.08
    • Power di level jalur (lokal) Apakah sampel cukup besar untuk mendeteksi bahwa koefisien jalur tertentu (misalnya, γ) secara signifikan berbeda dari nol, berdasarkan perbandingan model dengan dan tanpa koefisien tersebut? H0: γ = 0, H1: γ ≠ 0
    • Intinya: di level model kita berharap gagal menolak H0 (model dianggap fit), sedangkan di level jalur kita berharap berhasil menolak H0 (koefisien jalur signifikan)

Statistical power

  • Statistical power ditentukan oleh
    • true population model (yang kita tidak mungkin tahu, karena sifatnya selalu unknown parameter) sehingga untuk mengestimasi jumlah sampel, kita asumsikan bahwa model memang “tepat” menggambarkan data
    • probabilitas melakukan kesalahan tipe 1 (α)
    • degree of freedom model
    • jumlah sampel

Mengestimasi jumlah sampel (semTools )

semTools::findRMSEAsamplesize(
  rmsea0 = 0.05,  # RMSEA di bawah H0 (batas close fit)
  rmseaA = 0.08,  # RMSEA sesungguhnya (true model, acceptable fit)
  df = 4,         # df model yang dihipotesiskan
  power = 0.90,   # power yang diinginkan (1 - β)
  alpha = 0.05    # probabilitas kesalahan tipe 1 (α)
)

Peringatan

Pendekatan findRMSEAsamplesize dengan semTools di atas menguji kecocokan model secara global, yaitu apakah model kita secara keseluruhan cukup baik merepresentasikan data, dengan membandingkan dua nilai RMSEA (misalnya, 0.05 vs 0.08), tanpa memperhatikan parameter spesifik dalam model.

Demonstrasi power analysis dengan PAMLj

A priori power analysis dengan mempertimbangkan parameter spesifik dalam model dapat dilakukan dengan module PAMLj, yang asalnya menggunakan semPower di . Unduh demonstrasinya di sini.

2️⃣ vs. 4️⃣ langkah estimasi model

  • 2️⃣ langkah menyusun model (Anderson & Gerbing, 1988)
    • Estimasi dulu measurement model
    • Kemudian baru structural model… pada dataset yang sama
  • 4️⃣ langkah menyusun model (Mulaik & Millsap, 2000)
    • Spesifikasikan model pengukuran yang unrestricted dengan melakukan EFA untuk mengidentifikasi jumlah faktor (sepenuhnya bebas, tanpa asumsi teori apapun - utamanya ketika asumsi teori masih rapuh)
    • Spesifikasikan model CFA yang restricted (confirmatory) — tentukan indikator mana yang mengukur faktor mana, lalu uji apakah model pengukuran sudah cocok dengan data
    • Spesifikasikan model struktural yang unrestricted — semua jalur antar-variabel laten dibiarkan bebas (saturated structural model) untuk memeriksa apakah model pengukuran tetap fit sebelum hipotesis jalur struktural diterapkan
    • Spesifikasikan model struktural yang restricted — terapkan batasan sesuai hipotesis teori (jalur mana yang ada/tidak ada), kemudian uji apakah model yang telah di-constraint ini masih tepat menggambarkan data

Apakah 4️⃣ langkah bisa menggunakan dataset yang sama?

Apakah 4️⃣ langkah bisa menggunakan dataset yang sama?

  • Langkah 1️⃣ (EFA) dataset pertama: mengeksplorasi struktur faktor secara bebas. Langkah ini penting utamanya ketika model melibatkan konstruk yang belum established bukti empiriknya

  • Langkah 2️⃣ (CFA) dataset kedua: mengkonfirmasi dan merespesifikasi model pengukuran, memastikan construct validity — hasilnya (df, struktur faktor, indeks fit) menjadi dasar a priori power analysis sebelum pengujian model lengkap

  • Langkah 3️⃣–4️⃣ (model struktural) dataset ketiga: karena dataset kedua sudah “terpakai” untuk respesifikasi pengukuran, pengujian model struktural (unrestricted lalu restricted) dilakukan pada data yang benar-benar independen

  • Dalam praktiknya, apabila hanya tersedia satu dataset, peneliti dapat membaginya secara acak menjadi tiga bagian (tiga holdout sample) — meskipun tentu saja ada risiko mengurangi statistical power di setiap tahapannya

Mari kita renungkan 🧘

Mari kita renungkan 🧘

Baca “Cargo Cult Science” (Feynman, 1974) di sini

JARS APA: Apa saja yang harus dilaporkan?

  • Abstrak
    • Laporkan setidaknya 2 global fit statistics (χ² [df, p-value], RMSEA/GFI/AGFI/TLI, BIC, AIC, dll)
  • Metode
    • Deskripsikan variabel endogen dan eksogennya
    • Berikan penjelasan, untuk setiap instrumen/variabel, apakah indikator atau kalaupun total skor, apakah skor diperoleh dari item yang homogen (e.g., dengan item parceling)
    • Berikan penjelasan bagaimana skala/instrumen disusun, laporkan properti psikometriknya, serta penjelasan mengenai level pengukuran
    • Laporkan bagaimana cara peneliti menentukan jumlah sampel (misalnya, dengan rule of thumb, a priori power analysis atau simulasi Monte Carlo)

JARS APA

  • Hasil penelitian

    • Data diagnostics % data missing, distribusi data missing di semua variabel

    • Missingness apabila ada data missing, maka peneliti harus menganalisis apakah data missingnya MCAR, MAR atau MNAR, kemudian bagaimana cara peneliti menangani data missing

    • Distribusi data data normal/non-normal? Laporkan multivariate normality (Mardia’s coefficient)

    • Data summary summary statistics yang bisa digunakan orang lain untuk melakukan replikasi, bisa variance-covariance atau correlation matrix

JARS APA

  • Spesifikasi model

    • Jelaskan apakah model strictly confirmatory, comparison, atau model generation

    • Buat diagram jalur. Bedakan antara variabel constrained, fixed/free, observed dan latent variables

    • Kalau model yang diuji adalah bagian dari model yang lebih besar, jelaskan rasionalisasinya

    • Kalau ada residual correlation pada error, interaction effect atau nonindependence, jelaskan rasionalisasinya

    • Kalau membandingkan model, jelaskan parameter yang akan digunakan untuk membandingkan

JARS APA

  • Estimasi
    • Jelaskan software dan versi yang digunakan, dan jelaskan metode estimasi yang digunakan

    • Jelaskan default criteria di software yang digunakan

  • Model fit
    • Laporkan omnibus (global) fit statisticsnya dan diinterpretasikan artinya.

    • Laporkan local fit dan indicator estimates (factor loading)

    • Kalau membandingkan antara dua model, jelaskan parameter yang digunakan

  • Respesifikasi
    • Jelaskan prosedur modifikasi model
    • Jelaskan rasionalisasi teorinya ketika peneliti melakukan modifikasi dan bandingkan dengan model yang sebelumnya

Demonstrasi SEM

Latihan mandiri 5️⃣: Membuat dan melaporkan SEM

  • Unduh Dataset Latihan SEM

  • Unduh Kamus Data disini

  • Silahkan buat hipotesisnya, lalu spesifikasi model SEM dari variabel yang tersedia di dataset. Satu model sedikitnya mengandung 2 variabel laten.

Ada pertanyaan❓

Note