Linear Mixed Models

Menggunakan jamovi (Module GAMLj)

2026-04-16

Outline 1️⃣

  • Struktur data berjenjang/bersarang (hierarchical/nested data)
  • Within dan between group variance
  • Pengantar linear mixed-effect (lme)
  • Intra-class correlation dan likelihood ratio test (LRT)
  • Membandingkan garis regresi antar kelompok dengan lme
  • lme dengan prediktor level 1 (random coefficients model)
    • Mengidentifikasi intercept (konstanta) yang berbeda antar kelompok (random intercept model)
    • Mengidentifikasi slopes (gradien/kemiringan garis) yang berbeda antar kelompok (random slopes model)

Outline 2️⃣

  • Explained variances (Nakagawa & Schielzeth, 2012)
    • Marginal R2
    • Conditional R2
  • Contextual effect dan partitioning/centering
  • Melaporkan analisis dengan lme dalam manuskrip

Coba kita lihat lebih dekat…

  • Di sesi sebelumnya, kita telah melakukan analisis regresi OLS dengan dataset-sekolah.omv

  • Coba kita lakukan inspeksi visual sekali lagi pada dataset yang sama

  • Buat scatterplot dimana mandiri menjadi Y-Axis, sedangkan neu, hi, trust sebagai X-Axis

  • Kemudian masukkan idsekolah pada kolom Group

    • Fungsinya, kita akan mendapatkan garis regresi untuk masing-masing sekolah yang berbeda
  • Apa yang terjadi?

Scatterplot

Ada yang janggal.. 🤔

  • Intercept neuroticism dan pendapatan keluarga ternyata menunjukkan korelasi negatif dengan tingkat kemandirian, dengan intercept dan kemiringan (slopes) yang bervariasi di setiap sekolah.

  • Selain itu, meskipun trust menunjukkan korelasi positif di semua sekolah, tetapi intercept dan slope nya juga bervariasi di setiap sekolah

  • Padahal, berdasarkan analisis yang kita lakukan di sesi sebelumnya, disimpulkan bahwa neuroticism ibu dan kemandirian anak korelasinya positif (lihat output di samping).

  • Fenomena ini dikenal sebagai Simpson’s paradox

    • ..yaitu ketika tren yang diamati di level kelompok berbalik arah atau menghilang sama sekali ketika kelompok-kelompok tersebut digabungkan (diagregasi).

Ada yang janggal.. 🤔

  • Kalau Simpson’s paradox diabaikan, kesimpulan bisa terkontaminasi ecological fallacy
    • Terjadi ketika peneliti salah menyimpulkan suatu gejala yang skalanya individual, padahal yang dianalisis sesungguhnya fenomena di level yang lebih besar (kelompok atau sub-kelompok)

Ada yang janggal.. 🤔

  • “Saya ga percaya kalau ada yang bilang 7 dari 10 laki-laki dewasa di Indonesia adalah perokok. lha, suami saya, kakek saya, adik-adik saya, semuanya laki-laki dewasa dan tidak ada yang merokok, tuh”.
    • Kalau kebanyakan pria dewasa adalah perokok, bukan berarti tidak ada pria yang bukan perokok.
    • Atau sebalinya, kalau orang terdekat saya bukan perokok, tidak bisa menggugurkan fakta bahwa mayoritas pria dewasa di Indonesia adalah perokok.
    • Oleh karena itu, perlu dipisahkan, mana fenomena yang terjadi di level kelompok, mana yang terjadi di level individual.

Struktur sampel bersarang/berjenjang

Apa yang harus dilakukan?

  • Kita abaikan saja dan langsung menggunakan regresi OLS, dengan atau tanpa informasi mengenai pengelompokan data sebagai variabel kontrol.
    • Masalahnya, data/observasi kita sangat bergantung pada pengelompokan unit analisis
    • Nah, lalu melanggar asumsi OLS? (data/observasi dan residual harus independen)
    • Efeknya, standard error yang diestimasi oleh model terlalu kecil (karena mengabaikan varians dependen variabel yang ditentukan oleh kelompok)
    • Varians variabel dependen yang tidak bisa dijelaskan (residual) akan makin besar
    • Kesimpulan/inferensi yang ditarik menjadi tidak tepat, sehingga risiko terjadinya type I error meningkat.

Apa yang harus dilakukan?

  • Bagaimana kalau pengelompokan (group status) dimasukkan aja dalam regresi OLS sebagai variabel moderator
    • Dengan begitu, estimasi standard error disesuaikan dengan menggunakan marginal model
    • Estimasi standard error akan lebih presisi, tetapi kita tetap tidak bisa mengestimasi between-group variance
  • Kalau diagregat? Jadi, unit analisis yang tadinya individual, menjadi kelompok.
    • Ukuran sampel menjadi lebih sedikit, sehingga statistical power menjadi lebih rendah❗

Fixed dan random effects

Model fixed effects

Model random effects

Full model

Kovarians antara random intercept dan random slopesU0U1)

  • Nilainya positif, maka semakin tinggi intercept akan diasosiasikan dengan kemiringan garis yang lebih curam/slopes yang lebih besar

  • Misalnya, di sekolah yang rata-rata pendapatan keluarga inti perbulan siswanya tinggi, maka korelasi antara pendapatan per bulan dengan tingkat kemandirian siswa akan menguat.

  • Nilainya negatif, maka semakin tinggi intercept akan diasosiasikan dengan kemiringan garis yang lebih landai/slopes yang lebih kecil

  • Misalnya, di sekolah yang rata-rata pendapatan keluarga inti perbulan siswanya tinggi, maka korelasi antara pendapatan per bulan dengan tingkat kemandirian siswa akan melemah.

Parameter yang diestimasi dalam lme

  • Fixed intercept (c00)

  • Fixed slopes (c10)

  • Varians random intercept2U0)

  • Varians random slopes2U1)

  • Kovarians antara random intercept dan random slopesU0U1)

  • Varians residual level-1 (σ2e)

Yuk kita coba! 💪

Pastikan module GAMLj sudah terpasang di jamovi

Latihan 3️⃣: Kembali ke dataset sekolah 🏫

Setelah menginspeksi data secara visual, kita tidak bisa mempertahankan kesimpulan bahwa tingkat pendapatan dan tingkat kemandirian anak berkorelasi positif. Kita akan membuat linear mixed model dengan tingkat pendapatan sebagai prediktor, dan tingkat kemandirian anak sebagai variabel dependen.

Buat “model kosong” (null model)

  • Yaitu model yang isinya hanya intercept saja, tidak ada prediktornya (slopes)

  • Pada menu bar, klik Linear Models, pilih mixed models

    • Masukkan mandiri dalam kolom dependent variable
    • Masukkan idsekolah dalam kolom cluster variables
    • Pada menu random effects masukkan intercept|idsekolah dalam kolom random coefficients
  • Pada menu model comparison centang more fit indices

  • Catat nilai AIC yang tersedia dalam tabel additional indices

  • Di sesi sebelumnya, sudah dijelaskan tentang fungsi AIC dan BIC

Latihan 3️⃣: Model dengan prediktor

Bikin linear mixed model dengan prediktor

  • Masukkan hi dalam kolom covariates

  • Pada menu random effects, masukkan juga hi|idsekolah, karena kita akan mengestimasi random slopes-nya juga

    • Centang opsi LRT for Random Test dan random coefficients
  • Pada menu covariates scaling, ubah centered menjadi centered clusterwise

    • Berkaitan dengan partitioning (akan dijelaskan di bagian selanjutnya)

Fixed coefficients

  • Tes kecocokan model (Omnibus Test) signifikan menggambarkan data (F(1, 3.28) = 51.7, p = .004)
  • Korelasi antara tingkat pendapatan keluarga dengan kemandirian anak negatif, bukan positif, seperti hasil OLS sebelumnya
  • Anak yang dibesarkan di keluarga dengan tingkat pendapatan yang tinggi, justru memiliki tingkat kemandirian yang rendah (B = -0.623 95% CI [-0.794, -0.453], SE = 0.086, t = -7.29, p = .004).

Random coefficients 1️⃣

  • Bandingkan varians random intercept2U0) dan varians random slopes2U1) dengan varians residual
  • Varians random intercept lebih besar, sedangkan varians random slopes lebih kecil
  • Artinya, tingkat kemandirian berbeda signifikan antar-sekolah, namun kekuatan korelasi/hubungan antara pendapatan rumah tangga dengan tingkat kemandirian relatif tidak berbeda antar sekolah

Interpretasi random intercept dan random slopes (vs. residual)

Varians
Random
Intercept
Varians
Random
Slope
Interpretasi
Besar Kecil Kelompok berbeda secara substansial dalam rata-rata outcome, tetapi hubungan antara prediktor dan outcome relatif seragam di semua kelompok
Kecil Besar Kelompok memiliki rata-rata outcome yang serupa, tetapi kekuatan (dan/atau arah) hubungan antara prediktor dan outcome sangat bervariasi antar kelompok

Interpretasi random intercept dan random slopes (vs. residual)

Varians
Random
Intercept
Varians
Random
Slope
Interpretasi
Besar Besar Kelompok berbeda baik dalam rata-rata outcome maupun dalam hubungan prediktor–outcome — periksa kovarians intercept-slopeU0U1) untuk melihat apakah kelompok dengan rata-rata tinggi juga memiliki slope yang lebih besar atau lebih kecil
Kecil Kecil Sedikit variasi antar kelompok — struktur multilevel mungkin tidak diperlukan, pertimbangkan model regresi OLS

Random coefficients 2️⃣

  • Menguji efek sekolah (kelompok)
    • Intra-class correlation, yaitu merupakan proporsi total varians variabel dependen yang dapat dijelaskan oleh variasi antar kelompok

    • Likelihood ratio test (LRT), yaitu teknik untuk menguji ada/tidaknya perbedaan varians antar-kelompok

    • LRT dan ICC juga bisa berfungsi sebagai indikator perlu/tidaknya lme dilakukan

Random coefficients 3️⃣

  • ICC = 0.622, artinya 62.2% varians tingkat kemandirian siswa dijelaskan oleh perbedaan sekolah.

  • ICC di atas 0.1 biasanya menunjukkan lme adalah opsi yang lebih baik daripada OLS.

  • LRT menunjukkan bahwa ada perbedaan yang signifikan antara varians tingkat kemandirian antar-sekolah (LRT(2)=74.0, p<.001), tetapi…

  • …struktur multilevel tetap dipertahankan mengingat besarnya ICC yang mengindikasikan ketidakindependenan observasi dalam sekolah yang sama.

  • LRT bisa jadi tidak signifikan karena power rendah akibat kita hanya punya sedikit kelompok (< 5 sekolah) dalam dataset

Random coefficients 4️⃣

  • Korelasi antara random slopes dan random interceptU0U1) nilainya negatif.

  • Artinya, sekolah yang siswanya rata-rata lebih mandiri, korelasi negatif pendapatan keluarga terhadap kemandirian lebih kuat (pendapatan tinggi, kemandirian justru makin turun drastis)

  • Jadi pendapatan keluarga justru lebih “menonjol” sebagai penjelas variasi kemandirian yang tersisa di sekolah dengan rata-rata kemandirian yang tinggi. Efek negatifnya lebih kuat.

  • Apakah artinya lingkungan sekolah tidak berdampak pada kemandirian anak?

    • Belum tentu😉 Periksa dulu contextual effect
    • Akan kita eksplorasi di bagian selanjutnya

Random coefficients 5️⃣

  • Tabel di samping adalah intercept dan slopes untuk masing-masing sekolah
  • Sekolah E adalah sekolah dengan rata-rata kemandirian yang paling tinggi (intercept paling besar)
  • Sekaligus sekolah dengan korelasi antara kemandirian dan tingkat pendapatan keluarga yang paling tinggi (slope paling besar)

Model Comparison 1️⃣

  • AIC

    • Apabila kita membandingkan “model kosong” (atas) dengan model yang ada prediktor (bawah), maka model yang terakhir lebih mampu menjelaskan varians kemandirian anak.
  • LRT test signifikan pada null model (atas) tetapi menjadi nonsignifikan pada model dengan prediktor (bawah)

  • Artinya, mempertahankan struktur bersarang memang pilihan tepat dan menguatkan dugaan sebelumnya bahwa LRT test yang tidak signifikan karena under-powered

Model Comparison 2️⃣

  • R2 (Nakagawa & Schielzeth, 2012)

    • Marginal: proporsi varians variabel dependen yang dapat dijelaskan oleh fixed models saja

    • Conditional: proporsi varians variabel dependen yang dapat dijelaskan oleh fixed dan random models sekaligus

    • Varians yang dapat dijelaskan oleh fixed model saja hanya 6.4%, sedangkan oleh keseluruhan model adalah 64.6%.

Within-group effect

  • Seberapa besar selisih Y dari 2 orang yang berada di kelompok yang sama, ketika selisih X-nya sebesar 1 poin?
  • Seberapa besar perbedaan tingkat kemandirian dua orang anak yang berada dalam sekolah yang sama, ketika selisih tingkat pendapatan keluarga mereka berbeda sebesar 1 poin?
    • Didapatkan dengan cara melakukan group-mean centering (akan dijelaskan di bagian berikutnya)

Between-group effect

  • Seberapa besar selisih Y dari dua orang yang masing-masing berada pada rerata X kelompok mereka (yaitu, X individual = rerata kelompok), ketika rerata X kelompok mereka berbeda sebesar 1 poin?
  • Seberapa besar perbedaan tingkat kemandirian dari dua siswa yang masing-masing berada pada rerata tingkat pendapatan keluarga di sekolah mereka (yaitu, tingkat pendapatan keluarga siswa tsb = rerata sekolah), ketika rerata tingkat pendapatan keluarga di sekolah mereka berbeda sebesar 1 poin?
    • Didapatkan dengan cara memasukkan rerata kelompok ke dalam model

Contextual effects

  • Seberapa besar selisih Y dua orang dari kelompok yang berbeda, namun dengan X yang sama, ketika rerata X kelompoknya berbeda sebesar 1 poin.
  • Seberapa besar perbedaan tingkat kemandirian dua siswa dari dua sekolah yang berbeda, ketika tingkat pendapatan keluarga kedua siswa tersebut sama, tetapi rerata tingkat pendapatan keluarga di sekolah mereka berbeda sebesar 1 poin?

Contextual effects & partitioning 1️⃣

  • Untuk menghitung contextual effect, kita harus melakukan partitioning terlebih dahulu

  • Umumnya yang dipartisi/centering adalah variabel X, bukan Y

  • Prosedurnya menggunakan (Mundlak’s approach):

    • Lakukan group-mean centering
    • Hitung rerata tiap kelompok
    • Masukkan keduanya ke dalam model

Contextual effects & partitioning 2️⃣

  • Group-mean centering

    • Hitung group-mean centering dengan formula \[X_{within_{ij}} = X_{ij} - \bar{X}_{j}\]
    • Sederhananya: nilai X individu dikurangi rata-rata X kelompoknya
    • Pendapatan keluarga anak \(i\) dikurangi rata-rata pendapatan keluarga anak-anak di sekolah \(j\)
  • Masukkan skor variabel X yang sudah di centering dan rerata masing-masing kelompok ke dalam model

  • Contextual effect = Between-group effect - Within-group effect

    • Positif: ketika rata-rata X kelompok lebih tinggi sebesar 1 poin, rata-rata Y kelompok cenderung lebih tinggi, bahkan setelah nilai X individu dikontrol
    • Negatif: kebalikannya — kelompok dengan rata-rata X lebih tinggi justru memiliki rata-rata Y lebih rendah, setelah X individu dikontrol

Latihan 4️⃣: Contextual effects

  • Lakukan lme dengan memasukkan hi_group_centered dan hi_gm dalam satu model yang sama

  • Masukkan kedua variabel tersebut dalam fixed coefficients

  • Masukkan intercept (Intercept|idsekolah) dan hi_group_centered ke kotak random coefficients, kemudian pada menu effect correlation pilih not correlated

  • Pada menu covariates scaling, set keduanya pada none (karena variabel sudah di group-mean centered secara manual)

  • Lihat fixed slopes-nya untuk kedua prediktor

Warning

Jangan masukkan hi_gm ke random coefficient karena ini adalah rerata kelompok, sehingga nilainya sama untuk semua individu di kelompok yang sama.

Contextual effects

  • Within (B = -0.621 95% CI [-0.786, -0.456], SE = 0.084, t = -7.386, p = .004), maupun between-group effect (B = 0.732 95% CI [0.583, 0.881], SE = 0.075, t = 9.76, p = .002) berhubungan dengan tingkat kemandirian siswa.
  • Within-group effect: Di dalam sekolah yang sama, siswa dengan tingkat pendapatan keluarga yang lebih tinggi cenderung memiliki tingkat kemandirian yang lebih rendah.
  • Between-group effect: Ada bukti bahwa sekolah dengan rata-rata pendapatan keluarga yang lebih tinggi cenderung memiliki siswa yang lebih mandiri.

Contextual effects

  • Contextual effects (\(\beta_{between_{ij}}-\beta_{within_{ij}}\) = 0.732 - (-0.621) = 1.535) menunjukkan bahwa terdapat pengaruh tambahan dari konteks sekolah (yang cukup substansial) terhadap kemandirian siswa, di luar pengaruh pendapatan keluarga siswa itu sendiri.

Bagaimana melaporkannya? 1️⃣

Untuk menguji hipotesis bahwa ada perbedaan rerata tingkat kemandirian anak, dan korelasi antara pendapatan keluarga dengan tingkat kemandirian anak di masing-masing sekolah, peneliti melakukan analisis linear mixed effect. Tingkat kemandirian anak dijelaskan sebagai fungsi dari tingkat pendapatan keluarga, dengan mengontrol asal sekolah (PAUD) anak. Sebelum melakukan analisis, tingkat pendapatan keluarga dipartisi dengan cara menguranginya dengan rata-rata tingkat pendapatan keluarga di masing-masing sekolah (group-mean/cluster-based centering). Pengujian model menghasilkan kesimpulan bahwa model tepat menggambarkan data (F(1, 3) = 93, p = .002), sehingga dapat disimpulkan bahwa tingkat pendapatan keluarga dan kemandirian anak, berkaitan secara berarti.

Bagaimana melaporkannya? 2️⃣

Model fixed effects menunjukkan bahwa ada bukti bahwa perbedaan tingkat pendapatan keluarga di dalam sekolah yang sama berhubungan dengan perbedaan tingkat kemandirian (within-group effect: B = -0.621 95% CI [-0.786, -0.456], SE = 0.084, t = -7.386, p = .004). Artinya, di dalam sekolah yang sama, siswa dengan tingkat pendapatan keluarga yang lebih tinggi cenderung memiliki tingkat kemandirian yang lebih rendah. Selain itu, ada bukti bahwa sekolah dengan rata-rata tingkat pendapatan keluarga yang lebih tinggi cenderung memiliki rata-rata tingkat kemandirian yang lebih tinggi (between-group effect: B = 0.732 95% CI [0.583, 0.881], SE = 0.075, t = 0.084, p = .002). Model random effects menunjukkan bahwa ada perbedaan varians tingkat kemandirian antar-kelompok (LRT(1) = 8.188, p = .004) yang signifikan antar sekolah. Contextual effects ditemukan sebesar 1.535, yang menunjukkan bahwa ada pengaruh tambahan dari konteks sekolah yang cukup substansial terhadap tingkat kemandirian siswa, di luar pengaruh pendapatan keluarga siswa itu sendiri.”

Latihan mandiri 2️⃣

  • Lakukan analisis lme untuk mengetahui:

    • Apakah varians tingkat kemandirian anak dapat dijelaskan oleh sekolah tempat anak tersebut belajar?

    • Apakah varians korelasi antara kecenderungan neuroticism ibu dengan kemandirian anak juga dapat dijelaskan oleh sekolah tempat anak tersebut belajar?

    • Seberapa besar perbedaan tingkat kemandirian dua orang anak yang berada di sekolah yang berbeda, yang ibunya sama-sama pencemas, apabila rata-rata neuroticism wali murid di dua sekolah tersebut berbeda sebesar 1 poin?

Yang belum dibahas…

  • Kalau korelasi antara X dan Y tidak linear, pakai apa dong?

  • Kalau prediktornya level-2, bagaimana?

  • Bagaimana cara merencanakan jumlah sampelnya?

  • Bagaimana kalau sampelnya bersarang/berjenjang level-3, bahkan lebih?

  • Bagaimana kalo terjadi interaksi antara variabel prediktor level-1 dengan level-2 (cross-level interactions)?

Bagaimana dengan pengukuran berulang?

  • Bayangkan kita mengukur tingkat kecemasan menteri pada:

    • Sebelum BBM naik (T1)
    • Saat kebijakan BBM naik diumumkan (T2)
    • Seminggu sesudah BBM dinyatakan naik (T3)
  • Kecemasan Menteri Purbaya di T1 dan T2 sangat mungkin berkorelasi, karena Purbaya yang sama yang diukur dua kali pada dua titik waktu (time points atau beep dalam literatur experience sampling).

  • Ketika ini terjadi, maka model melanggar asumsi independensi residual (untuk level-2) dari lme biasa.

    • Kalau diabaikan, standard error akan terlalu kecil ➡️ risiko Type I error meningkat.
  • Oleh karena itu, dalam desain eksperimen within-subject, penelitian longitudinal, dan experience sampling, peneliti harus mempertimbangkan struktur korelasi residual antarwaktu pengukuran.

  • Lanjutkan dengan belajar mandiri: lme untuk pengukuran berulang dan experience sampling.

The problem with linear relationship

Ada pertanyaan❓

Note