Regresi Linear (Ordinary Least Square)
Menggunakan jamovi
2026-04-12
Outline
- Berlatih menginspeksi data secara visual dengan scatterplot
- Model regresi linear (ordinary least square)
- Menarik garis regresi (fitted regression lines)
- Varians yang dapat dan yang tidak dapat dijelaskan oleh model (R2)
- Menguji hipotesis
- Mengecek kecocokan model dengan data (model fit)
- Mengecek asumsi
- Distribusi (normalitas) residual
- Homoskedastisitas
- Multikolinearitas
- Mendeteksi outliers
- Menguji interaction effects dan model change
- Menulis hasil analisis regresi linear dengan interaction terms dalam manuskrip
Ilustrasi Kasus
Marimar adalah seorang wali murid di sebuah PAUD di Kota Surabaya. Pada suatu hari, ia mengamati seorang anak (dan orangtua) yang perilakunya menarik perhatiannya.
Ibu anak tersebut bersikeras untuk menunggui anaknya di sekolah, padahal guru kelas meminta agar Ibu pulang saja, mempercayakan anak pada guru, dengan tujuan melatih kemandirian anaknya.
Melihat ibunya yang menggerutu karena diminta bu Guru pulang, si anak menangis meraung-raung tidak mau ditinggalkan. Akhirnya, terpaksa bu Guru membiarkan si Ibu menunggu di sekolah.
Marimar heran sekaligus penasaran, mengapa tiap anak memberikan respon yang berbeda ketika ditinggal orangtuanya di sekolah. Ada yang menangis meraung-raung, ada yang lebih santai dengan langsung bermain. Apakah ada kaitan antara kemandirian anak dengan karakteristik orangtuanya?
Eksplorasi dataset
Dataset 1: dataset-sekolah.omv
- Marimar yang penasaran akhirnya melakukan survei di 5 PAUD di Kota Surabaya, dengan ukuran sampel sebesar total 400 orang
- Buka laman web workshop
- Klik menu Dataset di pojok kanan dan unduh dataset-sekolah.omv
- Dalam dataset tersebut ada beberapa variabel
- neu = Kecenderungan neuroticism ibu (five factor model). Makin tinggi skor, Ibu makin mudah cemas, frustasi, cemburu, rasa bersalah, dan ketakutan berlebihan.
- trust = Kepercayaan ibu bahwa perkembangan anak dapat berlangsung secara natural (trust in organismic development). Makin tinggi skor, ibu makin percaya anaknya bisa berkembang secara natural.
- hi = Pendapatan seluruh anggota keluarga inti (household income). Skor makin tinggi, pendapatan total seluruh anggota keluarga yang bekerja semakin besar.
- mandiri = Tingkat kemandirian anak. Makin tinggi skor, anak makin independen dan lebih santai ketika ditinggal orangtuanya di sekolah.
Hipotesis 1️⃣
H1 — Neuroticism ibu (neu) → Kemandirian anak (mandiri): negatif
- Ibu dengan skor neuroticism yang tinggi cenderung lebih mudah cemas dan takut berlebihan, sehingga lebih rentan menunjukkan pola pengasuhan “helikopter” yang overprotective atau tidak konsisten.
- Pola ini menghambat anak untuk berlatih menghadapi situasi baru secara mandiri.
- Oleh karena itu, semakin tinggi neuroticism ibu, semakin rendah kemandirian anak.
Hipotesis 2️⃣
H2 — Trust in organismic development (trust) → Kemandirian anak (mandiri): positif
- Ibu yang mempercayai bahwa perkembangan anak berlangsung secara natural cenderung memberikan lebih banyak ruang dan otonomi bagi anak untuk mengeksplorasi lingkungannya sendiri, tanpa intervensi berlebihan.
- Pendekatan ini sejalan dengan prinsip autonomy support dalam self-determination theory.
- Oleh karena itu, semakin tinggi kepercayaan ibu pada perkembangan natural anak, semakin tinggi kemandirian anak.
Hipotesis 3️⃣
H3 — Household income (hi) → Kemandirian anak (mandiri): negatif
- Keluarga dengan pendapatan lebih tinggi umumnya memiliki lebih banyak sumber daya untuk memenuhi kebutuhan anak — mulai dari pengasuh, fasilitas, hingga keterlibatan langsung yang intensif.
- Ketika segala kebutuhan terpenuhi tanpa anak perlu berusaha sendiri, kesempatan untuk melatih kemandirian justru berkurang.
- Fenomena ini konsisten dengan literatur tentang overparenting di keluarga berpenghasilan tinggi.
- Oleh karena itu, semakin tinggi pendapatan keluarga, semakin rendah kemandirian anak.
Deskriptif
- Coba eksplorasi keempat variabel diatas dengan pendekatan statistik deskriptif.
- Pada menu bar, klik exploration lalu descriptives. Setelah itu masukkan keempat variabel tersebut dalam kolom variables.
- Klik opsi Statistics dan pada bagian Dispersion centang Std. deviation.
- Klik opsi plots, di bagian histograms, centang histograms dan density.
Output
Membuat scatterplot
- Merupakan teknik inspeksi visual kemungkinan terjadinya korelasi antara variabel.
- Setelah melakukan analisis deskriptif, sepertinya akan menarik membandingkan kaitan antara:
- Neuroticism (neu) dengan tingkat kemandirian (mandiri)
- Kepercayaan ibu bahwa anak dapat berkembang secara natural (trust) dengan tingkat kemandirian (mandiri)
- Ayo kita buat scatterplot!
- Klik exploration, pilih scatterplot
- Masukkan mandiri pada kolom Y-axis
- Masukkan neu (scatterplot 1) dan trust (scatterplot 2) pada kolom X-axis
- Pada opsi regression line, pilih linear dan centang kotak confidence interval
Scatterplot
Scatterplot 1. Neuroticism dan Kemandirian
Scatterplot 2. Trust dan Kemandirian
Kekuatan dan arah korelasi 1️⃣
Korelasi yang tampak pada scatterplot tadi dapat dikonseptualisasikan dengan lebih jelas dengan menghitung koefisien korelasi, yang mengimplikasikan kekuatan hubungan.
- Pearson’s r misalnya, biasanya ditulis dengan rxy, sedangkan Spearman’s ρ ditulis rs.
- Berkisar antara -1 s/d 1
- -1 artinya korelasi negatif sempurna, 1 artinya korelasi positif sempurna
- Koefisien korelasi Pearson’s r atau Spearman’s ρ dihitung dari kovarians (covariance/average cross product dari dua variabel).
- Dua variabel yang sama sekali tak berkorelasi, maka kovarians nol.
Kekuatan dan arah korelasi 2️⃣
- Kovarians sulit diinterpretasi, sehingga formula Pearson’s r dan Spearman’s ρ menstandardisasi kovarians agar lebih mudah diinterpretasi
- Fungsi Pearson’s r dan Spearman’s ρ mirip z-score
- Kuat >< lemahnya koefisien korelasi sebenarnya sangat tergantung konteks penelitiannya.
- Pada fenomena yang multifaktor, misalnya mencari variabel yang berkaitan dengan kecenderungan Skizofrenia, korelasi 0.3 aja sudah bermakna sangat besar.
Regresi linear
- Merupakan kelanjutan yang lebih kompleks dari Pearson’s r
- Ide dasarnya adalah menyusun persamaan garis yang dapat digunakan untuk memperkirakan nilai Y ketika nilai X diketahui
- Contohnya, kita tahu bahwa kemandirian berkorelasi positif dan sedang dengan neuroticism dan trust
- Namun dengan regresi, kita bisa mengestimasi tingkat kemandirian anak, ketika hanya informasi mengenai neuroticism dan trust yang tersedia.
- OLS bekerja dengan pendekatan least square, artinya mencari jumlah kuadrat terkecil antara garis regresi (nilai Y yang diperkirakan oleh model) dengan nilai Y yang diobservasi.
Persamaan garis regresi
Contoh garis regresi
Asumsi yang harus dipenuhi
- Prediktor dan variabel dependen berkorelasi secara linear
- Lakukan analisis korelasi sebelum melakukan regresi untuk memastikan asumsi ini terpenuhi
- Residual (varians error) variabel dependen yang tidak dapat dijelaskan oleh model
- Berdistribusi normal
- Variansnya homogen (homoskedastisitas)
- Tidak dipengaruhi oleh prediktor lain diluar model
- Prediktor dalam model independen satu sama lain (tidak berkorelasi)
- Berlaku ketika ada dua atau lebih prediktor dalam satu model regresi
- Kalau prediktor berkorelasi satu sama lain maka telah terjadi multi-kolinearitas
- Data/observasi dan residual harus independen
Latihan 1️⃣
Marimar ingin tahu apakah ada kaitan antara kecenderungan neuroticism ibu terhadap kemandirian anak.
- Klik menu regression, pilih linear regression.
- Masukkan mandiri dalam kolom dependent variable dan neu pada covariates.
- Pada opsi assumption checks, centang Q-Q plot of residuals, residual plots dan Cook’s distance.
- Pada opsi model fit, centang R, R2, Adjusted R2 dan F test.
- Pada opsi model coefficients, centang ANOVA test, confidence interval, dan standardized estimates.
Model fit
- Model regresi kita cukup baik menggambarkan tren pada data (F(1,398) = 221, p = .001).
- Namun model hanya mampu menjelaskan 35.7% varians kemandirian anak (R2 = .357).
- Gunakan adjusted R2 apabila ada lebih dari 1 prediktor dalam model.
- Adjusted R2 dapat mengurangi bias R2 karena memberikan pinalti pada jumlah prediktor ➡️ semakin banyak prediktor, makin besar pinalti.
Model fit
- Coba bandingkan sum of squares antara neu dengan Residuals (tabel ANOVA).
- Manakah yang lebih banyak; varians yang dapat, atau yang tidak dapat dijelaskan oleh model?
Statistical grand prize 🎁🎁🎁
Hampir semua teknik statistik intinya adalah membandingkan varians variabel outcome yang dapat dengan yang tidak dapat dijelaskan (residual) oleh model
Koefisien model
![]()
Kecenderungan neuroticism ibu dapat menjelaskan variasi kemandirian anak (B = 0.544 95% CI [0.472, 0.616], SE = 0.036, t = 14.88, p = .001).
Interpretasi standardized (β) dan unstandardized (B) estimates
- Unstandardized (B) estimates: Setiap perubahan neuroticism sebesar 1 poin, maka tingkat kemandirian juga berubah sebesar 0.544 poin.
- Standardized (β) estimates: Setiap berubah neuroticism sebesar 1SD, maka tingkat kemandirian juga berubah sebesar 0.161SD.
Diagnostik model: distribusi residual
- Salah satu asumsi penting yang harus dipenuhi ketika melakukan regresi OLS adalah residual (bukan data) harus berdistribusi normal.
- Sebaran residual mengikuti garis diagonal dalam Q-Q Plot, tandanya residual berdistribusi normal.
- Apabila residual tersebar secara acak atau makin menjauhi garis diagonal, berarti tidak berdistribusi normal dan ini melanggar asumsi ordinary least square.
- Akibatnya, model tak dapat diinterpretasi dan koefisien model (intercept dan slope) bias.
Diagnostik model: varians residual 1️⃣
- Asumsi lain yang harus dipenuhi adalah homoskedastisitas.
- Residual memenuhi asumsi homoskedastisitas, apabila variansnya uniform (sama) meskipun fitted Y (nilai Y yang diestimasi oleh model, plot kanan atas) dan nilai X (plot kanan bawah) berubah-ubah.
- Hal ini ditunjukkan dari dua plot disamping yang menunjukkan distribusi varians residual uniform.
- Apabila asumsi ini dilanggar, maka residual mengalami heteroskedastisitas, dengan begitu, estimasi model akan bias.
- Kalau residual menunjukkan karakteristik heteroskedastik, maka distribusi residual akan terlihat seperti kerucut.
Diagnostik model: varians residual 2️⃣
- Plot disamping kanan menunjukkan kondisi heteroskedastik
- Contoh heteroskedastisitas: pendapatan personal dan usia
- Pada usia anak-anak, remaja dan dewasa awal, variasi tingkat pendapatan sangat kecil, sedangkan yang usianya lebih tua, variasi tingkat pendapatan lebih besar.
- Apa kira-kira alasannya?
Diagnostik model: deteksi outliers 1️⃣
- Gerak-gerik data outlier penting untuk diperhatikan.
- Seperti grafik di sebelah kanan, penambahan data outlier dapat merubah garis regresi secara drastis.
- Untuk melihat seberapa ‘mengkhawatirkan’ data outlier ini dalam mengganggu garis regresi, kita dapat menggunakan Cook’s distance.
- Umumnya, apabila outlier dibuang dan perubahan rata-rata, median, dan standar deviasi kurang dari 1, dapat diabaikan.
- Artinya outlier tersebut tidak terlalu mengganggu garis regresi.
Diagnostik model: deteksi outliers 2️⃣
- Kalau Cook’s distance diatas 1 bagaimana?
- Coba buat lagi garis regresi tanpa outlier tersebut, cari tahu kenapa nilainya bisa se-ekstrim itu
- Outlier umumnya tidak boleh dihapus dari dataset tanpa justifikasi yang jelas, karena ini termasuk questionable research practices.
- Kalau sangat mendesak, outlier dapat dikeluarkan dari model. Tetapi ini tidak disarankan dan kalaupun dilakukan, analisis harus dilaporkan dua versi; dengan dan tanpa outlier.
- Daripada dihapus, sebaiknya pakai regresi dengan robust estimator yang dapat mengurangi efek outlier.
Diagnostik model: deteksi outliers 3️⃣
- Dari output di samping, dapat disimpulkan bahwa apabila outlier tidak disertakan dalam analisis, maka perubahan rerata, median, dan standar deviasi keseluruhan sampel kurang dari 1 dari nilai asalnya.
Cara melaporkannya dalam manuskrip
“… untuk menguji hipotesis penelitian, peneliti melakukan analisis regresi ordinary least square (OLS). Hasil analisis menunjukkan bahwa model cocok menggambarkan data dan mampu menjelaskan kurang dari 40% varians tingkat kemandirian siswa (F(1,398) = 221, p = .001, R2 = .357).
Kecenderungan neuroticism ibu berkontribusi berarti dalam menjelaskan varians tingkat kemandirian siswa, dimana perubahan kecenderungan neuroticism sebesar 1 poin diasosiasikan dengan perubahan tingkat kemandirian anak sebesar 0.544 (B = 0.544 95% CI [0.472, 0.616], SE = 0.036, t = 14.88, p = .001). Berbeda dengan yang dihipotesiskan sebelumnya, ibu dengan tingkat neuroticism yang tinggi justru mengasuh anak dengan tingkat kemandirian yang juga tinggi.
Setelah dilakukan diagnostik, varians yang tidak dapat dijelaskan oleh model berdistribusi normal dan ketika dikorelasikan dengan nilai prediktif tingkat kemandirian siswa dan kecenderungan neuroticism ibu, maka menghasilkan varians yang homogen (homoskedastik).
Diagnostik outlier dilakukan dengan menggunakan Cook’s distance, dan menghasilkan kesimpulan bahwa apabila outlier tidak disertakan dalam model, maka perubahan rerata, nilai tengah, dan simpangan baku kurang dari satu dari nilai awalnya, sehingga tidak berpotensi mendistorsi garis regresi…”
Latihan 2️⃣
- Ternyata, neuroticism berkorelasi positif dengan tingkat kemandirian.
- Marimar tidak menyerah - ia lalu menambahkan interaksi antara neuroticism dengan trust
- Mungkin saja ibu yang percaya/kurang percaya bahwa anak dapat berkembang secara natural, korelasi antara neuroticism dengan kemandirian akan negatif, sesuai.
- Selain itu, ia ingin tahu kaitan antara pendapatan keluarga dengan tingkat kemandirian anak.
- Tambahkan variabel trust, neu, dan hi dalam kolom covariates.
Latihan 2️⃣
- Lakukan semua langkah yang sudah dilakukan di Latihan 1️⃣
- Pada opsi model builder, klik add new block
- Klik Block 1, sampai keluar shading di pinggir kotak, lalu masukkan hi
- Klik Block 2, sampai keluar shading di pinggir kotak
- Kemudian sambil menekan tombol
ctrl, klik neu kemudian trust, lalu klik tanda panah yang kedua dan pilih interaction
- Dengan begitu kita punya 2 model regresi
- Model 1 prediktornya hi
- Model 2 prediktornya hi dan interaksi antara neu dengan trust
- Pada opsi assumption checks, tambahkan centang pada collinearity statistics
- Pada opsi model fit, klik AIC dan BIC.
- Pada opsi estimated marginal means, masukkan neu dan trust dalam terms 1
Model fit
Model 2 (F(2,397) = 146, p = .001, Adj. R2 = .42) dapat menjelaskan varians tingkat kemandirian anak lebih baik daripada Model 1 (F(1,398) = 172, p = .001, Adj. R2 = .30), dengan overlapping variances sebesar 42% dibanding 30%.
Information criteria (AIC & BIC)
- Digunakan untuk mengakomodasi kelemahan dari R2 (apabila prediktor dalam model ditambah terus, maka nilai R2 akan terus naik)
- Kelemahan R2 ini serupa dengan prinsip reliabilitas dan jumlah aitem
- Rumus dari information criteria memberi “penalti” kepada model yang mengandung lebih banyak variabel prediktor
- Pilih model dengan AIC dan BIC yang terkecil (Model 2)
Model comparison
Ketika dibandingkan, Model 1 dan Model 2 berbeda signifikan (F(1,397) = 83.7, p = .001). ΔR2 = .122, artinya selisih R2 Model 1 dan Model 2 = .122 atau R2 naik sebesar 12.2%
Coba perhatikan Residuals Model 1 dengan Model 2
Koefisien model 2
![]()
Pendapatan keluarga dapat menjelaskan variasi kemandirian anak (B = 0.200 95% CI [0.103, 0.297], SE = 0.04, t = 4.06, p = .001).
Artinya, anak yang dibesarkan di keluarga dengan tingkat pendapatan yang tinggi, maka cenderung lebih mandiri.
Interaksi antara neuroticism dengan trust in organismic development juga signifikan dalam menjelaskan varians kemandirian anak (B = 0.019 95% CI [0.015, 0.023], SE = 0.002, t = 9.15, p = .001).
Estimated Marginal Means
- Interpretasi slopes pada interaction terms:
- Unstandardized B yang positif artinya, pada ibu dengan trust in organismic development yang tinggi (+1SD), korelasi antara kecenderungan neuroticism dengan kemandirian anak juga semakin positif/menguat.
Diagnostik kolinearitas
- Dapat dideteksi dengan melakukan analisis melihat variance inflated factors (VIF).
- Bila VIF < 2.5, maka multi-kolinearitas kemungkinan besar tidak terjadi.
- Penelitian longitudinal punya potensi terjadinya autokorelasi (residual time 1 dan time 2 berkorelasi)
- Dapat dicek dengan tes Durbin-Watson
- Bila nilai p analisis autokorelasi > .05, maka autokorelasi residual tidak terjadi.
Bagaimana melaporkannya?
“…untuk menginvestigasi keterkaitan antara pendapatan keluarga, kecenderungan neuroticism ibu, dan kepercayaan ibu bahwa perkembangan anak dapat terjadi secara natural dengan tingkat kemandirian anak, peneliti melakukan analisis regresi linear hirarkial dengan interaction terms. Peneliti menyusun dua model, dimana; model 1 mengestimasi varians tingkat kemandirian anak dengan pendapatan keluarga inti sebagai prediktor, sedangkan pada model 2 peneliti menambahkan prediktor berupa interaction terms antara neuroticism dengan trust.
Ketika dibandingkan, Model 1 dan Model 2 berbeda signifikan (F(1,397) = 83.7, p = .001). R2 bertambah sebesar 12.2% (ΔR2 = .122). Model 2 (F(2,397) = 146, p = .001, Adj. R2 = .420, AIC = 2472, BIC = 2488) dapat menjelaskan varians tingkat kemandirian anak lebih baik daripada Model 1 (F(1,398) = 172, p = .001, Adj. R2 = .300, AIC = 2547, BIC = 2559).
Pendapatan keluarga dapat menjelaskan variasi kemandirian anak (B = 0.200 95% CI [0.103, 0.297], SE = 0.04, t = 4.06, p = .001). Interaksi antara neuroticism dengan trust juga signifikan (B = 0.019 95% CI [0.015, 0.023], SE = 0.002, t = 9.15, p = .001). Artinya, korelasi antara kecenderungan neuroticism ibu dengan kemandirian anak akan menguat pada ibu yang trust nya tinggi.
Potensi multikolinearitas dideteksi dengan VIF dan hasil analisis menunjukkan multikolinearitas kemungkinan besar tidak terjadi (VIF = 1.93)…”
Latihan mandiri 1️⃣
Fernando Jose sebal sekali karena ia kembali kehilangan pengokotnya dan ini kali ketiga ia kehilangan pengokot yang baru dibelinya seminggu yang lalu.
Teman-teman kerjanya memang punya kebiasaan buruk meminjam barang tanpa seijinnya. Ia akhirnya bertanya, apa ya yang menyebabkan teman-temannya berperilaku seperti itu?
Akhirnya ia menduga, mungkin ada kaitannya dengan faktor kepribadian (conscientiousness) dan faktor situasional di tempat kerjanya.
Untuk faktor situasi, ia mengamati sepertinya persepsi atas kondisi kerja yang informal dan relasi formal antara senior-junior mungkin juga berkaitan dengan timbulnya perilaku tersebut.
Eksplorasi dataset 2️⃣
Dataset 2: dataset-organisasi.omv
- Fernando Jose akhirnya melakukan penelitian survei pada 450 karyawan di 3 perusahaan yang berbeda
- Buka laman web workshop dan unduh dataset-organisasi.omv
- Dalam dataset tersebut ada beberapa variabel
- con = Kecenderungan conscientiousness karyawan. Makin tinggi skornya, karyawan lebih mungkin menunjukkan kehati-hatian dan keteraturan dalam bekerja, efisien, dan bertanggung jawab.
- inf = Persepsi atas nuansa informal dalam kantor. Makin tinggi, karyawan makin merasa situasi kantor lebih informal.
- pow = Jarak kuasa (power distance) dalam relasi antar-karyawan. Makin tinggi, budaya senioritas makin parah.
- incivil = Intensitas perilaku tidak beradab. Makin besar skornya, karyawan akan lebih mungkin emotionally abusive, suka mengambil barang teman tanpa ijin, dan perilaku tidak pantas yang lain.
Latihan mandiri 1️⃣
- Buatlah 2 model untuk mengestimasi varians perilaku tidak beradab dimana:
- Prediktor model 1: jarak kuasa
- Prediktor model 2: interaksi antara conscientiousness dengan persepsi situasi kerja yang informal
- Bagaimana hipotesisnya?
- Laporkan hasil analisis datanya dan berikan penjelasan singkat apakah hasil analisis data menolak/gagal menolak hipotesis penelitian.
Ada pertanyaan❓