Regresi Linear (Ordinary Least Square)

Menggunakan jamovi

2026-04-25

Outline

  • Berlatih menginspeksi data secara visual dengan scatterplot
  • Model regresi linear (ordinary least square)
  • Menarik garis regresi (fitted regression lines)
  • Varians yang dapat dan yang tidak dapat dijelaskan oleh model (R2)
  • Menguji hipotesis
  • Mengecek kecocokan model dengan data (model fit)
  • Mengecek asumsi
    • Distribusi (normalitas) residual
    • Homoskedastisitas
  • Mendeteksi outliers
  • Menulis hasil analisis regresi linear dalam manuskrip

Ilustrasi Kasus

Marimar adalah seorang wali murid di sebuah PAUD di Kota Surabaya. Pada suatu hari, ia mengamati seorang anak (dan orangtua) yang perilakunya menarik perhatiannya.

Ibu anak tersebut bersikeras untuk menunggui anaknya di sekolah, padahal guru kelas meminta agar Ibu pulang saja, mempercayakan anak pada guru, dengan tujuan melatih kemandirian anaknya.

Melihat ibunya yang menggerutu karena diminta bu Guru pulang, si anak menangis meraung-raung tidak mau ditinggalkan. Akhirnya, terpaksa bu Guru membiarkan si Ibu menunggu di sekolah.

Marimar heran sekaligus penasaran, mengapa tiap anak memberikan respon yang berbeda ketika ditinggal orangtuanya di sekolah. Ada yang menangis meraung-raung, ada yang lebih santai dengan langsung bermain. Apakah ada kaitan antara kemandirian anak dengan karakteristik orangtuanya?

Eksplorasi dataset

Dataset 1: dataset-sekolah.omv

  • Marimar yang penasaran akhirnya melakukan survei di 5 PAUD di Kota Surabaya, dengan ukuran sampel sebesar total 400 orang
  • Buka laman web workshop
  • Klik menu Dataset di pojok kanan dan unduh dataset-sekolah.omv
  • Dalam dataset tersebut ada beberapa variabel
    • neu = Kecenderungan neuroticism ibu (five factor model). Makin tinggi skor, Ibu makin mudah cemas, frustasi, cemburu, rasa bersalah, dan ketakutan berlebihan.
    • trust = Kepercayaan ibu bahwa perkembangan anak dapat berlangsung secara natural (trust in organismic development). Makin tinggi skor, ibu makin percaya anaknya bisa berkembang secara natural.
    • hi = Pendapatan seluruh anggota keluarga inti (household income). Skor makin tinggi, pendapatan total seluruh anggota keluarga yang bekerja semakin besar.
    • mandiri = Tingkat kemandirian anak. Makin tinggi skor, anak makin independen dan lebih santai ketika ditinggal orangtuanya di sekolah.

Hipotesis 1️⃣

H1 — Neuroticism ibu (neu) → Kemandirian anak (mandiri): negatif

  • Ibu dengan skor neuroticism yang tinggi cenderung lebih mudah cemas dan takut berlebihan, sehingga lebih rentan menunjukkan pola pengasuhan “helikopter” yang overprotective atau tidak konsisten.
  • Pola ini menghambat anak untuk berlatih menghadapi situasi baru secara mandiri.
  • Oleh karena itu, semakin tinggi neuroticism ibu, semakin rendah kemandirian anak.

Hipotesis 2️⃣

H2 — Trust in organismic development (trust) → Kemandirian anak (mandiri): positif

  • Ibu yang mempercayai bahwa perkembangan anak berlangsung secara natural cenderung memberikan lebih banyak ruang dan otonomi bagi anak untuk mengeksplorasi lingkungannya sendiri, tanpa intervensi berlebihan.
  • Pendekatan ini sejalan dengan prinsip autonomy support dalam self-determination theory.
  • Oleh karena itu, semakin tinggi kepercayaan ibu pada perkembangan natural anak, semakin tinggi kemandirian anak.

Hipotesis 3️⃣

H3 — Household income (hi) → Kemandirian anak (mandiri): negatif

  • Keluarga dengan pendapatan lebih tinggi umumnya memiliki lebih banyak sumber daya untuk memenuhi kebutuhan anak — mulai dari pengasuh, fasilitas, hingga keterlibatan langsung yang intensif.
  • Ketika segala kebutuhan terpenuhi tanpa anak perlu berusaha sendiri, kesempatan untuk melatih kemandirian justru berkurang.
  • Fenomena ini konsisten dengan literatur tentang overparenting di keluarga berpenghasilan tinggi.
  • Oleh karena itu, semakin tinggi pendapatan keluarga, semakin rendah kemandirian anak.

Deskriptif

  • Coba eksplorasi keempat variabel diatas dengan pendekatan statistik deskriptif.
    • Pada menu bar, klik exploration lalu descriptives. Setelah itu masukkan keempat variabel tersebut dalam kolom variables.
    • Klik opsi Statistics dan pada bagian Dispersion centang Std. deviation.
    • Klik opsi plots, di bagian histograms, centang histograms dan density.

Output

Membuat scatterplot

  • Merupakan teknik inspeksi visual kemungkinan terjadinya korelasi antara variabel.
  • Setelah melakukan analisis deskriptif, sepertinya akan menarik membandingkan kaitan antara:
    • Neuroticism (neu) dengan tingkat kemandirian (mandiri)
    • Kepercayaan ibu bahwa anak dapat berkembang secara natural (trust) dengan tingkat kemandirian (mandiri)
  • Ayo kita buat scatterplot!
    • Klik exploration, pilih scatterplot
    • Masukkan mandiri pada kolom Y-axis
    • Masukkan neu (scatterplot 1) dan trust (scatterplot 2) pada kolom X-axis
    • Pada opsi regression line, pilih linear dan centang kotak confidence interval

Scatterplot

Scatterplot 1. Neuroticism dan Kemandirian

Scatterplot 2. Trust dan Kemandirian

Bagaimana kekuatan dan arah hubungan pada scatterplot 1 dan 2?

Menebak Korelasi 📢

Kekuatan dan arah korelasi 1️⃣

Korelasi yang tampak pada scatterplot tadi dapat dikonseptualisasikan dengan lebih jelas dengan menghitung koefisien korelasi, yang mengimplikasikan kekuatan hubungan.

  • Pearson’s r misalnya, biasanya ditulis dengan rxy, sedangkan Spearman’s ρ ditulis rs.
  • Berkisar antara -1 s/d 1
  • -1 artinya korelasi negatif sempurna, 1 artinya korelasi positif sempurna
  • Koefisien korelasi Pearson’s r atau Spearman’s ρ dihitung dari kovarians (covariance/average cross product dari dua variabel).
    • Dua variabel yang sama sekali tak berkorelasi, maka kovarians nol.

Kekuatan dan arah korelasi 2️⃣

  • Kovarians sulit diinterpretasi, sehingga formula Pearson’s r dan Spearman’s ρ menstandardisasi kovarians agar lebih mudah diinterpretasi
  • Fungsi Pearson’s r dan Spearman’s ρ mirip z-score
  • Kuat >< lemahnya koefisien korelasi sebenarnya sangat tergantung konteks penelitiannya.
    • Pada fenomena yang multifaktor, misalnya mencari variabel yang berkaitan dengan kecenderungan Skizofrenia, korelasi 0.3 aja sudah bermakna sangat besar.

Regresi linear

  • Merupakan kelanjutan yang lebih kompleks dari Pearson’s r
  • Ide dasarnya adalah menyusun persamaan garis yang dapat digunakan untuk memperkirakan nilai Y ketika nilai X diketahui
    • Contohnya, kita memiliki hipotesis bahwa kemandirian berkorelasi positif dan sedang dengan neuroticism dan trust dan memang menemukan korelasi antara keduanya
    • Namun dengan regresi, kita bisa mengestimasi tingkat kemandirian anak, ketika hanya informasi mengenai neuroticism dan trust yang tersedia.
  • OLS bekerja dengan pendekatan least square, artinya mencari jumlah kuadrat terkecil antara garis regresi (nilai Y yang diperkirakan oleh model) dengan nilai Y yang diobservasi.

Persamaan garis regresi

Contoh garis regresi

Asumsi yang harus dipenuhi

  • Prediktor dan variabel dependen berkorelasi secara linear
    • Lakukan analisis korelasi sebelum melakukan regresi untuk memastikan asumsi ini terpenuhi
  • Residual (varians error) variabel dependen yang tidak dapat dijelaskan oleh model
    • Berdistribusi normal
    • Variansnya homogen (homoskedastisitas)
    • Tidak dipengaruhi oleh prediktor lain diluar model
  • Prediktor dalam model independen satu sama lain (tidak berkorelasi)
    • Berlaku ketika ada dua atau lebih prediktor dalam satu model regresi
    • Kalau prediktor berkorelasi satu sama lain maka telah terjadi multi-kolinearitas
  • Data/observasi dan residual harus independen

Latihan 1️⃣

Marimar ingin tahu apakah ada kaitan antara kecenderungan neuroticism ibu terhadap kemandirian anak.

  • Klik menu regression, pilih linear regression.
  • Masukkan mandiri dalam kolom dependent variable dan neu pada covariates.
  • Pada opsi assumption checks, centang Q-Q plot of residuals, residual plots dan Cook’s distance.
  • Pada opsi model fit, centang R, R2, Adjusted R2 dan F test.
  • Pada opsi model coefficients, centang ANOVA test, confidence interval, dan standardized estimates.

Model fit

  • Model regresi kita cukup baik menggambarkan tren pada data (F(1,398) = 221, p = .001).
  • Namun model hanya mampu menjelaskan 35.7% varians kemandirian anak (R2 = .357).
    • Gunakan adjusted R2 apabila ada lebih dari 1 prediktor dalam model.
    • Adjusted R2 dapat mengurangi bias R2 karena memberikan pinalti pada jumlah prediktor ➡️ semakin banyak prediktor, makin besar pinalti.

Model fit

  • Coba bandingkan sum of squares antara neu dengan Residuals (tabel ANOVA).
  • Manakah yang lebih banyak; varians yang dapat, atau yang tidak dapat dijelaskan oleh model?

Statistical grand prize 🎁🎁🎁

Hampir semua teknik statistik intinya adalah membandingkan varians variabel outcome yang dapat dengan yang tidak dapat dijelaskan (residual) oleh model

Koefisien model

Kecenderungan neuroticism ibu dapat menjelaskan variasi kemandirian anak (B = 0.544 95% CI [0.472, 0.616], SE = 0.036, t = 14.88, p = .001).

Interpretasi standardized (β) dan unstandardized (B) estimates

  • Unstandardized (B) estimates: Setiap perubahan neuroticism sebesar 1 poin, maka tingkat kemandirian juga berubah sebesar 0.544 poin.
  • Standardized (β) estimates: Setiap perubahan neuroticism sebesar 1SD, maka tingkat kemandirian juga berubah sebesar 0.598SD.

Tips

Selalu laporkan unstandardized estimates dan confidence interval (Appelbaum et al., 2018).

Diagnostik model: distribusi residual

  • Salah satu asumsi penting yang harus dipenuhi ketika melakukan regresi OLS adalah residual (bukan data) harus berdistribusi normal.
  • Sebaran residual mengikuti garis diagonal dalam Q-Q Plot, tandanya residual berdistribusi normal.
  • Apabila residual tersebar secara acak atau makin menjauhi garis diagonal, berarti tidak berdistribusi normal dan ini melanggar asumsi ordinary least square.
  • Akibatnya, model tak dapat diinterpretasi dan koefisien model (intercept dan slope) bias.

Diagnostik model: varians residual 1️⃣

  • Asumsi lain yang harus dipenuhi adalah homoskedastisitas.
  • Residual memenuhi asumsi homoskedastisitas, apabila variansnya uniform (sama) meskipun fitted Y (nilai Y yang diestimasi oleh model, plot kanan atas) dan nilai X (plot kanan bawah) berubah-ubah.
    • Hal ini ditunjukkan dari dua plot disamping yang menunjukkan distribusi varians residual uniform.
  • Apabila asumsi ini dilanggar, maka residual mengalami heteroskedastisitas, dengan begitu, estimasi model akan bias.
  • Kalau residual menunjukkan karakteristik heteroskedastik, maka distribusi residual akan terlihat seperti kerucut.

Diagnostik model: varians residual 2️⃣

  • Plot disamping kanan menunjukkan kondisi heteroskedastik
  • Contoh heteroskedastisitas: pendapatan personal dan usia
    • Pada usia anak-anak, remaja dan dewasa awal, variasi tingkat pendapatan sangat kecil, sedangkan yang usianya lebih tua, variasi tingkat pendapatan lebih besar.
    • Apa kira-kira alasannya?

Diagnostik model: deteksi outliers 1️⃣

  • Gerak-gerik data outlier penting untuk diperhatikan.
    • Seperti grafik di sebelah kanan, penambahan data outlier dapat merubah garis regresi secara drastis.
  • Untuk melihat seberapa ‘mengkhawatirkan’ data outlier ini dalam mengganggu garis regresi, kita dapat menggunakan Cook’s distance.
  • Umumnya, apabila outlier dibuang dan perubahan rata-rata, median, dan standar deviasi kurang dari 1, dapat diabaikan.
  • Artinya outlier tersebut tidak terlalu mengganggu garis regresi.

Diagnostik model: deteksi outliers 2️⃣

  • Kalau Cook’s distance diatas 1 bagaimana?
    • Coba buat lagi garis regresi tanpa outlier tersebut, cari tahu kenapa nilainya bisa se-ekstrim itu
    • Outlier umumnya tidak boleh dihapus dari dataset tanpa justifikasi yang jelas, karena ini termasuk questionable research practices.
    • Kalau sangat mendesak, outlier dapat dikeluarkan dari model. Tetapi ini tidak disarankan dan kalaupun dilakukan, analisis harus dilaporkan dua versi; dengan dan tanpa outlier.
    • Daripada dihapus, sebaiknya pakai regresi dengan robust estimator yang dapat mengurangi efek outlier.

Diagnostik model: deteksi outliers 3️⃣

  • Dari output di samping, dapat disimpulkan bahwa apabila outlier tidak disertakan dalam analisis, maka perubahan rerata, median, dan standar deviasi keseluruhan sampel kurang dari 1 dari nilai asalnya.

Cara melaporkannya dalam manuskrip 1️⃣

Untuk menguji hipotesis penelitian, peneliti melakukan analisis regresi ordinary least square (OLS). Hasil analisis menunjukkan bahwa model cocok menggambarkan data dan mampu menjelaskan kurang dari 40% varians tingkat kemandirian siswa (F(1,398) = 221, p = .001, R2 = .357). Kecenderungan neuroticism ibu berkontribusi berarti dalam menjelaskan varians tingkat kemandirian siswa, dimana perubahan kecenderungan neuroticism sebesar 1 poin diasosiasikan dengan perubahan tingkat kemandirian anak sebesar 0.544 (B = 0.544 95% CI [0.472, 0.616], SE = 0.036, t = 14.88, p = .001). Berbeda dengan yang dihipotesiskan sebelumnya, ibu dengan tingkat neuroticism yang tinggi justru mengasuh anak dengan tingkat kemandirian yang juga tinggi. Setelah dilakukan diagnostik, varians yang tidak dapat dijelaskan oleh model berdistribusi normal dan ketika dikorelasikan dengan nilai prediktif tingkat kemandirian siswa dan kecenderungan neuroticism ibu, maka menghasilkan varians yang homogen (homoskedastik).

Cara melaporkannya dalam manuskrip 2️⃣

Diagnostik outlier dilakukan dengan menggunakan Cook’s distance, dan menghasilkan kesimpulan bahwa apabila outlier tidak disertakan dalam model, maka perubahan rerata, nilai tengah, dan simpangan baku kurang dari satu dari nilai awalnya, sehingga tidak berpotensi mendistorsi garis regresi.

Ada pertanyaan❓

Note