37
STATISTIKA 2 IT-021259 UMMU KALSUM UNIVERSITAS GUNADARMA 2016

STATISTIKA 2 IT-021259ummu_kalsum.staff.gunadarma.ac.id/Downloads/files/... · Catatan dalam Regresi dan Korelasi •Asumsi-asumsi –Tak ada asumsi yang dibutuhkan, kecuali normalitas

  • Upload
    others

  • View
    23

  • Download
    0

Embed Size (px)

Citation preview

STATISTIKA 2IT-021259

UMMU KALSUM

UNIVERSITAS GUNADARMA2016

Regresi & Korelasi Linier

Regresi … ?

Korelasi … ?

1. Regresi Linier Sederhana

Model regresi adalah persamaan matematikyang memungkinkan dalam peramalan nilaivariabel tak bebas dari satu atau lebihvariabel bebas

x

—Studi tentang pengaruh 1 variabel bebas (independen) thd variabel tak bebas (dependen) →”regresi sederhana”

—Jika ada 2 atau lebih variabel bebas → “regresi berganda”

Dua variabel yang berhubungan (bivariat) diplotkandalam grafik yaitu “diagram pencar‟, yang menyatakan berbagai pola hubungan tertentu :

a.Hubungan positif linierb.Hubungan negatif linierc.Hubungan non-linier (eksponential)d.Tidak ada hubungan

Dua kegunaan pokok analisis regresi, yaitu :

1. Memperoleh suatu persamaan dan garis yangmenyatakan hubungan antara 2 variabel

2. Pendugaan nilai ‘dependent variable (y)’, dengan nilaitertentu ‘independent variable (x)’, yang diketahuiberdasarkan hubungan dalam persamaan regresi

Regresi ‘bentukatau model’hubungan variabelX dan Y

Analisis Korelasi:

• Mengukur keeratan hubungan antara 2 variabelyang didasarkan pada persamaan regresi

• Bukan meramalkan nilai variabel y

• Kekuatan hubungan antara 2 variabel dinyatakandalam suatu bilangan yang disebut “koefisienkorelasi‟, yang dilambangkan dengan r

• Pola hubungan, antara lain :

– Korelasi positif tinggi – tinggi, rendah – rendah

– Korelasi negatif tinggi – rendah

– Korelasi 0 tidak terjadi korelasi

Persamaan dan Garis Regresi

• Regresi sederhana hanya memiliki 2 variabel, yaitu 1 dependent dan independent variable

• Linier → terdapat hubungan garis lurus antarakedua variabel

• Persamaan hubungan linier 2 variabel x dan y:

Contoh

• Diketahui persamaan regresi y = 50 + 5x

• Jika x = 0, maka y = 50

• x = 10, maka y = 100

Analisis Regresi Linier Sederhana

• Model regresi linier sederhana :

y = A+ Bx

→ deterministic model

→ tiap satu nilai x memiliki satu nilai y

• Dalam kenyataannya, hubungan x dan y → y = A + Bx + є → dimana є

(= baca epsilon) adalah random error

→ A dan B merupakan parameter populasi maka garis regresi yang

dihasilkan disebut ‘garis regresi populasi’

→ Selalu digunakan sampel data dlm penentuan model regresi ŷ = a + bx +

e → dimana a & b adalah nilai penduga bagi A & B

Error term dapat timbul melalui beberapakekuatan yang saling mempengaruhi

• Kesalahan muncul karena model suatu penyederhanaan dari realitas

(kesalahan karena faktor diluar variabel model)

– Ex: konsumsi dipengaruhi faktor tunggal pendapatan (salah)

faktor lain: kebutuhan barang lain, konsumsi periode sebelumnya, dsb

• Sumber kesalahan berkaitan dengan pengumpulan dan pengukuran

data (data ekonomi seringkali sulit untuk diukur)

• Karena kesalahan bentuk fungsi yang digunakan

– Fungsi garis lurus (linier), parabola (kuadratik), hiperbola (rasio),

geometrik (eksponensial, logaritma linier, dsb)

Analisis regresi dengan sampel data akan

menghasilkan galat e e = y – ŷ → e = random error

atau galat Σe = Σ(y – ŷ) → ŷ = nilai

prediksi untuk y

• Untuk menentukan garis regresi yang baik, digunakanmetode “Least Square” atau “jumlah kuadrat terkecil”

• Dalam hal ini dihasilkan garis “Least Square”, dimana a dan b menghasilkan jumlah kuadrat galat minimum

Step 2. Menghitung Σxy dan Σx2 Σxy = Σ (x.y) = 2150 dan Σx² = Σ (x²) = 7222 Step 3. Menghitung SSxy dan SSxx

• Step 4. Menghitung a dan b

• Sehingga model regresi pendugaan ŷ = a + bx adalah : ŷ = 1.14 + 0.26 x

Contoh : Berapa biaya belanja yang dikeluarkan suatu

sampel keluarga yang memiliki income $35/hari

Interpretasi Nilai a dan b ŷ = 1.14 + 0.26 x

→ Diperoleh dari data sampel dimana nilaix → 15 ≤ x ≤ 49

→ Hanya pada selang nilai x tsb, persamaan ŷ = 1.14 + 0.26 x, dapat diaplikasikan dan menghasilkan nilai y yang valid

→ ŷ yang dihasilkan adalah nilai rata-rata pendugaan

→ Nilai b, bisa positif atau negatif

b positif → hubungan x dan y linier positif

b negatif → hubungan x dan y linier negatif

Simpangan Baku Galat

— Simpangan baku galat suatu populasi, σe, mengukur sebaran error di sekitar garisregresi populasi

— σe biasanya unknown, sehingga nilainyadiduga dari nilai Se, yaitu simpangan bakugalat dari sampel data

Koefisien Determinasi

• Suatu model regresi dianggap baik, dapatdinilai dari koefisien determinasi, yang dinotasikan :

• Makin besar nilai r²makin baik suatumodel regresi, dimana variabel y sangatberhubungan dengan variabel x

2. Korelasi Linier

• Korelasi linier mengukur keeratan hubunganatau asosiasi linier antara 2 variabel

• Koefisien korelasi linier mengukur bagaimanadekat titik-titik dalam diagram pencar tersebardi sekitar garis regresi

• Koefisien korelasi linier merupakan akar darikoefisien determinasi dinotasikan :

ρ → dihitung untuk data populasi

r → dihitung untuk data sampel

Nilai ρ dan r → -1 ≤ ρ ≤ 1 dan -1 ≤ r ≤ 1

Jenis Korelasi

Korelasi linier sederhana (r) dihitung dengan rumus :

Jenis Koefisien Korelasi

1. Koefisien korelasi Pearson untuk data ‘interval atau rasio’2. Koefisien korelasi Rank Spearman data ‘ordinal’3. Koefisien korelasi Kontingensi data ‘nominal atau kualitatif’4. Koefisien penentu atau koefisien determinasi kuadrat dari

koefisien korelasi

1. Koefisien korelasi Pearson

2. Koefisien korelasi Rank Spearman

3. Koefisien korelasi Kontingensi

4. Koefisien penentu atau koefisien determinasimenjelaskan besarnya pengaruh nilai suatu variabel(X) terhadap naik turunnya nilai variabel lainnya (Y).

d = selisih ranking X dan Yn = banyaknya pasangan data

Catatan dalam Regresi dan Korelasi• Asumsi-asumsi

– Tak ada asumsi yang dibutuhkan, kecuali normalitas

• Ekstrapolasi– Memprediksi nilai Y untuk X tertentu diluar interval data

yang diobservasi

• Relevansi data historis– Data yang digunakan adalah data masa lalu. Hubungan

antarvariabel dapat berubah dengan berjalannya waktu

• Regresi dan penyebab– Untuk data yang memiliki distribusi probabilitas– Dihadapkan pada hubungan antar variabel, tidak berarti

variabel bebas penyebab perubahan variabel terikatharus ada pertimbangan teoritisnya

• Peranan dalam komputer– Program regresi TSP, shazam, e-views, dsb

3. Regresi Linier Berganda• Dalam regresi berganda dinyatakan hubungan antara sebuah variabel

dependen (y) dengan 2 atau lebih variabel independen (x)

• jika ada n variable independen, maka variabel tersebut → x1, x2, x3 …. xn Regresi bergada kemudian menentukan nilai a, b1, b2, b3 …. bn untuk mendapatkan persamaan regresinya

y = a + b1x1 + b2x2 + b3x3 + ... + bnxn

• Untuk menentukan nilai a, b1, b2, b3 …. bn maka digunakanpersamaan normal :

→ a.n + b1 . Σx1 + b2 . Σx2 + b3 . Σx3 = Σy

→ a. Σx1 + b1 . Σ(x1 . x1) + b2 . Σ(x2 . x1) + b3 . Σ(x3 . x1) = Σ(y.x1 )

→ a. Σx2 + b1 . Σ(x1 . x2) + b2 . Σ(x2 . x2) + b3 . Σ(x3 . x2) = Σ(y.x2 )

→ a. Σx3 + b1 . Σ(x1 . x3) + b2 . Σ(x2 . x3) + b3 . Σ(x3 . x3) = Σ(y.x3 )

→ ………………..

→ a. Σxn + b1 . Σ(x1 . xn) + b2 . Σ(x2 . xn) + b3 . Σ(x3 . xn) = Σ(y.xn)

Contoh :

• Tabel berikut menunjukkan jumlah penjualan(y) dalam hubungannya dengan lamanyapengalaman sebagai sales (x1) dan nilai test iq(x2) dari 8 orang sales dalam suatu periodetertentu. Tentukan persamaan garis regresinya

Jawab :

Korelasi dan determinasi Berganda

Koefisien korelasi parsial

X1 dan X2

X1 dan X3

X2 dan X3

Pengujian hipotesis koefisien regresi parsial

1. Uji signifikansi individual uji t

– Menguji apakah koefisien regresi parsial berbedasecara signifikan dari 0

– Apakah variabel bebas secara individuberhubungan dengan variabel terikat

2. Uji signifikansi serentak uji F

– H0 merupakan hipotesis gabungan secarabersama-sama atau serentak tidak bisa diujiindividu

Rumus Uji Hipotesis

Penyimpangan beberapa asumsi regresi model klasik

• Multicollinearity

-> menguji apakah ada hubungan antar variabel bebas

– Hubungan antar variabel bebas tidak sempurna, statistika t cenderung makin kecil atau koefisienregresi cenderung tidak signifikan berbeda dari 0

– Biasanya terjadi pada regresi majemuk

– Indikasi terjadinya:

• Statistik F signifikan, statistik t tidak ada ygsignifikan

• R² relatif besar, tetapi statistik t tak ada yang signifikan

• Heteroscedasticity

– Berarti variansi error term tidak sama untuk setiapobservasi

– Biasanya terjadi pada data cross section daripadatime series

– Biasanya variansi tidak akan menurun meskijumlah sampel ditambah

– Dapat terjadi pada regresi 2 variabel maupunregresi majemuk

• Autokorelasi

– Berarti terjadi hubungan antara error term padasatu observasi dengan error term pada observasiyang lain (variabel terikat pada 1 observasiberhubungan dengan observasi yang lain) korelasi time series

– Dapat terjadi pada regresi sederhana danmajemuk

– Koefisien regresi signifikan berbeda dari 0

Terimakasih