36
Probabilitas dan Statistik http://www.unhas.ac.id/amil/S1TIF/probstat2019/ L3 Regresi Linier Amil Ahmad Ilham

Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

  • Upload
    others

  • View
    50

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Probabilitas dan Statistikhttp://www.unhas.ac.id/amil/S1TIF/probstat2019/

L3

Regresi Linier

Amil Ahmad Ilham

Page 2: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Hubungan antarvariabel

Terhubung Tak Terhubung

Page 3: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Terhubung Linier

Terhubung Non-linier

Terhubung Non-linier

Hubungan antarvariabel

Page 4: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Linier, terhubung kuat Linier, terhubung lemah

Hubungan antarvariabel

Page 5: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Linier, kuat Linier, Lemah Non-Linier

Regresi Linier

Page 6: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Linier, Kuat Linier, Lemah Non-Linier

Resi

dua

ls

Resi

dua

ls

Resi

dua

ls

Regresi Linier - Residual

acak acak - tersebar berpola - tersebar

Page 7: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Koefisien korelasi

22 )()(

))((

YYXX

YYXXr

ii

ii

• Mengukur korelasi antara dua variabel

• Menunjukkan kekuatan korelasi

Pearson coefficient correlation:

Page 8: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

koefisien korelasi

Page 9: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Apa itu regresi?

UkuranMesin

Silinder KonsumsiBBM

Emisi CO2

0 2.0 4 8.5 196

1 2.4 4 9.6 221

2 1.5 4 5.9 136

3 3.5 6 11.1 255

4 3.5 6 10.6 244

5 3.5 6 10.0 230

6 3.5 6 10.1 232

7 3.7 6 11.1 255

8 3.7 6 11.6 267

9 2.4 4 9.2 ?

9

Regresi adalah proses untuk memprediksinilai kontinu variable terikat

Nila

i ko

nti

nu

X: variable bebas Y: variable terikat

Nilai kategoris atau kontinu

Page 10: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Apa itu model regresi?

10

Data historis mobil:jumlah silinder, ukuran mesin,

konsumsi BBM dan CO2

Model

Jenis mobil baru EstimasiEmisi CO2

Training

Page 11: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Jenis Model Regresi

• Simple Regression (regresi sederhana):• Linier

• Non-linier

• Multiple Regression (Regresi banyak variable):• Linier

• Non-linier

11

Prediksi EmisiCO2 vs Ukuran Mesin

Prediksi EmisiCO2 vs (Ukuran Mesin dan jumlah silinder)

Page 12: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Aplikasi Regresi

• Prediksi Nilai Penjualan per Tahun seseorang• Berdasarkan umur, pendidikan dan pengalaman seorang sales

• Analisis kepuasan pelanggan• Berdasarkan demografi dan faktor psikologis pelanggan

• Estimasi Harga Rumah• Berdasarkan luas, jumlah kamar dll

• Gaji Karyawan• Berdasarkan jenis pekerjaan, pendidikan, jenis kelamin, umur, pengalaman

kerja dll.

Page 13: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Berbagai Algoritma Regresi

• Regresi Ordinal

• Regresi Poisson

• Fast Forest Quantile

• Linier, Polinomial, Lasso, Stepwise, Ridge

• Regresi Linier Bayesian

• Neural Network

• Decision Forest

• Booseted Decision Tree

• KNN (K-nearest neighbors)

13

Page 14: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Regresi Linier Sederhana

14

Page 15: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

UkuranMesin

Silinder KonsumsiBBM

Emisi CO2

0 2.0 4 8.5 196

1 2.4 4 9.6 221

2 1.5 4 5.9 136

3 3.5 6 11.1 255

4 3.5 6 10.6 244

5 3.5 6 10.0 230

6 3.5 6 10.1 232

7 3.7 6 11.1 255

8 3.7 6 11.6 267

9 2.4 4 9.2 ?

15

Nila

i ko

nti

nu

X: variable bebas Y: variable terikat

Menggunakan Regresi Linier untuk memperkirakan nilaikontinu

Page 16: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Topologi Regresi Linier

• Regresi Linier Sederhana• Prediksi Emisi CO2 vs Ukuran Mesin dari semua mobil

• Regresi Linier Berganda (Multiple Linear Regression):• Prediksi Emisi CO2 vs Ukuran Mesin dan Silinder semua mobil

16

Regresi LinierSederhana

Variabel bebas(x1): Ukuran Mesin

Prediksi (y): Emisi CO2

Regresi LinierBerganda

Variabel bebas(x1, x2,…): Ukuran Mesin, Silinder, …

Prediksi (y): Emisi CO2

Page 17: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Cara menerapkan regresi linier

UkuranMesin

Silinder KonsumsiBBM

EmisiCO2

0 2.0 4 8.5 196

1 2.4 4 9.6 221

2 1.5 4 5.9 136

3 3.5 6 11.1 255

4 3.5 6 10.6 244

5 3.5 6 10.0 230

6 3.5 6 10.1 232

7 3.7 6 11.1 255

8 3.7 6 11.6 267

9 2.4 4 9.2 ? Ukuran Mesin

Emis

iCO

2

Page 18: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Cara menerapkan regresi linier

UkuranMesin

Silinder KonsumsiBBM

EmisiCO2

0 2.0 4 8.5 196

1 2.4 4 9.6 221

2 1.5 4 5.9 136

3 3.5 6 11.1 255

4 3.5 6 10.6 244

5 3.5 6 10.0 230

6 3.5 6 10.1 232

7 3.7 6 11.1 255

8 3.7 6 11.6 267

9 2.4 4 9.2 ? x1 (Ukuran Mesin)

Y (E

mis

iCO

2)

2.4

214

Plot Data Y vs X

Page 19: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Cara menerapkan regresi linier

x1 (Ukuran Mesin)

Y (E

mis

iCO

2)

Plot Data Y vs X

𝑦 = 𝜃0 + 𝜃1 𝑥1

Variabel prediksi

Perpotongan sumbu y gradien

Koefisien garis

Variabel bebastunggal

Bagaimana mencari nilai 𝜃0 dan 𝜃1 sehingga garis paling mendekati data (best fit) ?

Page 20: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Cara mencari best fit ?

x1 (Ukuran Mesin)

Y (E

mis

iCO

2)

Plot Data Y vs XAmbil nilai variable bebas 𝑥1 = 5.4𝑦 = 250 (nilai Emisi CO2 menurut data)

𝑦 = 𝜃0 + 𝜃1 𝑥1 𝑦 = 340 adalah hasil prediksi untuk x1

Error = 𝑦 − 𝑦= 250 − 340= −90

Karena nilai error bisa positif atau negatif, gunakan nilai kwardratnya. Best Fit adalahmencari garis yang jumlah kwardrat error – nya paling kecil (minimal square error):

𝑀𝑆𝐸 =1

𝑛

𝑖=1

𝑛

𝑦𝑖 − 𝑦𝑖2

5.4

𝒚 = 𝟐𝟓𝟎

𝒚 = 𝟑𝟒𝟎

minimasi 𝜃0, 𝜃1

Page 21: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Cara mencari best fit ?

x1 (Ukuran Mesin)

Y (E

mis

iCO

2)

Plot Data Y vs X

Pendekatan minimasi:• Pendekatan matematis• Pendekatan optimasi

𝑀𝑆𝐸 =1

𝑛

𝑖=1

𝑛

𝑦𝑖 − 𝑦𝑖2

Distribusi Error

Page 22: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Estimasi parameter 𝜃0 dan 𝜃1 (𝒎𝒂𝒕𝒆𝒎𝒂𝒕𝒊𝒔)

UkuranMesin

Silinder KonsumsiBBM

EmisiCO2

0 2.0 4 8.5 196

1 2.4 4 9.6 221

2 1.5 4 5.9 136

3 3.5 6 11.1 255

4 3.5 6 10.6 244

5 3.5 6 10.0 230

6 3.5 6 10.1 232

7 3.7 6 11.1 255

8 3.7 6 11.6 267

9 2.4 4 9.2 ?

𝑥1 𝑦

𝑦 = 𝜃0 + 𝜃1 𝑥1

𝜃1 = 𝑖=1𝑠 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦

𝑖=1𝑠 𝑥𝑖 − 𝑥 2

𝜃1 = 43.98

𝜃𝑜 = 𝑦 − 𝜃1 𝑥

𝜃𝑜 = 92.8

Page 23: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Estimasi parameter 𝜃0 dan 𝜃1 (𝒐𝒑𝒕𝒊𝒎𝒂𝒔𝒊)

UkuranMesin

Silinder KonsumsiBBM

EmisiCO2

0 2.0 4 8.5 196

1 2.4 4 9.6 221

2 1.5 4 5.9 136

3 3.5 6 11.1 255

4 3.5 6 10.6 244

5 3.5 6 10.0 230

6 3.5 6 10.1 232

7 3.7 6 11.1 255

8 3.7 6 11.6 267

9 2.4 4 9.2 ?

𝑥1 𝑦

𝑦 = 92.8 + 43.98 𝑥1

Page 24: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Prediksi dengan Regresi Linier

UkuranMesin

Silinder KonsumsiBBM

EmisiCO2

0 2.0 4 8.5 196

1 2.4 4 9.6 221

2 1.5 4 5.9 136

3 3.5 6 11.1 255

4 3.5 6 10.6 244

5 3.5 6 10.0 230

6 3.5 6 10.1 232

7 3.7 6 11.1 255

8 3.7 6 11.6 267

9 2.4 4 9.2 ?

𝑦 = 92.8 + 43.98 𝑥1

198.352

Page 25: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Tutorial Simple Linear Regression

• Downloas file automobileEDA.csv di www.unhas.ac.id/amil/S1TIF/probstat2019/• Klik kanan file => Save Link As => Save as type: All Files

• Run Jupyter Notebook

Page 26: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Dataset

Page 27: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Contoh plot hubungan antara 'highway-mpg' dan 'price’

Miles per gallon (mpg)

Page 28: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Koefisien korelasi

• 'highway-mpg' and 'price'

Page 29: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Cek koefisien korelasi

• 'engine-size' and 'price'

Page 30: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Cek koefisien korelasi

• 'Peak-rpm' and 'price'

Page 31: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Linear function

• a refers to the intercept of the regression line, in other words: the value of Y when X is 0

• b refers to the slope of the regression line, in other words: the value with which Y changes when X increases by 1 unit

Page 32: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Load the modules for linear regression

Page 33: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Linear function• "highway-mpg" as the predictor variable and the "price" as the

response variable.

Page 34: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Linear function• "highway-mpg" as the predictor variable and the "price" as the

response variable.

Page 35: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Model Linier

Page 36: Probabilitas dan Statistik Probstat 2019.pdf · Terhubung Non-linier Terhubung Non-linier Hubungan antarvariabel. Linier, terhubung kuat Linier, terhubung lemah ... Data historis

Plotting data dan model