46
“CHAPTER 3” Maximum Likelihood and Bayesian Estimation Oleh : AAN JELLI PRIANA (156150100111022) 1

Chapter 3 maximum likelihood and bayesian estimation-fix

Embed Size (px)

Citation preview

1

“CHAPTER 3”Maximum

Likelihood and Bayesian Estimation

Oleh : AAN JELLI PRIANA(156150100111022)

2

INTRODUCTION

Max Likelihood

Bayesian

• Permasalahan estimasi parameter adalah salah satu hal klasik dalam statistik, yang dapat dilakukan melalui pendekatan dalam berbagai cara.

• Jika kita tahu bentuk parametrik densitas probabilitas kelas-kondisional kita dapat mengurangi learning task dari salah satu temuan distribusinya sendiri parameter yang ditemukan menggunakan hasil distribusi untuk klasifikasi.

• Kita akan mempertimbangkan dua prosedur umum estimasi yaitu:

Maksimum Likelihood Estimation dan Bayesian Estimation hasilnya secara

identik hampir sama namun secara konsep berbeda.

3

OIntroductionO Bayesian framework

O Desain secara optimal classifier dengan diketahuinya:O P(i) : priorsO P(x | i) : class-conditional densities

Unfortunately, we rarely have this complete information!

O Desain classifier berdasarkan set of labeled training samples (supervised learning)O Asumsi: priors diketahuiO Membutuhkan kecukupan jumlah training samples

untuk estimasi class-conditional densities, khususnya saat dimensi feature space adalah besar

1

4

MAXIMUM LIKELIHOOD ESTIMATION

O Metode maksimum Likelihood berusaha menemukan nilai parameter terbaik yang didukung oleh data training, yaitu memaksimalkan peluang mendapatkan sampel yang diamati sebenarnya.

O Memiliki sifat konvergensi yang baik dengan meningkatnya ukuran sampel; Diperkirakan nilai parameter mendekati nilai sebenarnya sebagai n meningkat.

O Lebih simpel dari pada alternative technique lainnya

5

O Asumsi kita memiliki conditional classes danP(x | j) ~ N( j, j)

P(x | j) P (x | j, j), where

)...)x,xcov(,,,...,,(),( nj

mj

22j

11j

2j

1jjj

2

Menggunakan kelas j samples untuk estimasi class j parameters

PRINSIP UMUM MAXIMUM LIKELIHOOD ESTIMATION

Pattern Classification, Chapter 3 6

O Example of a specific case: unknown

O P(x | ) ~ N(, )(Contoh dari multivariate normal population)

= , dimana Max Likelihood estimasi untuk “must satisfy”:

)x()|x(Pln and

)x()x(21)2(ln

21)|x(Pln

1kk

1k

tk

dk

0)ˆx( knk

1k

1

2

The Gaussian Case: Unknown μ

Pattern Classification, Chapter 3 7

• Multiplying oleh & penataan ulang, diperoleh:

yang merupakan arithmetic average atau mean dari samples of the training samples!

Conclusion: Memberikan P(xk | j), j = 1, 2, …, c menjadi Gaussian pada d-dimensional feature space, mengestimasi vector = (1, 2, …, c)t dan performa classification menggunakan Bayes decision rule ( chapter 2).

nk

1kkx

n1ˆ

2

Pattern Classification, Chapter 3 8

O Max Likelihood Estimation: O Univariate Gaussian Case: unknown &

= (1, 2) = (, 2)

02

)x(2

1

0)x(1

0))|x(P(ln

))|x(P(lnl

)x(2

12ln21)|x(Plnl

22

21k

2

1k2

k2

k1

21k

22k

2

The Gaussian Case :Unknown μ and Σ

9

OIntroductionO Bayesian framework

O Desain secara optimal classifier dengan diketahuinya:O P(i) : priorsO P(x | i) : class-conditional densities

Unfortunately, we rarely have this complete information!

O Desain classifier berdasarkan set of labeled training samples (supervised learning)O Asumsi: priors diketahuiO Membutuhkan kecukupan jumlah training samples

untuk estimasi class-conditional densities, khususnya saat dimensi feature space adalah besar

1

10

O Asumsi kita memiliki conditional classes danP(x | j) ~ N( j, j)

P(x | j) P (x | j, j), where

)...)x,xcov(,,,...,,(),( nj

mj

22j

11j

2j

1jjj

2

Menggunakan kelas j samples untuk estimasi class j parameters

PRINSIP UMUM MAXIMUM LIKELIHOOD ESTIMATION

Pattern Classification, Chapter 3 11

O Max Likelihood Estimation: O Univariate Gaussian Case: unknown &

= (1, 2) = (, 2)

02

)x(2

1

0)x(1

0))|x(P(ln

))|x(P(lnl

)x(2

12ln21)|x(Plnl

22

21k

2

1k2

k2

k1

21k

22k

2

The Gaussian Case :Unknown μ and Σ

Pattern Classification, Chapter 3 12

O Estimasi maksimum likelihood untuk 2 varians σ adalah bias

O An unbiased estimator untuk adalah:

222i .

n1n)xx(

n1E

matrix covariance Sample

nk

1k

tkk )ˆx)(x(

1-n1C

2

BIAS

13

3.3 BAYESIAN ESTIMATION

O Estimasi Bayesian (pendekatan Bayesian Learning) untuk masalah klasifikasi pola.

O Meskipun nantinya hasil yang di dapat dengan metode ini umumnya hampir identik dengan hasil maksimum likelihood, namun terdapat perbedaan secara konseptual, yaitu:O dalam metode maksimum likelihood kita melihat vektor true

parameter, kita mencari , dan harus diperbaiki,θO dalam Bayesian learning, kita mempertimbangkan menjadi θ

variabel acak, dan data training untuk konversi distribusi pada variabel ini ke densitas (kepadatan) posterior probabilitas.

14

Algorithm 1: Expectation-Maximization

Pattern Classification, Chapter 3 15

O Estimasi maksimum likelihood untuk 2 varians σ adalah bias

O An unbiased estimator untuk adalah:

222i .

n1n)xx(

n1E

matrix covariance Sample

nk

1k

tkk )ˆx)(x(

1-n1C

2

BIAS

16

3.3 BAYESIAN ESTIMATION

O Estimasi Bayesian (pendekatan Bayesian Learning) untuk masalah klasifikasi pola.

O Meskipun nantinya hasil yang di dapat dengan metode ini umumnya hampir identik dengan hasil maksimum likelihood, namun terdapat perbedaan secara konseptual, yaitu:O dalam metode maksimum likelihood kita melihat vektor true

parameter, kita mencari , dan harus diperbaiki,θO dalam Bayesian learning, kita mempertimbangkan menjadi θ

variabel acak, dan data training untuk konversi distribusi pada variabel ini ke densitas (kepadatan) posterior probabilitas.

Pattern Classification, Chapter 1 17

Tujuan: Estimate menggunakan a-posteriori density P( | D)

O Univariate Gaussian case: P( | D) adalah sebagai unknown parameter

0 and 0 are known!

),N( ~ )P(),N( ~ ) | P(x

200

2

4

3.4 BAYESIAN PARAMETER ESTIMATION:GAUSSIAN CASE

18

O Kasus di mana μ adalah satu-satunya parameter yang tidak diketahui.

O Untuk mempermudahnya, kita memperlakukan pertama kasus univariat :

3.4.1 The Univariate Case: p(μ|D)

Bayesian Learning

Pattern Classification, Chapter 1 20

O P( | D) telah dihitungO P(x | D) masih harus dihitung

membutuhkan:

Membutuhkan class-conditional density P(x | Dj, j)P(x | Dj, j) together with P(j) and using Bayes formula,

we obtain the Bayesian classification rule:

Gaussian is d)|(P).|x(P)|x(P DD

),(N~)|x(P 2n

2n D

)(P).,|x(PMax,x|(PMax jjjj

jj

DD

4

3.4.2 The Univariate Case: p(x|D)

21

3.4.3 The Multivariate Case

O Treatment kasus multivariat dimana Σ diketahui tapi μ tidak, adalah langsunggeneralisasi dari kasus univariat.

Pattern Classification, Chapter 1 22

O P(x | D) perhitungan dapat diterapkan untuk setiap situasi dimana kepadatan diketahui dapat parametrized.

O Asumsi dasarnya adalah:Bentuk P(x | ) diasumsikan diketahui, tapi nilai tidak diketahui sebenarnya.O Pengetahuan tentang diasumsikan dikenal sebagai prior

density P()O The rest of our knowledge about dikenal sebagai set D of n

random variables x1, x2, …, xn yang mengikuti P(x)

5

3.5 BAYESIAN PARAMETER ESTIMATION:GENERAL THEORY

Pattern Classification, Chapter 1 23

The basic problem is:“Compute the posterior density P( | D)”then “Derive P(x | D)”

Penggunaan Bayes formula, kita memiliki:

Dan melalui asumsi independen:

)|x(P)|(P knk

1k

D

,d)(P).|(P)(P).|(P)|(P

D

DD

5

24

Example 1: Recursive Bayes learning and maximum likelihood

O Metode Recursive Bayes pembaruan Bayesian parameter estimasi secara bertahap pada setiap poin training sampel.

O Pada prinsipnya lebih disukai maksimumlikelihood karena lebih mudah untuk menerapkan dan dalam batas training set besar memberikan pengklasifikasi yang hampir sama akurat.

25

3.5.1 When do Maximum Likelihood and Bayes methods

differO Dalam hampir setiap kasus, maksimum likelihood dan Bayes

Solutions yang setara dalam batas asimtotik data training terbatas.

O Untuk masalah pengenalan pola praktis yang selalu memiliki seperangkat data training terbatas kapan kita harus memilih MLh or B?

O Kontribusi relatif sumber-sumber ini tergantung pada masalah ada argumen teoritis dan metodologis mendukung estimasi Bayesian, meskipun dalam prakteknya kemungkinan maksimum likelihood sederhana, dan bila digunakan untuk merancang pengklasifikasi, dapat menyebabkan pengklasifikasi hampir sama akurat.

26

O Ada beberapa kriteria yang akan mempengaruhi pilihan: komputasi kompleksitas dan metode maksimum likelihood

lebih disukai O karena hanya memerlukan diferensial teknik kalkulus atau

pencarian gradien, daripada integrasi multidimensi kompleks. interpretability.

O Dalam banyak kasus maksimum likelihood akan lebih mudah untuk ditafsirkan karena ia mengembalikan model tunggal terbaik dari set desainer yang tersedia. Pendekatan Bayesian mencerminkan ketidakpastian yang tersisa dikemungkinan model.

keyakinan informasi sebelumnya, O seperti dalam bentuk p distribusi yang mendasari (x | ). Sebuah θ

solusi maksimum likelihood p (x | ) tentu saja harus dari bentuk θparametrik yang diasumsikan; tidak begitu untuk solusi Bayesian.

27

O Ada tiga sumber kesalahan klasifikasi pada final sistem :

1. Bayes atau indistinguish ability error:kesalahan karena tumpang tindih kepadatan p (x | i) untuk nilai yang ωberbeda dari i. Kesalahan ini adalah properti yang melekat dari masalah dan tidak pernah bisa dihilangkan.

2. Model error: kesalahan karena memiliki model yang tidak sesuai. Kesalahan ini hanya dapat dihilangkan jika desainer menentukan model yang mencakup model yang benar yang dihasilkan data.

3. Kesalahan estimasi: kesalahan yang timbul dari kenyataan bahwa parameter diperkirakan dari sampel yang terbatas. Kesalahan ini dapat dikurangi dengan meningkatkan pelatihan data

28

3.5.2 NON-INFORMATIVE PRIORS AND INVARIANCE

O Analoginya, dalam Bayesian framework kita memiliki "non-informatif" prior melalui parameter untuk distribusi kategori tunggal.

O Misalkan kita menggunakan metode Bayesian untuk menyimpulkan dari data mean dan varians dari Gaussian.

O Apa prior memungkinkan kita pasang di parameter ini? O Tentunya unit pengukuran spasial - meter, kaki, inci - adalah

historical accident dan tidak relevan dengan bentuk fungsional prior.

O Sehingga hal ini diimplikasikan sebagai scale invariance:

29

3.6 SUFFICIENT STATISTICS

O Kecukupan statistik adalah fungsi dari sampel θyang berisi semua informasi yang diperlukan untuk menentukan . θ

O Kecukupan statistik untuk model tertentu (misalnya, eksponensial family) kita hanya perlu memperkirakan nilainya dari data untuk membuat classifier tidak ada fungsi lain dari data yang relevan.

30

3.6.1 SUFFICIENT STATISTICS AND THE

EXPONENTIAL FAMILYO Untuk melihat bagaimana Faktorisasi Teorema

dapat digunakan untuk mendapatkan statistik yang cukup, pertimbangkan sekali lagi kasus normal d-dimensi akrab dengan kovarians tetap tetapi berarti tidak diketahui

31

3.7 PROBLEMS OF DIMENSIONALITY

O Dalam kategori aplikasi multi praktis, itu sama sekali tidak biasa menghadapi masalahmelibatkan lima puluh atau seratus fitur, terutama jika fitur yang biner dihargai.Kita mungkin biasanya percaya bahwa setiap fitur berguna untuk setidaknya beberapa dari diskriminasi;sementara kita dapat meragukan bahwa setiap fitur memberikan informasi yang independen,sengaja fitur berlebihan belum disertakan. Ada dua isu yangharus dihadapkan. Yang paling penting adalah bagaimana akurasi klasifikasi tergantung padadimensi (dan jumlah data pelatihan); yang kedua adalah komputasi yang kompleksitas merancang classifier

32

3.7.1 ACCURACY, DIMENSION, AND TRAINING SAMPLE SIZE

O Jika fitur secara statistik independen, ada beberapa hasil teoritis yang menyarankan kemungkinan kinerja yang sangat baik.

O Sebagai contoh, perhatikan dua kelas multivariat kasus normal dengan kovarians yang sama di mana p (x | ωj) ~ N (μj, Σ), j =1, 2. Jika a priori probabilitas yang sama, maka tidak sulit untuk menunjukkan ( bahwa tingkat kesalahan Bayes diberikan oleh

33

3.7.3 OVERFITTINGO Ini sering terjadi jumlah sampel yang tersedia tidak

memadai, dan pertanyaan tentang kelanjutannya muncul.

O Salah satu kemungkinan adalah untuk mengurangi dimensi ini, baik dengan mendesain ulang extractor fitur, dengan memilih bagian yang tepat dari fitur yang ada, atau dengan menggabungkan fitur yang ada dalam beberapa cara. kemungkinan lainnya adalah asumsi semua kelas c berbagi matriks kovarians yang sama, dan untuk pool data yang tersedia

Insufficient Data in Curve Fitting

35

3.8 Expectation-Maximization (EM)

O Ide dasar dari harapan maksimalisasi atau algoritma EM, adalah untuk iteratively memperkirakan likelihood dari data yang ada. Metode memiliki prekursor dalam algoritma Baum-Welch .

36

Algorithm 1: Expectation-Maximization

37

3.9 BAYESIAN BELIEF NETWORKS

O Disini akan ditunjukan grafik dependensi yang dinamakan bayesian belief networks atau causal networks bentuk topologi directed acyclic graph (DAG)

38

3.10 HIDDEN MARKOV MODELS

OHidden Markov Model (HMMs) telah menemukan penggunaan terbesar di masalah, untuk speech recognition or gesture recognition.

39

3.10.1 First-order Markov models

O Kami menganggap urutan state pada successive times ,urutan state setiap saat t dilambangkanω (t). Sebuah urutan tertentu dari panjang T dilambangkan dengan

40

3.10.2 FIRST-ORDER HIDDEN MARKOV MODELS

O Kami terus berasumsi bahwa pada setiap langkah waktu t sistem ini dalam ω negara (t) tapi sekarangkami juga menganggap bahwa itu memancarkan beberapa (terlihat) simbol v (t). Sementara canggih Markovmodel memungkinkan untuk emisi fungsi kontinu (mis, spektrum), kita akan membatasidiri untuk kasus di mana simbol diskrit dipancarkan

41

CONTOH FIRST-ORDER HIDDEN MARKOV MODELS

42

ALGORITHM 2: FORWARD

43

ALGORITHM 3: BACKWARD

44

3.10.5 DECODINGO Memberikan sequence dari visibel

state, permasalahan decoding adalah menemukan urutan kemungkinan terbaik dari hidden state.

45

SUMMARYO Jika kita tahu bentuk parametrik densitas probabilitas kelas-

kondisional kita dapat mengurangi learning task dari salah satu temuan distribusinya sendiri .

O Maksimum Likelihood Estimation dan Bayesian Estimation hasilnya secara identik hampir sama namun secara konsep berbeda

O Perbedaan secara konseptual antara maximum likelihood dan bayesian estimation, yaitu: dalam metode maksimum likelihood kita melihat vektor true

parameter, kita mencari , θ dan harus diperbaiki, dalam Bayesian learning, kita mempertimbangkan θ menjadi

variabel acak, dan data training untuk konversi distribusi pada variabel ini ke densitas (kepadatan) posterior probabilitas.

46

Implementation

O Go to Journal ..................