Rekognisi Pengucap Forensik · Forensik Verifikasi pengucap •Verifikasi suara tersangka Identifikasi pengucap •Mencari identitas tersangka Diarisasi pengucap •Pembuatan transkrip

Rekognisi Pengucap Forensik Forensic Speaker Recognition

Oleh: Miranti Indar Mandasari, ST., MT.

Institut Teknologi Bandung, Indonesia

Radboud University Nijmegen, the Netherlands

Untuk Komunitas: Lingkar Soca

28 Februari 2016

SISTEM REKOGNISI PENGUCAP

Berbagai Informasi pada Suara Ucap

Accent Recognition Language Recognition Speech Recognition

Speaker Recognition Gender Recognition Emotion Recognition

Dari daerah mana dia berasal?

Bahasa apa yang dia gunakan?

Apakah kata yang dia ucapkan?

Siapakah dia? Apakah dia pria/ wanita?

Apakah dia sedih/ senang?

Sistem Rekognisi Pengucap

Sistem Rekognisi Pengucap

• Dalam Bahasa Inggris dikenal dengan

– Speaker recognition, atau

– Voiceprint recognition.

• Definisi:

– Speaker recognition is a process of recognizing the identity of a speaker from a given speech segment.

– Rekognisi Pengucap adalah sebuah proses dalam me-rekognisi (mengenali) identitas seorang pengucap dari suatu segmen suara ucap.

Mengapa “Rekognisi”?

Speaker recognition

• Speaker verification

• Speaker identification

• Speaker classification or diarization

Rekognisi Pengucap

• Verifikasi pengucap

• Identifikasi pengucap

• Klasifikasi atau diarisasi pengucap

Operating modes:


Speaker recognition




unknown known

Speaker Verification

Same speaker (or) Different speaker?


Speaker recognition




unknown

Speaker Identification

Who is speaking?

known(s)


Speaker recognition




Who is speaking here?



APLIKASI DARI SISTEM REKOGNISI PENGUCAP

Komersial

Akses pada

• Perangkat elektronik

• Akun Bank

• Ruangan rahasia

Diarisasi pengucap untuk:

• Notulensi otomatis saat rapat

Forensik

Verifikasi pengucap

• Verifikasi suara tersangka

Identifikasi pengucap

• Mencari identitas tersangka

Diarisasi pengucap

• Pembuatan transkrip otomatis

Aplikasi dari Sistem Rekognisi Pengucap

FORENSIK SUARA UCAP

Forensik Suara Ucap

• Aplikasi sistem rekognisi pengucap untuk aplikasi forensik:

– Speaker profiling:

• Sistem rekognisi aksen

• Sistem rekognisi bahasa

• Sistem rekognisi gender

– Mengetahui konten percakapan

• Sistem rekognisi suara ucap (speech recognition)

– Identitas pengucap – Siapa yang berbicara?

• Sistem rekognisi pengucap (speaker recognition)

BERBAGAI MACAM SISTEM REKOGNISI PENGUCAP

Tipe-tipe Sistem Rekognisi Pengucap

• Pendekatan fonetik-akustik

– biasanya menggunakan metode manual

• Sistem rekognisi pengucap otomatis

• Sistem hybrid

– Gabungan antara manual-otomatis

SISTEM REKOGNISI PENGUCAP BERBASIS FONETIK-AKUSTIK

Rekognisi Pengucap Berbasis Fonetik-Akustik

• Fitur berdasarkan properti akustik dari suara ucap – Pitch (Frekuensi Fundamental)

– Formant & Bandwidth Formant

– Intensitas sinyal (Energi)

– Durasi

• Analisis: – Menggunakan pendekatan statistik dasar

– Level: kalimat, kata/frase, suku-kata, dan fonem

– Biasanya: text-dependent

Ekstraksi Fitur Akustik

Ekstraktor Fitur (Mesin FFT/ LPC)

Segmen suara ucap Dalam domain waktu

Segmen suara ucap Dalam doman frekuensi

Ekstraksi Fitur Akustik: Pitch dan Formant

FORMANT 1 (F1) F2 F2 F2

PITCH: fundamental frequency.

Ekstraksi Fitur Akustik

Energi/ intensitas

Pitch/ frekuensi fundamental

Formants

Analisis Statistik 1 Pengucap

Analisis Statistik N Pengucap

Pengucap 1 Pengucap 2 Pengucap 3 Pengucap 4 Pengucap 5 Pengucap 6

SISTEM REKOGNISI PENGUCAP OTOMATIS

Setup Sistem Rekognisi Pengucap Otomatis

unknown

known

Ekstraksi Fitur

Ekstraksi Fitur

Pemodelan Pengucap

Pemodelan Pengucap

Background Data

Training

Testing

Skor


• Ekstraksi fitur: – MFCC (Mel), LPC, LPCC, CFCC (cochlear), etc.

• Metode pemodelan: – GMM-UBM, i-vector, JFA, HMM, ANN, SVM, LDA,

PLDA, etc.

Ekstraksi Fitur MFCC


unknown

known

Ekstraksi Fitur

Ekstraksi Fitur

Pemodelan Pengucap

Pemodelan Pengucap

Background Data

Training

Testing

Skor

Decision?

Membuat Keputusan Binary

Threshold

Target scores

Non-target scores

Reject Accept

Tipe Error:

• False alarm

• Miss rejection

Target trial

Non-target/ impostor

Yes No

Membuat Keputusan Forensik

Menggunakan kerangka likelihood ratio

Posterior knowledge Evidence

Prior knowledge

P(H0|E)

P(H1|E) =

P(E|H0)

P(E|H1) x

P(H0)

P(H1)

Posterior odds Likelihood ratio Prior odds

Wewenang Pengadilan

Wewenang Expert

Wewenang Pengadilan

Likelihood Ratio Likelihood ratio (LR) adalah probabilitas relatif dari suatu bukti/skor E terhadap kedua hipotesis: - H0 : suara unknown dan known berasal dari pengucap yang sama, dan

- H1 : suara unknown dan known berasal dari pengucap yang berbeda

LR = P(E|H0)

P(E|H1) Likelihood Ratio

Bukti/ skor

Hipotesis Prosecution

Hipotesis Defense

Menghitung LR dari Distribusi Skor

PERKEMBANGAN SISTEM REKOGNISI PENGUCAP OTOMATIS

Kondisi Saat ini

• Kebanyakan: text- dan channel-independent • Beberapa: gender- dan language-independent • Pada kondisi terkontrol:

– Performa baik, equal error rate ≤ 1.00%

• Cara meningkatkan performa: – Fusion pada saat ekstraksi fitur, pemodelan, atau pada

level skor – Menggunakan multi-modal biometrics (face, fingerprints,

etc.)

• Aplikasi pada dunia forensik: – Masih terbatas – Memerlukan proses kalibrasi likelihood ratio

Tantangan

• Tantangan utama: kondisi mismatched antara segmen suara ucap known dan unknown: – Channel atau media perekaman, – Level noise, – Durasi, – Kata dan/atau bahasa yang terucap, – Kondisi emosi dan kesehatan pengucap, – Gaya berbicara, dan – etc.

• Tantangan lainnya: noise robustness, suara ucap yang tersamarkan (disguised speech: whisper, vocal effort, etc.) & voice aging

Sistem Rekognisi Pengucap Otomatis di Radboud University Nijmegen

• Equal error rate pada database:

– NIST SRE’08 : 1.33 %

– NIST SRE’10 : 1.87 %

– NIST SRE’12 : 2.85 %

(terdapat variasi noise dan durasi)

SISTEM REKOGNISI PENGUCAP FORENSIK DI TEKNIK FISIKA ITB

Sistem Rekognisi Pengucap Forensik di Teknik Fisika ITB

• Merupakan kolaborasi antara 2 kelompok keahlian (KK) di lingkungan Fakultas Teknologi Industri (FTI) ITB: – KK Teknik Fisika, dan

– KK Instrumentasi & Kontrol.

• Pendekatan: hybrid – Berbasis fonetik-akustik

– Ekstraksi fitur akustik secara otomatis

– Analisis dengan menggunakan metode statistik

Peta Jalan Penelitian

Menuju otomatisasi

sistem

Thank You!

Bandung, 28 Februari 2016

Miranti Indar Mandasari, ST., MT. ©

Email: [email protected]

Documents

Rekognisi Pengucap Forensik · Forensik Verifikasi pengucap •Verifikasi suara tersangka Identifikasi pengucap •Mencari identitas tersangka Diarisasi pengucap •Pembuatan transkrip