Upload
ngoduong
View
243
Download
0
Embed Size (px)
Citation preview
Rekognisi Pengucap Forensik Forensic Speaker Recognition
Oleh: Miranti Indar Mandasari, ST., MT.
Institut Teknologi Bandung, Indonesia
Radboud University Nijmegen, the Netherlands
Untuk Komunitas: Lingkar Soca
28 Februari 2016
SISTEM REKOGNISI PENGUCAP
Berbagai Informasi pada Suara Ucap
Accent Recognition Language Recognition Speech Recognition
Speaker Recognition Gender Recognition Emotion Recognition
Dari daerah mana dia berasal?
Bahasa apa yang dia gunakan?
Apakah kata yang dia ucapkan?
Siapakah dia? Apakah dia pria/ wanita?
Apakah dia sedih/ senang?
Sistem Rekognisi Pengucap
Sistem Rekognisi Pengucap
• Dalam Bahasa Inggris dikenal dengan
– Speaker recognition, atau
– Voiceprint recognition.
• Definisi:
– Speaker recognition is a process of recognizing the identity of a speaker from a given speech segment.
– Rekognisi Pengucap adalah sebuah proses dalam me-rekognisi (mengenali) identitas seorang pengucap dari suatu segmen suara ucap.
Mengapa “Rekognisi”?
Speaker recognition
• Speaker verification
• Speaker identification
• Speaker classification or diarization
Rekognisi Pengucap
• Verifikasi pengucap
• Identifikasi pengucap
• Klasifikasi atau diarisasi pengucap
Operating modes:
Mengapa “Rekognisi”?
Speaker recognition
• Speaker verification
• Speaker identification
• Speaker classification or diarization
unknown known
Speaker Verification
Same speaker (or) Different speaker?
Mengapa “Rekognisi”?
Speaker recognition
• Speaker verification
• Speaker identification
• Speaker classification or diarization
unknown
Speaker Identification
Who is speaking?
known(s)
Mengapa “Rekognisi”?
Speaker recognition
• Speaker verification
• Speaker identification
• Speaker classification or diarization
Who is speaking here?
Who is speaking here?
Who is speaking here?
APLIKASI DARI SISTEM REKOGNISI PENGUCAP
Komersial
Akses pada
• Perangkat elektronik
• Akun Bank
• Ruangan rahasia
Diarisasi pengucap untuk:
• Notulensi otomatis saat rapat
Forensik
Verifikasi pengucap
• Verifikasi suara tersangka
Identifikasi pengucap
• Mencari identitas tersangka
Diarisasi pengucap
• Pembuatan transkrip otomatis
Aplikasi dari Sistem Rekognisi Pengucap
FORENSIK SUARA UCAP
Forensik Suara Ucap
• Aplikasi sistem rekognisi pengucap untuk aplikasi forensik:
– Speaker profiling:
• Sistem rekognisi aksen
• Sistem rekognisi bahasa
• Sistem rekognisi gender
– Mengetahui konten percakapan
• Sistem rekognisi suara ucap (speech recognition)
– Identitas pengucap – Siapa yang berbicara?
• Sistem rekognisi pengucap (speaker recognition)
BERBAGAI MACAM SISTEM REKOGNISI PENGUCAP
Tipe-tipe Sistem Rekognisi Pengucap
• Pendekatan fonetik-akustik
– biasanya menggunakan metode manual
• Sistem rekognisi pengucap otomatis
• Sistem hybrid
– Gabungan antara manual-otomatis
SISTEM REKOGNISI PENGUCAP BERBASIS FONETIK-AKUSTIK
Rekognisi Pengucap Berbasis Fonetik-Akustik
• Fitur berdasarkan properti akustik dari suara ucap – Pitch (Frekuensi Fundamental)
– Formant & Bandwidth Formant
– Intensitas sinyal (Energi)
– Durasi
• Analisis: – Menggunakan pendekatan statistik dasar
– Level: kalimat, kata/frase, suku-kata, dan fonem
– Biasanya: text-dependent
Ekstraksi Fitur Akustik
Ekstraktor Fitur (Mesin FFT/ LPC)
Segmen suara ucap Dalam domain waktu
Segmen suara ucap Dalam doman frekuensi
Ekstraksi Fitur Akustik: Pitch dan Formant
FORMANT 1 (F1) F2 F2 F2
PITCH: fundamental frequency.
Ekstraksi Fitur Akustik
Energi/ intensitas
Pitch/ frekuensi fundamental
Formants
Analisis Statistik 1 Pengucap
Analisis Statistik N Pengucap
Pengucap 1 Pengucap 2 Pengucap 3 Pengucap 4 Pengucap 5 Pengucap 6
SISTEM REKOGNISI PENGUCAP OTOMATIS
Setup Sistem Rekognisi Pengucap Otomatis
unknown
known
Ekstraksi Fitur
Ekstraksi Fitur
Pemodelan Pengucap
Pemodelan Pengucap
Background Data
Training
Testing
Skor
Setup Sistem Rekognisi Pengucap Otomatis
• Ekstraksi fitur: – MFCC (Mel), LPC, LPCC, CFCC (cochlear), etc.
• Metode pemodelan: – GMM-UBM, i-vector, JFA, HMM, ANN, SVM, LDA,
PLDA, etc.
Ekstraksi Fitur MFCC
Setup Sistem Rekognisi Pengucap Otomatis
unknown
known
Ekstraksi Fitur
Ekstraksi Fitur
Pemodelan Pengucap
Pemodelan Pengucap
Background Data
Training
Testing
Skor
Decision?
Membuat Keputusan Binary
Threshold
Target scores
Non-target scores
Reject Accept
Tipe Error:
• False alarm
• Miss rejection
Target trial
Non-target/ impostor
Yes No
Membuat Keputusan Forensik
Menggunakan kerangka likelihood ratio
Posterior knowledge Evidence
Prior knowledge
P(H0|E)
P(H1|E) =
P(E|H0)
P(E|H1) x
P(H0)
P(H1)
Posterior odds Likelihood ratio Prior odds
Wewenang Pengadilan
Wewenang Expert
Wewenang Pengadilan
Likelihood Ratio Likelihood ratio (LR) adalah probabilitas relatif dari suatu bukti/skor E terhadap kedua hipotesis: - H0 : suara unknown dan known berasal dari pengucap yang sama, dan
- H1 : suara unknown dan known berasal dari pengucap yang berbeda
LR = P(E|H0)
P(E|H1) Likelihood Ratio
Bukti/ skor
Hipotesis Prosecution
Hipotesis Defense
Menghitung LR dari Distribusi Skor
PERKEMBANGAN SISTEM REKOGNISI PENGUCAP OTOMATIS
Kondisi Saat ini
• Kebanyakan: text- dan channel-independent • Beberapa: gender- dan language-independent • Pada kondisi terkontrol:
– Performa baik, equal error rate ≤ 1.00%
• Cara meningkatkan performa: – Fusion pada saat ekstraksi fitur, pemodelan, atau pada
level skor – Menggunakan multi-modal biometrics (face, fingerprints,
etc.)
• Aplikasi pada dunia forensik: – Masih terbatas – Memerlukan proses kalibrasi likelihood ratio
Tantangan
• Tantangan utama: kondisi mismatched antara segmen suara ucap known dan unknown: – Channel atau media perekaman, – Level noise, – Durasi, – Kata dan/atau bahasa yang terucap, – Kondisi emosi dan kesehatan pengucap, – Gaya berbicara, dan – etc.
• Tantangan lainnya: noise robustness, suara ucap yang tersamarkan (disguised speech: whisper, vocal effort, etc.) & voice aging
Sistem Rekognisi Pengucap Otomatis di Radboud University Nijmegen
• Equal error rate pada database:
– NIST SRE’08 : 1.33 %
– NIST SRE’10 : 1.87 %
– NIST SRE’12 : 2.85 %
(terdapat variasi noise dan durasi)
SISTEM REKOGNISI PENGUCAP FORENSIK DI TEKNIK FISIKA ITB
Sistem Rekognisi Pengucap Forensik di Teknik Fisika ITB
• Merupakan kolaborasi antara 2 kelompok keahlian (KK) di lingkungan Fakultas Teknologi Industri (FTI) ITB: – KK Teknik Fisika, dan
– KK Instrumentasi & Kontrol.
• Pendekatan: hybrid – Berbasis fonetik-akustik
– Ekstraksi fitur akustik secara otomatis
– Analisis dengan menggunakan metode statistik
Peta Jalan Penelitian
Menuju otomatisasi
sistem