Upload
kcs-keio-computer-society
View
55
Download
0
Embed Size (px)
Citation preview
Phonetic Posteriorgrams for Many‑to‑One Voice Conversion Without ParallelData Trainingの紹介@sesenosannko
目次
声質変換とは
新規性
声質変換の今後
目次
声質変換(Voice Conversion)とはある人の発話音声の声質だけを他の人に変換する
アクセント矯正、声帯切除等後の音声復帰、映画吹替の
声質変換などへの応用が期待される
日本人の研究も有名(戸田、中鹿など)
声質変換とは
新規性
声質変換における学習データ(従来)
1. パラレルデータ
全く同じ発話内容・タイミングの2人以上の音声
→データを用意するのが難しい
2. フレームアラインメント
音声を細切りにして繋ぎあわせるなどしてパラレル
データを作る
→パラレルデータを用いるより低質
新規性
新規性
声質変換における学習データ(提案手法)
3. パラレルデータを全く用いない
既存研究でも試みられていたが(Lee, 2006など)
パラレルデータを用いるより低質であった
提案手法はパラレルデータを用いる声質変換と同等
以上の性能であると主張されている
新規性
なぜパラレルデータが必要ないのか
パラレルデータを用いる場合
変換器はGMM、DNN、RNNなど
新規性
なぜパラレルデータが必要ないのか
パラレルデータを用いない場合
いったん音声から話者の情報を取り除けば良い
話者情報を取り除く方法が課題だった
新規性
話者情報を取り除く方法
Phonetic PosteriorGrams
音声認識の要領で発話音声のセノン(発音記号のような
もの)を認識し、その事後分布を時間軸に並べたもの
PPGs自体は既存だがこの論文で声質変換に適用された
新規性
話者情報を取り除く方法
Phonetic PosteriorGrams
2種類の変換器を作れば話者情報を取り除いて変換可能
新規性
話者情報を取り除く方法
Phonetic PosteriorGrams
パラレルデータがいらない以外の利点
従来手法の多くは学習データに含まれる人以外から変換
することは不可能だった
「音声→PPGs」変換器は1つ作れば誰でも使える↓
他対1変換が可能
入力話者は学習データにいない人でも良い
新規性
話者情報を取り除く方法
Phonetic PosteriorGrams
こんな単純な方法でうまくいくのか?
↓https://sites.google.com/site/2016icme/
(僕が知っている)既存手法と同等に聞こえる
新規性
声質変換の今後
音声生成技術は急成長している
MCEP→音声波形を扱う時代に(WaveNetなど)
GANなど生成モデルの発達
→声質変換にも適用が期待される
声質変換の研究数が少ないのが課題
声質変換の今後
まとめ
声質変換はパラレルデータが必要なことが大きな課題
提案手法はPPGsを経由することで話者情報を取り除く
PPGsはセノンの事後分布を時間軸に並べたもの
まとめ