Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介

Phonetic Posteriorgrams for Many‑to‑One Voice Conversion Without ParallelData Trainingの紹介@sesenosannko

目次

声質変換とは

新規性

声質変換の今後

目次

声質変換(Voice Conversion)とはある人の発話音声の声質だけを他の人に変換する

アクセント矯正、声帯切除等後の音声復帰、映画吹替の

声質変換などへの応用が期待される

日本人の研究も有名（戸田、中鹿など）

声質変換とは

新規性

声質変換における学習データ（従来）

1. パラレルデータ

全く同じ発話内容・タイミングの2人以上の音声

→データを用意するのが難しい

2. フレームアラインメント

音声を細切りにして繋ぎあわせるなどしてパラレル

データを作る

→パラレルデータを用いるより低質

新規性

新規性

声質変換における学習データ（提案手法）

3. パラレルデータを全く用いない

既存研究でも試みられていたが（Lee, 2006など）

パラレルデータを用いるより低質であった

提案手法はパラレルデータを用いる声質変換と同等

以上の性能であると主張されている

新規性

なぜパラレルデータが必要ないのか

パラレルデータを用いる場合

変換器はGMM、DNN、RNNなど

新規性

なぜパラレルデータが必要ないのか

パラレルデータを用いない場合

いったん音声から話者の情報を取り除けば良い

話者情報を取り除く方法が課題だった

新規性

話者情報を取り除く方法

Phonetic PosteriorGrams

音声認識の要領で発話音声のセノン（発音記号のような

もの）を認識し、その事後分布を時間軸に並べたもの

PPGs自体は既存だがこの論文で声質変換に適用された

新規性



2種類の変換器を作れば話者情報を取り除いて変換可能

新規性



パラレルデータがいらない以外の利点

従来手法の多くは学習データに含まれる人以外から変換

することは不可能だった

「音声→PPGs」変換器は1つ作れば誰でも使える↓

他対1変換が可能

入力話者は学習データにいない人でも良い

新規性



こんな単純な方法でうまくいくのか？

↓https://sites.google.com/site/2016icme/

（僕が知っている）既存手法と同等に聞こえる

新規性

https://sites.google.com/site/2016icme/


音声生成技術は急成長している

MCEP→音声波形を扱う時代に(WaveNetなど)

GANなど生成モデルの発達

→声質変換にも適用が期待される

声質変換の研究数が少ないのが課題


まとめ

声質変換はパラレルデータが必要なことが大きな課題

提案手法はPPGsを経由することで話者情報を取り除く

PPGsはセノンの事後分布を時間軸に並べたもの

まとめ

Technology

Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介