Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
背景音付き音声のノンパラレルデータ
声質変換
柴田研究室
C0116276
山田尭士
2020/2/5 柴田研究室
背景と目的深層学習を用いた声質変換
学習用の音声データを集めるのは困難
複数の話者間で対称的なデータが必要
データ収集の容易な手法を使うことに
多くの音声にはノイズ(環境音,背景音等)が含まれている
背景音入りの話者2人の声質の入れ替えを行う
雑音(背景音)の除去
2020/2/5 柴田研究室 1
提案手法音源分離
手法はDeep U-Netを使用
歌唱分離の手法を背景音除去に応用
声質変換
手法はCycleGAN,CycleGAN-VC2を使用
パラレルデータが要らないためデータ収集が容易
2つの手法を用いて比較
2020/2/5 柴田研究室 2
CycleGANの概要図
2020/2/5 柴田研究室 3
𝑫𝑨 𝑫𝑩
𝑮𝑩→𝑨𝑮𝑨→𝑩
𝑮𝑩→𝑨𝑮𝑨→𝑩
出来るだけ近づける
出来るだけ近づける
Bかどうかを判定Aかどうかを判定
𝑮 :生成器
𝑫 :識別器A
B
実験1. Deep U-NETによる音源分離の効果を検証
2. 声質変換の手法の効果を検証
3. 背景音付き音声に対する提案手法の適用
背景音付き音声を訓練データとし,音源分離後の効果をみる
音声データはWAV形式,16000Hz,16bit,モノラルで統一
2020/2/5 柴田研究室 4
実験1音源分離の効果を検証
データセット
MedleyDB,MedleyDB 2.0
計196曲のマルチトラックデータセット
歌唱パートを含む音源を使用
DSD100
計100曲のマルチトラックデータセット
全てを訓練データとして使用
2020/2/5 柴田研究室 5
実験1背景音除去の効果
低周波数帯は除去された
若干残る部分もある
2020/2/5 柴田研究室 6
音源分離前:
音源分離後:
実験2声質変換の効果と提案手法の適用
データセット
MagnaTagATune
約3万曲の音楽データセット
RWCP-SP99
男女ごと3名によるニュース読み上げ音声データセット
この内,“m1:男性プロナレータ(30代),m2:男性プロアナウンサー(40代)”の音声データ用いる
2020/2/5 柴田研究室 7
実験2
2020/2/5 柴田研究室 8
声質変換の効果
CycleGAN-VC2は目標音声に近づいている
CycleGANも若干変化している
CycleGAN-VC2:
CycleGAN:
元音声(m1):
目標音声(m2):
実験3
2020/2/5 柴田研究室 9
CycleGAN-VC2での背景音除去の効果
分離前後で音源の破綻
Vocoderを使った影響だと考える
音源分離前:
音源分離後:
実験3
2020/2/5 柴田研究室 10
CycleGANでの背景音除去の効果
分離前に比べて背景音の影響が改善されている
背景音無しでの学習に近い結果が得られた
音源分離前:
音源分離後:
元音声(m1):
目標音声(m2):
結論
音源分離の手法を適用した結果,おおよその背景音の除去ができた
声質変換において,背景音付き音声は背景音除去後のほうが優位な結果
が得られた
音源分離,声質変換ともに実用的な精度とは言えない
データセットの拡張,新しい手法の取り入れなど,精度向上の余地あり
2020/2/5 柴田研究室 11
参考文献[1] 犬飼 辰夫 統計的声質変換における目標話者による同一文発話間のスペクトル特徴量変動に対する分析とその予測
[2] Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Nobukatsu Hojo CycleGAN-VC2: Improved CycleGAN-based Non-parallel Voice Conversion (ICASSP 2019)
2020/2/5 柴田研究室 12