背景音付き音声のノンパラレルデータ声質変換...背景音付き音声のノンパラレルデータ声質変換柴田研究室 C0116276 山田尭士 2020/2/5

背景音付き音声のノンパラレルデータ

声質変換

柴田研究室

C0116276

山田尭士

2020/2/5 柴田研究室

背景と目的深層学習を用いた声質変換

学習用の音声データを集めるのは困難

複数の話者間で対称的なデータが必要

データ収集の容易な手法を使うことに

多くの音声にはノイズ（環境音，背景音等）が含まれている

背景音入りの話者2人の声質の入れ替えを行う

雑音（背景音）の除去

2020/2/5 柴田研究室 1

提案手法音源分離

手法はDeep U-Netを使用

歌唱分離の手法を背景音除去に応用

声質変換

手法はCycleGAN，CycleGAN-VC2を使用

パラレルデータが要らないためデータ収集が容易

2つの手法を用いて比較

2020/2/5 柴田研究室 2

CycleGANの概要図

2020/2/5 柴田研究室 3

𝑫𝑨 𝑫𝑩

𝑮𝑩→𝑨𝑮𝑨→𝑩

𝑮𝑩→𝑨𝑮𝑨→𝑩

出来るだけ近づける

出来るだけ近づける

Ｂかどうかを判定Ａかどうかを判定

𝑮 ：生成器

𝑫 ：識別器Ａ

Ｂ

実験1. Deep U-NETによる音源分離の効果を検証

2. 声質変換の手法の効果を検証

3. 背景音付き音声に対する提案手法の適用

背景音付き音声を訓練データとし，音源分離後の効果をみる

音声データはWAV形式，16000Hz，16bit，モノラルで統一

2020/2/5 柴田研究室 4

実験１音源分離の効果を検証

データセット

MedleyDB，MedleyDB 2.0

計196曲のマルチトラックデータセット

歌唱パートを含む音源を使用

DSD100

計100曲のマルチトラックデータセット

全てを訓練データとして使用

2020/2/5 柴田研究室 5

実験１背景音除去の効果

低周波数帯は除去された

若干残る部分もある

2020/2/5 柴田研究室 6

音源分離前：

音源分離後：

実験２声質変換の効果と提案手法の適用

データセット

MagnaTagATune

約3万曲の音楽データセット

RWCP-SP99

男女ごと３名によるニュース読み上げ音声データセット

この内，“m1：男性プロナレータ（30代），m2：男性プロアナウンサー（40代）”の音声データ用いる

2020/2/5 柴田研究室 7

実験２

2020/2/5 柴田研究室 8

声質変換の効果

CycleGAN-VC2は目標音声に近づいている

CycleGANも若干変化している

CycleGAN-VC2：

CycleGAN：

元音声（m1）：

目標音声（m2）：

実験３

2020/2/5 柴田研究室 9

CycleGAN-VC2での背景音除去の効果

分離前後で音源の破綻

Vocoderを使った影響だと考える

音源分離前：

音源分離後：

実験３

2020/2/5 柴田研究室 10

CycleGANでの背景音除去の効果

分離前に比べて背景音の影響が改善されている

背景音無しでの学習に近い結果が得られた

音源分離前：

音源分離後：

元音声（m1）：

目標音声（m2）：

結論

音源分離の手法を適用した結果，おおよその背景音の除去ができた

声質変換において，背景音付き音声は背景音除去後のほうが優位な結果

が得られた

音源分離，声質変換ともに実用的な精度とは言えない

データセットの拡張，新しい手法の取り入れなど，精度向上の余地あり

2020/2/5 柴田研究室 11

参考文献[1] 犬飼辰夫統計的声質変換における目標話者による同一文発話間のスペクトル特徴量変動に対する分析とその予測

[2] Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Nobukatsu Hojo CycleGAN-VC2: Improved CycleGAN-based Non-parallel Voice Conversion (ICASSP 2019)

2020/2/5 柴田研究室 12

Documents

背景音付き音声の ノンパラレルデータ 声質変換...背景音付き音声の ノンパラレルデータ 声質変換 柴田研究室 C0116276 山田尭士 2020/2/5

背景音付き音声のノンパラレルデータ声質変換...背景音付き音声のノンパラレルデータ声質変換柴田研究室 C0116276 山田尭士 2020/2/5