47
混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智 , 持橋大地 , 亀岡弘和 , 柏野邦夫 NTT コミュニケーション科学基礎研究所 情報システム研究機構 統計数理研究所

Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

•深い青を基にメタル調の雰囲気をだしてみました。

•基調の青と真逆のオレンジ文字は強調したい部分に使用できます。

•タイトルフォントはりょうゴシック PlusN H、本文はDFP華康ゴシック体W5, Bold

• Presentation title: 32pt りょうゴシック PlusN H

• Presentation title: 28pt orange DFP華康ゴシック体W5

混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル

大石康智†, 持橋大地‡, 亀岡弘和†, 柏野邦夫†

† NTT コミュニケーション科学基礎研究所 ‡ 情報システム研究機構 統計数理研究所

Page 2: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

歌声の声の大きさ(音量) 2

Page 3: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

歌声の声の大きさ(音量)

音符の音高に連動した上昇下降,ビブラートと同期した振動

3

波形 ハニング窓

2 4 6 8 10 [秒]

歌声の音量軌跡(注:必ずしも知覚量(ラウドネス)に比例しない)

0

Page 4: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

歌声の声の大きさ(音量)

音符の音高に連動した上昇下降,ビブラートと同期した振動

音量の動特性を取り除く(正規化する)と?

4

波形 ハニング窓

2 4 6 8 10 [秒]

歌声の音量軌跡(注:必ずしも知覚量(ラウドネス)に比例しない)

0

Page 5: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

歌声の声の大きさ(音量)

音符の音高に連動した上昇下降,ビブラートと同期した振動

音量の動特性を取り除く(正規化する)と?

5

波形 ハニング窓

2 4 6 8 10 [秒]

歌声の音量軌跡(注:必ずしも知覚量(ラウドネス)に比例しない)

0

⇒ 声の高さや声色とともに,音量の動きも重要な特徴

Page 6: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

歌唱者ごとに音量軌跡はどう違う?

歌唱者3名による同一メロディを歌った歌声の音量軌跡

6

歌唱者A

(発声訓練有)

歌唱者B

(発声訓練有)

0 2 4 6 8 10 12 [秒]

歌唱者C

(発声訓練無)

⇒ 訓練有の歌唱者ほど,その動き(強弱)を巧妙に制御する

Page 7: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

歌唱者が色々な曲を歌ったら?

歌唱者(訓練有)が4つのメロディを歌った歌声の音量軌跡

7

楽曲(1) パターン1

0 2 4 6 8 10 12 [秒]

楽曲(2)

楽曲(3)

楽曲(4)

パターン3

パターン2

動きのモデル化によって,認識・合成の発展に貢献したい!

⇒ いくつかの動的(強弱)パターンを使い分ける

Page 8: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

音量の動きを楽譜と結びつける生成過程モデルの構築

新規の楽譜に対して,

その音量軌跡を予測する

音量軌跡の動きを楽譜と

結びつけて学習する

研究の目的 8

学習結果

新規の楽譜

歌唱者A“らしい”,音量軌跡

楽譜

音量

歌唱者Aの歌声 学習結果

Page 9: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

音量の動きを楽譜と結びつける生成過程モデルの構築

新規の楽譜に対して,

その音量軌跡を予測する

音量軌跡の動きを楽譜と

結びつけて学習する

研究の目的 9

学習結果

新規の楽譜

歌唱者A“らしい”,音量軌跡

音高や音色に適用可能かも?

楽譜

音量

歌唱者Aの歌声 学習結果

応用1:歌声合成

歌唱者A

歌唱者Z

・・・

DYN調整 ○○風に!

Page 10: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

音量の動きを楽譜と結びつける生成過程モデルの構築

新規の楽譜に対して,

その音量軌跡を予測する

音量軌跡の動きを楽譜と

結びつけて学習する

研究の目的 10

学習結果

新規の楽譜

歌唱者A“らしい”,音量軌跡

音高や音色に適用可能かも?

応用2:歌声認識・マイニング 「歌ってみた」コンテンツ

楽譜

音量

歌唱者Aの歌声 学習結果

応用1:歌声合成

歌唱者A

歌唱者Z

・・・

DYN調整 ○○風に!

Page 11: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

ガウス過程による名演奏の学習 [寺村+, 2008]

− 音符のコンテキストと,実演の音量・発音区間の関係を学習

先行研究と課題 11

C G E G

480 480 480 480

音高

音長

音量

時間

打鍵楽器を対象

複雑な動きを

表現しない

ガウス過程回帰 楽譜

Page 12: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

ガウス過程による名演奏の学習 [寺村+, 2008]

− 音符のコンテキストと,実演の音量・発音区間の関係を学習

隠れマルコフモデル(HMM)に基づく歌声合成 [間瀬+, 2010]

先行研究と課題 12

C G E G

480 480 480 480

音高

音長

音量

時間

打鍵楽器を対象

複雑な動きを

表現しない

ガウス過程回帰

・ 固定された状態数と局所的な動的特徴量で表現することは難しい

・ HMMの状態クラスタリングにより,動きが過剰に平滑化される

ラベルごとにHMMを学習

楽譜

歌詞 a sa ya ke

HMM

時間

C G E G

480 480 480 480

音高

音長

音量 楽譜

Page 13: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

アプローチ

音量の動きのモデル化⇒ ガウス過程 [Rasmussen+, 1996]

13

線形回帰 ガウス過程回帰

入力(時間)

出力(音量)

入力(時間)

Point:

回帰関数は明示的に

定義されず,データから自動的に学習される

Page 14: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

アプローチ

音量の動きのモデル化⇒ ガウス過程 [Rasmussen+, 1996]

14

線形回帰 ガウス過程回帰

入力(時間)

出力(音量)

入力(時間)

Point:

回帰関数は明示的に

定義されず,データから自動的に学習される

HMM

入力(時間)

出力(音量)

Page 15: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

アプローチ

音量の動きのモデル化⇒ ガウス過程 [Rasmussen+, 1996]

楽譜に伴う動的パターンの使い分け⇒ 混合ガウス過程

15

線形回帰 ガウス過程回帰

入力(時間)

出力(音量)

入力(時間)

Point:

回帰関数は明示的に

定義されず,データから自動的に学習される

楽譜空間

音符の音長

音符の音高

[Meeds+, 2006]

Point:

状態遷移によって,

動的パターンを切り替えながら音量を生成する

にクラスタ(状態)を形成

HMM

入力(時間)

出力(音量)

Page 16: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

問題設定

伴奏をヘッドフォンで聴きながら歌った歌声を利用する

16

76 (E)

MID

Iノートナンバ

78 (F#)

80 (G#)

82 (A#) 楽譜 音量軌跡

時間

Page 17: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

問題設定

伴奏をヘッドフォンで聴きながら歌った歌声を利用する

17

76 (E)

MID

Iノートナンバ

78 (F#)

80 (G#)

82 (A#) 楽譜

・・・ 入力変数

(10ms毎)

音量軌跡

時間

Page 18: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

問題設定

伴奏をヘッドフォンで聴きながら歌った歌声を利用する

18

76 (E)

MID

Iノートナンバ

78 (F#)

80 (G#)

82 (A#) 楽譜

・・・ 入力変数

(10ms毎)

音量軌跡

時間

前後の音符の音高や音長,強弱記号や演奏記号の有無を加えることも可

音符内位置(発音開始からの時刻)

音符の高さ(MIDIノートナンバ) 音符の長さ(Inter-onset interval)

音符コンテキスト

音符内位置

長さ 高さ

Page 19: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

問題設定

伴奏をヘッドフォンで聴きながら歌った歌声を利用する

19

76 (E)

MID

Iノートナンバ

78 (F#)

80 (G#)

82 (A#) 楽譜

・・・ 入力変数

(10ms毎)

音量軌跡

時間

前後の音符の音高や音長,強弱記号や演奏記号の有無を加えることも可

出力変数

(10ms毎)

・・・

音符内位置(発音開始からの時刻)

音符の高さ(MIDIノートナンバ) 音符の長さ(Inter-onset interval)

音符コンテキスト

音符内位置

長さ 高さ

Page 20: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

問題設定

伴奏をヘッドフォンで聴きながら歌った歌声を利用する

20

76 (E)

MID

Iノートナンバ

78 (F#)

80 (G#)

82 (A#) 楽譜

・・・ 入力変数

(10ms毎)

音量軌跡

時間

前後の音符の音高や音長,強弱記号や演奏記号の有無を加えることも可

混合ガウス過程

出力変数

(10ms毎)

・・・

音符内位置(発音開始からの時刻)

音符の高さ(MIDIノートナンバ) 音符の長さ(Inter-onset interval)

音符コンテキスト

音符内位置

長さ 高さ

Page 21: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

問題設定

伴奏をヘッドフォンで聴きながら歌った歌声を利用する

21

76 (E)

MID

Iノートナンバ

78 (F#)

80 (G#)

82 (A#) 楽譜

・・・ 入力変数

(10ms毎)

音量軌跡

時間

前後の音符の音高や音長,強弱記号や演奏記号の有無を加えることも可

① 混合ガウス過程を利用して,生成過程(入出力関係)を記述する

③ 学習結果を利用して,新たな入力に対する出力を予測する

混合ガウス過程

② 混合ガウス過程のパラメータを学習する

出力変数

(10ms毎)

・・・

音符内位置(発音開始からの時刻)

音符の高さ(MIDIノートナンバ) 音符の長さ(Inter-onset interval)

音符コンテキスト

音符内位置

長さ 高さ

Page 22: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

入力

(コンテキスト)

① 混合ガウス過程による生成過程の記述

歌唱者が動的パターンを使い分ける動作を表現する

22

メロディの

音符列

時間

Page 23: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

入力

(コンテキスト)

① 混合ガウス過程による生成過程の記述

歌唱者が動的パターンを使い分ける動作を表現する

23

メロディの

音符列

入力変数空間(楽譜空間)

時間

Page 24: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

入力

(コンテキスト)

① 混合ガウス過程による生成過程の記述

歌唱者が動的パターンを使い分ける動作を表現する

24

メロディの

音符列

入力変数空間(楽譜空間)

時間

Page 25: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

入力

(コンテキスト)

① 混合ガウス過程による生成過程の記述

歌唱者が動的パターンを使い分ける動作を表現する

25

メロディの

音符列

入力変数空間(楽譜空間)

ガウス過程回帰

入力

出力

・・・

時間

Page 26: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

入力

(コンテキスト)

① 混合ガウス過程による生成過程の記述

歌唱者が動的パターンを使い分ける動作を表現する

26

メロディの

音符列

入力変数空間(楽譜空間)

状態系列 ガウス過程回帰

入力

出力

・・・

時間

Page 27: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

入力

(コンテキスト)

① 混合ガウス過程による生成過程の記述

歌唱者が動的パターンを使い分ける動作を表現する

27

メロディの

音符列

入力変数空間(楽譜空間)

状態系列

出力

(音量軌跡)

ガウス過程回帰

入力

出力

・・・

時間

Page 28: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

ガウス過程回帰 [Rasmussen+, 1996]

軌跡の確率分布(ガウス分布)

28

入力

出力

・・・

Page 29: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

ガウス過程回帰 [Rasmussen+, 1996]

軌跡の確率分布(ガウス分布)

29

入力

出力

・・・ 平均

0

0

0

出力(軌跡)

10

3

グラム行列

20

20

20

10

3

5

5

10

10

0 1

1

1

単位行列

ノイズ

0 0

0

0

0

0 0 …

Page 30: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

ガウス過程回帰 [Rasmussen+, 1996]

軌跡の確率分布(ガウス分布)

30

入力

出力

グラム行列: 出力(軌跡)のダイナミクスを制御する

・・・ 平均

0

0

0

出力(軌跡)

10

3

グラム行列

20

20

20

10

3

5

5

10

10

0 1

1

1

単位行列

ノイズ

0 0

0

0

0

0 0 …

カーネル関数 二つの入力変数間の近さ

Page 31: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

ガウス過程回帰 [Rasmussen+, 1996]

軌跡の確率分布(ガウス分布)

31

入力

出力

グラム行列: 出力(軌跡)のダイナミクスを制御する

・・・ 平均

0

0

0

出力(軌跡)

近傍重視 広範囲重視

10

3

グラム行列

20

20

20

10

3

5

5

10

10

0 1

1

1

単位行列

ノイズ

0 0

0

0

0

0 0 …

カーネル関数

Page 32: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

ガウス過程回帰 [Rasmussen+, 1996]

軌跡の確率分布(ガウス分布)

32

入力

出力

グラム行列: 出力(軌跡)のダイナミクスを制御する

・・・ 平均

0

0

0

出力(軌跡)

近傍重視 広範囲重視

10

3

グラム行列

20

20

20

10

3

5

5

10

10

0 1

1

1

単位行列

ノイズ

0 0

0

0

0

0 0 …

:大⇒急激に変動する軌跡, :大⇒滑らかに変動する軌跡を“生成しやすい”

カーネル関数

Page 33: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

ガウス過程回帰 [Rasmussen+, 1996]

軌跡の確率分布(ガウス分布)

33

入力

出力

グラム行列: 出力(軌跡)のダイナミクスを制御する

・・・ 平均

0

0

0

出力(軌跡)

近傍重視 広範囲重視

回帰関数は,データから自動的に学習される

10

3

グラム行列

20

20

20

10

3

5

5

10

10

0 1

1

1

単位行列

ノイズ

0 0

0

0

0

0 0 …

:大⇒急激に変動する軌跡, :大⇒滑らかに変動する軌跡を“生成しやすい”

カーネル関数

Page 34: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

入力

(コンテキスト)

② 混合ガウス過程のパラメータ学習

MCMC-EMアルゴリズムを利用する

34

メロディの

音符列

入力変数空間

状態系列

出力

(音量軌跡)

ガウス過程回帰

入力

出力

・・・

Page 35: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

入力

(コンテキスト)

② 混合ガウス過程のパラメータ学習

MCMC-EMアルゴリズムを利用する

35

メロディの

音符列

入力変数空間

状態系列

出力

(音量軌跡)

ガウス過程回帰

入力

出力

・・・

Page 36: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

入力

(コンテキスト)

② 混合ガウス過程のパラメータ学習

MCMC-EMアルゴリズムを利用する

36

メロディの

音符列

入力変数空間

状態系列

出力

(音量軌跡)

ガウス過程回帰

入力

出力

・・・

Page 37: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

③ 学習結果を利用した出力の予測

予測分布の導出

37

学習データ 新しい入力変数

(音符コンテキスト)

パラメータ

Page 38: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

③ 学習結果を利用した出力の予測

予測分布の導出

38

学習データ 新しい入力変数

(音符コンテキスト)

状態r の事後確率

入力変数空間

状態r

パラメータ

Page 39: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

③ 学習結果を利用した出力の予測

予測分布の導出

39

学習データ 新しい入力変数

(音符コンテキスト)

状態r の予測分布 状態r の事後確率

入力変数空間

状態r のガウス過程回帰

学習データ

状態r

パラメータ

Page 40: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

③ 学習結果を利用した出力の予測

予測分布の導出

40

学習データ 新しい入力変数

(音符コンテキスト)

状態r の予測分布 状態r の事後確率

入力変数空間

状態r のガウス過程回帰

学習データ

ガウス分布に従う!

状態r

パラメータ

Page 41: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

基本動作の評価実験

新規の楽譜に対する音量軌跡の予測性能

− 音大声楽科出身の歌唱者1名が,J-popに分類される合計

10曲のサビを伴奏を聴きながら歌った歌声

− 入力変数:10msごとに,音符内位置(秒),音符の音高(MIDIノートナンバ),音符の音長(秒)からなる3次元ベクトル

− 出力変数:10msごとに音量を計算

− 評価方法:音量軌跡と予測分布の平均値系列との二乗平均平方根誤差

41

平均値系列

0

1000

2000

音量

学習区間(全体の7/10) 評価区間(全体の3/10)

0 2 4 6 8 10 12 [秒]

・・・ ・・・

予測

Page 42: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

状態数R に対する予測性能 42

0 2 4 6 8 10 12 [秒]

音量

学習区間 評価区間

音量

音量

音量

• 状態数を増やすにつれて,予測性能は向上する

• ガウス過程の混合モデルを利用することの有効性を示せた

単一の

ガウス過程回帰

Page 43: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

状態数R に対する予測性能の定量評価

評価区間における,音量軌跡と予測分布の平均値系列との二乗平均平方根誤差 (RMSE)

43

1 10 20 30 40 50 0

200

400

300

100 二乗平均平方根誤差

状態数

500

• 状態数を増やすにつれて,RMSEは減少する

• この歌唱者は20種類の動的パターンを使いまわす

Page 44: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

入力変数に含める音符コンテキストの考察

状態数 の場合

44

音符内位置 音符内位置

+音高

300

380

360

二乗平均平方根誤差

音符内位置

+音長

音符内位置

+音高

+音長

320

340

音符内位置+音高

+音長+前音符との

音高差+音長+後音符との音高差+音長差

400

420

• 音符の音長より,音符の音高の方が有用

• 音符コンテキストを増やすにつれて,RMSEは減少する

Page 45: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

まとめと今後の課題 45

音量の動きを楽譜と結びつける生成過程モデルの提案

− 音量軌跡の動きを楽譜と結びつけて学習する

− 新規の楽譜に対して,音量軌跡を予測する

⇒ 混合ガウス過程を利用したモデリング

HMMから生成される軌跡との比較

演奏記号や強弱記号のコンテキスト導入

カーネル関数の改良

− 2次系を表現するカーネル関数の導入

歌声知覚との対応付け

歌声認識・合成への応用

・・・

減衰振動

定常振動

楽譜

音量

Page 46: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

予備スライド

46

Page 47: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

入力変数空間における“状態”の学習結果

状態数 に固定

47

音符の音高 (MIDIノートナンバ)

0

1

1.5

2

0.5

音符の音長

2.5

70 72 74 76 78 80 82 84 86

• 各音符に対応するように状態の分布が学習される

• 予測の際,学習データに無い音符はこの空間で補間される