Upload
saruwatarilabutokyo
View
307
Download
0
Embed Size (px)
Citation preview
独立性に基づくブラインド音源分離の発展と
独立低ランク行列分析History of independence-based blind source separation
and independent low-rank matrix analysis
東京大学大学院情報理工学系研究科 システム情報学専攻
第一研究室 特任助教北村大地( Daichi Kitamura )
東京大学
2
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
3
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
4
bull 音源分離( audio source separation )ndash 複数の音源が混合された信号を音源毎に分離する信号処理ndash 音声認識雑音抑圧補聴器会議アーカイブ etcndash ほぼ全ての音響システムのフロントエンドに応用可能
bull 観測信号から有意な因子を抽出する技術ndash 知能情報学の一大トピック
bull 音楽信号の音源分離( music source separation )
ndash ユーザによる既存音楽の再編集自動採譜技術楽器演奏における教育支援超臨場感音場再現の制御 等
研究の背景音源分離問題
音楽CD
音源分離実演奏の録音
5
研究の背景音源分離問題の種類bull 混合される音源数と録音時のマイク数の関係
ndash 優決定条件(音源数 マイク数)の音源分離
ndash 劣決定条件(音源数 マイク数)の音源分離
bull 「事前情報」の有無ndash 音色の事前学習楽譜やユーザアノテーション音源やマ
イクの空間的な位置情報等ndash 事前情報を用いない手法ブラインド音源分離
音源信号 観測信号 分離信号
混合系 分離系マイクロホンアレイ
音楽 CD
L-ch
R-ch
ステレオ信号( 2-ch )
モノラル録音
1-ch
モノラル信号( 1-ch )
6
bull 基礎となる数理理論の登場と発展
研究の背景歴史的発展
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
7
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
8
ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )
ndash 混合系 が未知の条件で分離系 を推定
ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS
ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]
bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]
bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら
ない
BSS混合系 分離系
独立成分分析( ICA )おさらいbull ICA の前提条件
ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)
bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)
混合系音源信号(潜在因
子)
混合信号(観測情
報)1 互いに独立
2 非ガウス分布
3 可逆で時不変
10
逆行列
独立成分分析( ICA )おさらいbull ICA の不確定性
ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からな
い)bull 2 独立成分の順序は決定できない(順番が変わりうる)
11
ICA分離系
混合信号独立成分
ICA分離系
混合信号独立成分
推定信号
推定信号
bull ICA の推定理論ndash 推定信号間の独立性を最大化
ndash 対数尤度関数
独立成分分析( ICA )おさらい
12
近づける
音源の非ガウスな分布未知なものなので適当に与える必要がある
音源の分布音声bull 音声の時間信号
ガウス分布よりも急峻で裾が長いrarr尖度が高い
13
bull ピアノ音の時間信号
音源の分布ピアノ音
音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarrラプラス分布に近い
-5 -4 -3 -2 -1 0 1 2 3 4 50
010203040506
ラプラス分布
14
bull ドラム音の時間信号
音源の分布ドラム音
ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい
-5 -4 -3 -2 -1 0 1 2 3 4 50
02
04
06
08
1コーシー分布
15
15
bull 実際の音響信号の混合ndash 残響による畳み込み混合
bull 例 会議室では 300 ミリ秒コンサートホールでは 2秒等
ndash 時不変混合係数 が時不変混合フィルタ に変化bull 対残響性の向上
ndash 時間領域での逆フィルタ を推定bull 16 kHzサンプルでは 300 ms のフィルタ長が 4800タップ( 1 音
源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難
ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面
耐残響性の向上周波数領域 ICA ( FDICA )
残響長(混合フィルタのタップ長)
瞬時混合畳み込み混合
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
2
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
3
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
4
bull 音源分離( audio source separation )ndash 複数の音源が混合された信号を音源毎に分離する信号処理ndash 音声認識雑音抑圧補聴器会議アーカイブ etcndash ほぼ全ての音響システムのフロントエンドに応用可能
bull 観測信号から有意な因子を抽出する技術ndash 知能情報学の一大トピック
bull 音楽信号の音源分離( music source separation )
ndash ユーザによる既存音楽の再編集自動採譜技術楽器演奏における教育支援超臨場感音場再現の制御 等
研究の背景音源分離問題
音楽CD
音源分離実演奏の録音
5
研究の背景音源分離問題の種類bull 混合される音源数と録音時のマイク数の関係
ndash 優決定条件(音源数 マイク数)の音源分離
ndash 劣決定条件(音源数 マイク数)の音源分離
bull 「事前情報」の有無ndash 音色の事前学習楽譜やユーザアノテーション音源やマ
イクの空間的な位置情報等ndash 事前情報を用いない手法ブラインド音源分離
音源信号 観測信号 分離信号
混合系 分離系マイクロホンアレイ
音楽 CD
L-ch
R-ch
ステレオ信号( 2-ch )
モノラル録音
1-ch
モノラル信号( 1-ch )
6
bull 基礎となる数理理論の登場と発展
研究の背景歴史的発展
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
7
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
8
ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )
ndash 混合系 が未知の条件で分離系 を推定
ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS
ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]
bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]
bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら
ない
BSS混合系 分離系
独立成分分析( ICA )おさらいbull ICA の前提条件
ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)
bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)
混合系音源信号(潜在因
子)
混合信号(観測情
報)1 互いに独立
2 非ガウス分布
3 可逆で時不変
10
逆行列
独立成分分析( ICA )おさらいbull ICA の不確定性
ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からな
い)bull 2 独立成分の順序は決定できない(順番が変わりうる)
11
ICA分離系
混合信号独立成分
ICA分離系
混合信号独立成分
推定信号
推定信号
bull ICA の推定理論ndash 推定信号間の独立性を最大化
ndash 対数尤度関数
独立成分分析( ICA )おさらい
12
近づける
音源の非ガウスな分布未知なものなので適当に与える必要がある
音源の分布音声bull 音声の時間信号
ガウス分布よりも急峻で裾が長いrarr尖度が高い
13
bull ピアノ音の時間信号
音源の分布ピアノ音
音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarrラプラス分布に近い
-5 -4 -3 -2 -1 0 1 2 3 4 50
010203040506
ラプラス分布
14
bull ドラム音の時間信号
音源の分布ドラム音
ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい
-5 -4 -3 -2 -1 0 1 2 3 4 50
02
04
06
08
1コーシー分布
15
15
bull 実際の音響信号の混合ndash 残響による畳み込み混合
bull 例 会議室では 300 ミリ秒コンサートホールでは 2秒等
ndash 時不変混合係数 が時不変混合フィルタ に変化bull 対残響性の向上
ndash 時間領域での逆フィルタ を推定bull 16 kHzサンプルでは 300 ms のフィルタ長が 4800タップ( 1 音
源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難
ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面
耐残響性の向上周波数領域 ICA ( FDICA )
残響長(混合フィルタのタップ長)
瞬時混合畳み込み混合
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
3
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
4
bull 音源分離( audio source separation )ndash 複数の音源が混合された信号を音源毎に分離する信号処理ndash 音声認識雑音抑圧補聴器会議アーカイブ etcndash ほぼ全ての音響システムのフロントエンドに応用可能
bull 観測信号から有意な因子を抽出する技術ndash 知能情報学の一大トピック
bull 音楽信号の音源分離( music source separation )
ndash ユーザによる既存音楽の再編集自動採譜技術楽器演奏における教育支援超臨場感音場再現の制御 等
研究の背景音源分離問題
音楽CD
音源分離実演奏の録音
5
研究の背景音源分離問題の種類bull 混合される音源数と録音時のマイク数の関係
ndash 優決定条件(音源数 マイク数)の音源分離
ndash 劣決定条件(音源数 マイク数)の音源分離
bull 「事前情報」の有無ndash 音色の事前学習楽譜やユーザアノテーション音源やマ
イクの空間的な位置情報等ndash 事前情報を用いない手法ブラインド音源分離
音源信号 観測信号 分離信号
混合系 分離系マイクロホンアレイ
音楽 CD
L-ch
R-ch
ステレオ信号( 2-ch )
モノラル録音
1-ch
モノラル信号( 1-ch )
6
bull 基礎となる数理理論の登場と発展
研究の背景歴史的発展
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
7
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
8
ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )
ndash 混合系 が未知の条件で分離系 を推定
ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS
ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]
bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]
bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら
ない
BSS混合系 分離系
独立成分分析( ICA )おさらいbull ICA の前提条件
ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)
bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)
混合系音源信号(潜在因
子)
混合信号(観測情
報)1 互いに独立
2 非ガウス分布
3 可逆で時不変
10
逆行列
独立成分分析( ICA )おさらいbull ICA の不確定性
ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からな
い)bull 2 独立成分の順序は決定できない(順番が変わりうる)
11
ICA分離系
混合信号独立成分
ICA分離系
混合信号独立成分
推定信号
推定信号
bull ICA の推定理論ndash 推定信号間の独立性を最大化
ndash 対数尤度関数
独立成分分析( ICA )おさらい
12
近づける
音源の非ガウスな分布未知なものなので適当に与える必要がある
音源の分布音声bull 音声の時間信号
ガウス分布よりも急峻で裾が長いrarr尖度が高い
13
bull ピアノ音の時間信号
音源の分布ピアノ音
音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarrラプラス分布に近い
-5 -4 -3 -2 -1 0 1 2 3 4 50
010203040506
ラプラス分布
14
bull ドラム音の時間信号
音源の分布ドラム音
ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい
-5 -4 -3 -2 -1 0 1 2 3 4 50
02
04
06
08
1コーシー分布
15
15
bull 実際の音響信号の混合ndash 残響による畳み込み混合
bull 例 会議室では 300 ミリ秒コンサートホールでは 2秒等
ndash 時不変混合係数 が時不変混合フィルタ に変化bull 対残響性の向上
ndash 時間領域での逆フィルタ を推定bull 16 kHzサンプルでは 300 ms のフィルタ長が 4800タップ( 1 音
源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難
ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面
耐残響性の向上周波数領域 ICA ( FDICA )
残響長(混合フィルタのタップ長)
瞬時混合畳み込み混合
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
4
bull 音源分離( audio source separation )ndash 複数の音源が混合された信号を音源毎に分離する信号処理ndash 音声認識雑音抑圧補聴器会議アーカイブ etcndash ほぼ全ての音響システムのフロントエンドに応用可能
bull 観測信号から有意な因子を抽出する技術ndash 知能情報学の一大トピック
bull 音楽信号の音源分離( music source separation )
ndash ユーザによる既存音楽の再編集自動採譜技術楽器演奏における教育支援超臨場感音場再現の制御 等
研究の背景音源分離問題
音楽CD
音源分離実演奏の録音
5
研究の背景音源分離問題の種類bull 混合される音源数と録音時のマイク数の関係
ndash 優決定条件(音源数 マイク数)の音源分離
ndash 劣決定条件(音源数 マイク数)の音源分離
bull 「事前情報」の有無ndash 音色の事前学習楽譜やユーザアノテーション音源やマ
イクの空間的な位置情報等ndash 事前情報を用いない手法ブラインド音源分離
音源信号 観測信号 分離信号
混合系 分離系マイクロホンアレイ
音楽 CD
L-ch
R-ch
ステレオ信号( 2-ch )
モノラル録音
1-ch
モノラル信号( 1-ch )
6
bull 基礎となる数理理論の登場と発展
研究の背景歴史的発展
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
7
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
8
ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )
ndash 混合系 が未知の条件で分離系 を推定
ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS
ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]
bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]
bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら
ない
BSS混合系 分離系
独立成分分析( ICA )おさらいbull ICA の前提条件
ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)
bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)
混合系音源信号(潜在因
子)
混合信号(観測情
報)1 互いに独立
2 非ガウス分布
3 可逆で時不変
10
逆行列
独立成分分析( ICA )おさらいbull ICA の不確定性
ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からな
い)bull 2 独立成分の順序は決定できない(順番が変わりうる)
11
ICA分離系
混合信号独立成分
ICA分離系
混合信号独立成分
推定信号
推定信号
bull ICA の推定理論ndash 推定信号間の独立性を最大化
ndash 対数尤度関数
独立成分分析( ICA )おさらい
12
近づける
音源の非ガウスな分布未知なものなので適当に与える必要がある
音源の分布音声bull 音声の時間信号
ガウス分布よりも急峻で裾が長いrarr尖度が高い
13
bull ピアノ音の時間信号
音源の分布ピアノ音
音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarrラプラス分布に近い
-5 -4 -3 -2 -1 0 1 2 3 4 50
010203040506
ラプラス分布
14
bull ドラム音の時間信号
音源の分布ドラム音
ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい
-5 -4 -3 -2 -1 0 1 2 3 4 50
02
04
06
08
1コーシー分布
15
15
bull 実際の音響信号の混合ndash 残響による畳み込み混合
bull 例 会議室では 300 ミリ秒コンサートホールでは 2秒等
ndash 時不変混合係数 が時不変混合フィルタ に変化bull 対残響性の向上
ndash 時間領域での逆フィルタ を推定bull 16 kHzサンプルでは 300 ms のフィルタ長が 4800タップ( 1 音
源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難
ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面
耐残響性の向上周波数領域 ICA ( FDICA )
残響長(混合フィルタのタップ長)
瞬時混合畳み込み混合
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
5
研究の背景音源分離問題の種類bull 混合される音源数と録音時のマイク数の関係
ndash 優決定条件(音源数 マイク数)の音源分離
ndash 劣決定条件(音源数 マイク数)の音源分離
bull 「事前情報」の有無ndash 音色の事前学習楽譜やユーザアノテーション音源やマ
イクの空間的な位置情報等ndash 事前情報を用いない手法ブラインド音源分離
音源信号 観測信号 分離信号
混合系 分離系マイクロホンアレイ
音楽 CD
L-ch
R-ch
ステレオ信号( 2-ch )
モノラル録音
1-ch
モノラル信号( 1-ch )
6
bull 基礎となる数理理論の登場と発展
研究の背景歴史的発展
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
7
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
8
ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )
ndash 混合系 が未知の条件で分離系 を推定
ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS
ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]
bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]
bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら
ない
BSS混合系 分離系
独立成分分析( ICA )おさらいbull ICA の前提条件
ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)
bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)
混合系音源信号(潜在因
子)
混合信号(観測情
報)1 互いに独立
2 非ガウス分布
3 可逆で時不変
10
逆行列
独立成分分析( ICA )おさらいbull ICA の不確定性
ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からな
い)bull 2 独立成分の順序は決定できない(順番が変わりうる)
11
ICA分離系
混合信号独立成分
ICA分離系
混合信号独立成分
推定信号
推定信号
bull ICA の推定理論ndash 推定信号間の独立性を最大化
ndash 対数尤度関数
独立成分分析( ICA )おさらい
12
近づける
音源の非ガウスな分布未知なものなので適当に与える必要がある
音源の分布音声bull 音声の時間信号
ガウス分布よりも急峻で裾が長いrarr尖度が高い
13
bull ピアノ音の時間信号
音源の分布ピアノ音
音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarrラプラス分布に近い
-5 -4 -3 -2 -1 0 1 2 3 4 50
010203040506
ラプラス分布
14
bull ドラム音の時間信号
音源の分布ドラム音
ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい
-5 -4 -3 -2 -1 0 1 2 3 4 50
02
04
06
08
1コーシー分布
15
15
bull 実際の音響信号の混合ndash 残響による畳み込み混合
bull 例 会議室では 300 ミリ秒コンサートホールでは 2秒等
ndash 時不変混合係数 が時不変混合フィルタ に変化bull 対残響性の向上
ndash 時間領域での逆フィルタ を推定bull 16 kHzサンプルでは 300 ms のフィルタ長が 4800タップ( 1 音
源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難
ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面
耐残響性の向上周波数領域 ICA ( FDICA )
残響長(混合フィルタのタップ長)
瞬時混合畳み込み混合
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
6
bull 基礎となる数理理論の登場と発展
研究の背景歴史的発展
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
7
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
8
ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )
ndash 混合系 が未知の条件で分離系 を推定
ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS
ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]
bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]
bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら
ない
BSS混合系 分離系
独立成分分析( ICA )おさらいbull ICA の前提条件
ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)
bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)
混合系音源信号(潜在因
子)
混合信号(観測情
報)1 互いに独立
2 非ガウス分布
3 可逆で時不変
10
逆行列
独立成分分析( ICA )おさらいbull ICA の不確定性
ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からな
い)bull 2 独立成分の順序は決定できない(順番が変わりうる)
11
ICA分離系
混合信号独立成分
ICA分離系
混合信号独立成分
推定信号
推定信号
bull ICA の推定理論ndash 推定信号間の独立性を最大化
ndash 対数尤度関数
独立成分分析( ICA )おさらい
12
近づける
音源の非ガウスな分布未知なものなので適当に与える必要がある
音源の分布音声bull 音声の時間信号
ガウス分布よりも急峻で裾が長いrarr尖度が高い
13
bull ピアノ音の時間信号
音源の分布ピアノ音
音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarrラプラス分布に近い
-5 -4 -3 -2 -1 0 1 2 3 4 50
010203040506
ラプラス分布
14
bull ドラム音の時間信号
音源の分布ドラム音
ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい
-5 -4 -3 -2 -1 0 1 2 3 4 50
02
04
06
08
1コーシー分布
15
15
bull 実際の音響信号の混合ndash 残響による畳み込み混合
bull 例 会議室では 300 ミリ秒コンサートホールでは 2秒等
ndash 時不変混合係数 が時不変混合フィルタ に変化bull 対残響性の向上
ndash 時間領域での逆フィルタ を推定bull 16 kHzサンプルでは 300 ms のフィルタ長が 4800タップ( 1 音
源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難
ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面
耐残響性の向上周波数領域 ICA ( FDICA )
残響長(混合フィルタのタップ長)
瞬時混合畳み込み混合
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
7
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
8
ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )
ndash 混合系 が未知の条件で分離系 を推定
ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS
ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]
bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]
bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら
ない
BSS混合系 分離系
独立成分分析( ICA )おさらいbull ICA の前提条件
ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)
bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)
混合系音源信号(潜在因
子)
混合信号(観測情
報)1 互いに独立
2 非ガウス分布
3 可逆で時不変
10
逆行列
独立成分分析( ICA )おさらいbull ICA の不確定性
ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からな
い)bull 2 独立成分の順序は決定できない(順番が変わりうる)
11
ICA分離系
混合信号独立成分
ICA分離系
混合信号独立成分
推定信号
推定信号
bull ICA の推定理論ndash 推定信号間の独立性を最大化
ndash 対数尤度関数
独立成分分析( ICA )おさらい
12
近づける
音源の非ガウスな分布未知なものなので適当に与える必要がある
音源の分布音声bull 音声の時間信号
ガウス分布よりも急峻で裾が長いrarr尖度が高い
13
bull ピアノ音の時間信号
音源の分布ピアノ音
音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarrラプラス分布に近い
-5 -4 -3 -2 -1 0 1 2 3 4 50
010203040506
ラプラス分布
14
bull ドラム音の時間信号
音源の分布ドラム音
ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい
-5 -4 -3 -2 -1 0 1 2 3 4 50
02
04
06
08
1コーシー分布
15
15
bull 実際の音響信号の混合ndash 残響による畳み込み混合
bull 例 会議室では 300 ミリ秒コンサートホールでは 2秒等
ndash 時不変混合係数 が時不変混合フィルタ に変化bull 対残響性の向上
ndash 時間領域での逆フィルタ を推定bull 16 kHzサンプルでは 300 ms のフィルタ長が 4800タップ( 1 音
源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難
ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面
耐残響性の向上周波数領域 ICA ( FDICA )
残響長(混合フィルタのタップ長)
瞬時混合畳み込み混合
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
8
ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )
ndash 混合系 が未知の条件で分離系 を推定
ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS
ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]
bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]
bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら
ない
BSS混合系 分離系
独立成分分析( ICA )おさらいbull ICA の前提条件
ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)
bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)
混合系音源信号(潜在因
子)
混合信号(観測情
報)1 互いに独立
2 非ガウス分布
3 可逆で時不変
10
逆行列
独立成分分析( ICA )おさらいbull ICA の不確定性
ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からな
い)bull 2 独立成分の順序は決定できない(順番が変わりうる)
11
ICA分離系
混合信号独立成分
ICA分離系
混合信号独立成分
推定信号
推定信号
bull ICA の推定理論ndash 推定信号間の独立性を最大化
ndash 対数尤度関数
独立成分分析( ICA )おさらい
12
近づける
音源の非ガウスな分布未知なものなので適当に与える必要がある
音源の分布音声bull 音声の時間信号
ガウス分布よりも急峻で裾が長いrarr尖度が高い
13
bull ピアノ音の時間信号
音源の分布ピアノ音
音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarrラプラス分布に近い
-5 -4 -3 -2 -1 0 1 2 3 4 50
010203040506
ラプラス分布
14
bull ドラム音の時間信号
音源の分布ドラム音
ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい
-5 -4 -3 -2 -1 0 1 2 3 4 50
02
04
06
08
1コーシー分布
15
15
bull 実際の音響信号の混合ndash 残響による畳み込み混合
bull 例 会議室では 300 ミリ秒コンサートホールでは 2秒等
ndash 時不変混合係数 が時不変混合フィルタ に変化bull 対残響性の向上
ndash 時間領域での逆フィルタ を推定bull 16 kHzサンプルでは 300 ms のフィルタ長が 4800タップ( 1 音
源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難
ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面
耐残響性の向上周波数領域 ICA ( FDICA )
残響長(混合フィルタのタップ長)
瞬時混合畳み込み混合
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
独立成分分析( ICA )おさらいbull ICA の前提条件
ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)
bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)
混合系音源信号(潜在因
子)
混合信号(観測情
報)1 互いに独立
2 非ガウス分布
3 可逆で時不変
10
逆行列
独立成分分析( ICA )おさらいbull ICA の不確定性
ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からな
い)bull 2 独立成分の順序は決定できない(順番が変わりうる)
11
ICA分離系
混合信号独立成分
ICA分離系
混合信号独立成分
推定信号
推定信号
bull ICA の推定理論ndash 推定信号間の独立性を最大化
ndash 対数尤度関数
独立成分分析( ICA )おさらい
12
近づける
音源の非ガウスな分布未知なものなので適当に与える必要がある
音源の分布音声bull 音声の時間信号
ガウス分布よりも急峻で裾が長いrarr尖度が高い
13
bull ピアノ音の時間信号
音源の分布ピアノ音
音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarrラプラス分布に近い
-5 -4 -3 -2 -1 0 1 2 3 4 50
010203040506
ラプラス分布
14
bull ドラム音の時間信号
音源の分布ドラム音
ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい
-5 -4 -3 -2 -1 0 1 2 3 4 50
02
04
06
08
1コーシー分布
15
15
bull 実際の音響信号の混合ndash 残響による畳み込み混合
bull 例 会議室では 300 ミリ秒コンサートホールでは 2秒等
ndash 時不変混合係数 が時不変混合フィルタ に変化bull 対残響性の向上
ndash 時間領域での逆フィルタ を推定bull 16 kHzサンプルでは 300 ms のフィルタ長が 4800タップ( 1 音
源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難
ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面
耐残響性の向上周波数領域 ICA ( FDICA )
残響長(混合フィルタのタップ長)
瞬時混合畳み込み混合
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
独立成分分析( ICA )おさらいbull ICA の不確定性
ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からな
い)bull 2 独立成分の順序は決定できない(順番が変わりうる)
11
ICA分離系
混合信号独立成分
ICA分離系
混合信号独立成分
推定信号
推定信号
bull ICA の推定理論ndash 推定信号間の独立性を最大化
ndash 対数尤度関数
独立成分分析( ICA )おさらい
12
近づける
音源の非ガウスな分布未知なものなので適当に与える必要がある
音源の分布音声bull 音声の時間信号
ガウス分布よりも急峻で裾が長いrarr尖度が高い
13
bull ピアノ音の時間信号
音源の分布ピアノ音
音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarrラプラス分布に近い
-5 -4 -3 -2 -1 0 1 2 3 4 50
010203040506
ラプラス分布
14
bull ドラム音の時間信号
音源の分布ドラム音
ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい
-5 -4 -3 -2 -1 0 1 2 3 4 50
02
04
06
08
1コーシー分布
15
15
bull 実際の音響信号の混合ndash 残響による畳み込み混合
bull 例 会議室では 300 ミリ秒コンサートホールでは 2秒等
ndash 時不変混合係数 が時不変混合フィルタ に変化bull 対残響性の向上
ndash 時間領域での逆フィルタ を推定bull 16 kHzサンプルでは 300 ms のフィルタ長が 4800タップ( 1 音
源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難
ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面
耐残響性の向上周波数領域 ICA ( FDICA )
残響長(混合フィルタのタップ長)
瞬時混合畳み込み混合
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
bull ICA の推定理論ndash 推定信号間の独立性を最大化
ndash 対数尤度関数
独立成分分析( ICA )おさらい
12
近づける
音源の非ガウスな分布未知なものなので適当に与える必要がある
音源の分布音声bull 音声の時間信号
ガウス分布よりも急峻で裾が長いrarr尖度が高い
13
bull ピアノ音の時間信号
音源の分布ピアノ音
音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarrラプラス分布に近い
-5 -4 -3 -2 -1 0 1 2 3 4 50
010203040506
ラプラス分布
14
bull ドラム音の時間信号
音源の分布ドラム音
ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい
-5 -4 -3 -2 -1 0 1 2 3 4 50
02
04
06
08
1コーシー分布
15
15
bull 実際の音響信号の混合ndash 残響による畳み込み混合
bull 例 会議室では 300 ミリ秒コンサートホールでは 2秒等
ndash 時不変混合係数 が時不変混合フィルタ に変化bull 対残響性の向上
ndash 時間領域での逆フィルタ を推定bull 16 kHzサンプルでは 300 ms のフィルタ長が 4800タップ( 1 音
源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難
ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面
耐残響性の向上周波数領域 ICA ( FDICA )
残響長(混合フィルタのタップ長)
瞬時混合畳み込み混合
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
音源の分布音声bull 音声の時間信号
ガウス分布よりも急峻で裾が長いrarr尖度が高い
13
bull ピアノ音の時間信号
音源の分布ピアノ音
音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarrラプラス分布に近い
-5 -4 -3 -2 -1 0 1 2 3 4 50
010203040506
ラプラス分布
14
bull ドラム音の時間信号
音源の分布ドラム音
ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい
-5 -4 -3 -2 -1 0 1 2 3 4 50
02
04
06
08
1コーシー分布
15
15
bull 実際の音響信号の混合ndash 残響による畳み込み混合
bull 例 会議室では 300 ミリ秒コンサートホールでは 2秒等
ndash 時不変混合係数 が時不変混合フィルタ に変化bull 対残響性の向上
ndash 時間領域での逆フィルタ を推定bull 16 kHzサンプルでは 300 ms のフィルタ長が 4800タップ( 1 音
源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難
ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面
耐残響性の向上周波数領域 ICA ( FDICA )
残響長(混合フィルタのタップ長)
瞬時混合畳み込み混合
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
bull ピアノ音の時間信号
音源の分布ピアノ音
音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarrラプラス分布に近い
-5 -4 -3 -2 -1 0 1 2 3 4 50
010203040506
ラプラス分布
14
bull ドラム音の時間信号
音源の分布ドラム音
ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい
-5 -4 -3 -2 -1 0 1 2 3 4 50
02
04
06
08
1コーシー分布
15
15
bull 実際の音響信号の混合ndash 残響による畳み込み混合
bull 例 会議室では 300 ミリ秒コンサートホールでは 2秒等
ndash 時不変混合係数 が時不変混合フィルタ に変化bull 対残響性の向上
ndash 時間領域での逆フィルタ を推定bull 16 kHzサンプルでは 300 ms のフィルタ長が 4800タップ( 1 音
源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難
ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面
耐残響性の向上周波数領域 ICA ( FDICA )
残響長(混合フィルタのタップ長)
瞬時混合畳み込み混合
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
bull ドラム音の時間信号
音源の分布ドラム音
ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい
-5 -4 -3 -2 -1 0 1 2 3 4 50
02
04
06
08
1コーシー分布
15
15
bull 実際の音響信号の混合ndash 残響による畳み込み混合
bull 例 会議室では 300 ミリ秒コンサートホールでは 2秒等
ndash 時不変混合係数 が時不変混合フィルタ に変化bull 対残響性の向上
ndash 時間領域での逆フィルタ を推定bull 16 kHzサンプルでは 300 ms のフィルタ長が 4800タップ( 1 音
源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難
ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面
耐残響性の向上周波数領域 ICA ( FDICA )
残響長(混合フィルタのタップ長)
瞬時混合畳み込み混合
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
15
bull 実際の音響信号の混合ndash 残響による畳み込み混合
bull 例 会議室では 300 ミリ秒コンサートホールでは 2秒等
ndash 時不変混合係数 が時不変混合フィルタ に変化bull 対残響性の向上
ndash 時間領域での逆フィルタ を推定bull 16 kHzサンプルでは 300 ms のフィルタ長が 4800タップ( 1 音
源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難
ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面
耐残響性の向上周波数領域 ICA ( FDICA )
残響長(混合フィルタのタップ長)
瞬時混合畳み込み混合
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
16
耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )
ndash 音響信号を短時間で切り出して周波数領域に変換
ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
ndash 従来の ICA やその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]
bull 長いと統計バイアスが増加短いと残響の影響が増加
hellip
窓長
シフト長
Freq
uenc
y
Time
hellip
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い
スペクトログラム
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
17
耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]
ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1
ICA2ICA3
hellip hellip
ICA
Freq
uenc
y bi
n
Time frame
hellip
Chan
nel
逆行列周波数領域の時不変瞬時混合行列
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
18
耐残響性の向上周波数領域 ICA ( FDICA )
ICA
hellip
周波
数ビ
ン
全て時間周波数領域の信号
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq
Time
bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている
分散(スケール)もバラバラになるがこれは容易に戻すことが可能
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
19
到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]
ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の頻
度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
20
bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング
が FDICA の上限性能といえる
FDICA による音源分離のメカニズム
音源 1
音源 2
音源 1 の空間分離フィ
ルタ
音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ
空間分離フィルタ
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
21
FDICA の分離フィルタと ABF の分離フィルタ
bull 図は [Araki2 2003] より引用
BSS の 空間分離フィルタ
ABF の 空間分離フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
22
独立ベクトル分析( IVA )bull よりエレガントなアプローチ
ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)
bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]
ndash ICA を多変量(多次元)分布モデルへ拡張( )
ndash 周波数をまとめたベクトル変数に対する ICA
1個の問題の 最適化で実現したい
helliphellip混合行列
helliphellip hellip
観測信号分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
23
bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か
bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般
的)
ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる
IVA における音源分布と高次相関
周波数毎に独立な事前分布
周波数間で高次相関をもつ事前分布
分散共分散行列
のときベクトルノルムにのみ依存
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
24
bull 図は [Kim 2007] より引用
bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま
とめる傾向にある パーミュテーション問題の回避
IVA における音源分布と高次相関
x1 と x2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1 と x2は互いに無相関だが依存関係がある
球対称な 二変数ラプラス分布
互いに独立な二変数ラプラ
ス分布
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
25
FDICA と IVA の分離原理比較bull FDICA の分離原理
bull IVA の分離原理
観測信号
推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを
更新
推定信号
分離フィルタ
推定信号の 現在の分布形状
非ガウスな 音源分布
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
観測信号 推定信号
分離フィルタ
推定信号の 現在の分布形状
STFT
Freq
uenc
y
Time
Freq
uenc
y
Time
非ガウスな 球対称多変量音源分布
スカラーの 確率変数
ベクトルの多変量確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル
タを更新
中心極限定理より混合信号はガウス分布に近い信号
本来の音源信号は非ガウス分布に従う
互いに独立
互いに独立
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
26
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
27
非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]
ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出
ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化
AmplitudeA
mpl
itude
混合された観測行列( パワースペクトログラ
ム )
基底行列( スペクトルパターン )
アクティベーション行列
( 時間的強度変化 )
Time
周波数ビン数 時間フレーム数 基底数
Time
Freq
uenc
y
Freq
uenc
y 基底 アクティベーション
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
28
bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化
ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距
離
ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム
bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]
NMF のパラメータ推定
(コスト関数が二乗ユークリッド距離の場合)
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
29
bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい
bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]
NMF の音響信号への応用例
分離ステージ
学習ステージ
Given
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
30
bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる
bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」
bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像
NMF と音楽信号の相性
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合わせで構成されている
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
31
bull 音楽信号の特有の性質
音楽信号は本当に低ランク
Drums Guitar
Vocals Speech
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
32
bull 音楽信号特有の性質
ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク
ndash ボーカル及び音声は楽器音ほど低ランクではない
ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク
10
08
06
04
02
00
Cum
ulat
ive
sing
ular
val
ue
300250200150100500Number of bases
Drums Guitar Vocals Speech
6 41 101 ( Vocals と Speechで同じ)95到達時の基底数
(行列サイズは2049x394 )
95 line
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
33
板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点
ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現
ndash は振幅スペクトログラムなのかあるいはパワーなのか
ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい
ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ
れるndash 複素スペクトログラムに対する生成モデルを与えられる
bull 複素数成分の線形結合なので理論的に正しいモデル
ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
34
bull ISNMF[Feacutevotte 2009]
bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと
板倉斎藤擬距離基準 NMF ( ISNMF )
最小化は等価 点対称零平均複素ガウス分布観測の複素数値
複素ガウスの分散
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
35
bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの
ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は
ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準 NMF ( ISNMF )
Imaginary Real
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均分散 の原点対称複素ガウス
時間周波数 要素(複素数)
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
36
bull パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準 NMF ( ISNMF )
Freq
uenc
y bi
n
Time frame
パワースペクトログラム
パワーが小=分散が小殆ど 0付近の複素数し
か生成しない
パワーが大=分散が大大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が大きなパワーを
示す
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
37
bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる
bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]
ndash チャネル間の音量比(アクティベーション)を保つ NMF分解
ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法
[Kitamura 2015]
ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源
分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]
ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング
ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMF の多チャネル信号への拡張
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
38
bull 多チャネル NMF [Sawada 2013]
NMF の多チャネル信号への拡張
時間周波数毎の観測チャンネル間相関
多チャネル観測信号
音源周波数毎のチャンネル間相関 基底行列 アクティベーション
行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネルベクトル
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy
Time
Freque
n
cy 瞬時空間相関行列
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
39
bull 空間相関行列 又は 空間共分散行列 [Duong 2010]
ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)
音源毎の 空間共分散
観測の 空間共分散
観測の 生成モデル
多チャネルWiener filter
時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)
時間周波数で分散共分散が変動する多変量ガウス分布
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
40
bull 空間相関行列は瞬時空間相関の期待値
ndash 「瞬時相関の期待値」のランクが 1
ndash 時不変な 1本の空間基底ステアリングベクトル
ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)
bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン
ク)bull 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
音源毎の 空間共分散
伝達系が時不変な 1本の空間基底でモデル化できる
ランク 1 空間モデル
音響信号の拡散音響放射特性の変動残響
という瞬時混合の式で書けない
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
41
bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数
ndash 各時間周波数で分散が変動する多変量複素ガウス分布
bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版
bull ISNMF のような更新式が出てくるが計算量が大きい
NMF の多チャネル信号の最適化
とおくと
観測 に対してパラメタを
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
42
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
43
動機bull ICAで仮定される非ガウスな音源分布
ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル
bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる
bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等
bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い
たいndash ICA の高速安定な最適化も受け継ぎたい
bull 多チャネル NMF の最適化はあまりにも非効率不安定
bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]
bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
44
bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定
bull 時変分散複素ガウス分布 IVA [Ono 2012]
ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布(球対称ラプラス分
布)
分散
ラプラスIVA
時変 IVA
様々な非ガウス分布を仮定した IVA
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
45
Freq
uenc
y
Time
時変 IVAの 音源モデ
ル
Freq
uenc
y
Time
周波数方向には一様な分散
時変な成分
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数上での分散の変動をNMFで低ランク表現
濃淡が分散の大小分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
46
提案手法 IVA と NMF を融合した新しいBSS
bull 独立低ランク行列分析( independent low-rank matrix analysis
ILRMA )
ndash 時間周波数で分散が変動する複素ガウス分布を仮定
ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
イ ル マ
非ガウス分布
複素ガウス分布
Freq
uenc
y
Basis
Bas
is
Time
基底数(音源モデルのランク数)は任意
Freq
uenc
y
Time
提案手法の音源モデル
時間周波数変動分散(低ランク音源モデ
ル)
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
47
Freq
uenc
y
Time
提案手法 IVA と NMF を融合した新しいBSS
bull FDICA IVA 及び ILRMA の比較
Freq
uenc
y
Time
FDICA の音源モデルスカラー変数の非ガウス分
布(ラプラス分布)
ラプラス IVA の音源モデル
ベクトル変数の多変量な 球対称非ガウス分布(多変量ラプラス分布)
ILRMA の音源モデルNMF による低ランクな
時間周波数構造(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を持つように分離フィルタ
を更新
観測信号 推定信号
分離フィルタ
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
48
bull ILRMA のコスト(対数尤度)関数
ndash IVA の反復更新式ndash NMF の反復更新式
bull 音源の適切なランク数を潜在変数で推定することも可能
ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク
ILRMA のコスト関数と潜在変数の導入
分離信号
ISNMF のコスト関数(音源モデルの推定に寄与)
IVA のコスト関数(空間分離フィルタの推定に寄
与)2つの交互最適化反復で全変数を容易に推定可能
潜在変数の導入
0~1 の値をとる潜在変数
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
49
ILRMA の最適化bull ILRMA の反復更新式(最尤推定)
ndash NMF変数の最適化は補助関数法に基づく乗法更新式
ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束
空間分離フィルタと分離信号の更新
音源モデルの更新
但し は 番目の要素のみ 1で 他は 0 の縦ベクトル
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
50
ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる
空間分離フィルタの学習
混合信号分離信号
音源モデル
の更新NMF
NMF
音源モデルの学習
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
51
多チャネル NMF と ILRMA の関連性bull 何が違うのか
ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)
ndash ILRMAは ICA や IVA と同様に周波数領域の瞬時混合を仮定
ndash 多チャネル NMFはフルランク空間相関行列を仮定
bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1 空間モデル(再掲)
bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定
bull 実際に計算してみるndash 1 ランク 1 空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
52
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
とおくと
観測 に対してパラメタを
にランク 1 空間制約 を導入
ここで
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
53
多チャネル NMF と ILRMA の関連性bull ランク 1 空間モデル制約多チャネル NMF の導出
(続き) を多チャネル NMF のコスト関数に代入
を用いて変数変換
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
54
IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると
ndash ランク 1 空間制約逆システム(分離系)の推定問題に変換
ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると
ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論
音源モデル
空間
モデ
ル 柔軟
限定
的
柔軟限定的
IVA
多チャネルNMF
ILRMANMF の音源モデルを導
入
空間相関行列のランクを 1 に
制限
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
55
bull ラプラス IVA [Hiroe 2006] [Kim 2006]
bull 時変ガウス分布 IVA [Ono 2012]
bull 多チャネル NMF [Sawada 2013]
bull ILRMA [Kitamura 2016]
尤度関数の比較
時間周波数変動分散(低ランク音源モデ
ル)
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
56
bull 基礎となる数理理論の登場と発展
歴史的発展(再掲)
1994
1998
2006
2013
2009
パーミュテーション問題解決法の検
討
1999
独立成分分析( ICA )
非負値行列因子分解( NMF )
周波数領域ICA ( FDICA )
板倉斎藤擬距離NMF ( ISNMF )
独立ベクトル分析( IVA )
多チャネルNMF
2016 独立低ランク行列分析( ILRMA )
2012 時変複素ガウスIVA
年代
代表的な手法のみを表記
NMF の様々な問題への適用生成モデル的解釈
各種拡張
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
57
従来手法と ILRMA の性能評価bull ILRMA への期待
ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1 空間モデルの導入による安定性の向上(多チャネ
ル NMF と比して)bull ランク 1 空間モデルが成立する条件での実験
ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)
ndash 残響時間が窓長より短い(ランク 1 空間モデル)ndash 特異な音響放射特性などがない(ランク 1 空間モデル)
bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1 空間モデルが完全に成立
bull 実際のライブ録音による混合観測ndash より現実的な条件での実験
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
58
音楽音源分離実験の条件bull 実験条件
音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号
窓長( FFT長) 512 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
566 cm
50 50
Source 2
2 m
Source 1
566 cm
60 60
Source 2
Impulse response E2A(reverberation time 300 ms)
Impulse response JR2(reverberation time 470 ms)
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
59
実験結果 fort_minor-remember_the_name16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
16
12
8
4
0
-4
-8
SD
R im
prov
emen
t [dB
]
Violin synth Vocals
Violin synth Vocals
E2A( 300 ms )
JR2( 470 ms )
Poor
Good
Poor
Good
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
60
実験結果 ultimate_nz_tour
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
20
15
10
5
0
-5
SD
R im
prov
emen
t [dB
]
Guitar Synth
Guitar Synth
Poor
Good
Poor
Good
E2A( 300 ms )
JR2( 470 ms )
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
61
12
10
8
6
4
2
0
-2
SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF ILRMA ILRMA
bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHzサンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源
各手法の性能と計算コストの比較例
(潜在変数無)(潜在変数有)
115 s
151 s 607 s
76473 s
Poor
Good
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
62
音声音源分離実験の条件bull 実験条件
ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き
音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2話者の混合信号
窓長( FFT長) 256 ms ハニング窓
シフト長 128 ms (14 シフト )
基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for each source ( )
Number of bases for each source ( )
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
16
12
8
4
0
-4SD
R im
prov
emen
t [dB
]
10987654321
Speaker 1 Speaker 2
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
63
実験結果 female3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
1614121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
64
実験結果 male3_liverec_1m
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Sawadarsquos MNMF
IVA Ozerovrsquos MNMF
Ozerovrsquos MNMF with
random initialization
Sawadarsquos MNMF
initialized by proposed method
Proposed method
wo partitioning
function
Proposed method
with partitioning
function
Directional clustering
14121086420-2-4
SD
R im
prov
emen
t [dB
]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
65
bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10名女性 4名ndash サーストンの一対比較法(間隔尺度)
bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応
各手法の性能の主観評価による比較
1009080706050403020100
Pro
babi
lity
of s
elec
tion
-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores
間隔尺度を確率値に変換するグラフ
16
12
08
04
00
-04
-08
-12
Sub
ject
ive
scor
e
IVA Multichannel NMF ILRMA
Speech signals Music signals
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
66
考察bull ほぼすべての場合で高速高精度安定な分離を達
成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は
ないndash 精度向上はランク 1 空間モデルの導入による空間モデル変
数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない
ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない
10
08
06
04
02
00Cum
ulat
ive
sing
ular
val
ue
80706050403020100Number of bases
First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
67
音源分離デモンストレーション音楽分離の例
bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理
GuitarVocal
Keyboard
Guitar
Vocal
Keyboard
提案法によるパートご
との音源分離
3つのパートが鳴っていることに注意して聞いてください
HP にも手法間比較用のデモがありますhttpd-kitamurasakuranejp
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
68
概要bull 研究の背景
ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析
ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上
bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張
bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性
bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して
独立成分分析 に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
69
より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性
ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能
ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調
ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集
bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは用意可能か
bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)
ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求
時間区間の指定
領域の指定
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
70
参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe
fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003
bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003
bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994
bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010
bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009
bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
71
参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley
Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of
ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172
bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007
bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014
bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014
bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
72
参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S
Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016
bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512
bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999
bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562
bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192
bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420
bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421
73
参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation
of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143
bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006
bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888
bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013
bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998
bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421