1
Laboratory 代表的な著書・論文 UNOKI ・Nhut Mihn Ngo, Masashi Unoki, Ryota Miyauchi, Yôichi Suzuki, “Data Hiding Scheme for Amplitude Modulation Radio Broadcasting Systems,” Journal of Information Hiding and Multimedia Signal Processing, Vol. 5, No. 3, pp. 307-318, July 2014. ・木谷俊介,宮内良太,鵜木祐史,“ノッチ雑音同時マスキングデータから推定された聴覚フィルタの同調特性に手がかり音呈示が与える影響 ,” 日本音 響学会論文誌,vol. 68, no. 11, pp. 546-556, 2012. ・Masashi Unoki and Ryota Miyauchi, “Method of Digital-Audio Watermarking Based on Cochlear Delay Characteristics,” Multimedia Information Hiding Technologies and Methodologies for Controlling Data, Ed. Kazuhiko Kondo, Chapter 2, pp. 42-70, IGI Global, 2012. ・鵜木祐史,鈴木陽一,聴覚モデル,第5章 音の大きさのモデル,pp. 129-167, コロナ社,2011. ・Masashi Unoki, Toshio Irino, Brian Glasberg, Brian C. J. Moore, and Roy D. Patterson, "Comparison of the roex and gammachirp filters as representations of the auditory filter", J. Acoust. Soc. Am., vol. 120, no. 3, pp. 1474-1492, 2006. 鵜 木 研 究 室 准教授 鵜木 祐史 聴覚特性を考慮した音信号処理 [email protected] URL E-mail http://www.jaist.ac.jp/~unoki/ 研究概要 私達人間は,雑音や残響がある実環境において,いともた やすく狙った音を聴き取ることができます。また,注意を誘導 することにより,このような優れた能力をさらに発揮することが できます。しかし,同じことを計算機上で実現することは非常 に難しい問題です。もし計算機上に聴覚と機能的に等価な 信号処理システムを構築することができれば,音声認識のた めの前処理や補聴システムといった様々な音信号処理に応 用することができます。鵜木研究室では,聴覚の優れた能力 に着目し,聴覚的な音信号処理の実現を目指しています。 聴覚特性に基づいた信号分析 聴覚の主な機能は,図1に示すように音信号を周波数分 析すること(周波数選択性)です。この分析は,信号音に 対して非線形処理であることが知られています。本研究室で は,聴覚心理物理実験から聴覚の優れた周波数選択性の 機能を解明し,その実験結果に基づいて,聴覚による信号 分析と機能的に等価な聴覚フィルタバンクの構築を試みてい ます。さらに,注意を考慮した周波数選択性の機能解明に も取り組んでいます。 聴覚特性を考慮した音信号処理 聴覚フィルタバンクを利用した音声信号処理の応用とし て,選択的音分離法(狙った音を聴き取る “聴き耳” モデル) や雑音除去法,変調伝達関数に基づいた残響音声回復法, 骨導音声の明瞭度回復の研究を行っています。ここでは,非 線形フィルタバンクの一次近似として線形ガンマトーン聴覚 フィルタバンクを利用しています。将来的に,非線形聴覚フィ ルタバンクとその後段の信号処理を確立することで,カクテル パーティ効果のモデル化にも応用することができます。 最近では,聴覚特性を熟知した上で音のセキュリティ対策 に向けた研究にも取り組んでいます.たとえば、図2に示すよ うに、インターネットの普及に伴い、ディジタル音コンテンツの 著作権保護などが問題になっています。鵜木研究室では、 「蝸牛遅延特性」というヒトの聴覚が有する特性を逆手にとっ て(いい意味で、聴覚をだまして)、著作権情報を聞こえない ように音楽情報などに埋め込み、それを検出する方法を開発し ています。この方法は悪意のあるユーザに埋め込み情報を破 壊されず、容易に入手されないような工夫がなされています。 図1 聴覚フィルタバンクによる信号分析 図2 マルチメディア情報ハイディングとその応用 34 School of Information Science

聴覚特性を考慮した音信号処理 Computer Vision & Imaging : 画像 …unoki/lab/jp/images/Summary... · 2014. 4. 4. · ・Masashi Unoki, Toshio Irino, Brian Glasberg,

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 聴覚特性を考慮した音信号処理 Computer Vision & Imaging : 画像 …unoki/lab/jp/images/Summary... · 2014. 4. 4. · ・Masashi Unoki, Toshio Irino, Brian Glasberg,

LaboratoryLaboratory

代表的な著書・論文 代表的な著書・論文

UNOKI

KOTANI

人間情報処理領域

人間情報処理領域

・Nhut Mihn Ngo, Masashi Unoki, Ryota Miyauchi, Yôichi Suzuki, “Data Hiding Scheme for Amplitude Modulation Radio Broadcasting Systems,” Journal of Information Hiding and Multimedia Signal Processing, Vol. 5, No. 3, pp. 307-318, July 2014.

・木谷俊介,宮内良太,鵜木祐史,“ノッチ雑音同時マスキングデータから推定された聴覚フィルタの同調特性に手がかり音呈示が与える影響 ,” 日本音響学会論文誌,vol. 68, no. 11, pp. 546-556, 2012.

・Masashi Unoki and Ryota Miyauchi, “Method of Digital-Audio Watermarking Based on Cochlear Delay Characteristics,” Multimedia Information Hiding Technologies and Methodologies for Controlling Data, Ed. Kazuhiko Kondo, Chapter 2, pp. 42-70, IGI Global, 2012.

・鵜木祐史,鈴木陽一,聴覚モデル,第 5 章 音の大きさのモデル,pp. 129-167, コロナ社,2011.・Masashi Unoki, Toshio Irino, Brian Glasberg, Brian C. J. Moore, and Roy D. Patterson, "Comparison of the roex and gammachirp filters as

representations of the auditory filter", J. Acoust. Soc. Am., vol. 120, no. 3, pp. 1474-1492, 2006.

鵜 木 研 究 室 准教授 ● 鵜木 祐史

聴覚特性を考慮した音信号処理

[email protected] E-mailhttp://www.jaist.ac.jp/~unoki/

研究概要 私達人間は,雑音や残響がある実環境において,いともたやすく狙った音を聴き取ることができます。また,注意を誘導することにより,このような優れた能力をさらに発揮することができます。しかし,同じことを計算機上で実現することは非常に難しい問題です。もし計算機上に聴覚と機能的に等価な信号処理システムを構築することができれば,音声認識のための前処理や補聴システムといった様々な音信号処理に応用することができます。鵜木研究室では,聴覚の優れた能力に着目し,聴覚的な音信号処理の実現を目指しています。

聴覚特性に基づいた信号分析

 聴覚の主な機能は,図1に示すように音信号を周波数分析すること(周波数選択性)です。この分析は,信号音に対して非線形処理であることが知られています。本研究室では,聴覚心理物理実験から聴覚の優れた周波数選択性の機能を解明し,その実験結果に基づいて,聴覚による信号分析と機能的に等価な聴覚フィルタバンクの構築を試みています。さらに,注意を考慮した周波数選択性の機能解明にも取り組んでいます。

聴覚特性を考慮した音信号処理

 聴覚フィルタバンクを利用した音声信号処理の応用として,選択的音分離法(狙った音を聴き取る “聴き耳” モデル)や雑音除去法,変調伝達関数に基づいた残響音声回復法,骨導音声の明瞭度回復の研究を行っています。ここでは,非線形フィルタバンクの一次近似として線形ガンマトーン聴覚フィルタバンクを利用しています。将来的に,非線形聴覚フィルタバンクとその後段の信号処理を確立することで,カクテルパーティ効果のモデル化にも応用することができます。 最近では,聴覚特性を熟知した上で音のセキュリティ対策に向けた研究にも取り組んでいます.たとえば、図2に示すように、インターネットの普及に伴い、ディジタル音コンテンツの著作権保護などが問題になっています。鵜木研究室では、

「蝸牛遅延特性」というヒトの聴覚が有する特性を逆手にとって(いい意味で、聴覚をだまして)、著作権情報を聞こえないように音楽情報などに埋め込み、それを検出する方法を開発しています。この方法は悪意のあるユーザに埋め込み情報を破壊されず、容易に入手されないような工夫がなされています。

図1 聴覚フィルタバンクによる信号分析

図2 マルチメディア情報ハイディングとその応用

・カラー画像工学、オーム社、1997 年4月、共著・基底の直交制約を除外し一般化したクラス特徴に基づく固有空間法 (GEMC) による顔画像の表情解析、日本顔学会誌,Vol.5 No.1,pp.59-66,

2005.9.・顔画像の基底ベクトルを用いた眼鏡なし顔画像の推定、画像電子学会誌,第 31 巻,第 3 号,pp.336-344,May.2002・"Pose Invariant Robust Facial Expression Analysis, "IEEE International Conference on. Image Processing (ICIP) 2010,1:3837-3840,2010.

小 谷 研 究 室 准教授 ● 小谷 一孔

Computer Vision & Imaging :画像解析、理解、生成

[email protected] E-mailhttp://awabi.jaist.ac.jp:8000/kotani_lab/index.html

研究概要 コンピュータを用いて画像を解析・理解・記述し、これに基づいて反応や新たな画像を生成するコンピュータイメージングシステムの実現に挑戦しています。画像認識、CG、コンピュータビジョンの基礎研究から応用研究に取り組んでいます。

画像研究のおもしろさ

 私たちは外界の情報の約80%を目(視覚)から得ています。そして、視覚からは物の形や色だけでなく人の感情や意図も伝わります。例えば、笑顔は顔が平常時より変形しているだけでなく、「楽しい」、「うれしい」等の感情を受け手に感じさせます。しかも、直接、見た時だけでなく、笑顔の写真、ディスプレイに表示された笑顔を見ても同様の感覚を受け手に与えます。つまり、全く異なるメディアを介しても視覚情報は感情や意図までも伝えられるのです。それならば、例えばディジタルデータ化しても必要な情報は残っているので、このデータから私たちに代わってコンピュータに必要な情報を抽出、処理、認識、表現させようというのが画像研究なのです。

IAS: 複雑系では解析が難しい問題に対して関数 T を仮定して波形や画像を合成し、評価結果のフィードバックと再合成を繰り返して T を見つける手法があります。「自然物の質感を再現するCGモデル」、「油絵風CGモデル」等の研究に取り組んでいます。IAMとIAS

 私たちは画像解析、理解、生成の研究を画像の統計的、数理的モデルに基づくImage Analysis by Modelingと合成や生成による複雑系解析に基づくImage Analysis by Synthesisと呼んで、各々に取り組んでいます。IAM: Y=Ttxこれは画像をベクトル x で表し、関数 Tと演算してベクトル y を得る簡単な式ですが、概念として空間から別の空間へ写像する意味も含みます。空間が画像特徴を表すのに適すようTを統計的、数理的に与えれば、この空間で高精度・効率的な特徴抽出や処理、認識を行えます。例えば図のように顔画像を表情クラスがよく分離する特徴空間へ写像すれば高精度な表情認識を実現できます。「顔画像解析」、「3D 自由視点画像生成」、「動画像解析」等の研究に取り組んでいます。

34 School of Information Science