人間どうしの音声コミュニケーションの認識・理解 · 2.1 討論音声に対する教師なし話者インデキシング音声による話者id の認識は、事前に各話者の音声を登録しておけば比較的容易である

人間どうしの音声コミュニケーションの認識・理解

「協調と制御」領域河原達也

要旨討論・会議や講演など、人間どうしの知的コミュニケーションの多くが音声を介して

行われている。その反面、これらを議事録や講演録などの形で文書化するのは非常に厄

介で高度な作業である。このような音声メディアの高次アーカイブ化を目指して、自動

的に、(1)話し手を認識し、(2)発話内容を書き起こし、(3)文書スタイルに整形し、(4)発

話意図や重要箇所を抽出する方法について研究を行った。実世界の講演・討論の大規模

なデータベースを用いて統計的なモデル学習と評価を行った。

1. 研究のねらい情報技術の進展により、討論や講演などのディジタルアーカイブ化が可能になったが、

単に録音しただけでは、検索やブラウジングが困難である。また、その書き起こしには

膨大な手間を要するにもかかわらず、話し言葉には言い淀みや冗長な表現が多いので、

読みづらい反面、音声に含まれるニュアンスや感情などの情報が失われてしまう。そこ

で、エッセンスとなる情報（話者 ID や発話内容・意図など）を抽出し、実際の音声メデ

ィアと階層的にリンクしたアーカイブを設計する。逆に、このような組織的な構造を抽

出するには、音声コミュニケーションの分析・モデル化を必要とする。特に、従来の音

声認識・理解の研究が主としてヒューマン・マシン・インタフェースの観点から定式化

されていたのに対して、本研究ではヒューマン・ヒューマン・コミュニケーションを指

向して、図 1 に示すように、様々な話し言葉音声を対象として以下の問題に取り組んだ。

(1) 話し言葉音声のモデル化と自動認識

自動音声認識技術は実用化されつつあるが、既存のシステムは人間が機械に対して丁

寧に発声することを前提としており、人間どうしの自然な話し言葉にはほとんど対応で

きない。これに対して、実際の学会講演などの大規模なデータベースを用いて、話し言

葉に固有の発音変形や言語的多様性の精密なモデル化を行った。

音声アーカイブ

話し言葉の

音声認識話者ID認識

文書スタイルへの整形

重要文抽出

意図・感情判別

講演

コンピュータ・ロボットとの会話

討論・会議

図 1 研究の全体像

(2) 話し言葉の自動整形と自動要約

話し言葉をそのまま書き起こしても（たとえ 100%の認識率でも）、読みづらいだけで

あり、書き言葉に整形する必要がある。その上で、有用なインデックスとなる重要フレ

ーズ・文を自動抽出する。このような音声コミュニケーションの理解の観点からは、一

字一句を正確に書き取ることよりもポイントを把握することが重要であり、このような

観点から自動音声認識の枠組みを見直す。

(3) 討論・対話における話者のモデル化と自動認識

討論や会話においては、「何を話しているか」とともに「誰が話しているか」が重要な

インデックスとなる。そこで、複数の話者が話している状況において、自動的に話者を

分類・同定する方法も研究する。また、人間とコンピュータとの会話、子供とロボット

との会話を多数収集・分析し、音響的・言語的な様々な情報から、話者のタイプ（背景

知識レベルなど）や心的状態（緊張状態など）を自動推定する方法についても検討する。

2. 研究経緯と成果

2.1 討論音声に対する教師なし話者インデキシング

音声による話者 ID の認識は、事前に各話者の音声を登録しておけば比較的容易である

が、討論や会議で話者ラベルを付与する場合は、そのような前提は実用的でなく、録音

された音声から自動的に話者のモデルを学習する枠組みが望ましい。しかし、討論や会

議では、発話長が全般に短く、ばらつきも大きいので、画一的なモデルを安定して構築

できないという問題があった。実際に本研究で用いたテレビ討論（NHK『日曜討論』）

のデータベースでも、発話長は 1～71 秒にわたり、平均 6 秒であった。

そこで、ベイズ情報量基準(BIC)に基づいて、発話の継続時間に応じて統計的に最適な

話者モデルを選択する方式を考案した。BIC は以下の式で定義される。

この第 1 項の P(X)は学習データ X に対する尤度であり、第２項のαはモデルのパラメー

タ数、N は学習データ量であり、尤度とモデルの複雑さ・信頼度のバランスをとる尺度

になっている。これに基づいて、発話時間の短い音声に対してベクトル量子化(VQ)に基

づく簡易なモデル、長い音声に対しては精密な混合ガウス分布モデル(GMM)が選択され

る枠組みを実現する。このように構成される話者モデルをクラスタリングすることで話

者の分類・ラベリングを実現する。この処理の様子を図 2 に示す。

『日曜討論』の音声に対して、表 1 に示すように、従来法に比べて高いインデキシン

グ精度を得ることができた。インデキシングの精度は 97％超であり、教師なし学習では

上限に近い精度と考えられる。また、本手法により得られる話者ラベルに基づいて音声

認識用の音響モデルを話者毎に適応することも可能になる。

表１討論音声に対する話者インデキシング精度

インデキシング精度話者数の推定精度

ベクトル量子化（VQ）のみ 95.2% 86.0%

混合ガウス分布モデル（GMM）のみ 93.3% 100.0%

モデル自動選択 97.2% 100.0%

NXPL log)(log 21α+−=

発話区間 jSiS kS・・・ nS

GMM VQ GMM VQ

・・・

GMM VQ

iS jS

ijS kS nS・・・

1. 話者モデルの学習

2. BICによるモデル選択

3. 距離計算(Cross-Likelihood Ratio)

4. クラスタリング

図 2 話者インデキシングの処理の様子

信号処理

音素モデル

言語モデル

単語辞書

探索（デコーダ）

P(W/X)=P(W)・P(P/W)・

P(X/P) P(W)

認識結果W=argmax P(W/X)

X

P(P/W)

P(X/P)

/a, i, u, e, o…/

いう y u uいう y u

そう+いう+ことえーと+では

発音の変形をモデル化

発声の怠けもモデル化

口語的表現もモデル化

モデルの話者適応初期認識結果

図 3 音声認識の原理と話し言葉対応

2.2 話し言葉音声の自動書き起こし

自動音声認識技術は、ディクテーションシステムに代表されるように、機械を意識し

て丁寧に発話された音声に対しては 90%を上回る認識精度を達成しているが、人間どう

しのコミュニケーションで用いられるような音声にはまだ十分に対応できない。話し言

葉音声では、発話速度が速く、発音が不明瞭であるために音響的な変動が大きく、また、

口語的な表現や言い淀みなどの現象により言語的な変動も大きい。これらの問題は、音

声認識における音響モデル、発音モデル及び言語モデルのすべてにおいて考慮する必要

がある。この概念を図 3 に示す。我々はこれまで汎用的なオープンソースの音声認識ソ

フトウエア Julius[1][2] (http://julius.sourceforge.jp/) を開発してきたが、今回、話し言

葉向けのものを抜本的に構成した。講演音声約 2500 件、約 500 時間分からなる『日本

語話し言葉コーパス』(CSJ)[3]を用いて、話し言葉の精密な統計モデルの構築を行った。

特に従来行われなかったような発音変形パターンの統計的なモデル学習を実現した。

話し言葉においては話者に依存した変動が大きいので、モデルを話者に適応すること

が必要である。そのためベースラインモデルによる初期認識結果に基づいて、音響モデ

ルと言語モデルの適応を行った。複数の話者が存在する討論においては、前節の話者イ

ンデキシングによって、この完全自動化が可能になった。言語モデルの適応に関しては、

話題と話者に関して各々部分空間を構成し、確率的に射影する確率的潜在意味解析

(PLSA)に基づく方法を実装した。さらに、発話速度の変動が大きな講演においては、発

話速度に応じて最適なモデルを選択する方式を考案した。これらの手法による、実際の

学会講演、討論番組（『日曜討論』）、国会（衆議院予算委員会）の音声に対する認識精度

を表 2 にまとめる。これらはいずれも報告されている中で、最高水準の精度である。

表 2 種々の音声に対する認識結果（単語認識精度）

講演音声認識率討論音声認識率国会音声認識率

話し言葉用モデル 69.1% 55.9% 64.3%

+音響モデル適応 73.9% 59.7% 72.6%

+発音変動適応 61.2% 73.9%

+言語モデル適応 76.1% 62.4% ??.?%

+発話速度適応 78.1%

2.3 話し言葉の書き起こしの自動整形

講演や会議などをそのまま忠実に書き起こしても読みづらいので、記録などを作成す

る際には文書スタイルに整形する必要がある。この過程は、フィラーの除去などの形態

素レベルのものから、専門用語や固有名詞の確認など意味レベルのものまで数段階の処

理からなるが、本研究では、初期的なレベルの一次整形を自動化することを試みた。具

体的には、以下の 4 つを行った。

(1)フィラーの削除… 「えーと」「あのー」などの除去

(2)句読点の挿入… 「話しました<pause>これは」「話しました。これは、」

(3)助詞の補完… 「我々作ってきたわけです」「我々は作ってきたわけです」

(4)話し言葉表現の書き言葉表現への変換… 「～っていう」「～という」

このような話し言葉から書き言葉への整形・変換については、従来はパターンマッチ

ング的な書き換え規則を用意する方法が一般的であったが、基本的に 1 対 1 変換しか扱

えず、前後との整合性が考慮されていない。これに対して本研究では、話し言葉と書き

言葉を別の言語とみなした上で、統計的な機械翻訳の手法を適用することを考えた。統

計的機械翻訳は統計的音声認識と同様の枠組みで、入力系列 X に対する出力系列 Y の事

後確率 P(Y|X)を最大化するために、ベイズ則を適用し、言語モデルの確率 P(Y)と変換

モデルの確率 P(X|Y)に分解して計算を行う。

ここで変換モデルとは、入力単語はある出力単語系列(null を含む)に対応づけられると

いう仮定の下に、どの単語に対応するかを表現するものである。本研究では、入力 X を

話し言葉の書き起こし単語列（句読点はないがポーズ情報あり）とし、出力 Y を整形さ

れた書き言葉の単語列とする。上記の 4 つの処理について、前後の単語や品詞のコンテ

クスト情報を含めて変換確率 P(X|Y)を推定した。また、P(Y)の計算には書き言葉のコー

パスから学習された単語トライグラムモデルを使用した。

学会講演の書き起こしで評価を行った結果、句点の挿入や助詞の補完に関して、規則

に基づく従来手法を上回る性能を得ることができた。特に句点の挿入は再現率 76.3%、

適合率 92.3%、F 値 0.835 というかなり高い精度を得ることができた。

2.4 重要文の自動抽出

次に、講演や討論の効率的なブラウジング（選択的視聴）や検索を可能にするために

重要文を抽出する。音声認識による書き起こしは 60～80%の精度であるが、ある程度内

)|()(maxarg)|(maxarg YXPYPXYPYY

=

容は把握できるレベルであり、ディジタルアーカイブにおいて対応する区間の音声とリ

ンクできるので、興味のある箇所に高速にアクセスすることができる。

従来、新聞記事や Web ページなどのテキストを対象とした重要文抽出に関する研究は

行われてきたが、そこではキーワードの出現に加えて、記事やパラグラフ内の位置情報

が利用されていた。音声においては改行やインデントはないが、本研究では話題の転換

点を示す談話標識に着目した。特に、コーパスから以下の統計量 DM に基づいて談話標

識を自動選定する方法を考案した。

ここで、wf は長いポーズの直後の文に単語 m が出現する頻度で、sf はすべての文（総

数）のうち単語 m が出現する文の数である。学会講演、一般のスピーチ、討論の種別毎

に適用し、「次」「今回」などの典型的な談話標識に加えて、学会講演では「発表」や「結

果」などの特有の表現も抽出されることを確認した。これにより、講演などのセクショ

ンへの自動分割が可能になり、さらに、この統計量 DM を用いて文の重要度を定義した。

学会講演などで評価を行った結果、表 3 に示す通り、この談話標識に基づく重要度尺

度は、話題語に基づく tf-idf 尺度と同等であり、それと統合した場合の相乗効果が得ら

れることを確認した。また、複数の被験者間の不一致度を考慮して人間の推定精度と比

較すると、提案手法は人間のおよそ 90%程度の精度を実現していることが示された。

表 3 学会講演からの重要文抽出の精度（正解の割合：37%）

再現率適合率 F 値

談話標識 (DM) 69.9% 51.7% 0.594

話題語 (KW) 70.4% 52.0% 0.598

DM+KW 統合 72.4% 53.5% 0.615

人間による精度 81.5% 60.1% 0.692

以上説明した自動整形と重要文抽出の処理の様子を図 4 に示す。

⎟⎟⎠

⎞⎜⎜⎝

⎛×=

m

smm sf

NwfDM log

・文単位に区切る（句点の挿入）・フィラーの削除・助詞の挿入

・談話標識と話題語の統計量に基づく

ま詳しく申しますと検索対象文書中の単語の共起関係を元にそのを単語間の連想関係を sp まー共起頻度を基づいて定義します sp その共起して連想関係の強弱を番目の強弱と満たすって

今日は連想検索の K属性語の抽出公式と sp 題しまして発表いたします sp えーsp その sp えーまずこの

我々の言うところの連想検索 sp まー sp あの製品名は・・・ユーザーの検索観点を範囲にした単語末法利用して検索オペレーション sp 当然のことがえテスト

詳しく申しますと。

検索対象文書中の単語の

共起関係を元にそのを

単語間の連想関係を

共起頻度を基づいて定義します。

その共起して連想関係の強弱を番目の強弱と満たすと。

今日は連想検索の K属性語の抽出公式と題しまして発表いたします。

そのまずこの

我々の言うところの連想検索の製品名は・・・ユーザーの検索観点を範囲にした単語末法利用して検索オペレーション当然のことがえテスト

検索対象の文書中の単語の共起関係を元にそのを単語間の連想関係を共起頻度を基づいて定義します。

その共起して連想関係の強弱を番目の強弱と満たすと。

今日は連想検索の K属性語の抽出公式と題しまして発表いたします。そのまずこの我々の言うところの連想検索の製品名は・・・ユーザーの検索観点を範囲にした単語末法利用して検索オペレーション当然のことがえテスト詳しく申しますと。

書き起こしの整形書き起こしの書き起こしの整形

重要文抽出重要文抽出

図 4 書き起こしの整形と重要文抽出の様子

2.5 コミュニケーションの観点からの音声認識の最適化

従来の音声認識は、入力音声 X に対して最尤の単語列 W を見つける、すなわち事後確

率 P(W|X)を最大化する W を見つける枠組みで定式化されてきた。したがって、その評

価尺度もすべての単語の誤りを一様に計数する単語誤り率が主に用いられてきた。しか

し、人間どうしのコミュニケーションにおいては必ずしも一字一句を聞き取っているの

ではなく、理解の上で重要な単語とそうでない単語があるのも自明である。

そこで、単語の重要度を定義した上で、重要な単語を優先的に認識する枠組みを検討

した。従来、列車の予約など限定されたタスクにおいて特定のキーワード（駅名など）

に着目することはなされていた[4]が、講演や討論の理解といったドメイン非限定の音声

に適用できるものではない。これに対して本研究では、以下の式で示すベイズリスク最

小化の枠組みを採用した。

ここで、λ(W’|W)は単語列 W を W’に誤ったときの損失であり、λが 0/1(W=W’のとき

のみ 0)のとき、従来の音声認識の枠組みである P(W|X)の最大化と等価になる。本研究

では重要度の大きな単語の誤りほどλを大きくする。具体的には、重要度として名詞の

tf-idf 尺度を用い、λは動的計画法に基づく累積値により計算する。上式では、すべての

∑WW

XWPWW )|()|'(minarg'

λ

可能な単語列 W に対して計算を行う必要があるが、現実的には不可能なので、いったん

初期的な認識を行い多数の候補を求めた上で、それらを再評価する枠組みで実装した。

この認識手法により、重要度で重み付けしたキーワード誤り率が実際に改善され、前節

で述べた重要文抽出の精度も若干改善されることを確認した。

2.6 自動アーカイブ化システム

以上の処理を統合して設計・試作した討論の自動アーカイブ化システムのイメージを

図 3 に示す。討論では、話者が複数存在するので最初に話者インデキシングを行い、そ

の情報を音声認識においても利用する。重要文抽出は、質問・意見などのタグ付与とあ

わせて行われる。

<AudioSegment id="38"><TextAnnotation><StructuredAnnotation><Who>

<Name xml:lang=“jp”>話者C</Name></Who>

</StructuredAnnotation></TextAnnotation><MediaTime><MediaRelTimePoint>PT27M11S392N</MediaRelTimePoint><MediaIncrDuration>PT30M13S809N</MediaIncrDuration>

</MediaTime>…<AudioSegment id="38-1"><TextAnnotation type="Opinion"><FreeTextAnnnotation xml:lang="jp"></FreeTextAnnotaion>そうですね三十兆という枠組みがありますからあー今は御指摘のおーこの公共投資の問題あるいは国と地方の財政関係の見直しの問題えー更にはあーその方向をさまざまな形でこの将来的には社会保障制度の問題子供にまー手をつけてはならないとこの

</TextAnnotation><MediaTime><MediaRelTimePoint>PT28M54S752N</MediaRelTimePoint><MediaIncrDuration>PT29M12S211N</MediaIncrDuration>

</MediaTime></AudioSegment>

討論音声話者認識

音声認識

発言タイプの判別

MPEG-7タグ付け

話者話者IDID

OpinionOpinion

そうですね・・・

音響モデルの各話者への適応

談話標識の抽出

図 3 討論の自動アーカイブ化

3. 今後の展望この３年間のプロジェクトにおいて、講演や討論のような音声に対する処理の足掛り

を築くことができた。ただし、本研究で扱った素材は、学会講演やテレビ討論、国会の

討論など、かなりフォーマルな話し言葉で録音品質も良好である。今後は、大学の講義

や身近な会議・ミーティングなどに適用していく予定である。

また、本研究で実現した処理で得られる情報が有用であるか、アーカイブシステムを

作成し、ユーザに利用してもらうことで検証する必要がある。

さらに、日常会話のようなもっとインタラクティブな話し言葉を対象としたモデル化

についても検討していきたいと考えている。

引用文献 [1] 河原達也, 李晃伸. 連続音声認識ソフトウエア Julius. 人工知能学会誌, Vol.20, No.1,

2005.

[2] 鹿野清宏, 伊藤克亘, 河原達也, 武田一哉, 山本幹雄編著. 音声認識システム, オーム

社, 2001.

[3] 小磯花絵, 前川喜久雄. 『日本語話し言葉コーパス』の設計の概要と書き起こし基準に

ついて. 情報処理学会研究報告, 2001-SLP-36-1, 2001.

[4] 河原達也. 話し言葉による音声対話システム. 情報処理, Vol.45, No.10, pp.1027--1031,

2004.

発表文献リスト（主要なもの）

[論文]

[1] M.Nishida and T.Kawahara. Speaker model selection based on Bayesian information

criterion applied to unsupervised speaker indexing.

IEEE Trans. Speech & Audio Processing, (accepted for publication), 2005.

[2] Y.Akita and T.Kawahara. Language model adaptation based on PLSA of topics and

speakers for automatic transcription of panel discussions.

IEICE Trans., (accepted for publication), 2005.

[3] 駒谷和範, 上野晋一, 河原達也, 奥乃博.

音声対話システムにおける適応的な応答生成を行うためのユーザモデル.

電子情報通信学会論文誌, Vol.J87-DII, No.10, pp.1921--1928, 2004.

[4] T.Kawahara, M.Hasegawa, K.Shitaoka, T.Kitade, and H.Nanjo. Automatic indexing

of lecture presentations using unsupervised learning of presumed discourse markers.

IEEE Trans. Speech & Audio Processing, Vol.12, No.4, pp. 409--419, 2004.

[5] H.Nanjo and T.Kawahara. Language model and speaking rate adaptation for

spontaneous presentation speech recognition.

IEEE Trans. Speech & Audio Processing, Vol.12, No.4, pp. 391--400, 2004.

[6] 西田昌史, 河原達也.

BIC に基づく統計的話者モデル選択による教師なし話者インデキシング.


[7] 秋田祐哉, 河原達也.

多数話者モデルを用いた討論音声の教師なし話者インデキシング.


[口頭発表（国際会議；査読付き）]

[1] H.Nanjo and T.Kawahara. A new ASR evaluation measure and minimum Bayes-risk

decoding for open-domain speech understanding. In Proc. IEEE-ICASSP, (accepted

for presentation), 2005.

[2] Y.Akita and T.Kawahara. Generalized statistical modeling of pronunciation

variations using variable-length phone context. In Proc. IEEE-ICASSP, (accepted for

presentation), 2005.

[3] Y.Akita and T.Kawahara. Language model adaptation based on PLSA of topics and

speakers. In Proc. ICSLP, pp.1045--1048, 2004.

[4] Y.Akita, M.Hasegawa, and T.Kawahara. Automatic audio archiving system for panel

discussions. In Proc. IEEE Int'l Conf. Multimedia and Expo (ICME), 2004.

[5] M.Nishida and T.Kawahara. Speaker indexing and adaptation using speaker

clustering based on statistical model selection. In Proc. IEEE-ICASSP, Vol.1,

pp.353--356, 2004.

[6] Y.Akita and T.Kawahara. Unsupervised speaker indexing using anchor models and

automatic transcription of discussions. In Proc. INTERSPEECH, pp.2985--2988,

2003.

[7] M.Nishida and T.Kawahara. Speaker model selection using Bayesian information

criterion for speaker indexing and speaker adaptation. In Proc. INTERSPEECH,

pp.1849--1852, 2003.

[8] K.Komatani, S.Ueno, T.Kawahara, and H.G.Okuno. User modeling in spoken

dialogue systems for flexible guidance generation. In Proc. INTERSPEECH,

pp.745--748, 2003.

[9] K.Komatani, S.Ueno, T.Kawahara, and H.G.Okuno. Flexible guidance generation

using user model in spoken dialogue systems. In Proc. Annual Meeting of

Association for Computational Linguistics (ACL), pp.256--263, 2003.

[10] K.Komatani, F.Adachi, S.Ueno, T.Kawahara, and H.G.Okuno. Flexible spoken

dialogue system based on user models and dynamic generation of VoiceXML scripts.

In Proc. SIGdial Workshop Discourse & Dialogue, pp.87--96, 2003.

[11] Y.Akita, M.Nishida, and T.Kawahara. Automatic transcription of discussions using

unsupervised speaker indexing. In Proc. ISCA & IEEE Workshop on Spontaneous

Speech Processing and Recognition, pp.79--82, 2003.

[12] M.Nishida and T.Kawahara. Unsupervised speaker indexing using speaker model

selection based on Bayesian information criterion. In Proc. IEEE-ICASSP, Vol.1,

pp.172--175, 2003.

[口頭発表（国内会議）]

[1] 駒谷和範, 上野晋一, 河原達也, 奥乃博.

ユーザモデルを導入したバス運行情報案内システムの実験的評価.

情報処理学会研究報告, SLP-47-12, 2003. (山下記念研究賞受賞)

[2] 上野晋一, 駒谷和範, 河原達也, 奥乃博.

京都市バス運行情報案内システムの試験評価とユーザモデルの導入.

人工知能学会全国大会論文集, 2C2-03, 2003. (優秀賞受賞)

Documents

人間どうしの音声コミュニケーションの認識・理解 · 2.1 討論音声に対する教師なし話者インデキシング 音声による話者id の認識は、事前に各話者の音声を登録しておけば比較的容易である

人間どうしの音声コミュニケーションの認識・理解 · 2.1 討論音声に対する教師なし話者インデキシング音声による話者id の認識は、事前に各話者の音声を登録しておけば比較的容易である