4
情報伝達のための最も重要なメディアは、日本語や英語など、誰もが日常で使っている人間のため 言語(ことば)です。人が話すこうした言語を、情報科学ではプログラミング言語などの形式言 語と区別して「自然言語」と呼びます。 本研究室では、自然言語で表現され、伝達され、蓄積される情報や人の知識をコンピュータで処 理するための基礎理論、基盤技術、応用技術に関する研究を行います。自然言語処理 natural lan guage processing知識情報処理 knowledge processing)、計算言語学 computational linguistic sコミュニケーション科学 communication science、などと呼ばれる領域が我々のフィールド です。 基盤技術 グラン ディング 高精度化 汎化 統合 言語理解 ロボット 対話 コミュニ ケーショ ン支援 Web情報 分析 応用技術 推論 言語意味 解析 知識獲得 基礎理論 統計的 機械学習 情報伝達 理論 言語の 数理モデル 2010年にスタート した新しい研究室です こうした目的を実現するためには、究極的には人 言葉を理解するコンピュータを開発する必要が あります。もちろん、これは簡単な目標ではあり ません。しかし、自然言語処理の技術はそこに向 けて着実に進歩しています。たとえば、これまで コンピュータに決定的に欠けていた常識的知識を、 コンピュータ自身が大量の言語データから自動的 に獲得して、より高度な言語意味解析推論に使 う、といったことが少しずつ可能になり、大きな ブレークスルーの兆しが見え始めています。 本研究室では、言葉が分かるとはどういうことか、 コミュニケーションの成立条件は何かといった、 情報伝達の仕組みを解明しモデル化する理論的研 究、そして人間の知的な情報伝達、情報分析を支 援するソフトウェアを構築する工学的研究を展開 します。言葉から人の知に迫る。心躍る研究領域 がここにあります。 インターネットやウェブの爆発的な普及によって、 誰でも大量の情報を入手し、蓄積し、発信できる 時代になりました。しかし、その一方で、あまり にも多くの情報がネット上に無秩序に分散してい るために、欲しい情報をうまく探せなかったり、 重要な情報の存在に気づかなかったり、情報が信 用できるかどうか分からなかったり、といった問 題も日常的に起こっています。 さて、ここで言う情報はその多くが自然言語です から、求められるのは自然言語処理です。膨大な 言語情報をもしコンピュータで自動的に収集し、 選別し、分析できるようになれば、また自動的に 他言語に翻訳したり、対話的に人に伝えることが できるようになれば、我々を取り巻く情報環境は 大きく変わるでしょう。そうした自然言語処理に よるWeb情報分析コミュニケーション支援、知 識循環の重要性が急速に高まっています。 URL: http://www.cl.ecei.tohoku.ac.jp 情報知能システム総合学科 コンピュータサイエンスコース 知能コンピューティングコース 岡﨑研究室 言語コミュニケーションの仕組みや不思議さに惹かれる人、次世代のWeb情報サービスを企業と組 んで作ってみたい人、数理統計的なモデル化をやってみたい人、広く歓迎します。 事前の専門知識は不要です。研究室の中で基礎から勉強します。大切なのは新しいことに挑戦してい ける好奇心とそれを持続できる根気です。元気な研究室を一緒に作っていきませんか?

Lab visit research

Embed Size (px)

Citation preview

Page 1: Lab visit research

乾 情報伝達のための最も重要なメディアは、日本語や英語など、誰もが日常で使っている人間のための言語(ことば)です。人が話すこうした言語を、情報科学ではプログラミング言語などの形式言語と区別して「自然言語」と呼びます。

本研究室では、自然言語で表現され、伝達され、蓄積される情報や人の知識をコンピュータで処理するための基礎理論、基盤技術、応用技術に関する研究を行います。自然言語処理 (natural language processing)、知識情報処理 (knowledge processing)、計算言語学 (computational linguistics)、コミュニケーション科学 (communication science)、などと呼ばれる領域が我々のフィールドです。

基盤技術

グラン ディング

高精度化

汎化 統合

言語理解

ロボット 対話

コミュニケーション支援

Web情報分析

応用技術

推論

言語意味 解析

知識獲得 基礎理論 統計的 機械学習

情報伝達 理論

言語の 数理モデル

2010年にスタート した新しい研究室です

こうした目的を実現するためには、究極的には人の言葉を理解するコンピュータを開発する必要があります。もちろん、これは簡単な目標ではありません。しかし、自然言語処理の技術はそこに向けて着実に進歩しています。たとえば、これまでコンピュータに決定的に欠けていた常識的知識を、コンピュータ自身が大量の言語データから自動的に獲得して、より高度な言語意味解析や推論に使う、といったことが少しずつ可能になり、大きなブレークスルーの兆しが見え始めています。

本研究室では、言葉が分かるとはどういうことか、コミュニケーションの成立条件は何かといった、情報伝達の仕組みを解明しモデル化する理論的研究、そして人間の知的な情報伝達、情報分析を支援するソフトウェアを構築する工学的研究を展開します。言葉から人の知に迫る。心躍る研究領域がここにあります。

インターネットやウェブの爆発的な普及によって、誰でも大量の情報を入手し、蓄積し、発信できる時代になりました。しかし、その一方で、あまりにも多くの情報がネット上に無秩序に分散しているために、欲しい情報をうまく探せなかったり、重要な情報の存在に気づかなかったり、情報が信用できるかどうか分からなかったり、といった問題も日常的に起こっています。

さて、ここで言う情報はその多くが自然言語ですから、求められるのは自然言語処理です。膨大な言語情報をもしコンピュータで自動的に収集し、選別し、分析できるようになれば、また自動的に他言語に翻訳したり、対話的に人に伝えることができるようになれば、我々を取り巻く情報環境は大きく変わるでしょう。そうした自然言語処理によるWeb情報分析やコミュニケーション支援、知識循環の重要性が急速に高まっています。

URL: http://www.cl.ecei.tohoku.ac.jp��

情報知能システム総合学科 コンピュータサイエンスコース 知能コンピューティングコース

岡﨑研究室 ・

言語コミュニケーションの仕組みや不思議さに惹かれる人、次世代のWeb情報サービスを企業と組んで作ってみたい人、数理統計的なモデル化をやってみたい人、広く歓迎します。

事前の専門知識は不要です。研究室の中で基礎から勉強します。大切なのは新しいことに挑戦していける好奇心とそれを持続できる根気です。元気な研究室を一緒に作っていきませんか?

Page 2: Lab visit research

談話解析・文脈解析 大規模言語データからの知識獲得

構文解析・意味解析

Web情報分析(言論マップ)

■言語理解のための基盤技術

■基礎理論

■応用技術

o

o o

o o

x x x x x

x

o o o o

o x

o γ

OBJ

AM-­‐LOC   AGENT  PRODUCT   THEME   MATERIAL  

AGENT  THEME  

CONJ COORD COORD COORD CONJ NMOD

NAME LOC APPO

PMOD

SBJ

Bell  ,  based    in    Los    Angeles  ,  makes    and    distributes    electronic  ,  computer    and    building      products  .

product.01 base.01 building.01 distribute.01 make.01

INSTITUTION   AGENT  

電話をかけ(行為)たけれども通じ(効果)ない 電話をかけ(行為)続けても通じ(効果)ない 電話をかけ(行為)ようとしても通じ(効果)ない 電話をかけ(行為)てみるものの通じ(効果)ない

<verb;action>ても<verb;effect>ない <verb;action>ないと<verb;effect>ない <verb;action>たけれども<verb;effect>ない <verb;action>うとしても<verb;effect>ない <verb;action>続けても<verb;effect>ない

サンタバーバラに電話をかけてくれて、…、また電話が通じないので、… 司会者に電話をかけてもらいます。…電話が通じるなり、…

文内共起事例

文章内共起事例

Xをかける(行為)→Xが通じる(効果)X={電話,願い,魔法,呪い,…} Xにかける(行為)→Xに通じる(効果)X={相手,彼女,彼,闘争,…}

共起パターン

Xをかける<関係不明>Xが通じる X={電話,願い,魔法,呪い,…} Xにかける<関係不明>Xに通じる X={相手,彼女,彼,闘争,…} Xをかける<関係不明>Xを通じる X={電話,生涯,鏝絵,税,…}

言語の数理モデル

Webには様々な人が様々な立場から書いた文書が混在しています。それらを自動解析し、重複する内容や矛盾する内容を検出することによって、例えば右図のように、一つの文書を読むだけでは分からない多角的な情報分析ができるようになる可能性があります。

Mariah  Carey   Japan   Her  voice   many  people   I  

Mariah  Carey  came  to  Japan.  Her  voice  aMracted  many  people.  I  wished  to  go  to    her    concert.

p(y|x) =exp

� ⇤k �kfk(x, y)

⇥⇤

y exp� ⇤

k �kfk(x, y)⇥

l(�|D) = log

�n⌅

i=1

p(yi|xi)

⇥�

k

�2k

2⇥2

=n⇤

i=1

k

��kfk(xi, yi)� log Z�(x)

⇥�

k

�2k

2⇥2

�(�|D)�⇥k

=n⇤

i=1

�fk(xi, yi)�

y

fk(xi, y)p(y|xi)

⇥� ⇥k

⇤2

言語の意味を解析し、高度な言語理解に繋げるには、言語が持つ性質を数理統計的に捉え、言語の数理モデルを構築する必要があります。Webからマイニングした膨大な経験情報と組み合わせれば、人の行動や思考の原理に迫れるかもしれません。機械学習や確率統計、論理などの枠組みを駆使したモデル化に取り組みます。

文の構文構造(単語間の修飾関係、右図の上部)やそれが意味する内容(例えば、右図の下部のような出来事を表す述語とその構成要素)を高精度で頑健に自動解析する研究を進めます。

数億文規模の大規模言語データから、例えばイベント間の因果関係や目的手段関係などの知識を自動獲得します。獲得した知識は意味・談話解析の高度化に利用します。

下の文章の her は Mariah Carey を指します。言語理解では、このように文章中の要素間の参照関係や論理構造を認識する処理も必要です。

英作文支援のための用例検索

ネット上に流通している情報の背後にある論理構造を解析しその整合性を分析することで、安全・危険に関する多角的な判断材料を人や社会に提供します。

Web文書集合

情報の論理構造とリスクの分析

英作文において適切な表現の選択を支援するため、 参照するに相応しい英文用例を検索・提示する用例検索システムの研究を行っています。

乾・岡崎研究室 研究テーマ例

Page 3: Lab visit research

Q: アメリカの建国以来、初のアフリカ系大統領になった人は誰ですか?

大学入試問題を解く コンピュータ

ウェブの海から知をつむぐ自然言語処理 様々な問題に答える 質問応答システム 米国の人気クイズ番組「Jeopardy!」で最高金額を獲得したIBMの質問応答システム「ワトソン」のように、Web上のテキストから得られる知識を獲得・活用することで、様々なタイプの     質問に回答することができる     システムを開発します。

Wikipediaから知識を獲得して、センター試験問題をコンピュータに解かせます。人間の思考を、言語処理の技術を用いてエミュレートしようという試みです。

@sendai_taro 性別: 男性 居住地: 仙台市青葉区 出身地: 東京 職業: 飲食業 趣味: ジョギング, お酒 思想: 仏教 …

Twitter User Profiling

ツイートの内容や場所情報から、ユーザーの性別、居住地、出身地、職業、趣味、思想など、ユーザーの属性を推定するプロファイリングを試みます。

仮説推論(アブダクション)を用いて、与えられた観察に対する最も良い説明(仮説)を推論します。

観察

説明 ...

店(w) of(w, z) 行く(u2, x, w) 食べる(u1, x, z)

美味しい(u3, z) 聞いた(u4, x, e7)

再び(u6, u5) 行くだろう(u5, x, y)

美味しい(u7, z)

やなぎ=うどん屋 (y = w)

店(n1) of(n1, n2) うなぎ(n2) 行く(u8, x, n1)

そば(n4) 食べる(u10, n4) うな重(n3) 食べる(u9, x, n3)

うなぎ丼(n5) 食べる(u11, n5)

... ...

天ぷら(n6) 食べる(u12, x, n6)

たまたま(u16, u15) 近くある(u15, x, w)

いつも(u14, u13) 通う(u13, x, w)

...

だし汁(n8) of(n8, z) 美味しい(u20, n8)

... ...

... ...

私(x) ∧ やなぎ(y) ∧ 行く(e1, x, y) ∧ 評判(e2, z) ∧ きつねうどん(z) ∧ 頼む(e3, x, z) ∧ 期待通り(e4, v) ∧ 味(v) ∧ 満足する(e5, x, v)

週末に母とやなぎに行きました。 私は評判のきつねうどんを頼みました。 期待通りの味に大満足。

やなぎはうどん屋だろう

私は再びやなぎに行くだろう

私はきつねうどんが 美味しいと聞いた

私はきつねうどんを 食べるために行った

×  ×  ×  ○  

Twitterユーザーの プロファイリング

自ら推論し学ぶ コンピュータ

A: バラク・オバマ

乾・岡崎研究室 研究テーマ

Page 4: Lab visit research

自然言語処理で次の災害に備える 乾・岡崎研究室 研究テーマ デマの収集 (よく反論されている命題のマイニング)

コスモ石油: 5時間で訂正,24時間で収束

《緊急:拡散希望》ICUのみ自家発電中。燃料のA重油も朝7時でなくなり、人工呼吸器も止まってしまいます。A重油の入手先をご教示ください。0222482131(仙台市太白区広南病院用度課電気室)

[拡散希望]電話すると、仙台市太白区広南病院用度課電気室は燃料のA重油は解決したとのこと

自衛隊に届け! #japan 朝の七時までに広南病院にA重油を下さい。全ての人の呼吸器がとまります。至急A重油の入手先をご教示ください。0222482131仙台市太白区広南病院用度課電気室。 ...

要請 解決

5h

ツイート数

要請の拡散が収束しない

さがす イソジン

参照 参照

ソースは?

北海道君(@hokka)

懐疑

イソジンを飲んではいけません.  

厚労省(@mhlw)

反論

同意

新聞で読んでびっくり.  

中部力(@chuburiki)

発言 参照

反論

イソジン飲んでみたけど,超まずかった.

東京兼(@tkyken)

消毒薬を服用すると,下痢・腹痛が発生します.  

厚労省(@mhlw)

発言

発言

参照

みんな,これ見て!

近畿鯛(@kinkidai)

同意

同意

参照

震災の混乱に乗じた!悪質な流言に注意を

宮城子(@miyako)

参照

同意

参照

ちょっとイソジン買ってくる.  

東海亜(@tokaia)

同意

情報社会でもこんなことが起こるとは….

山陰塊(@saninkai)

参照

同意

情報の「背景」の可視化 返信や非公式RTから〈反論〉の関係を検出 @※※※ 925RTs 2011-03-11 23:26:35 コスモ石油の爆発により有害物質が雲などに付着し、雨などと一緒に降るので外出の際は傘かカッパなどを持ち歩き、身体が雨に接触しないようにしてください!!! コピペとかして皆さんに知らせてください。

@◇◇◇ 1676RTs, 2011-03-12 14:46:29 【重要】 コスモ石油株式会社から「コスモ石油の爆発…降る」という情報について、「このような事実はありません」との発表。http://www.cosmo-oil.jp/…

@☆☆☆ 0RTs, 2011-03-11 23:49:24 ガセネタらしいです(>_<) RT @※※※: 千葉市近辺に在住の方! コスモ石油の爆発により有害物質が雲などに付着し、雨などといっしょに降るので外出の際は傘かカッパなどを持ち歩き、身体が雨に接触しないようにして下さい!!!

@▽▽▽ 442RTs 2011-03-11 19:58:50 フジテレビで言ってましたな RT@※※※: 【拡散希望】 千葉市近辺に在住の方! コスモ石油の爆発により有害物質が….雨に接触しないようにしてください!!!

デマツイートのクラスタ 訂正ツイート

のクラスタ

訂正ツイートのクラスタ

検出された〈反論〉関係

〈類似〉する ツイート

言論マップ 〈同意〉〈反論〉等の意味的関係を深い言語処理で解析 RT・QT等の手がかりがない一般のWeb文書に拡張可能

質問「放射能に効くのは何ですか?」

NICT QAシステム「一休」に聞く

東北大 言論マップで裏を取る

デマの一生 (デマの拡散と訂正の拡散を時系列分析)

「多賀城市」をキーワードにして,写真付きツイートを検索

イオン多賀城店で多くの人が孤立して取り残されています。写真は父が撮影したものです。どうか救助をお願いします。

仙台の若林区から七ヶ浜や多賀城市に向かう産業道路。

被災地の生の声をひろう