13
2005/10/06 情情情情情情情情情情情 情情情情情 情情 情情情 1 3 情情情情情情情情 情情情情情情情情情情 情情 情情情情情 {arim,kida}@ist.hokudai.ac.jp ex. 7678, 7679 情情情情情情情情情 http://www-ikn.ist.hokudai.ac.jp/ 情情情情情情情情 情情情情情情情情情情情情 情情情情情情情情情情情 情情情

3年ゼミナール紹介

Embed Size (px)

DESCRIPTION

北海道大学工学部 情報エレクトロニクス学科 コンピュータサイエンス・コース. 3年ゼミナール紹介. 情報知識ネットワーク 有村・喜田研究室 { arim,kida}@ist.hokudai.ac.jp ex. 7678, 7679. 研究室ホームページ  http://www-ikn.ist.hokudai.ac.jp/. 紹介: 情報知識ネットワーク研究室 (有村・喜田 研). 研究テーマ: 情報検索とデータマイニング 教官: 有村博紀 教授,喜田拓也 助教授 研究協力者: 宇野毅明,佐藤健(国立情報学研究所), - PowerPoint PPT Presentation

Citation preview

Page 1: 3年ゼミナール紹介

2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)

1

3 年ゼミナール紹介

情報知識ネットワーク有村・喜田研究室{arim,kida}@ist.hokudai.ac.jp

ex. 7678, 7679

研究室ホームページ  http://www-ikn.ist.hokudai.ac.jp/

北海道大学工学部 情報エレクトロニクス学科コンピュータサイエンス・コース

Page 2: 3年ゼミナール紹介

2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)

2

紹介 : 情報知識ネットワーク研究室(有村・喜田 研) 研究テーマ:

情報検索とデータマイニング 教官: 有村博紀 教授,喜田拓也 助教授 研究協力者:

宇野毅明,佐藤健(国立情報学研究所),湊 真一,トーマス・ツォイグマン(北大大学院情報科学研究科)坂本比呂志,下薗真一(九工大),北大情報科学CS専攻知識ソフトウェア科学講座メンバーとも研究交流

Page 3: 3年ゼミナール紹介

2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)

3

有村博紀 専門:

データマイニング 情報検索(とくに全文テキスト索引) 計算学習理論(機械学習)

興味があること 膨大なデータから,人間に役立つ情報と知識を

とりだすこと 高速なアルゴリズム(プログラム)を設計すること

最近面白かったこと 企業の人たちと一緒に,ソフトウェア開発をしたこ

と.

Page 4: 3年ゼミナール紹介

2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)

4

AWAP: Fast Text Mining Engine (1997 - 2002)

FREQT: Fast XML and Tree-like Data Miner (SDM'02)

OPTT: Optimized Pattern Disocvery (PKDD'02)

StreamT: Online XML Stream Miner (IEEE ICDM'02)

UnoT: Unordered Tree Miner (Discovery Science'03)

AWAP: Fast Text Mining Engine (1997 - 2002)

FREQT: Fast XML and Tree-like Data Miner (SDM'02)

OPTT: Optimized Pattern Disocvery (PKDD'02)

StreamT: Online XML Stream Miner (IEEE ICDM'02)

UnoT: Unordered Tree Miner (Discovery Science'03)

データマイニング・エンジンの開発

ウェブや HTML ,テキストデータなどのグラフデータから特徴的なパターンを高速に取り出す.情報検索や日本語テキスト処理,画像データ処理に役立つ.

A collection of trees

Frequent Patterns with = 50 %

Mining

(with 浅井達哉君 @ 現・富士通研,安部賢治君 @ 現・シャープ,宇野毅明先生 @NII ,中野眞一先生 @ 群馬大, )

Page 5: 3年ゼミナール紹介

2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)

5

AWAP: Fast Text Mining Engine (1997 - 2002)

Rank Other Pattern Rank Other Pattern0 0 <honda > 0 0 <honda > 1 1 <prelude > 1 1 <prelude >2 33 <i > 2 8 <vtec >3 >350 <car > 3 15 <si >4 >350 <parts > 4 11 <bike >5 >350 <engine > 5 6 <99 >6 5 <99 > 6 12 <motorcycle >7 >350 <rear > 7 25 <the honda >8 2 <vtec > 8 41 <prelude si >9 24 <exhaust > 9 20 <civic >

10 108 <miles > 10 35 <honda prelude >11 4 <bike > 11 48 <98 >12 6 <motorcycle > 12 53 <valkyrie >13 >350 <racing > 13 60 <99 time >14 19 <black > 14 37 <honda s >15 3 <si > 15 36 <rims >16 28 <me > 16 40 <looking >17 >350 <tires > 17 30 <looking for >18 >350 <fuel > 18 67 <scooters >19 >350 <my > 19 14 <black >

HONDA vs. SOFTBANK HONDA vs. TOYOTA

HONDA vs. SOFTBANK HONDA vs. TOYOTA

ソフトバンク じゃなくて,

ホンダ に出ているものはなにかな?

トヨタ じゃなくて,

ホンダ に出ているものはなにかな?

ホンダ ってどんな会社だろう?

Page 6: 3年ゼミナール紹介

2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)

6

喜田拓也 専門:

情報検索(特に文字列照合) テキスト・アルゴリズム データ圧縮

興味があること 巧妙なアルゴリズムを知る or 設計すること 効率よく情報を検索するためにコンピュータが

できること

最近面白かったこと 国際会議でイタリアへ行ったこと.

Page 7: 3年ゼミナール紹介

2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)

7

圧縮データに対する文字列照合

文字列照合アルゴリズム文字列照合アルゴリズム

主記憶装置上

文字列照合アルゴリズム文字列照合アルゴリズム

圧縮文字列照合アルゴリズム圧縮文字列照合アルゴリズム

主記憶装置上

復号

二次記憶装置上

テキストデータ

主記憶装置上

主記憶装置上

転送

転送

転送

二次記憶装置上

圧縮テキスト

二次記憶装置上

圧縮テキスト

Page 8: 3年ゼミナール紹介

2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)

8

実験結果(非圧縮テキスト上のアルゴリズムとの対比)

AlphaStation XP1000(Alpha21264: 667MHz)Tru64 UNIX V4.0F

Medline(英文テキスト)60.3Mbyte

AlphaStation XP1000(Alpha21264: 667MHz)Tru64 UNIX V4.0F

Medline(英文テキスト)60.3Mbyte

5 10 15 20 25 30

パタンの長さ

0.0

0.3

0.4

0.5

0.8

0.1

0.2

0.6

0.7

CP

U時間(秒)

非圧縮テキストを KMP で照合

非圧縮テキストを Agrep で照合

BPE 圧縮テキストに対する照合

* Agrep は Wu&Manber が開発した検索ツール* KMP は Knuth-Morris-Pratt 法* BPE は Byte Pair Encoding 圧縮法

BPE 圧縮テキストに対するBoyer-Moore 型のアルゴリズムを用いた照合( Shibata ら [2000] )

BPE 圧縮テキストに対するBoyer-Moore 型のアルゴリズムを用いた照合( Shibata ら [2000] )

(with 柴田裕介君 @ 現・ NTT コムウェア , 松本徹也君 @ 現・ NTT ドコモ , 竹田正幸先生 @ 九大,篠原歩先生 @ 九大 )

Page 9: 3年ゼミナール紹介

2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)

9

3 年生ゼミナール ゼミナール

英語または日本語の資料を読む わかったことを他のひとに説明する 新しい考え/方法を作る プログラムを作る/実験する 日本語または英語で書く

大学の残りの 2 年間でしてほしいこと*

興味があること/やりたいことをみつける 何でもいいから,集中して基礎的な勉強をしてみる ( 20代前半に )

*)大学院の 2 年間で身につけてほしいことでもあります.

  これは今回は見送り

Page 10: 3年ゼミナール紹介

2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)

10

H16 年の例

3 年生ゼミナール: テキスト 英語の教科書 "Managing Gigabytes"

(ギガバイトを征服!) 著者: Ian H. Witten, Alistair

Moffat, Timothy C. Bell,Morgan Kaufmann Publishers, 1999.

ウェブサーチ・エンジンを作るための現在唯一の教科書

テキストと画像の圧縮 テキスト索引の実装 問合せの実現

Alistair Moffat 先生メルボルン大学 , AU

Ian Witten 先生ワイカト大学 , NZ

写真略

写真略

ManagingGygabyte site: http://www.cs.mu.oz.au/mg/

Page 11: 3年ゼミナール紹介

2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)

11

3 年生ゼミナール: ゼミで直接まなぶこと

情報検索の基礎技術 データ圧縮の技術 ウェブ検索エンジンのしくみ

情報工学として アルゴリズムとデータ構造の

議論に慣れる 情報理論と統計の実際をしる 工学 (engineering) の感覚 読む・話す・聞く・作る

Page 12: 3年ゼミナール紹介

2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)

12

3 年生ゼミナール オプション(希望者があれば)

プログラム作成 複数パターン照合機械

(情報検索) ハフマン or LZ 圧縮プログラム

( テキスト圧縮) アイテム集合発見プログラム

(データマイニング)

コンテスト???

Page 13: 3年ゼミナール紹介

2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)

13

おまちしています

情報知識ネットワーク有村・喜田研究室{arim,kida}@ist.hokudai.ac.jp

ex. 7678, 7679

研究室ホームページ  http://www-ikn.ist.hokudai.ac.jp/