Upload
eliana-maldonado
View
29
Download
6
Embed Size (px)
DESCRIPTION
北海道大学工学部 情報エレクトロニクス学科 コンピュータサイエンス・コース. 3年ゼミナール紹介. 情報知識ネットワーク 有村・喜田研究室 { arim,kida}@ist.hokudai.ac.jp ex. 7678, 7679. 研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/. 紹介: 情報知識ネットワーク研究室 (有村・喜田 研). 研究テーマ: 情報検索とデータマイニング 教官: 有村博紀 教授,喜田拓也 助教授 研究協力者: 宇野毅明,佐藤健(国立情報学研究所), - PowerPoint PPT Presentation
Citation preview
2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)
1
3 年ゼミナール紹介
情報知識ネットワーク有村・喜田研究室{arim,kida}@ist.hokudai.ac.jp
ex. 7678, 7679
研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/
北海道大学工学部 情報エレクトロニクス学科コンピュータサイエンス・コース
2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)
2
紹介 : 情報知識ネットワーク研究室(有村・喜田 研) 研究テーマ:
情報検索とデータマイニング 教官: 有村博紀 教授,喜田拓也 助教授 研究協力者:
宇野毅明,佐藤健(国立情報学研究所),湊 真一,トーマス・ツォイグマン(北大大学院情報科学研究科)坂本比呂志,下薗真一(九工大),北大情報科学CS専攻知識ソフトウェア科学講座メンバーとも研究交流
2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)
3
有村博紀 専門:
データマイニング 情報検索(とくに全文テキスト索引) 計算学習理論(機械学習)
興味があること 膨大なデータから,人間に役立つ情報と知識を
とりだすこと 高速なアルゴリズム(プログラム)を設計すること
最近面白かったこと 企業の人たちと一緒に,ソフトウェア開発をしたこ
と.
2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)
4
AWAP: Fast Text Mining Engine (1997 - 2002)
FREQT: Fast XML and Tree-like Data Miner (SDM'02)
OPTT: Optimized Pattern Disocvery (PKDD'02)
StreamT: Online XML Stream Miner (IEEE ICDM'02)
UnoT: Unordered Tree Miner (Discovery Science'03)
AWAP: Fast Text Mining Engine (1997 - 2002)
FREQT: Fast XML and Tree-like Data Miner (SDM'02)
OPTT: Optimized Pattern Disocvery (PKDD'02)
StreamT: Online XML Stream Miner (IEEE ICDM'02)
UnoT: Unordered Tree Miner (Discovery Science'03)
データマイニング・エンジンの開発
ウェブや HTML ,テキストデータなどのグラフデータから特徴的なパターンを高速に取り出す.情報検索や日本語テキスト処理,画像データ処理に役立つ.
A collection of trees
Frequent Patterns with = 50 %
Mining
(with 浅井達哉君 @ 現・富士通研,安部賢治君 @ 現・シャープ,宇野毅明先生 @NII ,中野眞一先生 @ 群馬大, )
2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)
5
AWAP: Fast Text Mining Engine (1997 - 2002)
Rank Other Pattern Rank Other Pattern0 0 <honda > 0 0 <honda > 1 1 <prelude > 1 1 <prelude >2 33 <i > 2 8 <vtec >3 >350 <car > 3 15 <si >4 >350 <parts > 4 11 <bike >5 >350 <engine > 5 6 <99 >6 5 <99 > 6 12 <motorcycle >7 >350 <rear > 7 25 <the honda >8 2 <vtec > 8 41 <prelude si >9 24 <exhaust > 9 20 <civic >
10 108 <miles > 10 35 <honda prelude >11 4 <bike > 11 48 <98 >12 6 <motorcycle > 12 53 <valkyrie >13 >350 <racing > 13 60 <99 time >14 19 <black > 14 37 <honda s >15 3 <si > 15 36 <rims >16 28 <me > 16 40 <looking >17 >350 <tires > 17 30 <looking for >18 >350 <fuel > 18 67 <scooters >19 >350 <my > 19 14 <black >
HONDA vs. SOFTBANK HONDA vs. TOYOTA
HONDA vs. SOFTBANK HONDA vs. TOYOTA
ソフトバンク じゃなくて,
ホンダ に出ているものはなにかな?
トヨタ じゃなくて,
ホンダ に出ているものはなにかな?
ホンダ ってどんな会社だろう?
2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)
6
喜田拓也 専門:
情報検索(特に文字列照合) テキスト・アルゴリズム データ圧縮
興味があること 巧妙なアルゴリズムを知る or 設計すること 効率よく情報を検索するためにコンピュータが
できること
最近面白かったこと 国際会議でイタリアへ行ったこと.
2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)
7
圧縮データに対する文字列照合
文字列照合アルゴリズム文字列照合アルゴリズム
主記憶装置上
文字列照合アルゴリズム文字列照合アルゴリズム
圧縮文字列照合アルゴリズム圧縮文字列照合アルゴリズム
主記憶装置上
復号
二次記憶装置上
テキストデータ
主記憶装置上
主記憶装置上
転送
転送
転送
二次記憶装置上
圧縮テキスト
二次記憶装置上
圧縮テキスト
2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)
8
実験結果(非圧縮テキスト上のアルゴリズムとの対比)
AlphaStation XP1000(Alpha21264: 667MHz)Tru64 UNIX V4.0F
Medline(英文テキスト)60.3Mbyte
AlphaStation XP1000(Alpha21264: 667MHz)Tru64 UNIX V4.0F
Medline(英文テキスト)60.3Mbyte
5 10 15 20 25 30
パタンの長さ
0.0
0.3
0.4
0.5
0.8
0.1
0.2
0.6
0.7
CP
U時間(秒)
非圧縮テキストを KMP で照合
非圧縮テキストを Agrep で照合
BPE 圧縮テキストに対する照合
* Agrep は Wu&Manber が開発した検索ツール* KMP は Knuth-Morris-Pratt 法* BPE は Byte Pair Encoding 圧縮法
BPE 圧縮テキストに対するBoyer-Moore 型のアルゴリズムを用いた照合( Shibata ら [2000] )
BPE 圧縮テキストに対するBoyer-Moore 型のアルゴリズムを用いた照合( Shibata ら [2000] )
(with 柴田裕介君 @ 現・ NTT コムウェア , 松本徹也君 @ 現・ NTT ドコモ , 竹田正幸先生 @ 九大,篠原歩先生 @ 九大 )
2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)
9
3 年生ゼミナール ゼミナール
英語または日本語の資料を読む わかったことを他のひとに説明する 新しい考え/方法を作る プログラムを作る/実験する 日本語または英語で書く
大学の残りの 2 年間でしてほしいこと*
興味があること/やりたいことをみつける 何でもいいから,集中して基礎的な勉強をしてみる ( 20代前半に )
*)大学院の 2 年間で身につけてほしいことでもあります.
これは今回は見送り
2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)
10
H16 年の例
3 年生ゼミナール: テキスト 英語の教科書 "Managing Gigabytes"
(ギガバイトを征服!) 著者: Ian H. Witten, Alistair
Moffat, Timothy C. Bell,Morgan Kaufmann Publishers, 1999.
ウェブサーチ・エンジンを作るための現在唯一の教科書
テキストと画像の圧縮 テキスト索引の実装 問合せの実現
Alistair Moffat 先生メルボルン大学 , AU
Ian Witten 先生ワイカト大学 , NZ
写真略
写真略
ManagingGygabyte site: http://www.cs.mu.oz.au/mg/
2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)
11
3 年生ゼミナール: ゼミで直接まなぶこと
情報検索の基礎技術 データ圧縮の技術 ウェブ検索エンジンのしくみ
情報工学として アルゴリズムとデータ構造の
議論に慣れる 情報理論と統計の実際をしる 工学 (engineering) の感覚 読む・話す・聞く・作る
2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)
12
3 年生ゼミナール オプション(希望者があれば)
プログラム作成 複数パターン照合機械
(情報検索) ハフマン or LZ 圧縮プログラム
( テキスト圧縮) アイテム集合発見プログラム
(データマイニング)
コンテスト???
2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研)
13
おまちしています
情報知識ネットワーク有村・喜田研究室{arim,kida}@ist.hokudai.ac.jp
ex. 7678, 7679
研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/