Upload
masao-takaku
View
823
Download
2
Embed Size (px)
DESCRIPTION
Code4Lib 2013参加報告会での発表スライドです。 https://www.facebook.com/events/312000325589268/
Citation preview
Code4Lib 2013参加報告 (セッション聴講を中心に)
2013年3月24日(土) Code4Lib Conference 2013参加報告会
高久雅生 @tmasao
1
自己紹介:高久雅生
• 所属:物質・材料研究機構科学情報室 エンジニア – 研究所専門図書館におけるWeb系サービスの研究開発・運用を担当 • 図書館管理システム, 研究者総覧, 機関リポジトリ
• 専門分野:図書館情報学 – 情報検索、情報行動、電子図書館
• コミュニティ活動 – Code4Lib JAPANコアメンバー (2010-) – saveMLAKシステム担当 (2011-) – 情報科学技術協会『情報の科学と技術』編集委員 (2009-),諮問委員 (2012-)
– 情報知識学会 理事 (2008-)
– ジャパンリンクセンター運営委員会システム技術分科会委員 (2012-)
2
Code4Libのコミュニティ • 北米の図書館エンジニアを中心としたコミュニティ
–オープンソースソフトウェア (Open Source Software; OSS)
–大学図書館や議会図書館、図書館関連団体、企業等に勤める図書館員やITエンジニア
• 普段はメーリングリスト、IRC(チャット)での交流
• 地域コミュニティも
– Code4Lib Midwest, NYC, New England, Maryland/Washington DC., Northwest, etc.
– Code4Lib JAPAN
3
Code4Libカンファレンスの概要 • 2006年から開始
• 毎年2月に開催
• 参加者:250名~400名 –半数以上は初参加。
• 朝食、ランチを提供
• 発表:シングルトラックセッション –基調講演(60分~)
–通常発表(15~20分): コミュニティの投票で選ばれる。
– ライトニングトーク(5分):カンファレンス当日にWikiで。
• 分科会(ブレイクアウトセッション)
• プレカンファレンス(Tutorial, Workshops) 4
今年のカンファレンス - Code4Lib Conference 2013 -
• 初めての大規模開催:250名→400名へ!
• 大都市シカゴでの開催!
• ストリーミングビデオ
– https://archive.org/search.php?query=code4lib+2013
• (私自身は2010年から4年連続の参加)
5
セッション技術レビュー (情報検索分野という観点から)
• 検索技術や検索ツールの話題
–文献検索での関連度順ランキング手法
–大量電子書籍の全文検索のチューニング
–あいまい検索
• 広く情報探索の話題
–検索ログ/アクセスログの分析
–モバイル環境や統合検索の新しい検索インタフェース
–書架ブラウジングツール
6
今回の発表セッションから
• 検索ツール系(2/12午前のセッション) – 新しい検索手法の提案や事例報告がまとまっていた – Practical Relevance Ranking for 10 million books
• (全文検索結果の関連度ランキング法)
– n Characters in Search of an Author • (著者名のあいまい検索法)
– Citation search in SOLR and second-order operators • (引用文献検索の方法)
• 情報探索・利用行動系(2/13午後のセッション) – De-sucking the Library User Experience
• (OPACのユーザインタフェースの改良とその考え方)
– Google Analytics, Event Tracking and Discovery Tools • (アクセスログの詳細分析;OPAC上でのイベント追跡)
– Actions speak louder than words: Analyzing large-scale query logs to improve the research experience • (Summonでのサーバログ分析用フレームワークの事例報告)
7
今回の発表セッションから
• 検索ツール系(2/12午前のセッション) – 新しい検索手法の提案や事例報告がまとまっていた – Practical Relevance Ranking for 10 million books
• (全文検索結果の関連度ランキング法)
– n Characters in Search of an Author • (著者名のあいまい検索法)
– Citation search in SOLR and second-order operators • (引用文献検索の方法)
• 情報探索・利用行動系(2/13午後のセッション) – De-sucking the Library User Experience
• (OPACのユーザインタフェースの改良とその考え方)
– Google Analytics, Event Tracking and Discovery Tools • (アクセスログの詳細分析;OPAC上でのイベント追跡)
– Actions speak louder than words: Analyzing large-scale query logs to improve the research experience • (Summonのログ分析環境の事例報告)
8
Towards Practical Relevance Ranking for 10 million books (1)
• 発表者:Tom Burton-West(ミシガン大学図書館)
• HathiTrustでの全文検索エンジンSolrを使った全文検索サービスからの事例報告 – 70機関以上の図書館が収集した電子書籍リポジトリ
– 約1,050万冊
– 450TB(画像:JPEG2000+TIFF, OCRテキスト, メタデータ)
• 検索における課題 – 超大規模な文書群に対する全文検索
– 多言語(400言語超)
– OCR性能のばらつき
– 全文検索の関連度ランキングの性能評価
– (INEXでの参加報告) 9
Towards Practical Relevance Ranking for 10 million books (2)
• Solr標準のキーワード重み付け評価法 – TF*IDF
– 文書長による正規化が効きすぎている。
• 既存のランキング評価イニシアティブとの比較、経験 – 書籍の文書長:760KB(10万語)
– 多言語: “die hard” vs (ドイツ語)“die”
• 検索対象: – 書籍全体?章?節?ページ?
• 全文検索における最適化、テスト: – より自動化したい…
– 求む、テストコレクション… 10
n Characters in Search of an Author (1)
• 発表者:Jay Luker(ハーバード・スミソニアン天体物理学センター)
• 著者名検索の課題(あいまい検索)
– ノイズを増やさず、できるだけヒットさせたい
–異体字(ウムラウト等)
–読み変え;改姓;…
• Solrインデックス用のフィルタを開発!
11
(自分の経験から)
12
• 研究者総覧SAMURAIにおけるキーワード検索
– http://samurai.nims.go.jp/search.html
– Solrベース
–キーワードの重み付け
• 文書長の正規化は止めた
–氏名検索用に異体字展開
• 高⇔髙, 﨑⇔崎, etc. – Cf. http://kanji-database.sourceforge.net/
まとめにかえて • トピック
– 次世代目録システム, OPAC 2.0的な話題は少なめに…
– 技術的により深く先進的な( より狭い?)手法の開発 • 学術研究レベルの技術評価や実装も
– コミュニティの深化、多様性の強調 (Code of Conduct)
– エモーション:Aaron Swartz
• 来年は? – 現在、開催都市の選考中(来月中には決定)
• オースティン (TX), ノースカロライナ (NC)
– 発表採択方式:プログラム委員会方式へ?
• JAPANからの貢献を – 日本での様々な試みも紹介を!反応はすごいです!
– 国内でもカンファレンスを!
13