Code4Lib 2013参加報告

Code4Lib 2013参加報告（セッション聴講を中心に）

2013年3月24日（土） Code4Lib Conference 2013参加報告会

高久雅生 @tmasao

1

自己紹介：高久雅生

• 所属：物質・材料研究機構科学情報室エンジニア – 研究所専門図書館におけるWeb系サービスの研究開発・運用を担当 • 図書館管理システム, 研究者総覧, 機関リポジトリ

• 専門分野：図書館情報学 – 情報検索、情報行動、電子図書館

• コミュニティ活動 – Code4Lib JAPANコアメンバー (2010-) – saveMLAKシステム担当 (2011-) – 情報科学技術協会『情報の科学と技術』編集委員 (2009-)，諮問委員 (2012-)

– 情報知識学会理事 (2008-)

– ジャパンリンクセンター運営委員会システム技術分科会委員 (2012-)

2

Code4Libのコミュニティ • 北米の図書館エンジニアを中心としたコミュニティ

–オープンソースソフトウェア (Open Source Software; OSS)

–大学図書館や議会図書館、図書館関連団体、企業等に勤める図書館員やITエンジニア

• 普段はメーリングリスト、IRC（チャット）での交流

• 地域コミュニティも

– Code4Lib Midwest, NYC, New England, Maryland/Washington DC., Northwest, etc.

– Code4Lib JAPAN

3

Code4Libカンファレンスの概要 • 2006年から開始

• 毎年2月に開催

• 参加者：250名～400名 –半数以上は初参加。

• 朝食、ランチを提供

• 発表：シングルトラックセッション –基調講演（60分～）

–通常発表（15～20分）: コミュニティの投票で選ばれる。

– ライトニングトーク（5分）：カンファレンス当日にWikiで。

• 分科会（ブレイクアウトセッション）

• プレカンファレンス（Tutorial, Workshops) 4

今年のカンファレンス - Code4Lib Conference 2013 -

• 初めての大規模開催：250名→400名へ！

• 大都市シカゴでの開催！

• ストリーミングビデオ

– https://archive.org/search.php?query=code4lib+2013

• （私自身は2010年から4年連続の参加）

5

セッション技術レビュー（情報検索分野という観点から）

• 検索技術や検索ツールの話題

–文献検索での関連度順ランキング手法

–大量電子書籍の全文検索のチューニング

–あいまい検索

• 広く情報探索の話題

–検索ログ/アクセスログの分析

–モバイル環境や統合検索の新しい検索インタフェース

–書架ブラウジングツール

6

今回の発表セッションから

• 検索ツール系（2/12午前のセッション） – 新しい検索手法の提案や事例報告がまとまっていた – Practical Relevance Ranking for 10 million books

• （全文検索結果の関連度ランキング法）

– n Characters in Search of an Author • （著者名のあいまい検索法）

– Citation search in SOLR and second-order operators • （引用文献検索の方法）

• 情報探索・利用行動系（2/13午後のセッション） – De-sucking the Library User Experience

• （OPACのユーザインタフェースの改良とその考え方）

– Google Analytics, Event Tracking and Discovery Tools • （アクセスログの詳細分析；OPAC上でのイベント追跡）

– Actions speak louder than words: Analyzing large-scale query logs to improve the research experience • （Summonでのサーバログ分析用フレームワークの事例報告）

7

今回の発表セッションから

• 検索ツール系（2/12午前のセッション） – 新しい検索手法の提案や事例報告がまとまっていた – Practical Relevance Ranking for 10 million books

• （全文検索結果の関連度ランキング法）

– n Characters in Search of an Author • （著者名のあいまい検索法）

– Citation search in SOLR and second-order operators • （引用文献検索の方法）

• 情報探索・利用行動系（2/13午後のセッション） – De-sucking the Library User Experience

• （OPACのユーザインタフェースの改良とその考え方）

– Google Analytics, Event Tracking and Discovery Tools • （アクセスログの詳細分析；OPAC上でのイベント追跡）

– Actions speak louder than words: Analyzing large-scale query logs to improve the research experience • （Summonのログ分析環境の事例報告）

8

Towards Practical Relevance Ranking for 10 million books (1)

• 発表者：Tom Burton-West（ミシガン大学図書館）

• HathiTrustでの全文検索エンジンSolrを使った全文検索サービスからの事例報告 – 70機関以上の図書館が収集した電子書籍リポジトリ

– 約1,050万冊

– 450TB（画像：JPEG2000+TIFF, OCRテキスト, メタデータ）

• 検索における課題 – 超大規模な文書群に対する全文検索

– 多言語（400言語超）

– OCR性能のばらつき

– 全文検索の関連度ランキングの性能評価

– （INEXでの参加報告） 9

Towards Practical Relevance Ranking for 10 million books (2)

• Solr標準のキーワード重み付け評価法 – TF*IDF

– 文書長による正規化が効きすぎている。

• 既存のランキング評価イニシアティブとの比較、経験 – 書籍の文書長：760KB（10万語）

– 多言語： “die hard” vs (ドイツ語)“die”

• 検索対象： – 書籍全体？章？節？ページ？

• 全文検索における最適化、テスト： – より自動化したい…

– 求む、テストコレクション… 10

n Characters in Search of an Author (1)

• 発表者：Jay Luker（ハーバード・スミソニアン天体物理学センター）

• 著者名検索の課題（あいまい検索）

– ノイズを増やさず、できるだけヒットさせたい

–異体字（ウムラウト等）

–読み変え；改姓；…

• Solrインデックス用のフィルタを開発！

11

（自分の経験から）

12

• 研究者総覧SAMURAIにおけるキーワード検索

– http://samurai.nims.go.jp/search.html

– Solrベース

–キーワードの重み付け

• 文書長の正規化は止めた

–氏名検索用に異体字展開

• 高⇔髙, 﨑⇔崎, etc. – Cf. http://kanji-database.sourceforge.net/

まとめにかえて • トピック

– 次世代目録システム, OPAC 2.0的な話題は少なめに…

– 技術的により深く先進的な（より狭い？）手法の開発 • 学術研究レベルの技術評価や実装も

– コミュニティの深化、多様性の強調 (Code of Conduct)

– エモーション：Aaron Swartz

• 来年は？ – 現在、開催都市の選考中（来月中には決定）

• オースティン (TX), ノースカロライナ (NC)

– 発表採択方式：プログラム委員会方式へ？

• JAPANからの貢献を – 日本での様々な試みも紹介を！反応はすごいです！

– 国内でもカンファレンスを！

13

Technology

Code4Lib 2013参加報告