Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

Preview:

DESCRIPTION

The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web. Robert Baumgartner*, Nicola Henze+, and Marcus Herzog* *DBAI, Institute of Information Systems, Vienna University of Technology - PowerPoint PPT Presentation

Citation preview

The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web

Robert Baumgartner*, Nicola Henze+, and Marcus Herzog**DBAI, Institute of Information Systems, Vienna University of Technology+ISI - Semantic Web Group, University of Hannover

2005/10/6 松岡有希@総研大

概要 いかにパーソナライズ化したコンテンツ収集をセマンティック

web で実現できるか 分散している non-uniform Web data を Semantic Web data へ

Personal Reader Framework Web content Readers を可能にするためのフレームワーク 複数のサービスコンポーネントから成るオープンアーキテクチャ

Personal Publication Reader Personal Reader Framework を利用 ユーザに適した Web 上の論文情報を収集・表示 Web からの情報抽出

実時間で、動的に パーソナライズ化

オントロジを利用

Motivation シナリオ

ピーターは大学で研究者として働いている。ジャーナルや学会で論文を出版し、同時に学会 HP に論文をアップロードしている。次から次へと、新しい論文を、所属するプロジェクトに報告しなければならない。プロジェクトではメンバーや活動内容、研究成果について書かれたメンバーページを管理している。

質問 メンバーページのメンテナンス作業を軽減したり、データの重

複は避けることはできないのか? プロジェクト上で役に立つ文脈情報を利用できないのか? Web ページから関連する情報を抽出できないのか? ユーザがほしい情報を集めることはできないのか?

The Personal Reader Framework The Personal Web Content Readers を実現

ユーザが興味を持つ web コンテンツへのアクセス (the Personal part) と表示 (the Reader part)

アーキテクチャ さまざまな visualization, personalization サービスから構成 XML, RDF, JSP, XML-based-RPC ユーザに適したサービスを選ぶことができる( Plug & Play )

Personal Publication Reader REWERSE プロジェクトのメンバーの web サイトから

論文情報を取得・表示 処理内容

Web から論文に関する部分を抽出・統合 Lixto Visual Wrapper, Lixto Transformation Server

オントロジに基づいて推論し、情報をメタデータ化 ユーザに適した論文データの表示

visualization, personalization サービス 対象ドメイン

REWERSE – Reasoning on the Web (http://rewerse.net/) EU の支援を受けている 現メンバーは 130 人ほど

Web Data Extraction and Integration Lixto Visual Wrapper

可視化、インタラクティブといった特徴を持つ、ラッパー * を生成するためのツール

データを抽出している間にさらにドキュメントに対して処理が可能 ユーザー定義がページの上でもはや満たされない場合、警告される * 自動的にデータを抽出したり、データを異なるフォーマットに変換したりするプ

ログラム

Web Data Extraction and Integration Lixto Transformation Server

いろいろなコンテンツを取得・統合し、適切なフォーマットに変換して、他のシステムへ配信

他の Web サービスによって制御 カスタマイズできる・ ユーザが統合するコンテンツを決めることができる

Publication Data on the Web

Gathering Web Data Lixto Visual Wrapper を使ってデータを抽出 Munich さんの例

Title はイタリック文字で書かれている Author はハイパーリンクで表示されていて、 title の前にある

Linkoppoing さんの場合、ハイパーリンクで表示されているのもあれば、単にカンマで区切られているだけのものも

いろんな種類のフィルターを用意する Year は、年ごとの各ページの 1 行目にある

ラッパーは下記のような XML データを生成

Visual Data Aggregation Lixto Transformation server がデータを収集し、 RDF に変換

し、 1 週間に 1 回 Personal Publication Reader に配信

足りない情報を追加することができる 例) www.researchindex.com からアブストラクトのデータを貰って

くる

Modeling Domain Knowledge 論文データから抜粋した情報と REWERS

E-Ontology をマッピング Semantic Web Research Community Ontology (S

WRC) を拡張したもの “helper” ontology

著者のフルネームを記述 F. Bry, Franqis Bry, Prof. F. Bry

REWERSE-Ontology

Content Syndication and Personalized Views Personalization はリクエストとルールの

結果がマッチするときに実現 ルールは TRIPLE syntax を採用 例)“ interest in personalized information systems”

ルールを扱うのは、 Personalization server

Screenshot of the Personal Publication Reader

まとめ The Personal Publication Reader

Semantic Web でパーソナライズな情報システムを実現

Recommended