49
Wikipediaにおける情報の質 名古屋大学 大学院 情報科学研究科 鈴木 優 情報処理学会 158回データベースシステム研究会 招待講演 (17:45-18:45) 国際交流ホールIII @京都大学

Wikipedia における情報の質

Embed Size (px)

DESCRIPTION

1126 に DBS 研究会で行われた発表の資料です.

Citation preview

Page 1: Wikipedia における情報の質

Wikipediaにおける情報の質名古屋大学 大学院 情報科学研究科 鈴木 優

情報処理学会 第158回データベースシステム研究会

招待講演 (17:45-18:45) 国際交流ホールIII @京都大学

Page 2: Wikipedia における情報の質

発表の流れ

1. 質とは何か

2. Wikipediaについて

3. どのようにして質を測定するか

4. 今後の展望

!2

Wikipediaにおける情報の質

Page 3: Wikipedia における情報の質

考え方

クラウドソーシングが産み出す知識の限界に挑戦

Wikipediaは一つのテストケース

様々な特徴は他と共通する部分もある

多くの利用者が協調して記述している文書を対象

!3

Page 4: Wikipedia における情報の質

質とは何か

Page 5: Wikipedia における情報の質

–Jimmy Wales (Wikipedia創始者)

“記事には間違いもあるが、信頼性は相対的に高い”

Page 6: Wikipedia における情報の質

–L’Arc~en~Ciel HYDE (身長 161 cm)

“だいたいオレは150センチ台でもないのに

嘘の情報でよくこれだけ盛り上がれるよ”

Page 7: Wikipedia における情報の質

Wikipediaは質が高いのか?

Wikipediaは質が高い

裁判の資料として用いられた

ブリタニカと比較して質が高いという調査結果

レポートにコピーされることもしばしば

Wikipediaは質が低い

誰でも記述できる=誰もレビューしていない

専門的なことはほとんど書かれていない

誤った情報を探すのは容易!7

Page 8: Wikipedia における情報の質

Wikipediaは質が高いのか?

Wikipediaは質が高い

裁判の資料として用いられた

ブリタニカと比較して質が高いという調査結果

レポートにコピーされることもしばしば

Wikipediaは質が低い

誰でも記述できる=誰もレビューしていない

専門的なことはほとんど書かれていない

誤った情報を探すのは容易!7

そもそも質とは何

なのか

Page 9: Wikipedia における情報の質

質とは何か

「真実が書かれている = 質が高い」ではない 「地球は回っている」は質が高いか

今は誰もが真実だと思っている 昔は真実だと誰も思っていなかった

昔,計算機があっても,地球が回っていることを計算機だけで判定することは困難

誰も真実を知らないこともある 誰もが知っている常識が真実であるとは限らない 哲学的な問題に帰着するので定式化が困難

!8

Page 10: Wikipedia における情報の質

質とは何か

広辞苑での定義

対象が他の対象と区別する特色となって

いるもの

人の主観によるもの

色々な意味で使われる「質」

利用しやすい(検索機能が充実)

何かに認められた実績がある

計算機上でどのように質を扱うか?!9

Page 11: Wikipedia における情報の質

信憑性の定義

Trustworthiness

believability

どれだけ多くの人に信じられているか

比較的主観的な尺度

Expertise

専門性

比較的客観的な尺度

!10

心理学における定義 [Fogg et al., CHI’99 ]

Page 12: Wikipedia における情報の質

その他の尺度紙による百科事典を評価する方法 [Wong, 2011]

9種類の要素

取り扱う範囲,構成,独自性,権威,正確性,最新性,使いやすさ,利

用者の要求との関連度,価格

利用しやすさについての定義

真実であるかどうかを検証 [Sheppardら]

3種類の要素

信憑性,正確性,整合性

市民科学コミュニティにおける検証

ニセ科学のようなものを検証するため

誤った情報が存在 < 情報が不存在

本当かどうかを質の定義としている!11

Page 13: Wikipedia における情報の質

Wikipediaについて

Page 14: Wikipedia における情報の質

Wikipediaに関する研究

主に二つの方向性

Wikipediaを利用して様々な知的資源を生成

DBPedia, YAGO2,…

Wikipediaそのものを解析

本講演で扱う範囲

!13

Page 15: Wikipedia における情報の質

Wikipedia について

閲覧者から見たWikipedia

記事の状況

編集者はなぜ貢献する?

Wikipediaの統治方法

Page 16: Wikipedia における情報の質

Wikipediaは使われている?

White による調査(2007年)

70%~84% の利用者がWikipediaを利用

Blogは40%~60%

Facebook は 5%~20%

利用用途

50%~60% は仕事,学習

Blog は 20%程度

参考文献として利用されるWebサービスとしては最多!15

Page 17: Wikipedia における情報の質

利用者はWikipediaをどう思っている?Flanagin らによる調査

ブリタニカとCitizendiumとの比較

Citizendium: 査読付きWikipedia

アンケート

若年層(11~18歳): 183人

成人層(18歳以上): 283人

結果

若年層は成人層よりもWIkipediaを信じていない

70%~80%はWikipediaをUGCであると理解していない

特に成人層では顕著!16

Page 18: Wikipedia における情報の質

Wikipedia について

閲覧者から見たWikipedia

記事の状況

編集者はなぜ貢献する?

Wikipediaの統治方法

Page 19: Wikipedia における情報の質

編集者の貢献割合を図示

!18

History Flow [Viegas et al. CHI 2004]

http://www.bewitched.com/historyflow.html引用:

IBM による,Wikipediaの可視化に関する一番最初の研究

妊娠中絶(英語版)の編集履歴を可視化

編集合戦の様子などを観察できる

NY にある MoMA で展示されていた

Page 20: Wikipedia における情報の質

Wikipedia Revision History

!19

拡大

木構造による編集履歴の表現 [Sabel, WikiSym 2007]

Page 21: Wikipedia における情報の質

Wikipedia Revision History

木構造による解析 [Wu et al.

WikiSym 2013]

Savel らはテキストブロック

の追加削除を利用

Wu らはバージョンごとの

共通文字列を利用

!20

Page 22: Wikipedia における情報の質

編集者のバイアスによる表現

テキストの追記・削

除を利用

編集者の可視化

編集合戦が起こるよ

うなページに有効

!21

グラフによる表現 [Nakamura et al. WI 2013]

日本語版記事「原子力発電所」

Page 23: Wikipedia における情報の質

Wikipedia について

閲覧者から見たWikipedia

記事の状況

編集者はなぜ貢献する?

Wikipediaの統治方法

Page 24: Wikipedia における情報の質

Wikipediaを編集する動機

なぜWikipediaを編集するのか

Wikipediaは充実する ⇄ 対価は発生しない

Yang らによる調査

内的自己概念を満たすため

内的自己概念 = 自分の思う「状況のあるべき

姿」を実現するため

外的自己概念 = 他の人が思う「状況のあるべ

き姿」を実現することとは相関関係が少ない!23

Page 25: Wikipedia における情報の質

Wikipedia について

閲覧者から見たWikipedia

記事の状況

編集者はなぜ貢献する?

Wikipediaの統治方法

Page 26: Wikipedia における情報の質

不適切な記述への対応

不適切な記述とは

百科事典としてふさわしくない

明白に誤っている

著作権法などの法令に違反している

不適切な記述は削除される

平均2分で削除

不適切な記事を閲覧する割合は 0.007%

多くの理由は著作権違反によるもの!25

Page 27: Wikipedia における情報の質

質の測定方法

Page 28: Wikipedia における情報の質

質の測定方法を分類人手による方法

正確さ (trustworthiness),専門度 (Expertise)

半自動的な方法

投票

悪意のある投票の判定

自動的な方法

編集内容

記事間リンク

編集者間の相互評価!27

Page 29: Wikipedia における情報の質

人手: 正確さの観点から

Giles による調査(2005)

Natureの編集者による目視

Wikipediaとブリタニカには信頼度に大きな差がない

紙の百科事典よりも質が高い記事が数多く存在

未完成の記事も多い

ブリタニカ社はこれに反論

Wikimedia財団はこれに対応するために,一部の記

事における詳細なレポートを作成!28

Page 30: Wikipedia における情報の質

人手: 専門度の観点から

Chesney による調査

専門家グループと非専門家グループで評価

編集者と記事を対象

編集者に対する評価は有意差なし

専門家は記事を信憑性が高いと評価する傾向

ただし13%の記事で誤りを見つけた

!29

Page 31: Wikipedia における情報の質

人手による手法: まとめ

一部の記事をサンプルとして評価

ある程度の傾向をつかむことはできる

全体としてどうなっているかは分からない

どの記事を評価したかによって評価が変わる

評価は主観的

定量的な測定は難しい

!30

Page 32: Wikipedia における情報の質

半自動的な手法

投票による方法

!31

Page 33: Wikipedia における情報の質

Wikipedia Feedback Tool

英語版などいくつかのページで採用

信憑性,主観性,完全性,記述の完成度の四つで判定

あまり利用されていない.現在も取り外されている.!32

Page 34: Wikipedia における情報の質

悪意のある投票

悪意がある投票を特定する方法が必要

コメント文から SPAM かどうかを特定する方法 [Ott]

利用者の振る舞いからSPAMを判定する方法

[Mukherjee et al.]

ある特定の記事に集中して投票をすると SPAMで

ある可能性が高い

!33

Page 35: Wikipedia における情報の質

半自動: 利点と欠点利点

利用者の直感を反映することができる

システムとして比較的簡易(集計するだけ)

質の算出根拠が明確

欠点

利用者は必ずしも正当な評価を行うわけではない

YouTube ではほとんど 5 か 1,2-4 はほとんど無 [Singer]

Wikipedia では 90.9%の投票が最高点

78.6% の記事はまだ未完成にも関わらず

2012年1月の「食べログ」における評価の社会問題化

有用な評価かどうかを判定する手法の必要性!34

Page 36: Wikipedia における情報の質

自動的な方法: 編集内容による方法

様々な統計量の利用

単語数 [Blumenstock]

編集回数や編集者数 [Lih, Wilkinson]

差し戻し回数 [Viegas]

記事の安定性 [Doudio]

記述の変更が少ない = 質が高い

編集者間の対立 [Kittur]

残存率と利用者の投票の組合せ [Kramer]!35

Page 37: Wikipedia における情報の質

自動的な方法: 編集内容による方法様々な統計量の利用(続き)

文体 [Emigh]

記事をジャンルで分類しコーパス構築

文体の硬さを計測

複数の特徴量の融合 [Stvilla]

何を特徴量として用いるかよりも,どのように統

合するかが質の値に大きく影響

記事間のリンク [Bellomi, Wu]

Wikipedia 内で HITS や PageRank を利用!36

Page 38: Wikipedia における情報の質

残存率による方法

!37

Aの記述1

2

3

A

B C

編集者相互の関係

×○Aの記述

A

A

B

C

良質 = 多くの人から信頼されている編集履歴バージョン

B は A の記述を

残した

= B は A を信頼

C は A の記述を

削除した

= C は A を信頼せず

[Adler, Hu, Suzuki]

Page 39: Wikipedia における情報の質

二つの問題点計算時間がかかる

質算出する編集者を削減し計算時間を削減 [鈴木09]

30-40% の計算時間でほぼ精度が変化しない

悪質な編集者からの攻撃に弱い

多重アカウントによる攻撃 (Sybil Attack)

一度で行うべき編集を複数人で行っているかどう

かを検出 [Chatterjee ら]

質が高い記述を削除,低い記述を残存 (Zig-zag Attack)

編集者とテキストの質を交互に測定 [Suzuki 2013]!38

Page 40: Wikipedia における情報の質

Zig-zag Attack の解決

1.テキストの質を測定

2.編集者の質を測定

3.編集者の質を使ってテキストの質

を測定

4.テキストの質を使って編集者の質

を測定

5.収束するまで 3. と 4. を繰り返す

!39

×○

A’s text

B’s text B’s text

A

B C

Page 41: Wikipedia における情報の質

Zig-zag Attack の解決

1.テキストの質を測定

2.編集者の質を測定

3.編集者の質を使ってテキストの質

を測定

4.テキストの質を使って編集者の質

を測定

5.収束するまで 3. と 4. を繰り返す

!39

×○

A’s text

B’s text B’s text

A

B C

Page 42: Wikipedia における情報の質

自動的な手法の利点と欠点利点

客観的な質の測定が可能

人の意見が直接反映されにくい

欠点

人間による主観の利用が困難

質は人間の主観であるにも関わらず

文体を利用することによる解決

何に対して質を算出するのかも重要な論点

記述の一部,全体,編集者,…!40

Page 43: Wikipedia における情報の質

今後の研究展望

Page 44: Wikipedia における情報の質

今後の展望

質とは何かを測定する尺度は様々

Wikipedia内部で得られる情報を利用したものが主

Wikipedia以外の情報を利用することも考えられる

出典,…

より直感的な質の算出尺度の必要性

質を決める様々な要因の考慮

!42

Page 45: Wikipedia における情報の質

知識ベース構築への応用

Wikipedia で利用されている知識の範囲は少ない

InfoBox が主

全ての記述が正しいことが前提となっている

質が低い記述も多い

あまり書かれていない記事も多い

!43

質の算出手法と知識構築手法の融合を

Page 46: Wikipedia における情報の質

まとめ

Page 47: Wikipedia における情報の質

まとめ質とは何か

様々な定義

多くの人がどう思っているか,にどれだけ近いか

便利かどうか

Wikipedia とは

様々な調査 → 多くの人は信頼している

編集履歴,編集者のバイアスなどを可視化

編集を行う動機 : 内的自己概念を満たすため

内的自己概念 = 自分が思うWikipediaの姿!45

Page 48: Wikipedia における情報の質

まとめ質の測定手法

全て人手による方法

専門家によるサンプル調査

半自動的な手法

投票による方法

有用な投票かどうかを選別する必要

自動的な方法

統計量の利用

編集者相互の評価を利用!46

Page 49: Wikipedia における情報の質

@hello_yu_suzuki http://www.db.ss.is.nagoya-u.ac.jp/~suzuki/

ありがとうございました