30
16回図書館総合展 日本電気株式会社主催フォーラム 「貸出し履歴データ活用を考える」 ビッグデータが検索の利便性を決める 2014.11.07 ユニバーサルナレッジ株式会社 代表取締役 井上俊一

20141107 図書館総合展 ユニバーサルナレッジ_講演資料

Embed Size (px)

DESCRIPTION

第16回図書館総合展におけるフォーラム「貸出履歴データ活用を考える」のプレゼンテーションです。講演のタイトルは「ビッグデータが検索の利便性を決める」です。

Citation preview

Page 1: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

第16回図書館総合展日本電気株式会社主催フォーラム「貸出し履歴データ活用を考える」

ビッグデータが検索の利便性を決める

2014.11.07

ユニバーサルナレッジ株式会社

代表取締役 井上俊一

Page 2: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

経歴

• エキサイト(1998-2004):CTO

• ヤフー(2004-2008):検索事業部長

• バイドゥ(2008-2010):代表取締役社長

• ユニバーサルナレッジ(2011-現在):代表取締役

• 1998年から現在まで16年間、検索の開発に携わっています。

• 「検索がECサイトの売上を決める」というコンセプトの元に大規模なECサイトに検索テクノロジーを提供しています。

2014.11.07 ユニバーサルナレッジー禁無断転載 2

Page 3: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

1分で分かる検索のしくみ

• 良い検索って何だろう?

2014.11.07 ユニバーサルナレッジー禁無断転載 3

Page 4: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

1分で分かる検索のしくみ

• Relevance, Freshness, Coverage

2014.11.07 ユニバーサルナレッジー禁無断転載 4

Relevance

Freshness

Coverage

Page 5: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

1分で分かる検索のしくみ

• マッチングとランキング

–マッチング

• ユーザーの入力したクエリーを含む商品・書籍を選ぶこと

– ランキング

• 選んだ商品・書籍を並べ替えること

2014.11.07 ユニバーサルナレッジー禁無断転載 5

マッチング

ランキング

Page 6: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

1分で分かる検索のしくみ

• テキストマッチだと何が悪いのか

– ランキングにマッチングスコアを用いる

–マッチングスコアはお客様の行動と無関係

–テキストが変わったときにスコアが変わる

– ランキングを操作したい時にテキストを編集してしまう

2014.11.07 ユニバーサルナレッジー禁無断転載 6

マッチング

マッチングスコア

Page 7: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

1分で分かる検索のしくみ

• ユニナレのランキングはここが違う

– ランキングはお客様の行動で決まる

–商品が変わらなくてもランキングは毎日変わる

–季節性、人気が自動的に反映される

2014.11.07 ユニバーサルナレッジー禁無断転載 7

マッチング

ランキング=

お客様の行動

Page 8: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

2014.11.07 ユニバーサルナレッジー禁無断転載 8

A社:掃除機

Page 9: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

2014.11.07 ユニバーサルナレッジー禁無断転載 9

B社:掃除機

Page 10: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

2014.11.07 ユニバーサルナレッジー禁無断転載 10

C社:掃除機

Page 11: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

2014.11.07 ユニバーサルナレッジー禁無断転載 11

A社:加湿器

Page 12: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

2014.11.07 ユニバーサルナレッジー禁無断転載 12

B社:加湿器

Page 13: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

2014.11.07 ユニバーサルナレッジー禁無断転載 13

C社:加湿器

Page 14: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

2014.11.07 ユニバーサルナレッジー禁無断転載 14

A社:空気清浄機

Page 15: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

2014.11.07 ユニバーサルナレッジー禁無断転載 15

B社:空気清浄機

Page 16: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

2014.11.07 ユニバーサルナレッジー禁無断転載 16

C社:空気清浄機

Page 17: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

1分で分かる検索のしくみ

• 検索とはDiscoveryまたはRecovery

• 商品検索のほとんどはDiscovery

–お客様は専門知識を持っていない

• Relevance≒人気商品

2014.11.07 ユニバーサルナレッジー禁無断転載 17

Page 18: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

KAIZENを回す

• 「新しいソリューション」では解決しない

• お客様の行動を見てそこから学習する

• ログを見る→仮説を立てる→アルゴリズムを改善する→テストする→ログを見る…

2014.11.07 ユニバーサルナレッジー禁無断転載 18

Page 19: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

人的な運用が良いサービスのカギ

• 商品データ登録• 商品画像• カテゴリ構造• スペック• バリエーション• 後継商品• 中間テーブル• Keys• 同義語登録• 形態素解析辞書登録

2014.11.07 ユニバーサルナレッジー禁無断転載 19

Page 20: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

人的な運用が良いサービスのカギ

• 良い検索とは…

テクノロジーとアートの融合

2014.11.07 ユニバーサルナレッジー禁無断転載 20

Page 21: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

KAIZENサイクル

• アルゴリズム改善

• 相関性評価

– DCG(Discounted Cumulative Gain)

• バケットテスト

–テストバケットA:5%

–テストバケットB:5%

– コントロールバケット:5%

• 統計的な優位差の検証

2014.11.07 ユニバーサルナレッジー禁無断転載 21

Page 22: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

Web検索の実際

• インプレッションとクリックの世界• お客様は満足したのか

– リテンション

• どんな指標が重要か– インプレッション– クリック– クリック率– バッドクリック率– アバンダン率– Click Yield– Time to Fist Click– Time to Last Click– Reciprocal Rank of Last Click

2014.11.07 ユニバーサルナレッジー禁無断転載 22

Page 23: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

Web検索の実際

• 機械学習と大量のジャッジメント

• バケットテスト

• 広告売上とオーガニック検索の関係

– Click Yieldは短期的に増えない

– クリックの奪い合い

• 小規模なWeb検索は生き残れない

2014.11.07 ユニバーサルナレッジー禁無断転載 23

Page 24: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

EC検索の実際

• 遅れているEC検索の世界– 購買データ利用なし(テキストマッチ)– バケットテストなし– 統計処理なし

• 購買データのシグナルの強さ• 検索利用者はコンバージョンが高い

– 検索非利用者:3.0%– 検索利用者: 7.2%(2.4倍)

• Amazonが優れているのはデータが多いから• ECサイトにテクノロジーを!

2014.11.07 ユニバーサルナレッジー禁無断転載 24

Page 25: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

ECで利用しているデータ

• 実は簡単なECサイトの構造

• 全ての導線でログを取る

2014.11.07 ユニバーサルナレッジー禁無断転載 25

トップページ

リストページ (カテゴリ or検索)

カート

チェックアウト

クリック

クリック

クリック

Page 26: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

ECで利用しているデータ

• リアルの購買データも利用する

• 実際にはデータがつかない商品が大半

–規模の大きなサイトだけがビッグデータのメリットを享受する(当たり前)

–専門家による紹介(おすすめ、レビュー)が大事

2014.11.07 ユニバーサルナレッジー禁無断転載 26

Page 27: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

ユニナレについて

2014年9月のデータ

• 月間利用者数:2,152万UU

– Amazon4,800万UUの45%

• APIリクエスト数:5億4,124万

2014.11.07 ユニバーサルナレッジー禁無断転載 27

Page 28: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

ユニナレのサービス構成

• ASPサービス

• データフィード

• タグログ

• API

• 個人情報は利用しない

2014.11.07 ユニバーサルナレッジー禁無断転載 28

API

タグ

お客様の行動

Page 29: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

図書館で活用出来るデータは?

• 貸出履歴• 閲覧履歴• 予約• ウェブサイトのログ

– インプレッション– クリック– お気に入り– レビュー– シェア

• そもそも図書館システムのゴールは何か?• 規模を確保するにはどうすれば良いか?

2014.11.07 ユニバーサルナレッジー禁無断転載 29

Page 30: 20141107 図書館総合展 ユニバーサルナレッジ_講演資料

2014.11.07 ユニバーサルナレッジー禁無断転載 30

http://www.slideshare.net/toshiinoue