Upload
toshikazu-inoue
View
436
Download
1
Embed Size (px)
DESCRIPTION
第16回図書館総合展におけるフォーラム「貸出履歴データ活用を考える」のプレゼンテーションです。講演のタイトルは「ビッグデータが検索の利便性を決める」です。
Citation preview
第16回図書館総合展日本電気株式会社主催フォーラム「貸出し履歴データ活用を考える」
ビッグデータが検索の利便性を決める
2014.11.07
ユニバーサルナレッジ株式会社
代表取締役 井上俊一
経歴
• エキサイト(1998-2004):CTO
• ヤフー(2004-2008):検索事業部長
• バイドゥ(2008-2010):代表取締役社長
• ユニバーサルナレッジ(2011-現在):代表取締役
• 1998年から現在まで16年間、検索の開発に携わっています。
• 「検索がECサイトの売上を決める」というコンセプトの元に大規模なECサイトに検索テクノロジーを提供しています。
2014.11.07 ユニバーサルナレッジー禁無断転載 2
1分で分かる検索のしくみ
• 良い検索って何だろう?
2014.11.07 ユニバーサルナレッジー禁無断転載 3
1分で分かる検索のしくみ
• Relevance, Freshness, Coverage
2014.11.07 ユニバーサルナレッジー禁無断転載 4
Relevance
Freshness
Coverage
1分で分かる検索のしくみ
• マッチングとランキング
–マッチング
• ユーザーの入力したクエリーを含む商品・書籍を選ぶこと
– ランキング
• 選んだ商品・書籍を並べ替えること
2014.11.07 ユニバーサルナレッジー禁無断転載 5
マッチング
ランキング
1分で分かる検索のしくみ
• テキストマッチだと何が悪いのか
– ランキングにマッチングスコアを用いる
–マッチングスコアはお客様の行動と無関係
–テキストが変わったときにスコアが変わる
– ランキングを操作したい時にテキストを編集してしまう
2014.11.07 ユニバーサルナレッジー禁無断転載 6
マッチング
マッチングスコア
1分で分かる検索のしくみ
• ユニナレのランキングはここが違う
– ランキングはお客様の行動で決まる
–商品が変わらなくてもランキングは毎日変わる
–季節性、人気が自動的に反映される
2014.11.07 ユニバーサルナレッジー禁無断転載 7
マッチング
ランキング=
お客様の行動
2014.11.07 ユニバーサルナレッジー禁無断転載 8
A社:掃除機
2014.11.07 ユニバーサルナレッジー禁無断転載 9
B社:掃除機
2014.11.07 ユニバーサルナレッジー禁無断転載 10
C社:掃除機
2014.11.07 ユニバーサルナレッジー禁無断転載 11
A社:加湿器
2014.11.07 ユニバーサルナレッジー禁無断転載 12
B社:加湿器
2014.11.07 ユニバーサルナレッジー禁無断転載 13
C社:加湿器
2014.11.07 ユニバーサルナレッジー禁無断転載 14
A社:空気清浄機
2014.11.07 ユニバーサルナレッジー禁無断転載 15
B社:空気清浄機
2014.11.07 ユニバーサルナレッジー禁無断転載 16
C社:空気清浄機
1分で分かる検索のしくみ
• 検索とはDiscoveryまたはRecovery
• 商品検索のほとんどはDiscovery
–お客様は専門知識を持っていない
• Relevance≒人気商品
2014.11.07 ユニバーサルナレッジー禁無断転載 17
KAIZENを回す
• 「新しいソリューション」では解決しない
• お客様の行動を見てそこから学習する
• ログを見る→仮説を立てる→アルゴリズムを改善する→テストする→ログを見る…
2014.11.07 ユニバーサルナレッジー禁無断転載 18
人的な運用が良いサービスのカギ
• 商品データ登録• 商品画像• カテゴリ構造• スペック• バリエーション• 後継商品• 中間テーブル• Keys• 同義語登録• 形態素解析辞書登録
2014.11.07 ユニバーサルナレッジー禁無断転載 19
人的な運用が良いサービスのカギ
• 良い検索とは…
テクノロジーとアートの融合
2014.11.07 ユニバーサルナレッジー禁無断転載 20
KAIZENサイクル
• アルゴリズム改善
• 相関性評価
– DCG(Discounted Cumulative Gain)
• バケットテスト
–テストバケットA:5%
–テストバケットB:5%
– コントロールバケット:5%
• 統計的な優位差の検証
2014.11.07 ユニバーサルナレッジー禁無断転載 21
Web検索の実際
• インプレッションとクリックの世界• お客様は満足したのか
– リテンション
• どんな指標が重要か– インプレッション– クリック– クリック率– バッドクリック率– アバンダン率– Click Yield– Time to Fist Click– Time to Last Click– Reciprocal Rank of Last Click
2014.11.07 ユニバーサルナレッジー禁無断転載 22
Web検索の実際
• 機械学習と大量のジャッジメント
• バケットテスト
• 広告売上とオーガニック検索の関係
– Click Yieldは短期的に増えない
– クリックの奪い合い
• 小規模なWeb検索は生き残れない
2014.11.07 ユニバーサルナレッジー禁無断転載 23
EC検索の実際
• 遅れているEC検索の世界– 購買データ利用なし(テキストマッチ)– バケットテストなし– 統計処理なし
• 購買データのシグナルの強さ• 検索利用者はコンバージョンが高い
– 検索非利用者:3.0%– 検索利用者: 7.2%(2.4倍)
• Amazonが優れているのはデータが多いから• ECサイトにテクノロジーを!
2014.11.07 ユニバーサルナレッジー禁無断転載 24
ECで利用しているデータ
• 実は簡単なECサイトの構造
• 全ての導線でログを取る
2014.11.07 ユニバーサルナレッジー禁無断転載 25
トップページ
リストページ (カテゴリ or検索)
カート
チェックアウト
クリック
クリック
クリック
ECで利用しているデータ
• リアルの購買データも利用する
• 実際にはデータがつかない商品が大半
–規模の大きなサイトだけがビッグデータのメリットを享受する(当たり前)
–専門家による紹介(おすすめ、レビュー)が大事
2014.11.07 ユニバーサルナレッジー禁無断転載 26
ユニナレについて
2014年9月のデータ
• 月間利用者数:2,152万UU
– Amazon4,800万UUの45%
• APIリクエスト数:5億4,124万
2014.11.07 ユニバーサルナレッジー禁無断転載 27
ユニナレのサービス構成
• ASPサービス
• データフィード
• タグログ
• API
• 個人情報は利用しない
2014.11.07 ユニバーサルナレッジー禁無断転載 28
API
タグ
お客様の行動
図書館で活用出来るデータは?
• 貸出履歴• 閲覧履歴• 予約• ウェブサイトのログ
– インプレッション– クリック– お気に入り– レビュー– シェア
• そもそも図書館システムのゴールは何か?• 規模を確保するにはどうすれば良いか?
2014.11.07 ユニバーサルナレッジー禁無断転載 29
2014.11.07 ユニバーサルナレッジー禁無断転載 30
http://www.slideshare.net/toshiinoue