Upload
-
View
154
Download
2
Embed Size (px)
Citation preview
Session 4: (I Can't Get No) Satisfaction 担当:山本光穂
発表論文} (1) Context-Aware Web Search Abandonment Prediction
Yang Song, Xiaolin Shi, Ryen W. White, Ahmed Hassan(Microsoft Research) } コンテキストを考慮したAbandonment query
(検索結果を一度もクリックしないクエリ)の予測
} (2) Impact of Response Latency on User Behavior in Web SearchIoannis Arapakis, Xiao Bai and B. Barla Cambazoglu(yahoo lab) } ウェブ検索における応答遅延のユーザ行動に対する影響
} (3) Towards Better Measurement of Attention and Satisfaction in Mobile SearchDmitry Lagun (Emory University), Chih-Hung Hsieh (Google), Dale Webster (Google), Vidhya Navalpakkam (Google) } モバイル検索における良い注視度及び満足度の計測手法
} (4) Modeling Action-level Satisfaction for Search Task Satisfaction PredictionHongning Wang(Department of Computer Science University of Illinois at Urbana-Champaign), Yang Song, Ming-Wei Chang, Xiaodong He, Ahmed Hassan, Ryen W. White(Microsoft Research) } 連続する検索タスクにおける各アクションの満足度の推定
2
Session 4: (I Can't Get No) Satisfaction 担当:山本光穂
Impact of Response Latency on User Behavior in Web SearchIoannis Arapakis, Xiao Bai and B. Barla Cambazoglu(yahoo lab)
3
} 研究背景・課題
} クエリーを入力しただけで、検索結果を一度もクリックしない検索が存在する
} 一方で、最近の検索システムでは必ずしも検索結果をクリックしなくてもユーザの満足度を満たす事が可能(good abandonment query)
} 天気予報/地図/KG/スニペット
} この研究のコントリビューション
} bad abandonment/bad abandonmentの調査
} クリックレベル・セッションレベルの大規模データを観察する
¨ query/session length and inter-query time等に特徴がでる。
} structured learning frameworkを利用したabandonment predictionモデルの提案
} svmを利用
} 提案モデルを利用した検索システムの適合率向上手法の提案
Session 4: (I Can't Get No) Satisfaction 担当:山本光穂
Towards Better Measurement of Attention and Satisfaction in Mobile Search (Dmitry Lagun (Emory University), Chih-Hung Hsieh (Google), Dale Webster (Google), Vidhya Navalpakkam (Google)
4
} 研究背景・課題
} mobile searchではKnowledge Graph(天気・人物情報)を提示する。
} KGは見るだけで情報(答え)を得ることができる →クリックログの入手が不可能→Relevanceの評価が難しい。
} 調査内容
} Satisfaction of Rich Results } KGを提示した/しない場合
KGがRelevant/Not Relevant
} Attention Measurement } mobile eye trackerを利用してユーザの注視点を追跡
Can Implicit User Metrics Indicate Answer Relevance?
• Page and Task metrics – Time on SERP– Number of Scrolls– Time on Task
• Gaze Metrics– Time on Rich Result (and %)– Total Time below Rich Result (and %)
• Viewport Metrics– Time on Rich Result (and %)– Total Time below Rich Result (and %)
Knowledge Graph
Result
8
User Study Details
• Participants– 24 users (diverse background, age, occupation)
• Mobile Eye Tracker Setup
• Calibration Directlyon Phone Screen
7
Results Summary
Attention MeasurementSatisfaction with Rich Results
28
%Gaze Time
%Vi
ewpo
rt T
ime
Viewport ≈ Gaze(on mobile)
Pearson R = 0.69
Top half of the screen receives more Attention
“Short-Scroll” effect
Granka et al., WWW 2004
DesktopMobile
Relevant Not Relevant
More results are viewed if Answer is Not
Relevant
No Impact on User Satisfaction when KG is Not
Relevant!
Session 4: (I Can't Get No) Satisfaction 担当:山本光穂
実験結果
5
KGがrelevantでない時はより多くの検索結果が閲覧される
ユーザのSatisfactionにはKGがRelevantでなくても影響を与えない
ユーザが注視している点と視線はほぼ一致する
画面の上側が 注視される傾向がある
モバイルは検索結果の一位が注視点ではない!!!
Session 4: (I Can't Get No) Satisfaction 担当:山本光穂6
Are attention patterns similar on desktop and mobile?
?
Granka et al., WWW 2004
?21
DeskTopでは注視点の時間はランキングに比例ではmobileでは?
Session 4: (I Can't Get No) Satisfaction 担当:山本光穂
【結論】
7
Viewing Time vs. Result Position
Granka et al., WWW 2004
On desktop:
Why?
22
【結論】ランキングに比例しない!!
Session 4: (I Can't Get No) Satisfaction 担当:山本光穂
Towards Better Measurement of Attention and Satisfaction in Mobile Search Hongning Wang(Department of Computer Science University of Illinois at Urbana-Champaign), Yang Song, Ming-Wei Chang, Xiaodong He, Ahmed Hassan, Ryen W. White(Microsoft Research)
11
} 研究背景・課題
} 従来の検索評価手法(クエリーベースの評価)は、与えられたクエリに対して如何に適合率が高いドキュメントを返せるかで評価
} 例えばタスクベースの評価等(e.g. ある研究テーマに対するサーベイ)には使えない。
Search task sa+sfac+on predic+onが必要} この研究の特徴
} Search task satisfactionの推定に各アクションのsatisficationを推定
Q1 Q2 Q3 Q4 Q5
D21
D24
D31 D51
D54
START END
! !
!!
+
+
+
++
+
Session 4: (I Can't Get No) Satisfaction 担当:山本光穂
Towards Better Measurement of Attention and Satisfaction in Mobile Search Hongning Wang(Department of Computer Science University of Illinois at Urbana-Champaign), Yang Song, Ming-Wei Chang, Xiaodong He, Ahmed Hassan, Ryen W. White(Microsoft Research)
12
} 研究背景・課題
} 従来の検索評価手法(クエリーベースの評価)は、与えられたクエリに対して如何に適合率が高いドキュメントを返せるかで評価
} 例えばタスクベースの評価等(e.g. ある研究テーマに対するサーベイ)には使えない。
Search task sa+sfac+on predic+onが必要} この研究の特徴
} Search task satisfactionの推定に各アクションのsatisficationを推定
Q1 Q2 Q3 Q4 Q5
D21
D24
D31 D51
D54
START END
! !
!!
+
+
+
++
+
■Problem defini+on Given a user u's search task t, search-‐task sa2sfac2on is a binary label yt: yt =1, if the user's informa2on need has been met and thus resul2ng a sa2sfying search task; otherwise yt=0
Session 4: (I Can't Get No) Satisfaction 担当:山本光穂
既存研究(Search task satisfactionの推定)} Modeling task holistically [Feild et al. SIGIR'10, Kim
et al. WSDM’14] } Binary classifier with expressive features for predicting
task-level satisfaction !!
} Modeling individual user’s search behavior [Hassan et al. WSDM’10, Ageev et al. SIGIR'11] } Markov model for sequential search behaviors
13
Detailed(ac*on-level(sa*sfac*on(is(ignored(
No#discrimina,on#between#sa,sfying#and#unsa,sfying#ac,ons#
Session 4: (I Can't Get No) Satisfaction 担当:山本光穂14 SIGIR'2014 @ Gold Coast
Q1 Q2 Q3 Q4 Q5
D21
D24
D31 D51
D54
START END
Rich knowledge conveyed in action-‐level satisfaction
• Estimation of URL utility [Georges et al. WSDM’10]
– 適合文章の認識
• Estimation of query quality [White et al. SIGIR’10]
– クエリ修正の発見
• Search engine performance debugging – 障害ターニングポイントの場所
-‐
-‐-‐ +
-‐
+
+
-‐
+
+
2014/09/0214
Session 4: (I Can't Get No) Satisfaction 担当:山本光穂
Modeling Ac+on-‐level Sa+sfac+on for Search Task
15
a1 a2 a3 an
h1 h2 h3 hn...
...
y
Start End
Short&range+features:""1. #clicks,"#queries,"last"ac2on"2. Dwell"2me,"query:URL"
match,"domain"
Long&range+features:""1. existSatQ,"allSatQ"2. ac2on"transi2ons"
Task%sa&sfac&on%
Ac&on%sa&sfac&on%(latent)%
Ac&ons%
Session 4: (I Can't Get No) Satisfaction 担当:山本光穂
Model training
• ωをSVMを利用し推定
!!!!
• マージン は推定値 正解値
との差分誤差
SIGIR'2014 @ Gold Coast
Task satisfaction prediction evaluation
• Evaluation data sets – Toolbar data [Hassan et al. CIKM’11]
• Explicit ratings of satisfaction from actual IE users – “Find It if You Can” game [Ageev, et al. SIGIR’11]
• Controlled experiment with editor-‐annotated action & task satisfaction labels
– Search log data • 4-‐month Bing search log
# User # Tasks Length of task SAT/DSATToolbar data 153 7306 5.2+/-‐6.6 6.84:1
Contest data 156 1487 6.2+/-‐5.9 6.70:1
Search Log 2.4M 7.7M 7.1+/-‐11.8 -‐2014/09/02
17
SIGIR'2014 @ Gold Coast
Task-‐level satisfaction prediction performance
• Toolbar data set
Avg-‐ T T AccuracyMML 0.707 0.897 0.518 0.830
LogiReg 0.740 0.918 0.563 0.861Session-‐CRF 0.728 0.910 0.545 0.850
AcTS 0.761* 0.938* 0.584* 0.893*AcTS 0.739 0.924 0.554 0.868
* Indicates p-‐value<0.01
Assumption: action satisfaction = task satisfaction
2014/09/0218
MML : Markov Model Likelihood LogiReg :バイナリロジスティック回帰モデルSEssion-CRF: : action-level satisfaction labels equaled to the task-level label
SIGIR'2014 @ Gold Coast
Task-‐level satisfaction prediction performance
• Contest data set
Avg-‐ T T AccuracyMML 0.658 0.901 0.414 0.831
LogiReg 0.682 0.930 0.435 0.875Session-‐CRF 0.685 0.921 0.449 0.862
AcTS 0.701* 0.934 0.469* 0.882AcTS 0.687 0.925 0.449 0.868
Labeled-‐AcTS 0.649 0.945 0.352 0.899* Indicates p-‐value<0.01
With editor’s action-‐level annotations
Assumption: action satisfaction = task satisfaction
2014/09/0219