19
Session 4: (I Can't Get No) Satisfaction 担当: デンソーアイティーラボラトリ 山本 SIGIR2014勉強会資料中の図は論文を引用しております。

Sigir2014勉強会 slideshare

  • Upload
    -

  • View
    154

  • Download
    2

Embed Size (px)

Citation preview

Session 4: (I Can't Get No) Satisfaction

担当: デンソーアイティーラボラトリ 山本

【SIGIR2014勉強会】

資料中の図は論文を引用しております。

Session 4: (I Can't Get No) Satisfaction 担当:山本光穂

発表論文} (1) Context-Aware Web Search Abandonment Prediction

Yang Song, Xiaolin Shi, Ryen W. White, Ahmed Hassan(Microsoft Research) } コンテキストを考慮したAbandonment query

(検索結果を一度もクリックしないクエリ)の予測

} (2) Impact of Response Latency on User Behavior in Web SearchIoannis Arapakis, Xiao Bai and B. Barla Cambazoglu(yahoo lab) } ウェブ検索における応答遅延のユーザ行動に対する影響

} (3) Towards Better Measurement of Attention and Satisfaction in Mobile SearchDmitry Lagun (Emory University), Chih-Hung Hsieh (Google), Dale Webster (Google), Vidhya Navalpakkam (Google) } モバイル検索における良い注視度及び満足度の計測手法

} (4) Modeling Action-level Satisfaction for Search Task Satisfaction PredictionHongning Wang(Department of Computer Science University of Illinois at Urbana-Champaign), Yang Song, Ming-Wei Chang, Xiaodong He, Ahmed Hassan, Ryen W. White(Microsoft Research) } 連続する検索タスクにおける各アクションの満足度の推定

2

Session 4: (I Can't Get No) Satisfaction 担当:山本光穂

Impact of Response Latency on User Behavior in Web SearchIoannis Arapakis, Xiao Bai and B. Barla Cambazoglu(yahoo lab)

3

} 研究背景・課題

} クエリーを入力しただけで、検索結果を一度もクリックしない検索が存在する

} 一方で、最近の検索システムでは必ずしも検索結果をクリックしなくてもユーザの満足度を満たす事が可能(good abandonment query)

} 天気予報/地図/KG/スニペット

} この研究のコントリビューション

} bad abandonment/bad abandonmentの調査

} クリックレベル・セッションレベルの大規模データを観察する

¨ query/session length and inter-query time等に特徴がでる。

} structured learning frameworkを利用したabandonment predictionモデルの提案

} svmを利用

} 提案モデルを利用した検索システムの適合率向上手法の提案

Session 4: (I Can't Get No) Satisfaction 担当:山本光穂

Towards Better Measurement of Attention and Satisfaction in Mobile Search (Dmitry Lagun (Emory University), Chih-Hung Hsieh (Google), Dale Webster (Google), Vidhya Navalpakkam (Google)

4

} 研究背景・課題

} mobile searchではKnowledge Graph(天気・人物情報)を提示する。

} KGは見るだけで情報(答え)を得ることができる →クリックログの入手が不可能→Relevanceの評価が難しい。

} 調査内容

} Satisfaction of Rich Results } KGを提示した/しない場合

KGがRelevant/Not Relevant

} Attention Measurement } mobile eye trackerを利用してユーザの注視点を追跡

Can Implicit User Metrics Indicate Answer Relevance?

• Page and Task metrics – Time on SERP– Number of Scrolls– Time on Task

• Gaze Metrics– Time on Rich Result (and %)– Total Time below Rich Result (and %)

• Viewport Metrics– Time on Rich Result (and %)– Total Time below Rich Result (and %)

Knowledge Graph

Result

8

User Study Details

• Participants– 24 users (diverse background, age, occupation)

• Mobile Eye Tracker Setup

• Calibration Directlyon Phone Screen

7

Results Summary

Attention MeasurementSatisfaction with Rich Results

28

%Gaze Time

%Vi

ewpo

rt T

ime

Viewport  ≈  Gaze(on mobile)

Pearson R = 0.69

Top half of the screen receives more Attention

“Short-Scroll”  effect

Granka et al., WWW 2004

DesktopMobile

Relevant Not Relevant

More results are viewed if Answer is Not

Relevant

No Impact on User Satisfaction when KG is Not

Relevant!

Session 4: (I Can't Get No) Satisfaction 担当:山本光穂

実験結果

5

KGがrelevantでない時はより多くの検索結果が閲覧される

ユーザのSatisfactionにはKGがRelevantでなくても影響を与えない

ユーザが注視している点と視線はほぼ一致する

画面の上側が 注視される傾向がある

モバイルは検索結果の一位が注視点ではない!!!

Session 4: (I Can't Get No) Satisfaction 担当:山本光穂6

Are attention patterns similar on desktop and mobile?

?

Granka et al., WWW 2004

?21

DeskTopでは注視点の時間はランキングに比例ではmobileでは?

Session 4: (I Can't Get No) Satisfaction 担当:山本光穂

【結論】

7

Viewing Time vs. Result Position

Granka et al., WWW 2004

On desktop:

Why?

22

【結論】ランキングに比例しない!!

Session 4: (I Can't Get No) Satisfaction 担当:山本光穂8

Short Scroll Effect

25

理由: shot scroll effect

Session 4: (I Can't Get No) Satisfaction 担当:山本光穂9

Short Scroll Effect

25

理由: shot scroll effect

Session 4: (I Can't Get No) Satisfaction 担当:山本光穂10

Short Scroll Effect

25

理由: shot scroll effect

Session 4: (I Can't Get No) Satisfaction 担当:山本光穂

Towards Better Measurement of Attention and Satisfaction in Mobile Search Hongning Wang(Department of Computer Science University of Illinois at Urbana-Champaign), Yang Song, Ming-Wei Chang, Xiaodong He, Ahmed Hassan, Ryen W. White(Microsoft Research)

11

} 研究背景・課題

} 従来の検索評価手法(クエリーベースの評価)は、与えられたクエリに対して如何に適合率が高いドキュメントを返せるかで評価

} 例えばタスクベースの評価等(e.g. ある研究テーマに対するサーベイ)には使えない。

Search  task  sa+sfac+on  predic+onが必要} この研究の特徴

} Search task satisfactionの推定に各アクションのsatisficationを推定

Q1 Q2 Q3 Q4 Q5

D21

D24

D31 D51

D54

START END

! !

!!

+

+

+

++

+

Session 4: (I Can't Get No) Satisfaction 担当:山本光穂

Towards Better Measurement of Attention and Satisfaction in Mobile Search Hongning Wang(Department of Computer Science University of Illinois at Urbana-Champaign), Yang Song, Ming-Wei Chang, Xiaodong He, Ahmed Hassan, Ryen W. White(Microsoft Research)

12

} 研究背景・課題

} 従来の検索評価手法(クエリーベースの評価)は、与えられたクエリに対して如何に適合率が高いドキュメントを返せるかで評価

} 例えばタスクベースの評価等(e.g. ある研究テーマに対するサーベイ)には使えない。

Search  task  sa+sfac+on  predic+onが必要} この研究の特徴

} Search task satisfactionの推定に各アクションのsatisficationを推定

Q1 Q2 Q3 Q4 Q5

D21

D24

D31 D51

D54

START END

! !

!!

+

+

+

++

+

■Problem  defini+on  Given  a  user  u's  search  task  t,  search-­‐task  sa2sfac2on  is  a  binary  label  yt:  yt  =1,  if  the  user's  informa2on  need  has  been  met  and  thus  resul2ng  a  sa2sfying  search  task;  otherwise  yt=0

Session 4: (I Can't Get No) Satisfaction 担当:山本光穂

既存研究(Search task satisfactionの推定)} Modeling task holistically [Feild et al. SIGIR'10, Kim

et al. WSDM’14] } Binary classifier with expressive features for predicting

task-level satisfaction !!

} Modeling individual user’s search behavior [Hassan et al. WSDM’10, Ageev et al. SIGIR'11] } Markov model for sequential search behaviors

13

Detailed(ac*on-level(sa*sfac*on(is(ignored(

No#discrimina,on#between#sa,sfying#and#unsa,sfying#ac,ons#

Session 4: (I Can't Get No) Satisfaction 担当:山本光穂14 SIGIR'2014  @  Gold  Coast

Q1 Q2 Q3 Q4 Q5

D21

D24

D31 D51

D54

START END

Rich  knowledge  conveyed  in  action-­‐level  satisfaction

• Estimation  of  URL  utility  [Georges  et  al.  WSDM’10]  

– 適合文章の認識    

• Estimation  of  query  quality  [White  et  al.  SIGIR’10]  

– クエリ修正の発見  

• Search  engine  performance  debugging  – 障害ターニングポイントの場所

-­‐

-­‐-­‐ +

-­‐

+

+

-­‐

+

+

2014/09/0214

Session 4: (I Can't Get No) Satisfaction 担当:山本光穂

Modeling  Ac+on-­‐level  Sa+sfac+on  for  Search  Task  

15

a1 a2 a3 an

h1 h2 h3 hn...

...

y

Start End

Short&range+features:""1.  #clicks,"#queries,"last"ac2on"2.  Dwell"2me,"query:URL"

match,"domain"

Long&range+features:""1.  existSatQ,"allSatQ"2.  ac2on"transi2ons"

Task%sa&sfac&on%

Ac&on%sa&sfac&on%(latent)%

Ac&ons%

Session 4: (I Can't Get No) Satisfaction 担当:山本光穂

Model training

• ωをSVMを利用し推定

!!!!

• マージン          は推定値    正解値                                

との差分誤差  

SIGIR'2014  @  Gold  Coast

Task  satisfaction  prediction  evaluation

• Evaluation  data  sets  – Toolbar  data  [Hassan  et  al.  CIKM’11]  

• Explicit  ratings  of  satisfaction  from  actual  IE  users  – “Find  It  if  You  Can”  game  [Ageev,  et  al.  SIGIR’11]  

• Controlled  experiment  with  editor-­‐annotated  action  &  task  satisfaction  labels  

– Search  log  data  • 4-­‐month  Bing  search  log

#  User   #  Tasks Length  of  task SAT/DSATToolbar  data 153 7306 5.2+/-­‐6.6 6.84:1

Contest  data 156 1487 6.2+/-­‐5.9 6.70:1

Search  Log 2.4M 7.7M 7.1+/-­‐11.8 -­‐2014/09/02

17

SIGIR'2014  @  Gold  Coast

Task-­‐level  satisfaction  prediction  performance

• Toolbar  data  set

Avg-­‐ T T AccuracyMML 0.707 0.897 0.518 0.830

LogiReg 0.740 0.918 0.563 0.861Session-­‐CRF 0.728 0.910 0.545 0.850

AcTS 0.761* 0.938* 0.584* 0.893*AcTS 0.739 0.924 0.554 0.868

*  Indicates  p-­‐value<0.01

Assumption:    action  satisfaction  =  task  satisfaction

2014/09/0218

MML : Markov Model Likelihood LogiReg :バイナリロジスティック回帰モデルSEssion-CRF: : action-level satisfaction labels equaled to the task-level label

SIGIR'2014  @  Gold  Coast

Task-­‐level  satisfaction  prediction  performance

• Contest  data  set

Avg-­‐ T T AccuracyMML 0.658 0.901 0.414 0.831

LogiReg 0.682 0.930 0.435 0.875Session-­‐CRF 0.685 0.921 0.449 0.862

AcTS 0.701* 0.934 0.469* 0.882AcTS 0.687 0.925 0.449 0.868

Labeled-­‐AcTS 0.649 0.945 0.352 0.899*  Indicates  p-­‐value<0.01

With  editor’s  action-­‐level  annotations

Assumption:    action  satisfaction  =  task  satisfaction

2014/09/0219