35
Why Do Users in Real Life Use Short Queries? Kal Jarvelin [email protected] joint work with: H Keskustalo, A Pirkola, T Sharma, M Lykke Nielsen

Yandex'10 kal-slides

Embed Size (px)

Citation preview

Page 1: Yandex'10 kal-slides

Why Do Users in Real Life Use Short Queries?

Kal [email protected] work with: H Keskustalo, A Pirkola,T Sharma, M Lykke Nielsen

Page 2: Yandex'10 kal-slides

A Quick Answer

Because …they are good enoughand effortless

But how to show that?

Page 3: Yandex'10 kal-slides

Outline

1. Introduction2. Study Design

Research QuestionTest EnvironmentExperimental Protocol

3. Experimental Results4. Conclusions

Page 4: Yandex'10 kal-slides

44

Introduction

Traditional test collection­based IR:methods compared based on result qualitytopical relevanceone query per topicverbose queries(long) lists of retrieved documentsoften binary relevance with low threshold

Page 5: Yandex'10 kal-slides

5

Introduction

On the contrary, real searchershave various interaction strategies / expectationsconsider beyond­topical relevanceuse more than one query, if needed, in sessionsshort queries (Jansen & al., 2000)unstructured queries (Ruthven, 2008)may or may not avoid sequences of  topically non­relevant documents (Azzopardi, 2007); wantfew, but good, documents (Järvelin & al., 2008)

Page 6: Yandex'10 kal-slides

6

The Present Talk ...

... brings opposing views closer together:Session simulation in a test collection

topical sessions (up to 5 queries per topic)idealized session strategies (3+1)short queries (including 1­word sequences)short browsing (10­document) windowtask to find one (highly) relevant document§ but other search goals can be assumed

Page 7: Yandex'10 kal-slides

7

Research Question

What is the effectiveness ofa session of short queriescompared to one verbose [TREC] query?

Page 8: Yandex'10 kal-slides

8

Test Environment

TREC 7­8 collection41 topics528 155 documentsgraded relevance judgments (highly, fairly,marginally relevant, and non­relevantdocuments)

Lemur retrieval systemQuery keys collected from test persons

Page 9: Yandex'10 kal-slides

9

Experimental Protocol

Obtaining search keysSession strategiesSimulated session constructionRetrieval protocol

Page 10: Yandex'10 kal-slides

10

Collecting Search Keys

7+7 test personsIntellectual analysis of 41 topicsEach topic analyzed twice: once by astudent (Group A), and once by a staffmember (Group B)The task was to identify good search keysVarious session scenarios were employed

Page 11: Yandex'10 kal-slides

11

An Example

Topic number: 351Description:

What information is available on petroleumexploration in the South Atlantic near theFalkland Island

Narrative:Any document discussing petroleum explorationin the South Atlantic near the Falkland Islandsis considered relevant.

Page 12: Yandex'10 kal-slides

12

Session Strategy S1

One­word queries onlyJansen & al., (2000); Stenmark (2008)Lykke & al. (2009) (employed 21 times in the 60 real­live sessions)

Example:falkland →exploration →island →petroleum →

Page 13: Yandex'10 kal-slides

13

Session Strategy S2

Incremental query extensionOne word added if the query failsLykke & al. (13 times of 60 real­life sessions)

Example:petroleum →petroleum exploration →petroleum exploration south →petroleum exploration south atlantic

Page 14: Yandex'10 kal-slides

14

Session Strategy S3

”Variations on a theme of two words”2 fixed keys; 3rd key is variedLykke & al. (in 38 of 60 real­live sessions)

Example:petroleum exploration south →petroleum exploration atlantic →petroleum exploration falkland → …

Page 15: Yandex'10 kal-slides

15

Session Strategy S4

One verbose [TREC] query (title +description)

traditional baseline

Example:falkland petroleum exploration informationavailable petroleum exploration south atlanticfalkland island

Page 16: Yandex'10 kal-slides

Simulations

Instead of real interactive sessions weperformed session simulation

Search keys chosen randomly from the pool foreach topicChosen keys arranged to consecutive queriesaccording to the four strategiesPerson assumed to scan the first page and stopat the first marginal/highly relevant doc.

Page 17: Yandex'10 kal-slides

17

Retrieval Protocol

Construct query sessions for each strategyRetrieve Top­10 documents using eachindividual query (Top­50 for S4)Determine whether / how rapidly eachquery sequence succeeds/fails

Page 18: Yandex'10 kal-slides

18

Results

Page 19: Yandex'10 kal-slides

Succ

ess 

of s

trat

egie

sS1

­S4

by in

divi

dual

 top

ics

Liberal Relevance Stringent RelevanceS1 S2 S3 S4 S1 S2 S3 S4

Topic# A B A B A B _ A B A B A B _351 1 2 5 1 3 1 1 1 2 5 1 3 1 1353 1 1 1 1 1 1 1 ­ ­ 2 2 ­ 1 1355 1 2 1 1 1 1 1 1 2 1 1 1 1 1358 1 1 1 1 2 1 1 1 1 1 1 2 1 1360 1 2 1 1 1 1 1 2 2 3 3 2 1 1362 1 1 1 1 1 1 1 1 1 1 1 ­ 3 1364 1 1 1 1 1 1 1 1 1 1 1 1 1 1365 3 1 1 2 1 1 1 3 1 1 2 1 1 1372 5 2 1 1 1 1 1 ­ ­ 2 2 1 2 1373 1 1 1 1 1 1 1 1 1 1 1 1 1 1377 2 ­ 1 ­ 1 ­ 1 2 ­ 1 ­ 1 ­ 1378 ­ ­ 3 3 1 1 1 ­ ­ ­ ­ ­ ­ ­384 2 1 1 1 1 1 1 ­ ­ 4 3 2 1 2385 ­ ­ 2 2 1 1 1 ­ ­ 2 2 2 1 1387 1 1 1 1 1 2 1 2 1 2 2 1 2 1388 2 3 4 3 1 1 1 ­ ­ ­ ­ ­ ­ 4392 2 1 1 1 1 1 1 2 1 1 1 3 1 1393 2 1 1 1 1 1 1 2 1 1 1 1 1 3396 1 3 2 1 1 1 1 1 3 2 1 1 1 1399 4 ­ 2 1 1 ­ 1 ­ ­ 4 2 1 ­ 2400 4 2 2 1 1 1 1 4 2 2 1 2 1 1402 1 1 2 1 1 1 1 ­ 1 2 1 ­ 1 1403 1 1 1 1 1 1 1 1 1 1 1 1 1 1405 1 2 3 1 1 2 1 ­ ­ ­ ­ 3 ­ 2407 1 1 1 1 1 1 1 2 1 1 1 1 1 1408 2 1 1 1 1 1 1 ­ ­ 2 3 2 1 1410 3 2 1 1 1 1 1 3 2 1 1 1 1 1414 ­ ­ 3 2 1 1 1 ­ ­ ­ ­ ­ ­ ­415 3 1 2 1 1 1 1 ­ ­ 2 5 1 1 1416 3 1 1 1 1 1 1 3 1 1 1 1 1 1418 2 2 1 1 1 1 1   2 2 1 1 1 1 1420 1 1 1 2 1 1 1 1 1 1 2 1 1 1421 1 2 1 3 1 1 1 ­ ­ 2 3 1 1 1427 2 2 1 1 2 1 1 2 4 ­ ­ ­ ­ 4428 2 1 1 1 1 1 1 3 1 1 1 1 1 1431 2 3 1 1 1 1 1 2 1 1 1 1 1 1437 ­ ­ 2 3 2 ­ 3 ­ ­ ­ ­ ­ ­ ­440 ­ ­ 2 2 3 2 1 ­ ­ 2 2 5 ­ 5442 1 ­ 1 2 1 1 1 ­ ­ ­ ­ ­ ­ ­445 3 ­ 1 1 1 3 1 ­ ­ 2 4 1 4 1448 ­ ­ 2 2 1 1 1 ­ ­ ­ ­ ­ ­ ­

19

Page 20: Yandex'10 kal-slides

Count of successful sessions (max = 41),Liberal relevance threshold

0

5

10

15

20

25

30

35

40

 S1 A S1 B S2 A S2 B S3 A S3 B S4

Session strategy and test group

# Sessions

20

Page 21: Yandex'10 kal-slides

Count of successful sessions (max = 38),Stringent relevance threshold

0

5

10

15

20

25

30

35

S1 A S1 B S2 A S2 B S3 A S3 B S4

Session strategy and test group

# Sessions

21

Page 22: Yandex'10 kal-slides

22

Statistical significance

Friedman’s test by the ordinal of success.Similar results for group A and B and forliberal and stringent relevance.Significant pairwise differences (p=0.01) asfollows:

S1 differs from S2, S3, S4S2 differs from S4S3 does not differ significantly from S4

Page 23: Yandex'10 kal-slides

S1: Cumulative success (%)

0

10

20

30

40

50

60

70

1 2 3 4 5

Query ordinal

Perc

ent

S1 Group AS1 Group B

23

Page 24: Yandex'10 kal-slides

S2: Cumulative success (%)

0102030405060708090

100

1 2 3 4 5

Query ordinal

Per

cent S2 Group A

S2 Group B

24

Page 25: Yandex'10 kal-slides

S3: Cumulative success (%)

0

1020

30

4050

60

7080

90

1 2 3 4 5

Query ordinal

Perc

ent

S3 Group AS3 Group B

25

Page 26: Yandex'10 kal-slides

S4: Cumulative success (%)

0102030405060708090

100

1 2 3 4 5

Ordinal of 10­document page inspected

Perc

ent

S4 Baseline

26

Page 27: Yandex'10 kal-slides

Non­session view: single best of all S1 querygenerations compared to S4 baseline

0

5

10

15

20

25

30

S1  S4

Session strategy

Per

cent

P@10

27

Page 28: Yandex'10 kal-slides

Non­session view: single best of all S1 querygenerations compared to S4 baseline

0

5

10

15

20

25

S1 S4

Session strategy

Perc

ent

AP / 38 topics

28

Page 29: Yandex'10 kal-slides

Effort Expected number of search keysassuming various strategies

0

2

4

6

8

10

12

14

16

18

S1 S2 S3 S4

# Search keys toenter

29

Effort forequallevel ofsuccess:# searchkeys

Page 30: Yandex'10 kal-slides

Effort Expected number of queries to launch tofind one relevant document

0

0,5

1

1,5

2

2,5

3

3,5

4

S1 S2 S3 S4

# Queries to enter

30

Effort forequallevel ofsuccess:#queries

Page 31: Yandex'10 kal-slides

31

Discussion

Another way to look at the success of IRmotivated by observed user behavior:

short query sessionsshort browsingto find a few good documents.

Log studies justify simulationsShort­queries are good enough and easy

even if inferior when used individually

Page 32: Yandex'10 kal-slides

32

Conclusions

Test collection­based IR evaluation could beextended to:

include multiple­query sessionsfocus on how the system is used§ querying/browsing strategies (interaction)§ in relation to user’s specific goals

focus, in evaluation, on user viewpoint§ strategies serving a particular goal§ simulation approach for repeatability + control

Page 33: Yandex'10 kal-slides

33

Conclusions

Session simulations:a promising approach to study the limits of theeffectiveness of various system usesfindings can be verified with real users§ but our results motivate the observed real user behavior

A prospect for search training:recognize QM patterns of userssimulate themmeasure session success from user point­of­view for a”satisfactory result”

Page 34: Yandex'10 kal-slides

Acknowledgement

This research was supported by the Academy of Finlandgrants #120996 and #124131.Reference:Keskustalo, H. & Järvelin, K. & Pirkola, A. & Sharma, T. &Lykke Nielsen, M. (2009). Test Collection­Based IREvaluation Needs Extension Toward Sessions ­ A Case ofExtremely Short Queries. In: Lee, G. & al., Proceedings ofAIRS 2009, Sapporo, Japan, October 2009. Heidelberg:Springer, LNCS vol. 5839, pp. 63­74 .

Page 35: Yandex'10 kal-slides

Thank you!