View
219
Download
2
Category
Tags:
Preview:
Citation preview
to retrieve or not to retrieve, that's the question
retrieval van wetenschappelijke informatie
eric sieverts
• wat er gebeurt in retrieval-land• nieuwe technieken• klassieke technieken• wat wel en niet wordt toegepast• de problematiek van grote bibliotheken• oplossingen?
to retrieve or not to retrieve, that's the question
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
wat er gebeurt in retrieval-land
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• dankzij het web is information retrieval in beweging • veel van de nieuwe ontwikkelingen zijn practische
toepassing van oude ideeën• vooral gericht op niet-gestructureerde informatie,
zoals web-pagina’s en tekstdocumenten• meer gericht op betere precisie dan op betere recall,
omdat Google uit 2,5 miljard moet kunnen selecteren• deel van “onze” gebruikers hecht ook wel degelijk
aan recall
toegepaste technieken betere precisie
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• probabilistische of andere techniek voor relevantie-ordening• hoe meer van gevraagde termen hoe beter (op web: alle termen)
• belang van termen in document (term-positie - in de titel, vooraan,
in koppen / relatieve termfrequentie - tfidf)
• gewenste term-relatie (term-afstand en -volgorde)
• probabilistische termgewichten (zeldzame termen belangrijker)
• populariteit=kwaliteit van document (aantal hyperlink verwijzingen,
gebruiks-/bezoek-frequentie)
toegepaste technieken betere precisie
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• probabilistische of andere techniek voor relevantie-ordening• hoe meer van gevraagde termen hoe beter (op web: alle termen)
• belang van termen in document (term-positie - in titel, vooraan, in
koppen - / relatieve termfrequentie - tfidf)
• gewenste term-relatie (term-afstand en -volgorde)
• probabilistische termgewichten (zeldzame termen belangrijker)
• populariteit=kwaliteit van document (aantal hyperlink
verwijzingen, gebruiks-/bezoek-frequentie)wel goed bij Google, maar misschien niet zo goed toepasbaar voor wetenschappelijke artikelen ?
toegepaste technieken betere precisie
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren
• al verkregen zoekresultaat clusteren in betekenissen / contexten• uit al verkregen zoekresultaat afleiden van suggesties voor
termen om te preciseren / in te perken
custom search folders
toegepaste technieken betere precisie
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)
voor onderscheiden van betekenissen (disambigueren)woorden in omgeving van term in document matchen met nabije termen in semantisch netwerk
toegepaste technieken betere precisie
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)
voor onderscheiden van betekenissen (disambigueren)• relevance feedback: verder zoeken op basis van als relevant
aangemerkte resultaten(nu of later) verder zoeken op woorden of “patronen” uit aangevinkte resultaten uit voorgaande vraag
(ook : query-by-example / more-like-this)
toegepaste technieken betere precisie
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)
voor onderscheiden van betekenissen (disambigueren)• relevance feedback: verder zoeken op basis van als relevant
aangemerkte resultaten• relevance feedback: aanpassen van term-probabilistiek
woorden uit relevante documenten krijgen hoger gewicht bij berekening van relevantie-volgordes
toegepaste technieken betere precisie
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• probabilistische of andere techniek voor relevantie-ordening• statistiek / kennisregels voor preciseren en/of disambigueren• semantische kennis (koppeling aan semantisch netwerk)
voor onderscheiden van betekenissen (disambigueren)• relevance feedback: verder zoeken op basis van als relevant
aangemerkte resultaten• relevance feedback: aanpassen van term-probabilistiek• opgebouwde gebruikersprofielen
relevance feedback, monitoren zoekgedrag, ingebracht interesseprofielbut how about privacy ?
toegepaste technieken betere recall
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• (morfologische) stemming van woordenin document en in query:
computer, computers, computing, computation, … comput
community, communism, communication, ………. commun ??
toegepaste technieken betere recall
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• (morfologische) stemming van woorden• fuzzy zoeken
morfologie morphologieduivendak duijvendak, duitenzak, ...kok kop, kak, …
toegepaste technieken betere recall
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• (morfologische) stemming van woorden• fuzzy zoeken• zoekvraag uitbreiden met synoniemen / verwante termen
ontleend aan semantisch netwerk
(of aan thesaurus, of aan ontologie?)
visualisatievan “wordnet”
toegepaste technieken betere recall
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• (morfologische) stemming van woorden• fuzzy zoeken• zoekvraag uitbreiden met synoniemen / verwante termen
ontleend aan vocabulair• zoekvraag uitbreiden met synoniemen / verwante termen
afgeleid uit documenten in zoekresultaat statistische analyse van kenmerkende termen uit documenten in eerder zoekresultaat
eventueel ook via relevance feedback - alleen uit als relevant gemarkeerde documenten
toegepaste technieken betere recall
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• (morfologische) stemming van woorden• fuzzy zoeken• zoekvraag uitbreiden met synoniemen / verwante termen
ontleend aan vocabulair• zoekvraag uitbreiden met synoniemen / verwante termen
afgeleid uit documenten in zoekresultaat • suggesties voor (meer) correcte spelling van zoekterm
klassieke technieken
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• gebruik maken van structuur van documentenklassiek: velden,
nieuw: xml-elementen,
nieuw: kenmerkende paragrafen uit full-text document (doelstelling, methode, conclusies)
• gebruik van classificaties en thesauri o.a. voor recall-verbetering door o.a. generiek zoeken
wat wel en niet wordt toegepast
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
waar
wat
bibliografische databases
full-text artikelen
het web
nieuwe vrijwel niet beperkt vrij veel
klassieke vaak wel beperkt vrijwel niet
de problematiek van grote bibliotheken
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases
de problematiek van grote bibliotheken
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases
in Utrecht bijna 6000 digitale tijdschriften
de problematiek van grote bibliotheken
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases
in Utrecht bijna 6000 digitale tijdschriften
• bijna alle bronnen met eigen zoekinterface en functionaliteit
de problematiek van grote bibliotheken
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• voor gebruikers te veel afzonderlijke bronnen te doorzoekenin Utrecht bijna 200 databases
in Utrecht bijna 6000 digitale tijdschriften
• bijna alle bronnen met eigen zoekinterface en functionaliteit• veel interfaces met uitgebreide / complexe functionaliteit
(is dat wel allemaal ergonomisch verantwoord?)
huidige oplossingen voor grote bibliotheken
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• geïntegreerde toegang via uniform eenvoudig interface(one-stop-shopping)
centrale index- eigen keuze geavanceerde zoek-
machine / retrieval software - vaak nog probleem met indexeren
van extern opgeslagen data- problemen met niet-uniforme
gecontroleerde ontsluiting
meta-search / portal- extern en lokaal beschikbare
retrieval systemen bevraagd met enkele query (via Z39.50, http, ...)
- geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies
- problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting
indexer
internet
document text files
central index
searchintegrated system:local central index solution
indexing-rules fortargets
full-text links
document text files
muscat / verity / autonomy / ...
internet
document text files
central index
searchintegrated system:local central index solution
indexing-rules fortargets
full-text links
document text files
huidige oplossingen voor grote bibliotheken
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• geïntegreerde toegang via uniform eenvoudig interface
centrale index- eigen keuze geavanceerde zoek-
machine / retrieval software - vaak nog probleem met indexeren
van extern opgeslagen data- problemen met niet-uniforme
gecontroleerde ontsluiting
meta-search / portal- extern en lokaal beschikbare
retrieval systemen bevraagd met enkele query (via Z39.50, http, ...)
- geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies
- problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting
internet
searchintegrated system:metasearch /portal solution
index
files
search
query-generator / result-collector
index
search
index
search
index index index
Z39.50
Z39.50 Z39.50
internal api
http http xml
Z39.50 http
configurationdata fortargets
search search search
files
files files files files
internet
searchintegrated system:metasearch /portal solution
index
files
search
metalib / iPort / zPortal / muse / ...
index
search
index
search
index index index
Z39.50
Z39.50 Z39.50
internal api
http http xml
Z39.50 http
configurationdata fortargets
search search search
files
files files files files
huidige oplossingen voor grote bibliotheken
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• geïntegreerde toegang via uniform eenvoudig interface
centrale index- eigen keuze geavanceerde zoek-
machine / retrieval software - vaak nog probleem met indexeren
van extern opgeslagen data- problemen met niet-uniforme
gecontroleerde ontsluiting
meta-search / portal- extern en lokaal beschikbare
retrieval systemen bevraagd met enkele query (via Z39.50, http, ...)
- geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies
- problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting
oplossingen voor grote bibliotheken
Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
• geïntegreerde toegang (one-stop-shopping principe)
• via uniform eenvoudig interface (als "Google")
• met geavanceerde retrieval-techniek
• met behoud van gebruik van gecontroleerde ontsluiting
wel al
soms wel
nauwelijks
vrijwel niet
Recommended