If you can't read please download the document
Upload
panda-panda
View
70
Download
9
Embed Size (px)
Citation preview
INFORMACIJSKA ZNANOST
1
INFORMACIJSKA ZNANOST
INFORMACIJSKA ZNANOST = disciplina koja se bavi procesima pohranjivanja i prijenosa obavijesti
Razliita terminologija, suglasnost da se: informacijska znanost bavi nastajanjem, prikupljanjem, organizacijom, tumaenjem, pohranjivanjem, pretraivanjem, diseminacijom, preoblikom i uporabom obavijesti, s naglaskom na primjeni modernih tehnologija u ovom podruju.
OBAVIJEST osnovni fenomen prouavanja informacijske znanosti
RELEVANTNOST (svrhovitost) kljuni pojam za interpretaciju komunikacijskih procesa kljuni pojam za prosudbu informacijske djelotvornosti (prakse) i najvaniji teorijski pojam za procjenu razmjene obavijesti i razumijevanje komunikacijskog procesa
UVOD U ORGANIZACIJU ZNANJA I DOHVAANJE INFORMACIJA(organization of knowledge and information retrieval)
Organizacijom znanja uzrokovana je rastom koliine znanjapotreba za organizacijom znanja proporcionalna je koliini raspoloivog znanja
Za organizaciju znanja nuna je njezina svrha
moe biti radi samog reda organizacije, ali najvanije je omoguiti da pohranjenu informaciju moemo kasnije to lake dohvatiti
Organizacija znanja i dohvaanje informacija dijelovi su istog procesa
Kljuna stvar u procesu organizacije znanja jest sistem organizacije (kriterij po kojemu sistem organizira i trai informaciju)
On mora biti takav da ga korisnik poznaje ili da ga barem moe naslutiti
Neke temeljne definicije:Organizirati (to organize) oblikovati u organsku cjelinu, dati neemu strukturu
Znanje (knowledge) poznatost dobivena iskustvom, opseg informacija, teorijsko i praktino razumijevanje
Dohvatiti (to retrieve) dobiti pomou pretraivanja
Informacija (information) pojedini predmet znanja
Dokument zabiljeeno znanje, informacija ili kreativan izraaj;
ORGANIZACIJA ZNANJA UZDIUE PERSPEKTIVE
Sadraj
Razvoj konteksta
Proirenje koncepta
Vanost organizacije znanja
Vrijednost organizacije znanja
Razvoj konteksta
Skup podataka nije informacija
Skup informacija nije znanje
Skup znanja nije mudrost
Skup mudrosti nije istina
Podatak bez konteksta ima slabo ili nikakvo znaenje. Podaci mogu initi informaciju, no je li to informacija ovisi o znanju onoga tko je opaa.
Informacija je, jednostavno, razumijevanje odnosa meu podacima ili meu podacima i drugim informacijama.
Kada postoji uzorak odnosa meu podacima i informacijama, uzorak ima potencijal da predstavlja znanje. Dodue, postaje znanje samo kada je promatra sposoban shvatiti i razumjeti uzorke i njihove implikacije.
Mudrost izrasta kada promatra razumije osnovne principe odgovorne za to da su uzorci koji predstavljaju znanje ono to jesu.
Informacija je vezana uz opis, definiciju, ili perspektivu (to, tko, kada, gdje).
Znanje sadri strategiju, praksu, metodu, ili pristup (kako).
Mudrost ini princip, uvid, moral, ili ablonu (zato).
Proirenje koncepta
Uimo povezivanjem informacija prema uzorcima koje ve razumijemo. Time proirujemo uzorke.
PODACI, INFORMACIJE, ZNANJE I MUDROST
PODACI
Simboli bez znaenja. Oni samo postoje, to moe biti ili korisno ili beskorisno.
INFORMACIJE
Simboli u vezi, sa znaenjem. Njihovo znaenje moe biti bilo beskorisno bilo korisno. To je konkretna veza injenica u konkretnome svijetu.
ZNANJE
Skup informacija s ciljem korisnosti, primjene, no ogranieno je time to zahtjeva razumijevanje.
RAZUMIJEVANJE
Kognitivni i analitiki proces kojim sintetiziramo pohranjenje informacije i znanje, te i samo razumijevanje u neko novo znanje.
MUDROST
Nadilazi raumijevanje temeljei se na savjesnosti ovjeka. Najvia je granica odgovor na pitanje zato, no mudrost to ne pita ona razumijeva principe, te postavlja i prosuuje odgovore koji nemaju konkretan odgovor
UPRAVLJANJE SPISIMA, DOKUMENTIMA I SADRAJIMA
Spisi i dokumenti
Dokument je definiran kao informacija, sauvana na papiru, skenirana ili elektronika koja se moe mjenjati
Spis je definirana kao dokument ili druga informacija koja nije podlona promjenama
Definicija menamenta spisa je: Planiranje kontroliranje, ureivanje i svako drugo upravljane spisima
Svaki spis ima tri ciklusa ivotaStvaranje ili primanjeOdravanje i koritenjeRjeavanje
Preslikavanje dokumenta
Preslikavanje dokumenta (document imaging) dolazi u upetrebu kad kompanije prerastu papirnate sustave i trebaju neto s jednostavnijim pristupom
Prebacivanje dokumenta na mikrofilm ili elektroniki format je preslikavanje dokumenta
Postoje etri osnovne komponente pri preslikavanju dokumenta
Input, Indeksiranje, Spremanje, Izvlaenje
Upravljanje sadrajem
Postoje dva naina upravljanja sadrajem oba validna
Strukturirati sve (knjiniki pristup) postaviti markere, etikete, keywords i opise na sve. Destruktuirati sve.
INFORMACIJA KAO PREDMET
lMoemo definirati tri osnovna naina upotrebe rijei INFORMACIJA:
lInformacija kao proces
= informacija predstavlja sam in informiranja; prenoenje znanja ili novosti o nekoj injenici ili dogaaju
lInformacija kao znanje
=priopeno znanje vezano za neku odreenu injenicu, predmet ili dogaaj
l Informacija kao predmet
=predmeti koji mogu biti informativni, odnosno dokumenti
Obrada informacija
lObrada informacija (information processing): baratanje, manipuliranje i dobivanje novih oblika ili verzija informacije kao predmeta.
.Tipovi informacija
lpodaci
ltekstovi i dokumenti
lobjekti
ldogaaji
lPODACI - Informacija kao predmet koja je procesirana na neki nain za upotrebu -uobiajeno oznaava zapise spremljene na kompjutoru
lTEKSTOVI I DOKUMENTI - Termin dokument obino oznaava tekstove, tonije predmete koji sadre tekst
lOBJEKTI- Objekti, koji nisu dokumenti u uobiajenom smislu poput teksta, ipak mogu biti izvori informacija, informacija kao predmet. Oni se sakupljaju, pohranjuju, pretrauju i pregledavaju kao informacije , kao osnova za informiranje.
TO JE DOKUMENT?
Dokument kao generiki pojam oznaava bilo koji fiziki izvor informacija, a nije ogranien samo na predmete s tekstom na specifinim medijima poput papira, papirusa ili mikrofilma.
Objekti nisu dokumenti sami po sebi ve to postaju kada su procesirani u informativnu svrhe. Oni moraju biti reprezentativni za neto, odnosno informativni.
Dogaaji
lDogaaji su informativni fenomeni te bi trebali biti ukljueni u svaki pristup informacijskoj znanosti
lRazlikujemo tri tipa uporabe dokaza o dogaajima
l1) PREDMETI dokazi koji se daju sakupiti i predstaviti (mrlja krvi u tepihu, otisak stopala u pijesku)
l2) OPISI DOGAAJA fotografije, memoari, novinski izvjetaji
l3) UMJETNO STVORENI (KREIRANI) ILI REKREIRANI DOGAAJI ako se dogaaj ne moe pohraniti onda ga je potrebno tako izvesti da ga i drugi mogu ponovo izvesti (esto se koristi u eksperimentalnim znanostima)
.
Kopije informacija
Kopije: tipovi razliiti primjerci informacije
tokeni isti primjerci informacije
Elektronike baze podataka razlikuju dvije vrste kopija: privremene i trajne.
Interpretacije i saeci dokaza
lVeina informacija u informacijskim sustavima je bila obraena na neki nain: kodiranjem, interpretacijom, saimanjem, ili nekim drugim oblikom transformacije.
lTakve informacije nazivamo prikazima informacija
Karakteristike prikaza informacija
l1) svaki prikaz informacijaje je vie ili manje nepotpun
l2) prikazi informacija su stvoreni radi praktinosti
l3) radi praktinosti rukovanja njima, informacije esto prelaze iz oblika dogaaja ili objekta u tekstualni ili podatkovni oblik
l4) prikazima informacija se mogu pridruiti neke druge informacije vezane uz predmet
l5) prikazi informacija se mogu nastaviti u beskonanost.
l6) Radi lakeg rukovanja prikazi infomracija su esto manjeg opsega od originalnog predloka.
MUZEJI, ARHIVI I KNJINICE: OTUENI SRODNICI
Muzeji, arhivi i knjinice
Danas su knjinice, arhivi i muzeji kao kulturne institucije dio jedne znanstvene discipline; tri podruja s jednom svrhom: sakupljanje i uvanje naeg kulturnog naslijea informacija s ciljem edukacije javnosti.
Zajedniki cilj muzeja, arhiva i knjinica
Muzeji, arhivi i knjinice dijele mnoge ciljeve.
Muzeji, arhivi i knjinice brinu za zbirke i organiziraju ih; to su institucije koje katalogiziraju, uvaju i interpretiraju nau povijest kao i zabiljeenu povijest drugih kultura i vremena.
Sline svakodnevne obaveze
Tehnologija i digitalizacija
Muzeji, arhivi i knjinice imaju sline tehnoloke potrebe: upotrebljavaju kompjutere, katalogiziraju, oznaavaju, indeksiraju materijale te upotrebljavaju iste baze podataka.
Kako se poveava upotreba kompjutorske tehnologije u muzejima, arhivima i knjinicama, razlike izmeu tih triju institucija se smanjuju.
Oni postaju lokalno dostupni jedinstvenim pristupom preko Interneta.
STRUKTURA I GENEZA INFORMACIJSKIH SUSTAVA
(1. DIO)
Temeljno pitanje kompjuterizacije je svrsishodnost zato se neto radi pomou raunala, a tek onda kako neto ostvariti
1. INFORMACIJSKI SUSTAV
Informacijski sustav (IS) je organizirana cjelina informacijskih djelatnosti i odnosa (informacijsko-dokumentacijsko-komunikacijskih) organizacija, slubi, institucija i informacijske kulture = mrea informac. djelatnosti (arhivske, muzejske, bibliotene i dokumentacijske), slubi i odnosa
Informacijska djelatnost je sastavni dio cjelokupne drutvene djelatnosti, a od drugih djelatnosti se razlikuje svojim funkcijama, organizacijom i korisnicima
2. STRUKTURA INFORMACIJSKOG SUSTAVA
Struktura informacijskog sustava = unutranji raspored elemenata, njihov sastav, poredak i odnosi u informacijskom sustavu
4 initelja informac. sustava, tj. strukture IS:
INFORMACIJSKI SUBJEKTI
organizacije koje se bave inform., dokument. i komunikac. djelatnou (muzeji,biblioteke,arhivi...), informatika drutva, znanstvene jedinice, instituti, fakulteti, pojedinci
INFORMACIJSKA KULTURA sklop drutveih vrijednosti, ponaanje korisnika i pravila ponaanja IS
OPREMA materijalna osnova IS, tehnika pomagala i medij
SREDINA INFORMACIJSKOG SUSTAVA
3. INFORMACIJSKA DJELATNOST I SREDINA
Na informacijski sustav djeluju i uvjetuju ga vanjski faktori (politiki, ekonomski, kulturni itd.) koji ine sredinu informacijskog sustava
STRUKTURA I GENEZA INFORMACIJSKIH SUSTAVA2. DIO
- Informacijski subjekti konstituiraju se kao specifine i samostalne organizacije i slube ne samo u funkciji kulture kao dijela drutva ve drutva u cjelini
- Informacijska kultura nije podkultura neke specifine djelatnosti, ve postaje dio ope drutvene kulture
Sredstva ili oprema su orue za obradu, uvanje, pretraivanje i koritenje dokumenata
Ona se oblikuju spoznajama, vrijednostima i pravilima informacijske kulture
Informacijska kultura je kriterij za izbor sredstava da bi se zadovoljili opi drutveni ciljevi i interesi
Tri pristupa informacijskom sustavu
Teite pri stvaranju i razvijanju IS moe biti na:
1.ORGANIZACIJI
2.INSTITUCIONALIZACIJI
3. SUSTAVU VRIJEDNOSTI
PRETRAIVANJE INFORMACIJA U ZNANSTVENOJ LITERATURI
Klasifikacija znanstvene literature
Znanstvena literatura openito se dijeli na primarne, sekundarne i tercijarne izvore informacija koje treba znati razlikovatiPojedini asopisi mogu obuhvaati vie ovakvih kategorija, dok u nekima, ovisno o ciljanoj publici, nalazimo samo jednu
Primarna literatura
nUkljuuje svu znanstvenu literaturu koja predstavlja nove znanstvene injenice i ideje kao i rezultate novih znanstvenih istraivanja
nLiteraturu toga tipa piu znanstvenici koji su sami napravili istraivanje, no ona moe sadravati i kritike te analize koje unapreuju nove koncepte i stajalita o podacima dobivenima od drugih
nTakva literatura objavljuje se u asopisima na akademskoj razini, a u najire cijenjenim asopisima lanci su kritiki ocijenjeni od drugih znanstvenika prije publikacije
Sekundarna literatura- Ukljuuje saetke rezultata i ideja preuzetih iz primarne literature
- Namijenjena znanstvenicima koji posjeduju znanje o odreenoj temi
- Izvori informacija uvijek citirani takvi lanci su dobra mjesta za poetak pretraivanja informacija o temi koja nas zanima
Tercijarna literatura
nOpenito namijenjena potrebama neznanstvene publike
nIzvori informacija ovdje nisu citirani, moe biti ukljuena jedino bibliografija o tematski povezanim tekstovima
3. Prirunici mogu posluiti kao izvori poetnih informacija o odreenoj temi, no esto sadre netonosti i previe pojednostavljena objanjenja te su stoga neprihvatljivi kao izvori informacija u istraivakom radu
4. Enciklopedije kao i prirunici, mogu pomoi u upoznavanju s temom, no takoer neprihvatljive kao izvor informacija u istraivakom radu
Siva literatura
Postoji mnogo materijala koji nije lako klasificirati neki od njih pripadaju onome to znanstvenici nazivaju sivom literaturomUkljuuje mnoge publikacije vezane uz Vladu materijal moe varirati od raznih broura do detaljnih znanstvenih studija Vladinih znanstvenika (ili sveuilinih istraivanja pod nadzorom Vlade)Ta istraivanja mogu imati sve osobine primarnih izvora informacija, osim to ne podlijeu kritikom ocjenjivanju (postoje iznimke)
PRETRAIVANJE INFORMACIJA U ZNANSTVENOJ LITERATURI
osnovni koraci u pretraivanju znanstvene literature :
koritenje tercijarne literature radi dobivanja osnovnih podataka i referencidobar popis kljunih rijeipretraga raunalog katalogaupotreba raunalno vezanih indeksa koritenje citirane literature
IZVORI DOSTUPNI NA RAUNALU :
ALATI ZA PRETRAIVANJE :
godinji indeks pojedinanih asopisaznanstveni indeks citataelektroniki centar asopisa
BIBLIOMETRIJA
Bibliometrija
to je podruje koje razvija istraivake metode koje se koriste u bibliotekarstvu i informacijskoj znanostibibliometrijske metode vrednovanja se koriste u istraivanjima kako bi se odredio utjecaj jednog autora ili da se opiu odnos izmeu dva autora ili djela
Zakoni bibliometrije:
Lotkin zakon znanstvene produktivnostiBradfordov zakon distribucije lanakaZipfov zakon uestalosti rijei
Lotkin zakon
Opisuje uestalost publiciranja odreenog autora u zadanom polju On glasi: OBRNUTO PROPORCIONALAN KVADRATU TOG BROJA LANAKA. broj autora koji napiu n lanaka obrnuto je proporcionalan kvadratu tog broja lanaka (1/n2 )
Bradfordov zakon
slui bibliotekarima kao vodi u odluivanju broja kljunih asopisa u nekom poljuprema njemu se asopisi u jednom polju mogu podijeliti u 3 grupe s istim brojem lanaka:1. zona: prva se razina sastoji od manjeg broja temeljnih asopisa o odreenoj temi, koji sadre 1/3 svih lanaka o temi - druga razina sadri isti broj lanaka kao i prva, ali vei broj asopisa (oko 5 puta vie). Matematika veza izmeu broja asopisa u prvoj zoni je konstanta n a u drugoj n2
trea razina sadri takoer isti broj lanaka, ali i jo vei broj asopisa nego u drugoj zoni
Zipfov zakon
Koristi se za predvianje uestalosti pojavljivanja rijei unutar nekog teksta
r x f = k
r redni broj rijei f frekvencija ili uestalost pojavljivanja u tekstu k konstanta
Analiza citata
koristi razliite metode analize citata radi uspostavljanja odnosa izmeu autora i njihovih djelaKada jedan autor citira drugog, odnos meu njima je uspostavljenAnaliza citata koristi se i da bi se ustvrdilo koliko je puta neki autor citiran
Uparivanje citatima
To je metoda koja se koristi za uspostavu tematske slinosti izmeu 2 dokumentaAko su dokumenti A i B citirani u C, tad se moe rei da su oni meusobno povezani, iako direktno ne citiraju jedan drugog
Bibliografsko uparivanje
To je zrcalna slika sparivanja citatimaPovezuje 2 dokumenta koji citiraju isti lanak ( A i B citiraju C)Ta dva dokumenta su tada povezana iako ne citiraju jedan drugog
Dolazi do razvoja bibliometrije na Internetu- webometrija
Webometrija se koristi kako bi se prouile veze izmeu razliitih stranica na Internetu
BIBLIOGRAFIJA
Tiskani popis dokumenata koji sadri formalni opis tih dokumenata, tj. popis dokumenata s njihovim bibliografskim opisomTo je abecedni popis svih materijala koritenih u izradi nekog rada
Po svom obliku moe biti:
Najee tiskane forme:
Knjige i asopisiSastavni dijelovi knjigaPrilozi u asopisima
Bibliografije se mogu razlikovati:
Po sadraju, predmetu, opsegu, vremenu i metodama obrade, svrsi, obliku i nainu rasporeda grae
Bibliografije mogu biti:
Ope ili specijalneInternacionalne, nacionalne, pokrajinske ili lokalnePosebne (strune, predmetne)Retrospektivne, tekue ili kumulativnePopisne, opisne, analitike ili kritikeIscrpne ili selektivnePrimarne ili sekundarneAbecedne, kronoloke ili tematsketo ukljuuje bibliografija?
AutoraNaslovMjesto izdavanjaIzdavaaDatum izdavanjaPaginaciju (za lanke iz magazina, asopisa, novina, enciklopedija ili antologija)
to je anotirana bibliografija?
Raspraviti autorov povod pisanja bibliografijeRaspraviti sve zakljuke koje je autor donioOpisati vlastitu reakciju na jedinicu kritiki osvrt
Koja je namjera anotirane bibliografije?
Pregled literature na pojedinom predmetuIlustrirati kvalitetu istraivanja koje smo proveliOpisati druge jedinice na istu temu koje bi mogle zanimati itateljaProiriti predmet za daljnje istraivanje
Anotacija
Kratak komentar, objanjenje dokumenta ili njegova sadrajaNe sadri podatke koji su u naslovu ili se mogu iz njega zakljuitiSlui za bolje razumijevanje naslova bez obzira na odreene potrebe korisnikaOpisna je, ne sadri potpune reeniceObino je pisana u odlomku do 150 rijei
Anotacije i saetci (abstract)
Saetci su u potpunosti deskriptivni i esto ih moemo pronai na poetku znanstvenih lanaka ili u periodikim indeksimaAnotacije su deskriptivne i kritike, izraavaju autorovo stajalite, jasnou i prikladnost izraza, te autoritet
CITIRANI RADOVI, REFERENCE I BIBLIOGRAFIJA - U EMU JE RAZLIKA?
REFERENCE = CITIRANI RADOVI
CITIRANI RADOVI BIBLIOGRAFIJA
Citirani radovi - lista citataBibliografija - popis cjelokupnog materijala koritenog u pripremi eseja, bez obzira jesu li citati uope koriteni
Kod Internet stranica koristi se URL adresa kao referenca za unos imena u abecedni popis npr.: www.theyellowpages.com
ZAPAMTI
Ne numeriraj unose.Ne radi odvojeni popis citata po kategorijama. Sve reference su unesene u JEDAN ABECEDNI POPIS po prvim rijeima citata, bez obzira od kuda citati potjeu.
PISANJE BIBLIOGRAFIJE
Citiranje s Interneta
Internet
autor"naslov lanka, Web stranice ili site-anaslov publikacijeurednik ili projekt ako nije oitooznaiti tip materijala (slika, oglas, intervju, fotografija)datum lanka i datum posljednje promjene web stranice (ili datum slanja za email)sponzor web stranice ili web sjeditadatum pristupa web stranici Potpuni URL (Uniform Resource Locator) u uglatoj zagradi
KONTROLIRANI RJENIK
TO JE KONTROLIRANI RJENIK?
Kontrolirani rjenik je organizirana lista rijei, fraza i sustava biljeenja koja se koristi za poetno oznaavanje sadraja a zatim i za njegovo pronalaenje putem navigacije ili pretraivanja
To znai da je kontrolirani rjenik tip metabaze koji funkcionira kao podskup prirodnoga jezika, ali koji nije jednak svakodnevnome govoru (Amy Warner)
NEKONTROLIRANI RJENIK
Koristi se prirodnim jezikom u dokumentu i jednak je prirodnom jeziku korisnika
Upotrebom nekontroliranoga rjenika (uncontrolled vocabulary; UV) bit e ukljueni samo oni termini koje je uveo korisnik
EKVIVALENTNE VEZE
Odreene kategorije ili lanci na stranici mogu imati viestruka imena
preferirani termin (preffered term) - automobil
varijantni termin - kola
U mnogim situacijama jedan termin zamjenjuje drugi alternativni termin:
SINONIMI= razliite rijei sa istim znaenjem (npr. glazba i muzika)
HOMONIMI= rijei koje zvue isto ali imaju razliito znaenje (npr.luk i luk)
SPAJANJE SKRAENICA sa cijelom rijei (npr. NY i New York)
Dva tipa sinonimske ekvivalencije:
nSINONIMSKI PRSTEN
nAUTORITETNI DOKUMENTI
Sinonimski prsten je put prema spajanju varijantnih termina za pojam
HIJERARHIJSKI ODNOSI
prikazuju hijerarhijsku postavu meusobno povezanih pojmova
Oni su u CV-u prikazani pomou NT-a (uih pojmovima) i BT-a (irih pojmovima),te varijantnih termina (USE i USE FOR) vezanima uz primarni pojam naega pretraivanja
Taksonomija je postala standardni pojam za opis hijerarhijskih odnosa, kao to je prikazano na slici:
ASOCIJATIVNI ODNOSI
Pojmovi meusobno ili zasebno stvaraju veze (asocijacije) na druge pojmove
U tezaurusima se nalazi prikaz odnosa izmeu NT-a i BT-a, ali i prikaz njima srodnih pojmova (RT-a)
STVARANJE KONTROLIRANOG RJENIKA
Stvaranje kontroliranog rjenika
imbenici o kojima ovisimosadraj- to su termini sliniji, treba biti paljiv ciljan pri odabiru - paziti na usklaenost termina
tehnologija- alati - koji emo program upotrijebiti za obradu termina- integracija - kako e K.R. biti integriran sa ostalim dijelovima sustava
korisnici -K.R. je usmjeren prema korisnicima - moramo razumjeti korisnike prije odreivanja terminaodravanje - potrebna je struna osoba
2Sakupljanje termina - cilj je pronai odgovarajui termin koji e imati najvie uspjeha kod korisnika/pretraivanja- dvije metode
Pogled prema unutra- alternativni termini koje moemo upotrijebiti za svaki predmet
Pogled prema van- uiti od drugih- iskoristiti mogunost posuivanja
UNIVERZALNA DECIMALNA KLASIFIKACIJA
Dokumetacijski jezici za obradu dokumenata
Za indeksiranje, pohranjivanje i pretraivanje koristimo se dokumentacijskim jezicima
DOKUMENTACIJSKI JEZICI- umjetni jezici koji se koriste u informacijskim sustavima i slubama, i to za indeksiranje, pohranjivanje i pretraivanje
INDEKSIRANJE-(engl. indexing-izrada indeksa, kazala)
pod indeksiranjem se podrazumjeva skup naela, metoda, postupaka i njihovih primjena u informacijskom procesu kojima se dokumentu dodjeljuju termini(kjune rijei), radi opisivanja njihova sadraja i njihovog kasnijeg ponovnog pronalaenja
PRETRAIVANJE-(engl. retrieval- pronalaenje)-djelatnost ili metode i postupci za pronalaenje informacija iz zbirki ili datoteka pomou danih deskriptora (kljueva ili oznaka), a prema postavljenom zahtjevu korisnika
Tri su glavna tipa dokumentacijskih jezika:
Hijerarhijski i/ili facentni klasifikacijski sustavi
(Kontrolirane) Liste termina
Tezaurusi
KLASIFIKACIJSKI SUSTAVI- dijele se na univerzalne, specijalizirane i orijentirane prema zadatku
-najpoznatija je Univerzalna decimalna klasifikacija (UDK), Deweyeva decimalna klasifikacija, BSO (sistem irokog razvrstavanja)
DECIMALNA KLASIFIKACIJA (DDK)
Engl. Decimal classification
Koristi se decimalnom notacijom
Pronaao ga ameriki bibliotekar Melvil Dewey,a 1876. ga je prvi put publicirao pod tim naslovom
Dewey je podijelio znanje na deset grupa, a onda jo svaku grupu na deset podgrupa itd.
1895. preuzeo je Meunarodni bibliografski institut iz Bruxellesa, obogatio ga pomonim tablicama za oznaavanje jezika,oblika,mjesta,rase i naroda,vremena te ga nazvao UNIVERZALNA DECIMALNA KLASIFIKACIJA
Danas je DDK uveden u mnoge knjinice SAD-a i Velike Britanije
Preveden je na 9 europskih jezika,te kineski i japanski
UNIVERZALNA DECIMALNA KLASIFIKACIJA(UDK)
Engl. Universal decimal classification
Najraireniji i najpoznatiji biblioteni klasifikacijski sustav,primjenjuje se svugdje u svijetu, izradila ju je grupa strunjaka pod vodstvom Paula Otleta
Kao podloga za izradu UDK posluila je preraena Deweyeva decimalna klasifikacija
Razlog pojave UDK bila je potreba novoosnovanog Meunarodnog bibliografskog instituta (1895) za klasifikacijskim sustavom koji e obuhvaati sva podruja znanosti i biti uporabljiv na meunarodnoj razini
UDK obuhvaa:
GLAVNE TABLICE - sadre brojeve kojima se dokumenti klasificiraju prema sadraju- svaki UDK broj se nalazi u glavnim tablicama
POMONE TABLICE donose popis opih pomonih znakova koji oznaavaju karakteristike to se ponavljaju (opi pomoni znakovi mogu se odnositi na jezik, oblik, mjesto, vrijeme, rase i nacionalnosti )
ABECEDNI PREDMETNI INDEKS omoguuje laku uporabu i pronalaenje potrebnih UDK brojeva za klasificiranje
OSOBITOSTI UDK:
Zastupljenost svih podruja znanosti(vie od 100 000 strunih oznaka)
Naelo decimalne podjele, koje omoguuje neogranienu podjelu na podskupove
Uporabu iskljuivo numerikih oznaka koje se lako pamte, a nisu barijera u raznim jezinim podrujima
Postojanje razgraenog sustava pomonih brojeva
Primjena naela sintetskih oznaka
Mogunost uvrtavanja neogranienog broja dokumenata na svakoj razini podjela
PREDNOSTI UDK:
Univerzalnost
Mogunost meunarodne uporabe
Decimalni sustav oznaka
Dobro funkcioniranje nacionalnih i internacionalnih ustanova odgovornih za njezino odravanje
Zato je UDK jo glavni meunarodno prihvaeni sustav klasifikacije dokumenata u knjinicama i specijalnim knjinicama
U Hrvatskoj se sve ili veina javnih, narodnih, kolskih knjinica te Nacionalna i sveuilina knjinica najee koriste sustavom UDK - za odlaganje i pretraivanje
INFORMATION BROKERS
Definicija pojma
Relativno nov pojam
Odnosi se na pojedince ili organizacije plaene za obavljanje informacijskih usluga, izmeu ostalog nabavu informacija i njihovu prodaju klijentima. (Informatian broking= trgovanje informacijama).
Definicija inf. brokinga koju je razvila EIRENE-a: Inf. broking je opi pojam za osobu ili organizaciju koja ugovorno osigurava korisniku informacijske usluge.
Zanimanje je nastalo iz potrebe da pojedinci ili tvrtke dou do potrebnnih inf. na to bri i efikasniji nain.
Inf. brokere zovu jo i: inf. consultant (inf. savjetnik), freelance librarian (neovisni knjiniar), inf. retailer (trgovac informacijama), cybrarian (cyber-librarian)...
Postoje 2 kategorije slubi za inf. broking:
1) slube koje vode neovisni brokeri (tvrtke ili pojedinci) esto su specijalizirani za odreena podruja
2) slube u sklopu veih institucija ili organizacija (npr. knjinica ili neprofitnih org.) trokovi nabave inf. se pokrivaju iz lanarina
Nisu tako usko specijalizirane kao neovisne slube
Usluge koje pruaju inf. brokeri
Zavise od tvrtke ili pojedinca i od potreba klijenata
Ukljuuju praenje razvoja trita, nadziranje konkurenata i pronalaenje potencijalnih poslovnih partnera (Najee traene inf. su one o pojedinim tvrtkama i o istraivanjima trita).
Usluge koje brokeri pruaju mogu se podijeliti u 2 kategorije:
a) pretraivanje inf. ( information retrievaling)
b) organizacija inf. (information organisation)
a) pretraivanje informacija
Skup aktivnosti iji je cilj pronai klijentu eljenu inf.
Ukljuuje pretragu online baza podataka, intervjue (slue da bi se eljene inf. dobile izravno) i istraivanja trita (provodi se pomou intervjua ili pretrage baza podataka).
b) organizacija informacija
Ukljuuje tipino knjiniarske zadatke ( npr. prikupljanje i organizacija bibliografija, indeksiranje knjiga, katalogizacija knjiga i drugih materijala) koji se ne obavljaju u kontekstu knjinice
Potraga za informacijama i njihovo prikupljanje odvija se u 10 koraka
Obrazovanje inf. brokera
Veina ljudi u SAD-u koji se bave inf. brokingom imaju diplomu knjiniara, ali u zadnje vrijeme sve je vie brokera koji uz to imaju zavrene i druge teajeve (npr. menadmentsko savjetovanje) ili imaju diplome drugih struka.
Karakteristike uspjenog inf .brokera:
dobro poznavanje inf. pretraivanja ili diploma iz tog podruja,
redovita nadopuna svojih znanja
preciznost, brzina i uinkovitost u pronalaenju inf.
dobro poznavanje trita i znanje stranih jezika
predanost poslu, dobra informiranost i postizanje dobrih odnosa s klijentima
fleksibilnost,otvorenost za nove ideje i mogunosti
Mora uvjeriti klijenta da je upravo on osoba za taj zadatak ak i ako nije strunjak na tom podruju
Mora znati svoje granice
Organizacije inf. profesionalaca
1) Association Of Independent Information Professionals (AIIP)
Osnovala ju je 1986. u Americi skupina inf. profesionalaca
Danas u 20 zemalja ima oko 600 lanova koji imaju odreene povlastice (pristup privatnim online forumima, popusti na inf. usluge i produkte...)
Organizacija ima detaljno razraen i razvijen pravilnik o etinom poslovanju koji klijentima jami profesionalnu uslugu i povjerljivost
AIIP inf. brokere smatra posrednicima izmeu klijenata i informacija.
2) The European Association Of Inf. Servicies (EUSIDIC)
Danas pokriva preko 100 organizacija u 16 europskih zemalja
Nastoje okupiti inf. profesionalce i njihove org. oko ideja razmjene znanja, iskustava i ideja
Omoguuju komunikaciju izmeu profesionalaca s podruja inf. industrije
3) European Information Researchers Network (EIRENE)
Europski odgovor na AIIP
Okuplja oko 65 brokera s podruja zemalja EU, EFTA-e i zemalja Istone Europe
Osnovni cilj im je poveati pristup inf. i razviti inf. posrednitvo kao komercijalnu aktivnost
I oni imaju razvijen pravilnik o etinom poslovanju
4) Docere Inteligence
Vodea skandinavska tvrtka na podruju inf.brokinga
Specijalizirani za pruanje usluga na podruju energetike, financija, informatike, komunikacija, elektronikog poslovanja, politikih i globalnih trendova
Usluge koje pruaju: analitika izvjea, konzultacije i informacijski menadment, indeksiranje, ispitivanje trita, online pretraivanje, predavanja i seminari iz usavravanja u poslovanju
Zakljuak
Danas ivimo u informacijskom drutvu u kojem i pojedinci i vee organizacije imaju ogromnu potrebu to prije doi do tonih i vanih informacija na najbolji i najefikasniji nain.
Ovdje dolazi do izraaja uloga informacijskog posrednika kao osobe koja je plaena da korisniku nabavi traenu informaciju, upravo u onom obliku i sadraju u kojem ju korisnik treba.
RELEVANTNOST
1950-ih uvodi se pojam relevantne informacije
IR sustavi -> sustavi za pronalaenje relevantnih informacija
informacija opisana svojom relevantnou postaje glavni pojam informacijske znanosti
relevantnost izraava kriterij za postizanje uinkovitosti u pronalaenju informacija
relevantnost je postala najistraivanija tema informacijske znanosti
Karakteristike relevantnosti
Priroda okvir u kojem definiramo relevantnost (kao pojam)
Manifestacija razlikujemo kontekste i tipove relevantnosti
Ponaanje kakav je odnos meu traenjem, pronalaenjem i koritenjem informacija
Uinci kako iskoristiti relevantnost u teoriji i praksi, u razvoju IR-sistema, procesa, algoritama i njihovoj procjeni
Priroda relevantnosti
osim u informacijskoj znanosti, relevantnost je esto prouavana i u mnogim drugim znanostima kao to su filozofija, komunikacija, logika i psihologija
ima iroko podruje primjene
relevantnost zahtijeva intuitivno shvaanje
Intuitivno shvaanje relevantnosti
osnovno ljudsko kognitivno zapaanje
Karakteristike:
temelji se na spoznaji
ukljuuje interakciju i stalnu komunikaciju
dinamina je
bavi se prikladnou i uinkovitou
Izraava se u kontekstu
u informacijskoj znanosti potrebno je slijediti intuitivnu upotrebu relevantnosti
Relevantnost u filozofiji
u filozofiji se relevantnost definira kao svojstvo koje odreuje veze i relacije u naemu kompleksnom socijalnom svijetu (Schutz 1970.)
u trenutku osoba ima:
-temu koncentracije
-pozadinu (osobna iskustva, psiholoki prostor koji je mogue povezati s temom)
3 osnovna i nezavisna tipa relevantnosti:
tematska relevatnost percepcija problematinog da bi se osnovala tema, odvojena je od pozadine
interpretacijska relevantnost ukljuuje pozadinu i na njoj se temelji
motivacijska relevantnost ukljuuje selekciju interpretacije i odnosi se na smjer radnje koja e biti prihvaena
Relevantnost u komunikaciji
Sperber & Wilson novi pristup u prouavanju ljudske komunikacije
posebno su se koncentrirali na verbalnu komunikaciju
razliiti komunikacijski modeli
KODNI MODEL tumaenje komunikacije u uvjetima kodiranja i dekodiranja poruke od izvora do odredita
NAMJERE informativne, komunikativne
ine ljudsko ponaanje predvidivim
za voenje ljudske komunikacije
objanjavaju razliitost i povezanost
izmeu onoga to osobe ocjenjuju kao
relevantnost i onoga to poboljava sustav
Schutz, Sperber i Wilson interpretiraju relevantnost kao sustav mnogostruke vanosti
Osnovna svojstva
Veza relevantnost ukljuuje vezu
Namjera veza u izraavanju relevantnosti ukljuuje namjere i motivaciju
Kontekst relevantnost ne moe biti bez konteksta
Zakljuak - relevantnost ukljuuje procjenjivanje veze, esto visoko procjenjivanje stvarnosti ili stupnja poveanja dane veze
Uzajamno djelovanje - zakljuak je izveden kao dinamian, uzajaman proces, gdje se objanjenje drugih svojstava smije
promijeniti
relevantnost kriterij uinkovitosti razmjene informacija meu ljudima u komunikacijskom procesu
Priroda relevantnosti
rane 1960 relevantnost postala sve traenija tema prouavanja u inf. znanosti
rezultat istraivanja relevantnosti opirna literatura
veina istraivanja o relevantnosti se bavila ponaanjem i uincima
4 okosnice prirode relevantnosti: sustavna, komunikacijska, poloajna i psiholoka
Okosnica sustava
poslije 1950.god prva okosnica se razvila u tradicionalni IR model
model predstavlja IR kao dva skupa elemenata, sustava i korisnika koji si odgovaraju
pretraivanje usporeivanje dvaju prikaza; tekstova i upita
sustav jednostavan, jasno definira IR sustave
- odreuje ureivanje i usporeivanje ostalih procesa u kontroli sustava
relevantnost vlasnitvo sustava
Okosnica komunikacije
razmatranje komunikacije u okvirima razmjene poruka izmeu izvora i odredita, s moguom pojavom uma i povratne informacije to je osnovni model Shannon-ove teorije informacije
relevantnost kriterij za uspostavljanje uinkovitosti izmeu izvora i odredita
relevantnost predstavlja vezu
Okosnica poloaja
kola Syracuse istraivanje relevantnosti i nove generacije njenih istraivaa
glavni elementi koji karakteriziraju prirodu relevantnosti - poloaj, drutveni kontekst, vremenska ovisnost i dinaminost
relevantnost dinamini koncept koji ovisi korisnikovoj procjeni kvalitete veze izmeu informacije i informacijske potrebe u odreenom vremenu
Psiholoka okosnica
Harter je naziva psiholoka relevantnost
psiholoka relevantnost dinamina, promijenjiva interpretacija informacijske potrebe u vezi s predstavljenim tekstom
temelji se na pretpostavci da se kognitivno stanje korisnika stalno mijenja i raste svakim novim otkriem relevantne informacije
slabost joj je to se odnosi samo na relevantne informacije najograniavajui oblik relevantnosti u informacijskoj znanosti
Interakcijski okvir
pojavom online sustava, IR se razvio u iznimno interaktivan proces, kakav je i danas
IR interakcija je postala subjektom mnogih istraivanja
2 modela IR interakcija su se istaknula: kognitivni model i epizodni model
1. Kognitivni model (Ingwersen)
IR interakcija skup procesa kognitivnih opisa i modela koji se pojavljuju unutar i izmeu elemenata
tekst kognitivne strukture koje se smatraju informacijskim prostorom
interakcijski procesi su dinamini te su bazirani na relevantnosti
2. Epizodni model (Belkin)
IR sustav slijed razliitih epizoda
centralni proces korisnikova interakcija s informacijama
razliite vrste interakcija podravaju procese kao to su sudovi, interpretacije, modifikacije, pretraivanje, itd.
Acquistition Cognition Application(Saraevi i Kantor)
model zasnovan na pretpostavci da korisnik trai informacije da bi ih upotrijebio, upotreba je povezana sa spoznajom te kasnije sa zakljukom
proces je dinamian u svim smjerovima
IR interakcija tada postaje dijalog izmeu sudionika (elemenata) korisnika i raunala, a glavna namjera je utjecati na kognitivno stanje korisnika za efektivnu upotrebu informacija
IR interakciju moemo promatrati kao pojavu koja se sastoji od nekoliko povezanih razina:
- kognitivna razina
- situacijska razina
- razina uinkovitosti
kognitivna razina korisnik se koristi tekstom, smatrajui ga kognitivnom strukturom
situacijska razina korisnik je u meudjelovanju sa problemom zbog informacijske potrebe
razina uinkovitosti korisnik djeluje s namjerom i motivacijom
Oitovanja relevantnosti
razotkrivanje, opis, klasifikacija i oblikovanje razliitih oitovanja relevantnosti tema brojnih teorijskih, praktinih i promatrakih istraivanja u informacijskoj znanosti
istraivanja oitovanja rezultiraju najee u nekoj klasifikaciji i modelu od velike su vanosti iz 2 razloga:
promatranje relevantnih oitovanja mora vrednovati ili odbaciti dane teorije i okosnice o prirodi relevantnosti
mogu upravljati istraivanja o ponaanju i uincima relevantnosti
Tri linije ispitivanja oitovanja relevantnosti:
1. predloena su ili ispitana razliita svojstva od vanosti za korisnike u vezi s uinkovitom upotrebom informacija. Neka istraivanja predlau zamjenu relevantnosti (npr. s koritenjem), a neka dovode relevantnost u vezu s drugim svojstvima kao to je zadovoljstvo i koritenje i zadovoljstvo utvreni su kao razliita i vana oitovanja ili vrste relevantnosti
2. promatranje i postupno oblikovanje razliitih tipova zakljuivanja korisnika
-tipini model je Parkov - u kojem je korisnikova procjena relevantnosti ocrtana u mnogostrukim slojevima koji su interpretirani unutar 3 konteksta:
korisnikov unutarnji kontekst (znanje o predmetu, iskustvo pretraivanja)
vanjski kontekst (stupanj istraivanja, cilj istraivanja)
problemi konteksta
3. tzv. klju istraivanja - otkrivanje i kvalificiranje i klasificiranje svojstva ili kriterije na koje su korisnici usredotoeni kad dolaze do relevantnih zakljuaka, te pruanje kljua ili traga svemu to se razmatra kad zakljuujemo o relevantosti.
relevantnost ukazuje na odnos.
razliita oitovanja relevantnosti ukljuuju razliite odnose
Unutar konteksta relevantnosti informacije (IR-a) i informacijske znanosti, razlikujemo slijedea oitovanja relevantnosti:
sustav ili algoritamska relevantnost odnos izmeu upita i teksta informacije u datoteci sustava kao povratni ili neuspjeno povratni od procedure ili algoritma
tematska ili predmetna relevantnost odnos izmeu predmeta ili teme izraene u upitu, te tema ili predmet koji ga opisuje od povratnih tekstova ili tekstova datoteka sustava, ili ak u postojanju.
kognitivna/spoznajna relevantnost ili spoznajna ispravnost odnos izmeu stanja znanja i spoznaje informacije koja je potrebna korisniku i povratni tekstovi, ili u datoteci sustava, ili ak u postojanju.
relevantnost prema situaciji ili korisnost odnos izmeu situacije, zadatka ili trenutanog problema i povratnih tekstova, ili u datoteku sustava ili u postojanju.
motivacijska ili spontana relevantnost odnos izmeu napetosti, ciljeva i motivacije korisnika i povratnih tekstova od sustava ili datoteke sustava ili u postojanju. Ta oitovanja dinamino utjeu jadna na drugo
Zakljuak
meudjelovanje relevantnosti je ugraeno u IR sustave
korisnicima IR sustava nije potrebno objasniti to je relevantnost, jer e je ljudi intuitivno razumjeti, to i objanjava uspjeh IR-a.
dva primarna cilja ovog rada su:
1. objanjenje relevantnosti u informacijskoj znanosti
2. kratka sinteza studije vezane uz oitovanje relevantnosti
poboljanja IR sustava ovise o boljem razumijevanju relevantnosti
Uinkovitost IR-a ovisi o uinkovitosti meudjelovanja i prilagodbe razliitih oitovanja relevantnosti koje su organizirane u sustavu relevantnosti
glavni problem R&D-a u informacijskoj znanosti trebao bi biti usmjeren prema poveanju uinkovitosti relevantnosti meudjelovanja to bi trebao biti osnovni cilj istraivanja relevantnosti u informacijskoj znanosti
MODERNO PRETRAIVANJE INFORMACIJA
1.1. MOTIVACIJA
lpretraivanje informacija (information retrieval, IR) se bavi prikazom, pohranom, organizacijom i pristupanjem eljenim informacijama
lprikaz i organizacija informacija bi korisniku trebali pruiti jednostavan pristup informaciji za koju je zainteresiran
lproblem odreivanje korisnike potrebe za informacijama (user information need)
lkorisnik mora prevesti potrebu za informacijom u upit kojega e pretraiva ili IR sustav moi obraditi
lprevoenje rezultira nizom kljunih rijei (ili natuknica) koje odreuju potrebu korisnika za informacijom
lna temelju upita korisnika, IR sustav nastoji pronai informaciju korisnu ili relevantnu za korisnika
lNaglaena je razlika izmeu pretraivanja informacija i pretraivanja podataka
PRETRAIVANJE INFORMACIJA VS. PRETRAIVANJE PODATAKA
Pretraivanje podataka odreivanje dokumenata iz zbirke, koji sadre kljune rijei korisnikova upita
cilj je pronalaenje objekata koji zadovoljavaju jasno definirane uvjete
raspolaganje podacima s jasno definiranom strukturom i semantikom
jedan pogrean, od tisuu pronaenih objekata, je promaaj
nezadovoljavajue, jer se korisnik oslanja na pronalaenje informacija o objektu, a ne na pronalaenje podataka koji odgovaraju na upit
Pretraivanje informacija - koriste se prirodni jezici koji nisu uvijek jasno strukturirani i mogu biti dvosmisleni, odnosno semantiki zbunjujui
Pronaeni objekti mogu biti netoni i mogue je da manje greke prou neprimijeene
lpretraivanje podataka ne rjeava problem pretraivanja informacija prema subjektu ili temi zato IR sustav mora nekako interpretirati sadraj podataka u zbirci i poredati ih prema stupnju relevantnosti u upitu korisnika
linterpretacija sadraja dokumenta - izvlaenje semantikih i sintaktikih informacija iz teksta dokumenta i koritenje tih informacija za usklaenje s korisnikom potrebom za informacijom
losnovni, primarni cilj IR sustava jest pronalaenje SVIH relevantnih dokumenata za upit korisnika, a istovremeno pronalaenje to je manje mogue irelevantnih dokumenata
1.1.2. PRETRAIVANJE INFORMACIJA U SREDITU PANJE
lIR podruje neprestano raste, no ee se tumai kao usko podruje indeksiranja teksta i pronalaenja korisnih dokumenata u kolekciji
listraivanje unutar IR zapravo ukljuuje modeliranje, klasifikaciju, kategorizaciju, suelje korisnika, vizualne podatke, itd. zahvaljujui Web-u
lWorld Wide Web (WWW) je univerzalno skladite znanja i kulture dananjice
Web je koncipiran kao standardno suelje koje se ne mijenja u raunalnoj okolini koja ga pokree
pozitivne strane
qmedij dostupan svima i cijenom i svojom konstrukcijom
qkoritenjem raunala izvravaju se dnevni zadaci (revolucija)
negativne strane
qodsutnost dobro definiranog pozadinskog modela podataka (loa kvaliteta definicije i strukture informacije)
qhyperspace (svemir bez granica) uzrokuje teak odabir relevantnih informacija
1.2.1. ZADATAK KORISNIKA
lprevesti svoju potrebu za informacijom u upit na jeziku kojim se slui sustav (odreivanje niza rijei sa semantikom traene informacije)
upit specificira skup rijei koje prenose znaenje informacijske potrebe
upit prenosi ogranienja koja odgovori moraju zadovoljiti
lu oba sluaja korisniko pretraivanje izvrava zadatak pretraivanja (retrieval task)
zadaci korisnika (upueni IR sustavu)
pretraivanje (retrieval)
pregledavanje (browsing) podataka i/ili informacija
lpregledavanje dokumenata (browsing) je takoer proces pronalaenja informacija, ali onih koje nisu dovoljno dobro definirane (odreene) u poetku, i ija bi se svrha mogla promijeniti u vrijeme interakcije sa sustavom
liako kombiniranje pretraivanja informacija (retrieval) i pregledavanja jo nije uobiajena praksa, mogla bi postati u budunosti
lsuvremene digitalne knjinice i Mrena suelja mogli bi pokuati kombiniranjem ovih zadataka pruiti poboljane znaajke pretraivanja informacija/podataka
lretrieval i browsing su u jeziku WWW-a akcije povlaenja korisnik zahtijeva informacije interaktivnim putem
ldrugi, staromodniji nain pretraivanja je automatsko i stalno koritenje softvera koji guraju informaciju prema korisniku (npr. izvlaenje korisnih informacija periodino iz novinskih agencija) tada kaemo da IR sustav djelomino izvrava zadatak pretraivanja koji se sastoji od filtriranja relevantnih informacija za kasnije pregledavanje
1.2.2. LOGIKI PRIKAZ DOKUMENATA
liz povijesnih izvora dokumenti su esto prikazivani preko indeksa ili kljunih rijei
Kljune rijei se mogu izvui izravno iz teksta (automatski) ili ih odreuje neki subjekt (izdvaja ih specijalist), a u svakom sluaju su logiki prikaz dokumenta.
full text cjelokupni popis rijei iz dokumenta, najkompletniji logiki prikaz dokumenta, no zahtijeva jako puno raunanja
(potreba za smanjenjem skupa reprezentativnih kljunih rijei)
lreduciranje skupa reprezentativnih kljunih rijei
eliminacijom stop rijei (stopwords veznici i lanovi)
svoenjem razliitih oblika rijei na njihov zajedniki korijen
identifikacijom imenikih skupina (eliminiranjem pridjeva, priloga, glagola)
tekstualne operacije (transformacije)
smanjuju sloenost prikaza dokumenta
dozvoljavaju logiki prikaz od razine cijelog teksta do razine indeksa (prepoznavanje i unutarnje strukture dokumenta)
1.3. PROLOST, SADANJOST I BUDUNOST
li prije 4000 godina ovjek je organizirao informacije za kasnije pretraivanje i upotrebu
lprvi primjeri su bili sadraji
lpoveavanjem volumena nastajali su indeksi - skupovi izabranih rijei koje su (pokazivaima) pridruene srodnim informacijama ili dokumentima, omoguuju bri pristup i snalaenje
lruna izrada
lrazvojem tehnologije automatska izrada
Dva su gledita IR problema:
qproblem USMJEREN NA RAUNALA
izgradnja djelotvornih indeksa
djelotvorna obrada upita
razvoj algoritama koji poboljavaju kvalitetu odgovora
qproblem USMJEREN NA OVJEKA
Prouavanje navika korisnika
Razumijevanje njegovih potreba
Odreivanje kako to razumijevanje utjee na organizaciju i rad IR-a
(Prema drugome gleditu, upit baziran na kljunim rijeima moe biti prikazan kao nain rjeavanja problema pronalaenja informacija)
1.3.2. PRETRAIVANJE INFORMACIJA U KNJINICI
lknjinice kao prve institucije s usvojenim IR sustavom za pronalaenje informacija
lprva generacija tih sustava se sastojala od automatizacije prijanjih tehnologija (katalozi), dok se pretraga vrila prema autoru i naslovu
ldruga generacija ima poveanu funkcionalnost pretrage time to dozvoljava pretragu po naslovima, kljunim rijeima..
ltrea generacija, trenutno u razvoju, fokus je na poboljanim sueljima, elektronskim formama, hipertekstualnim karakteristikama
1.3.3. WEB I DIGITALNE KNJINICE
lWeb jo koristi indekse, potekle od prologa stoljea
ltri dramatine promjene u skladu s razvojem moderne kompjutorske tehnologije i nastanka mree:
ljeftin pristup informacijama velik raspon korisnika
lvei pristup mreama dokida se problem udaljenosti, poveanje komunikacijski mogunosti
lslobodan pristup informacijama
Web kao medij za visoku interakciju poboljana komunikacija
ltri pitanja budunosti
lkojim tehnikama pronai kvalitetne/relevantne informacije (koje zadovoljavaju potrebe korisnika)?
l(poveanje raspona pristupa informacijama, smanjenje ansi za brz odgovor)
lkojim tehnikama nainiti bre indekse uz mali utroak vremena?
l(na kvalitetu pronalaenja informacija utjee interakcija korisnika sa sustavom)
kako e bolje razumijevanje korisnikovih navika utjecati na razvoj novih strategija IR sustava?
1.3.4. PRAKTINI PROBLEMI
lsigurnost
problemi se javljaju pri online transakciji novcem, jer moe biti otkriven broj kreditne kartice
rjeenje je u off-line proceduri ili kodiranju podataka
lprivatnost informacija
ljudi izmjenjuju informacije samo uz uvjet da ne postanu javne
lpravo na patent i publikacijsko pravo
razliiti zakoni zatite tih prava
1.4. PROCES PRETRAIVANJA
lprije nego proces pretraivanja zapone, potrebno je definirati tekstualnu bazu podataka (text database)
to ini (database manager) prema sljedeem:
Odreuju se dokumenti koji e biti koriteni
Odreuju se operacije na tekstu (original to logical view)
Odreuje se model teksta
l(database manager) izgrauje indeks (index)
jedna od najvanijih struktura je invertna datoteka (inverted file)
brzo pretraivanje velike koliine podataka
lbaza podataka dokumenta je indeksirana, te moe zapoeti pretraivanje (retrieval)
korisnik definira svoje potrebe (user need) na kojima se izvravaju tekstualne operacije
operacije upita (query operations) mogu biti izvrene prije samog upita (query), da bi ostvarile prikaz potreba korisnika
upit (query) se obrauje da bi dobili traene dokumente (retrieved documents)
prije nego to su poslani korisniku, traeni dokumenti su rangirani (ranking)
korisnik pregledava dokument da bi naao relevantne informacije, te zatim pokree ciklus povratnih informacija (user feedback), pri kojemu sustav stvara novi upit koji daje kvalitetnije/relevantnije rezultate
OPIS I PODJELA MODELA ZA PRETRAIVANJE INFORMACIJA
Indeksiranje
Indeks je kljuna rije ili skupina rijei koja ima svoje vlastito znaenje i koja se pojavljuje u tekstu dokumenta
Problem
Sustavi pretraivanja koji se baziraju na indeksima mogu biti jako neprecizni jer se tekst dokumenta reducira na skupinu rijei koji ne moraju dosljedno opisivati dokument
mnogi Web korisnici se bune da kod pretraivanja nailaze na previe irelevantnih informacija
Koji su dokumenti relevantni a koji ne ?
IR modeli
Algoritam za odreivanje indeksa je temelj sustava za pretraivanje = IR model
3 klasina IR modela
Booleov, Vektorski i Probabilistiki
Booleov model dokumenti i upiti su formulirani kao skupovi indeksnih termina (set-theoretic model)
Vektorski model - dokumenti i upiti su izraeni kao vektori u t-dimenzionalnom vektorskom prostoru (algebaric model)
Probabilistiki model temelji se na teoriji vjerojatnosti i tako tretira dokumente i upite (probabilistic model)
Uz klasine razvili su se i alternativni modeli za svaku od navedenih klasa
2 naina rada IR sustava
Ad hoc Dokumenti u kolekciji su vrlo statini dok se sustav nadopunjuje upitima
-najee se koristi
Filtriranje Upiti su veinom statini dok dokumenti prolaze kroz sustav (npr. financijska burza)
Filtriranje
Prilikom filtriranja stvara se korisnikov profil koji opisuje korisnikove postavke
Takav korisniki profil se tada usporeuje sa pristiglim dokumentima u namjeri da se odredi to bi korisnika moglo zanimati, a to ne (primjer: kod pretraivanja novina na webu prvo se stvara korisniki profil u kojemu su odreeni upiti korisnika koji se onda koriste u pronalaenju odgovarajuih lanaka koji dnevno izlaze ili koji su pohranjeni u bazi podataka)
Kod filtriranja sustav korisniku uzvraa ono to bi ga moglo zanimati, a na korisniku samome je da odredi da li je to za njega doista relevantno ili nije
Sustav ak ne mora nuditi ni rangiranje filtriranih dokumenata
Ukoliko sustav ipak nudi rangiranje filtriranih dokumenata cilj je da korisnik moe pregledati manji broj dokumenata ako pretpostavi da su oni na vrhu rang liste relevantniji
Ovakvo filtriranje naziva se routing, ali nije jako popularno
Filtriranje
Kod filtriranja kljuno nije rangiranje dokumenata samo po sebi, ve stvaranje korisnikog profila koji doista reflektira korisnikove postavke
Postoji mnogo pristupa stvaranju korisnikih profila
Pristupi stvaranju dobrog korisnikog profila
najjednostavniji pristup kada je na korisniku da navede kljune rijei (najee nefunkcionalan jer korisnik ne poznaje sustav i vokabular)
dinamini pristup interesi korisnika se odreuju i direktno i posredno (prvo se stvara primitivni jednostavni model u kojemu korisnik navede kljune rijei po kojima mu sustav pronalazi potencionalno relevantne dokumente koje korisnik potom ocjenjuje kao korisne ili beskorisne a sustav prema tim novim informacijama mijenja korisniki profil koji se nakon nekoliko takvih ciklusa stabilizira)
Formalna karakterizacija IR modela
to je zaista IR model?
Definicija
IR model je etverostruk (D, Q, F, R) gdje
1) D je set sastavljen od logikih reprezentacija dokumenata u kolekciji
2) Q je set sastavljen od logikih reprezentacija korisnikovih informacijskih potreba
3) F je okosnica za modeliranje reprezentacija dokumenata, korisnikih upita i njihovih veza
4) R(qi, dj) je funkcija rangiranja koja upitima qi Q i prikazima dokumenata dj D pridruuje realne brojeve. Ova funkcija definira redoslijed uzvraanja dokumenata s obzirom na upit
Da bi se izradio model
Izradi se reprezentacija dokumenta
Razradi se okosnica po kojoj e biti modelirano
Izabere se sustav za vrednovanje
Booleov- skupovi dokumenata i standardne operacije na skupovima
Klasini vektorski model- osnove su sastavljene od t-dimenzionalnog vektorskog prostora i standardnih linearnih operacija na vektorima
Klasini probabilistiki model, okosnica je sastavljena
od skupova, standardnih operacija vjerojatnosti i Bayesovog teorema
PRETRAIVANJE INFORMACIJA
Klasino pretraivanje informacija
nOsnovni koncept
nBooleov model
nVektorski model
Klasino pretraivanje informacija
Osnovni koncept
nSvaki je dokument opisan skupom reprezentativnih kljunih rijei, koje se nazivaju INDEKSNI TERMINI
nIndeksni termin je rije ija semantika pomae u opisu glavnih tema dokumenta.
nIndeksni termini stoga slue indeksiranju i saimanju sadraja dokumenta.
nIndeksni termini veinom su imenice jer one nose znaenje same po sebi, te je njihovu semantiku jednostavnije identificirati i shvatiti.
nU skupu indeksnih termina dokumenta primjetno je, da svi termini nisu jednako korisni u opisivanju sadraja dokumenta neki indeksni termini nejasniji su od drugih.
nOdluivanje o vanosti termina za saimanje sadraja dokumenta nije beznaajno pitanje!
nIndeksni termini imaju svojstva koja se lako mogu izmjeriti i koja su korisna za procjenjivanje potencijala takvog termina.
n Npr. u zbirci od 100 000 dokumenata, rije koja se pojavljuje u svakom od tih dokumenata potpuno je beskorisna kao indeksni termin jer ne govori nita o dokumentu za koji je korisnik zainteresiran. S druge strane, rije, koja se pojavljuje u samo pet dokumenata korisna je, jer suava izbor dokumenata za koje bi korisnik mogao biti zainteresiran.
nStoga, jasno je da razliiti indeksni termini nisu od jednake vanosti pri opisivanju sadraja dokumenta.
nTo je vidljivo u dodjeljivanju tzv. brojanih vrijednosti svim indeksnim terminima dokumenta.
nNeka je ki - indeksni termin, dj dokument, a
wi.j > 0 vrijednost vezana uz par (ki , dj). Ova vrijednost kvantitativno odreuje vanost indeksnog termina za opisivanje semantikog sadraja dokumenta.
nDefinicija: Neka je t broj indeksnih termina u sustavu, a ki generiki indeksni termin. K = {k1,...,kt}je skup svih indeksnih termina.
nVrijednost wi,j > 0 vezana je za svaki indeksni termin ki dokumenta dj.
nZa indeksni termin kojega nema u tekstu dokumenta
wi,j = 0
S dokumentom dj povezan je vektor indeksnog termina dj prikazan kroz dj = (w1,j , w2,j , ... , wt,j). Nadalje, gi je funkcija koja vraa vrijednost povezanu s indeksnim terminom ki u svakom t-dimenzialnom vektoru
(i.e., gi (dj) = wij).
nVrijednosti indeksnih termina obino se smatraju meusobno neovisnima. To znai ako znamo vrijednost wi,j povezanu uz par (ki , dj), to nam ne govori nita o vrijednosti wi+1,j vezanoj uz par (ki+1,dj) ovo je pojednostavljeno jer pojavljivanja indeksnih termina u dokumentu nisu nepovezana .
nNpr. Termini raunalo i mrea koriste se za indeksiranje nekog dokumenta koji pokriva podruje raunalnih mrea.
nU tom dokumentu uestalo pojavljivanje jedne od tih rijei povlai pojavljivanje druge. Stoga, su te dvije rijei povezane i njihove vrijednosti bi mogle odraziti tu povezanost.
nMeusobna neovisnost je pojednostavljenje te pojednostavljuje zadatak raunanja vrijednosti indeksnih termina.
nModerne tehnike pronalaenja informacija baziraju se na povezanosti termina i uspjeno su testirane na odreenim zbirkama.
nTi uspjesi polagano usmjeravaju razumijevanje prema pogodnijim gleditima korisnosti veza termina u sustavima pretraivanja informacija
nTri su klasina modela pretraivanja informacija:
Booleov model
Vektor
Probabilistiki model (model vjerojatnosti)
Booleov model
nBooleov model je jednostavan model pretraivanja informacija, koji se temelji na postavljenoj teoriji i Booleovoj algebri.
nKako je koncept skupa prilino intuitivan, Booleov model omoguava lako shvaanje od strane korisnika IR sustava (information retrieval = informatiko pretraivanje).
nUpiti su predstavljeni kao Booleovi izrazi sa tono odreenom semantikom.
nBooleov model zapaen je prethodnih godina i preuzeli su ga mnogi raniji komercijalni bibliografski sustavi.
nBooleov model, naalost, ima velike nedostatke:
vNjegova strategija pretraivanja temelji se na kriteriju binarne odluke (predvia se relevantnost ili nerelevantnost dokumenta) bez rangiranja to spreava dobru izvedbu pronalaenja.
vStoga je Booleov model vie model pretraivanja podataka nego informacija.
vdok Booleovi izrazi imaju tono odreenu semantiku, esto nije jednostavno prevesti informacijsku potrebu u Booleov izraz.
vVeina korisnika teko izraava zahtjeve upita u sklopu Booleovih izraza.
nUsprkos tim nedostacima, Booleov model jo je uvijek dominantan u sustavima baza podataka i prua dobru poetnu toku novima na tom podruju.
nBooleov model uzima u obzir prisutnost, odnosno, odsutnost indeksnih termina u dokumentu. Kao rezultat toga sve vrijednosti indeksnih termina smatraju se binarnima
(wi,j {0,1}). Upit Q sastoji se od indeksnih termina povezanih trima veznicima: not, and i or. Upit je konvencionalni Booleov izraz koji se moe prikazati kao rastavni ili povezni vektor.
nBooleov model predvia da je svaki dokument ili relevantan ili nerelevantan. Ne postoji mogunost djelominog odgovaranja uvjetima upita.
nGlavne prednosti Booleovog modela su isti formalizam i jednostavnost.
nGlavni nedostaci su to tona preklapanja mogu dovesti do pronalaska premalo ili previe dokumenata.
Vektorski model
nVektorski model [697, 695] prepoznaje da je upotreba binarnih vrijednosti previe ograniavajua i predlae mogunost upotrebe djelominog preklapanja.
nTo se postie dodjeljivanjem ne-binarnih vrijednosti indeksnim terminima u upitima i dokumentima. Te vrijednosti na kraju se koriste za raunanje stupnja slinosti izmeu svih dokumenata pohranjenih u sustavu i upitu.
nSortiranjem pronaenih dokumenata padajuim redoslijedom stupnja slinosti - vektorski model uzima u obzir dokumente, koji djelomino odgovaraju terminima upita.
nGlavni rezultirajui uinak je; vea preciznost u pronalaenju informacija potrebnih korisniku od onog u Booleovom modelu.
nVektorski model procjenjuje stupanj slinosti dokumenta dj s obzirom na upit Q kao veze izmeu vektora = dj i Q. Dokument moe biti pronaen ak i ako samo djelomino odgovara upitu.
nVrijednosti indeksnih termina mogu se izraunati na puno razliitih naina:
vRad Saltona i McGilla [698] obrauje razliite tehnike odreivanja vrijednosti termina.
vGlavna ideja najuinkovitijeg odreivanja vrijednosti termina vezana je uz osnovne principe koji podupiru tehnike grupiranja.
vAko imamo zbirku objekata C i nejasan opis skupa A, cilj jednostavnog algoritma grupiranja mogao bi biti razdvajanje objekata zbirke C u dva skupa: prvog; koji se sastoji od objekata vezanih uz skup A i drugog koji se sastoji od objekata koji nisu vezani uz skup A .
vSofisticiraniji algoritmi grupiranja pokuali bi razdvojiti objekte zbirke u vie grupa (klasa) ovisno o njihovim svojstvima.
nPogled na IR problem kao problem grupiranja (Salton):
vDokumente smatramo zbirkom objekata C, a korisniki upit (nejasnom) specifikacijom skupa objekata A - u tom sluaju IR problem moe se svesti na problem odreivanja koji su dokumenti u skupu A, a koji nisu
vU problemu grupiranja moraju se rijeiti dva glavna pitanja:
vTreba se odrediti koje su karakteristike koje najbolje opisuju objekte u skupu A .
vTrebaju se odrediti karakteristike koje najbolje odreuju razlike izmeu objekata skupa A i preostalih objekata zbirke C .
nPrva skupina karakteristika omoguava kvantitativno odreivanje unutar-grupnih slinosti, a druga unutar-grupnih razlika.
nNajuspjeniji algoritmi grupiranja pokuavaju uravnoteiti ta dva uinka.
nU vektorskom modelu, unutar-grupne slinosti se kvantitativno odreuju mjerenjem frekvencije termina ki unutar dokumenta dj . Ta frekvencija termina je tf faktor i prikazuje mjeru kako dobro taj termin opisuje sadraj dokumenta (unutar dokumentna karakterizacija). Unutar grupne razlike se kvantitativno odreuju mjerenjem inverzne frekvencije termina ki meu dokumentima zbirke. Taj se faktor zove idf faktor (inverse document frequency = inverzna frekvencija dokumenta).
nMotivacija za upotrebu idf faktora je to to termini koji se pojavljuju u mnogim dokumentima nisu korisni za razlikovanje relevantnih od nerelevantnih dokumenata.
nKod dobrih algoritama grupiranja, najuinkovitije sheme odreivanja vrijednosti termina pokuavaju uravnoteiti ta dva uinka.
Glavne prednosti vektorskog modela
nNjegova shema odreivanja vrijednosti termina unapreuje izvedbu potranje.
nStrategija djelominog odgovaranja omoguava pronalaenja dokumenta koji priblino odgovaraju uvjetima upita.
nRangiranjem se sortiraju dokumenti prema stupnju slinosti u upitu.
Nedostatak vektorskog modela
nIndeksni termini smatraju se meusobno neovisnima.
nUsprkos svojoj jednostavnosti, vektorski model je fleksibilna strategija rangiranja opih zbirki.
nSuperioran je ili gotovo dobar kao poznate alternative.
nBrz je i jednostavan.
nZbog tih razloga danas je popularan model pretraivanja informacija.
OCJENJIVANJE SUSTAVA ZA PRETRAIVANJE INFORMACIJA
UVOD
-Prije zavrne implementacije sustava za pretraivanje informacija, radi se ocjenjivanje tog sustava
-Prvi tip ocjenjivanja je funkcionalna analiza u kojoj se jedna po jedna ispituju funkcije sustava
-Funkcionalna analiza trebala bi sadravati i analizu greaka gdje se namjerno pokuava sruiti sustav nastojei pronai greke u programiranju
-Nakon to sustav proe funkcionalnu analizu, procjenjuje se izvedba samog sustava
-Najee mjere izvedbe sistema su VRIJEME i PROSTOR
-to je vrijeme odgovora krae i to je manje prostora koriteno, to je sustav bolji
-Osim vremena i prostora, postoje jo neke mjere koje se koriste u sustavu za pretraivanje informacija
-Poto je korisnikov upit relativno nejasan, pronaeni dokumenti nisu toni odgovori i stoga moraju biti rangirani prema relevantnosti
-Rangiranje po relevantnosti predstavlja centralnu ulogu u pretraivanju informacija
-Sustavima za pretraivanje informacija potrebna je procjena preciznosti odgovora, a nju zovemo PROCJENA UINKOVITOSTI SUSTAVA ZA PRETRAIVANJE (retrieval performance evaluation)
-Takva je procjena obino bazirana na referentnoj testnoj zbirci i na mjeri procjene.
-Referentna testna zbirka se sastoji od zbirke dokumenata, seta primjera informacijskih upita i seta relevantnih dokumenata (koje prua informacijski strunjak) za svaki od tih upita
-MJERA PROCJENE usporeuje set pronaenih dokumenata sa setom dokumenata koje je priskrbio informacijski strunjak
-Na taj nain dobije se procjena valjanosti strategije pretraivanja
PROCJENA UINKOVITOSTI SUSTAVA ZA PRETRAIVANJE
-Kod ocjenjivanja uinkovitosti sustava za pretraivanje nuno je uzeti u obzir tip zadatka koji se ocjenjuje
-Postoje 2 tipa zadataka, a to su:
1. BATCH MODE (serijski obraen upit)
- korisnik postavlja upit i dobiva natrag konkretan odgovor
- mjeri se iskljuivo kvaliteta generiranog seta odgovora
2. INTERAKTIVNI NAIN - korisnik specificira svoju potrebu za informacijom kroz seriju interaktivnih koraka sa sustavom
- mjeri se korisnikov trud, karakteristike dizajna suelja, pomo sustava i duljina trajanja samog pretraivanja
-Osim tipa zadatka, poeljno je uzeti u obzir i okolinu u kojoj se ocjenjivanje odvijalo (laboratorij ili stvaran ivot)
Prilikom ovakvog definiranja odziva i preciznosti pretpostavlja se da su svi dokumenti u skupu odgovora pregledani.
Meutim korisnik ne pregledava sve dokumente nego su oni prvo sortirani po stupnju relevantnosti. Korisnik pregledava listu poevi od najrelevantnijih.
Odziv i preciznost informacija se mijenjaju kako korisnik pregledava listu.
Za ispravno procjenjivanje potrebno je izraditi krivulje i grafikon preciznosti/odziva.
Primjer: Rq su relevantni dokumenti za na upit ( u ovom primjeru ima 10 relevantnih dokumenata )
Rq= d3, d5, d9, d25, d39, d44, d56, d71, d89, d123
algoritam pretraivanja (retrieval algorithm) vrati, za upit Q, poredak dokumenata u sljedeem rangu :
d123
d84
d56
d6
d8
d9
d511
d129
d187
d25
d38
d48
d250
d113
d3
dokumenti relevantni za upit Q oznaeni su crvenom tokom
Korisnik pone od dokumenta na rangu broj 1 (d123).
Da li je d123 relevantan? DA.
Dakle, odgovara postotku od 10% svih relevantnih dokumenata (1/10) u setu Rq i kaemo da ima tonost od 100% u 10% odziva
Korisnik pregledava sljedei dokument d84.
Da li je d84 relevantan? NE.
Korisnik pregledava sljedei dokument d56.
Da li je d56 relevantan? DA.
d56 je na rangu broj 3
Dakle, ima tonost od 66% (2 od 3 dosad pregledana dokumenta su relevantna) u 20% odziva (2 od 10 relevantnih dokumenata je pregledano)
Ako nastavimo, vidjet emo da tonost na razinama odziva iznad 50% pada na 0% jer nisu pronaeni svi relevantni dokumenti
Kada se postavlja vie razliitih upita za svaki se od njih radi posebna krivulja. Da bi se ocijenila cjelokupna izvedba algoritama za pretraivanje informacija izraunava se prosjena preciznost na nivou odziva.
Vrijednosti odziva za svaki upit mogu biti razliite od 11 standardnih vrijednosti odziva , pa je esto potrebno koristiti postupak interpolacije (umetanja).
Interpolacija
Budui da razine odziva za razliite upite ne moraju biti uvijek na svih 11 standardnih razina odziva, koristi se interpolacija kako bi se mogla nacrtati cijela krivulja
Prisjetimo se rang liste:
d123
d84
d56
d6
d8
d9
d511
d129
d187
d25
d38
d48
d250
d113
d3
Skup relevantnih dokumenata za upit se promijenio i glasi Rq = {d3, d56, d129}
prvi relevantni dok. (d56) je na rangu 3 i ima odziv 33,3% (1 od 3 relevantna dokumenta je pregledan) te preciznost 33,3% (1 od 3 dosad pregledana dokumenta su relevantna)
drugi relevantni dok. (d129) je na rangu 8 i ima odziv 66,6% (2 od 3 relevantna dokumenta su pregledana) te preciznost 25% (2 od 8 dosad pregledanih dokumenata su relevantna)
trei relevantni dok. (d3) je na rangu 15 i ima odziv 100% (3 od 3 relevantna dokumenta su pregledana) te preciznost 20% (3 od 15 pregledanih dokumenata su relevantna)
Dakle, iz gornjeg primjera, imamo izraunatu tonost za odziv na razinama: 33.3%, 66.6% i 100%.
Interpolacija za svih 11 standardnih razina odziva se rauna na sljedei nain:
Dakle, u naem primjeru na standardnim razinama odziva od 0%, 10%, 20% i 30%, interpolirana razina tonosti je 33.3% (izraunata tonost na razini odziva 33,3%)
Na standardnim razinama odziva od 40%, 50%, i 60%, interpolirana razina odziva je 25% (izraunata tonost na razini odziva 66,6%)
Na standardnim razinama odziva od 70%, 80%, 90% i 100% (interpolirana razina odziva je 20% izraunata tonost na razini odziva 100%)
Interpolacija je korisna za usporedbu i vrednovanje pretraivanja novih algoritama s npr. klasinim vektorskim algoritmima koji rade iskljuivo sa standardnih 11 razina odziva
Takoer je korisna i za usporedbu uspjeha pretraivanja razliitih novih algoritama
PREGLED POJEDINANIH MJERENJA
-Prosjek preciznosti i odziva je koristan za usporedbu izvedbe odreenih algoritama za pretraivanje koji imaju odreen set upita
-Ali ipak postoje situacije u kojima bi sami htjeli usporediti izvedbe svojih algoritama za pretraivanje u individualnim upitima
-2 su razloga za to:
1. Izraunavanje prosjeka preciznosti za vie upita moe prikriti anomalije u algoritmima za pretraivanje
2. Usporedbom dva algoritma na pojedinanom upitu moemo ispitati postie li jedan od njih bolje rezultate za svaki upit u danom setu testnih upita (to se inae moe prikriti kod raunanja prosjeka tonosti)
-U takvim situacijama koristi se:
-pojedinana vrijednost preciznosti i oitava se kao povrina ispod krivulje preciznosti i odziva na koju se odnosi
-preciznost na odreenom nivou odziva (11 nivoa odziva)
-Ali, to nije i najbolji pristup; postoje i mnogo zanimljiviji naini, a neki od njih su:
1. preciznost vienih relevantnih dokumenata,
2. R-preciznost i
3. histogrami preciznosti
1. Preciznost vienih relevantnih dokumenata
-Preciznost se izraunava za svaki upit iza svakog relevantnog dokumenta na rang listi
-Izraunava se prosjek nad tokama preciznosti za svaki upit, a nakon toga izraunava se prosjek nad svim upitima
-Ovakav nain mjerenja favorizira sustave koji brzo pretrauju dokumente i daje dobar uvid u prosjenu preciznost vienih relevantnih dokumenata, ali daje slab uvid to se tie ukupnog odziva
2. R-preciznost
-Izraunava se tonost na R-toj poziciji na rang listi, gdje je R ukupan broj relevantnih dokumenata za odreeni upit
-Ako je R = 10 (imamo 10 relevantnih dokumenata za upit) i ako su na rang-listi izmeu prvih 10 dokumenata 4 relevantna, R-tonost za deseti dokument na listi = 0.4
-Ovakav nain mjerenja koristan je u promatranju ponaanja algoritma za svaki individualni upit u eksperimentu
3. Histogrami preciznosti
-R-preciznost za vie upita moe se koristiti i za usporedbu povijesti pretraivanja 2 algoritma:
RPA/B(i) = RPA(i) RPB(i)
-Pozitivan rezultat znai bolju izvedbu algoritma A, dok negativan rezultat znai bolju izvedbu algoritma B:
PRIMJERENOST PRECIZNOSTI I ODZIVA
-Preciznost i odziv esto se koriste za ocjenu izvedbe algoritama za pretraivanje, ali detaljniji uvid otkriva odreene nedostatke u gore navedenim nainima mjerenja:
1. Za pravilnu procjenu maksimalnog odziva za upit potrebno je detaljno znanje o svim dokumentima u zbirci
2. Preciznost i odziv meusobno su povezani naini mjerenja, ali obuhvaaju razliite aspekte seta pretraenih dokumenata
3. Isto tako, oni mjere uinkovitost za skup upita u batch modu (serijski odgovor na upit), a u modernim sustavima vanija je interaktivnost
4. Lako ih je definirati tek kada imamo linearni poredak pronaenih dokumenata
TRENDOVI I PROBLEMI PRETRAIVANJA
CACM, ISI i CF KOLEKCIJE
UVOD
TREC kolekcije problemi pri koritenju:
- velike kolekcije
- zahtijevaju puno pripreme prije aktivnog
koritenja
- testiranje zahtjeva puno vremena i truda
Rjeenje: koritenje manjih kolekcija
- vrijeme instaliranja i eksperimentiranja je znatno
Krae
CACM kolekcija
California Association of Comunity Menagers
Dokumenti u CACM kolekciji se sastoje od svih 3204 lanka publiciranih u Communications of the ACM od 1958. do 1979.g.
Ti dokumenti pokrivaju veliko podruje znanstvene literature o raunalima (asopis je godinama bio najrelevantniji u svom podruju)
Kolekcija uz tekstove dokumenta sadri i informacije o pojedinim podpodrujima:
- autorovo ime
- datum publikacije
- korijen rijei iz naslova i saetka
- kategorije izvedene iz hijerarhijske klasifikac. sheme
- direktne reference izmeu lanaka
- bibliografske veze
- broj ko-citata za svaki par lanak
CACM kolekcije osiguravaju jedinstvenu okolinu za testiranje algoritama koji su bazirani na informaciji izvedenoj iz meu-citiranih uzorakaOsim tekstova i podpodruja CACM kolekcija sadri i 52 informacijska upita
npr. Koji lanci se bave sa TSS (Time Sharing System), operativnim sustavom za IBM raunala?
Za svaki takav upit kolekcija ima 2 Boolova upita i skup relevantnih dokumenata Niska preciznost i odziv, jer su informacijski upiti jako specifini pa je i prosjean broj pronaenih relevantnih dokumenata malen(oko 15)
ISI kolekcija
esto se naziva i CISI
Nastala je na temelju ranije kolekcije koju je sastavio Small s Institute of Scientific Information (ISI)
Sastoji se od 1460 dokumenata sa podruja informacijskih znanosti
Odabrani su oni dokumenti koji su najee citirani u Smallovoj studiji o meucitatnim uzorcima
Glavna svrha ISI kolekcije je podravanje istraivanja slinosti na temelju uvjeta i meucitatnih uzorakaDokumenti u ISI kolekciji ukljuuje 3 podruja:
- autorovo ime
- korijen rijei naslova i saetke
- broj ko-citata za svaki par lanaka
ISI kolekcija sadri i:
- 35 test informacijskih upita sa Boolovim upitima
- 41 dodatan bez Boolovih upita
Informacijski upiti su openiti i to rezultira velikim
brojem uzvraenih relevantnih dokumenata (oko 50)
Postotak relevantnih dokumenata dobivenih
upitom je puno vei kod ISI kolekcije (3.4 %) nego
kod CACM kolekcije (0.5 %)
CF (Cystic Fibrosis) kolekcija
Sastoji se od 1239 dokumenata indeksiranih terminom cystic fibriosis u bazi MEDLINE National Library of Medicine
Svaki dokument sadri podruja:
- MEDLINE pristupni broj - reference
- autor - citate
- naslov
- izvor
- glavni predmeti
- sporedni predmeti
- saetak ili izvadak
Kolekcija sadri i:
100 informacijskih upita dokumente relevantne za svaki upit Bitne karakteristike: 1. ocjene relevantnosti: svaki dokument dobiva 4 ocjenePrimjer:1. ocjena: 0 (nerelevantan), 1 (granino relevantan), 2 (visoko relevantan)2. ocjena: generalna ocjena (u odnosu na upit) dokument moe dobiti ocjenu izmeu 0 i 8Itd Prosjean broj relevantnih dokumenata po upitu je izmeu 10 i 30Iako je mala, CF kolekcija ima 2 vane
karakteristike:
- skup relevantnih rezultata su napravili eksperti
na temelju paljive procjene
- ukljuuje velik broj informacijskih upita to
rezultira preklapanjima vektora pretraivanja
Trendovi i problemi pretraivanja
Glavni trend danas je interaktivno pretraivanje
Motiviran je uvjerenjem da uspjeno pretraivanje uvelike ovisi o dobivanju povratne informacije od korisnika
U budunosti e studije koje procjenjuju interaktivno pretraivanje biti sve uobiajenije
PROCJENA PRETRAIVANJA
ALTERNATIVNE MJERE (ALTERNATIVE MEASURES)
Budui da odziv i preciznost usprkos svojoj popularnosti nisu uvijek najprikladnija mjerila za procjenu procesa pretraivanja inf., tijekom godina predloene su alternativne mjere:
1) HARMONIJSKA SREDINA (The Harmonic Mean)
r(j) = odziv dok. J na rang listi dokumenata
P(j)= preciznost dok. J na rang listi dokumenata
F(j)= harmonijska sredina izmeu r i P
Funkcija F poprima vrijednosti samo u intervalu [ 0, 1 ]
F=0: nije pronaen niti jedan relevantan dokument
F=1: svi pronaeni dok. su relevantni
Vrijednost funkcije F je visoka jedino ako su i vrijednosti za r i P visoke
Tenja ka maksimalnoj vrijednosti funkcije F moe se objasniti kao pokuaj pronala-
ska idealnog kompromisa izmeu odziva i preciznosti.
2) E MJERA ( The E Measure)
Jo jedna od mjera koja kombinira odziv i preciznost.
Predloio ju je Rijsbergen.
Ova mjera omoguuje korisniku da sam odredi zanima li ga vie odziv ili preciznost.
r= odziv za dok. J na rang listi dokumenata
P= preciznost za dok. J na rang listi dokumenata
E (j)= mjera procjene za r i P
b=parametar koji odreuje korisnik (izraava relativnu vanost r i P za korisnika)
b=1 ,funkcija djeluje po naelu harmonijske sredine
b>1 , korisnika vie zanima preciznost nego odziv
b