Tudman Organizacija Znanja Skripta

Embed Size (px)

Citation preview

INFORMACIJSKA ZNANOST

1

INFORMACIJSKA ZNANOST

INFORMACIJSKA ZNANOST = disciplina koja se bavi procesima pohranjivanja i prijenosa obavijesti

Razliita terminologija, suglasnost da se: informacijska znanost bavi nastajanjem, prikupljanjem, organizacijom, tumaenjem, pohranjivanjem, pretraivanjem, diseminacijom, preoblikom i uporabom obavijesti, s naglaskom na primjeni modernih tehnologija u ovom podruju.

OBAVIJEST osnovni fenomen prouavanja informacijske znanosti

RELEVANTNOST (svrhovitost) kljuni pojam za interpretaciju komunikacijskih procesa kljuni pojam za prosudbu informacijske djelotvornosti (prakse) i najvaniji teorijski pojam za procjenu razmjene obavijesti i razumijevanje komunikacijskog procesa

UVOD U ORGANIZACIJU ZNANJA I DOHVAANJE INFORMACIJA(organization of knowledge and information retrieval)

Organizacijom znanja uzrokovana je rastom koliine znanjapotreba za organizacijom znanja proporcionalna je koliini raspoloivog znanja

Za organizaciju znanja nuna je njezina svrha

moe biti radi samog reda organizacije, ali najvanije je omoguiti da pohranjenu informaciju moemo kasnije to lake dohvatiti

Organizacija znanja i dohvaanje informacija dijelovi su istog procesa

Kljuna stvar u procesu organizacije znanja jest sistem organizacije (kriterij po kojemu sistem organizira i trai informaciju)

On mora biti takav da ga korisnik poznaje ili da ga barem moe naslutiti

Neke temeljne definicije:Organizirati (to organize) oblikovati u organsku cjelinu, dati neemu strukturu

Znanje (knowledge) poznatost dobivena iskustvom, opseg informacija, teorijsko i praktino razumijevanje

Dohvatiti (to retrieve) dobiti pomou pretraivanja

Informacija (information) pojedini predmet znanja

Dokument zabiljeeno znanje, informacija ili kreativan izraaj;

ORGANIZACIJA ZNANJA UZDIUE PERSPEKTIVE

Sadraj

Razvoj konteksta

Proirenje koncepta

Vanost organizacije znanja

Vrijednost organizacije znanja

Razvoj konteksta

Skup podataka nije informacija

Skup informacija nije znanje

Skup znanja nije mudrost

Skup mudrosti nije istina

Podatak bez konteksta ima slabo ili nikakvo znaenje. Podaci mogu initi informaciju, no je li to informacija ovisi o znanju onoga tko je opaa.

Informacija je, jednostavno, razumijevanje odnosa meu podacima ili meu podacima i drugim informacijama.

Kada postoji uzorak odnosa meu podacima i informacijama, uzorak ima potencijal da predstavlja znanje. Dodue, postaje znanje samo kada je promatra sposoban shvatiti i razumjeti uzorke i njihove implikacije.

Mudrost izrasta kada promatra razumije osnovne principe odgovorne za to da su uzorci koji predstavljaju znanje ono to jesu.

Informacija je vezana uz opis, definiciju, ili perspektivu (to, tko, kada, gdje).

Znanje sadri strategiju, praksu, metodu, ili pristup (kako).

Mudrost ini princip, uvid, moral, ili ablonu (zato).

Proirenje koncepta

Uimo povezivanjem informacija prema uzorcima koje ve razumijemo. Time proirujemo uzorke.

PODACI, INFORMACIJE, ZNANJE I MUDROST

PODACI

Simboli bez znaenja. Oni samo postoje, to moe biti ili korisno ili beskorisno.

INFORMACIJE

Simboli u vezi, sa znaenjem. Njihovo znaenje moe biti bilo beskorisno bilo korisno. To je konkretna veza injenica u konkretnome svijetu.

ZNANJE

Skup informacija s ciljem korisnosti, primjene, no ogranieno je time to zahtjeva razumijevanje.

RAZUMIJEVANJE

Kognitivni i analitiki proces kojim sintetiziramo pohranjenje informacije i znanje, te i samo razumijevanje u neko novo znanje.

MUDROST

Nadilazi raumijevanje temeljei se na savjesnosti ovjeka. Najvia je granica odgovor na pitanje zato, no mudrost to ne pita ona razumijeva principe, te postavlja i prosuuje odgovore koji nemaju konkretan odgovor

UPRAVLJANJE SPISIMA, DOKUMENTIMA I SADRAJIMA

Spisi i dokumenti

Dokument je definiran kao informacija, sauvana na papiru, skenirana ili elektronika koja se moe mjenjati

Spis je definirana kao dokument ili druga informacija koja nije podlona promjenama

Definicija menamenta spisa je: Planiranje kontroliranje, ureivanje i svako drugo upravljane spisima

Svaki spis ima tri ciklusa ivotaStvaranje ili primanjeOdravanje i koritenjeRjeavanje

Preslikavanje dokumenta

Preslikavanje dokumenta (document imaging) dolazi u upetrebu kad kompanije prerastu papirnate sustave i trebaju neto s jednostavnijim pristupom

Prebacivanje dokumenta na mikrofilm ili elektroniki format je preslikavanje dokumenta

Postoje etri osnovne komponente pri preslikavanju dokumenta

Input, Indeksiranje, Spremanje, Izvlaenje

Upravljanje sadrajem

Postoje dva naina upravljanja sadrajem oba validna

Strukturirati sve (knjiniki pristup) postaviti markere, etikete, keywords i opise na sve. Destruktuirati sve.

INFORMACIJA KAO PREDMET

lMoemo definirati tri osnovna naina upotrebe rijei INFORMACIJA:

lInformacija kao proces

= informacija predstavlja sam in informiranja; prenoenje znanja ili novosti o nekoj injenici ili dogaaju

lInformacija kao znanje

=priopeno znanje vezano za neku odreenu injenicu, predmet ili dogaaj

l Informacija kao predmet

=predmeti koji mogu biti informativni, odnosno dokumenti

Obrada informacija

lObrada informacija (information processing): baratanje, manipuliranje i dobivanje novih oblika ili verzija informacije kao predmeta.

.Tipovi informacija

lpodaci

ltekstovi i dokumenti

lobjekti

ldogaaji

lPODACI - Informacija kao predmet koja je procesirana na neki nain za upotrebu -uobiajeno oznaava zapise spremljene na kompjutoru

lTEKSTOVI I DOKUMENTI - Termin dokument obino oznaava tekstove, tonije predmete koji sadre tekst

lOBJEKTI- Objekti, koji nisu dokumenti u uobiajenom smislu poput teksta, ipak mogu biti izvori informacija, informacija kao predmet. Oni se sakupljaju, pohranjuju, pretrauju i pregledavaju kao informacije , kao osnova za informiranje.

TO JE DOKUMENT?

Dokument kao generiki pojam oznaava bilo koji fiziki izvor informacija, a nije ogranien samo na predmete s tekstom na specifinim medijima poput papira, papirusa ili mikrofilma.

Objekti nisu dokumenti sami po sebi ve to postaju kada su procesirani u informativnu svrhe. Oni moraju biti reprezentativni za neto, odnosno informativni.

Dogaaji

lDogaaji su informativni fenomeni te bi trebali biti ukljueni u svaki pristup informacijskoj znanosti

lRazlikujemo tri tipa uporabe dokaza o dogaajima

l1) PREDMETI dokazi koji se daju sakupiti i predstaviti (mrlja krvi u tepihu, otisak stopala u pijesku)

l2) OPISI DOGAAJA fotografije, memoari, novinski izvjetaji

l3) UMJETNO STVORENI (KREIRANI) ILI REKREIRANI DOGAAJI ako se dogaaj ne moe pohraniti onda ga je potrebno tako izvesti da ga i drugi mogu ponovo izvesti (esto se koristi u eksperimentalnim znanostima)

.

Kopije informacija

Kopije: tipovi razliiti primjerci informacije

tokeni isti primjerci informacije

Elektronike baze podataka razlikuju dvije vrste kopija: privremene i trajne.

Interpretacije i saeci dokaza

lVeina informacija u informacijskim sustavima je bila obraena na neki nain: kodiranjem, interpretacijom, saimanjem, ili nekim drugim oblikom transformacije.

lTakve informacije nazivamo prikazima informacija

Karakteristike prikaza informacija

l1) svaki prikaz informacijaje je vie ili manje nepotpun

l2) prikazi informacija su stvoreni radi praktinosti

l3) radi praktinosti rukovanja njima, informacije esto prelaze iz oblika dogaaja ili objekta u tekstualni ili podatkovni oblik

l4) prikazima informacija se mogu pridruiti neke druge informacije vezane uz predmet

l5) prikazi informacija se mogu nastaviti u beskonanost.

l6) Radi lakeg rukovanja prikazi infomracija su esto manjeg opsega od originalnog predloka.

MUZEJI, ARHIVI I KNJINICE: OTUENI SRODNICI

Muzeji, arhivi i knjinice

Danas su knjinice, arhivi i muzeji kao kulturne institucije dio jedne znanstvene discipline; tri podruja s jednom svrhom: sakupljanje i uvanje naeg kulturnog naslijea informacija s ciljem edukacije javnosti.

Zajedniki cilj muzeja, arhiva i knjinica

Muzeji, arhivi i knjinice dijele mnoge ciljeve.

Muzeji, arhivi i knjinice brinu za zbirke i organiziraju ih; to su institucije koje katalogiziraju, uvaju i interpretiraju nau povijest kao i zabiljeenu povijest drugih kultura i vremena.

Sline svakodnevne obaveze

Tehnologija i digitalizacija

Muzeji, arhivi i knjinice imaju sline tehnoloke potrebe: upotrebljavaju kompjutere, katalogiziraju, oznaavaju, indeksiraju materijale te upotrebljavaju iste baze podataka.

Kako se poveava upotreba kompjutorske tehnologije u muzejima, arhivima i knjinicama, razlike izmeu tih triju institucija se smanjuju.

Oni postaju lokalno dostupni jedinstvenim pristupom preko Interneta.

STRUKTURA I GENEZA INFORMACIJSKIH SUSTAVA

(1. DIO)

Temeljno pitanje kompjuterizacije je svrsishodnost zato se neto radi pomou raunala, a tek onda kako neto ostvariti

1. INFORMACIJSKI SUSTAV

Informacijski sustav (IS) je organizirana cjelina informacijskih djelatnosti i odnosa (informacijsko-dokumentacijsko-komunikacijskih) organizacija, slubi, institucija i informacijske kulture = mrea informac. djelatnosti (arhivske, muzejske, bibliotene i dokumentacijske), slubi i odnosa

Informacijska djelatnost je sastavni dio cjelokupne drutvene djelatnosti, a od drugih djelatnosti se razlikuje svojim funkcijama, organizacijom i korisnicima

2. STRUKTURA INFORMACIJSKOG SUSTAVA

Struktura informacijskog sustava = unutranji raspored elemenata, njihov sastav, poredak i odnosi u informacijskom sustavu

4 initelja informac. sustava, tj. strukture IS:

INFORMACIJSKI SUBJEKTI

organizacije koje se bave inform., dokument. i komunikac. djelatnou (muzeji,biblioteke,arhivi...), informatika drutva, znanstvene jedinice, instituti, fakulteti, pojedinci

INFORMACIJSKA KULTURA sklop drutveih vrijednosti, ponaanje korisnika i pravila ponaanja IS

OPREMA materijalna osnova IS, tehnika pomagala i medij

SREDINA INFORMACIJSKOG SUSTAVA

3. INFORMACIJSKA DJELATNOST I SREDINA

Na informacijski sustav djeluju i uvjetuju ga vanjski faktori (politiki, ekonomski, kulturni itd.) koji ine sredinu informacijskog sustava

STRUKTURA I GENEZA INFORMACIJSKIH SUSTAVA2. DIO

- Informacijski subjekti konstituiraju se kao specifine i samostalne organizacije i slube ne samo u funkciji kulture kao dijela drutva ve drutva u cjelini

- Informacijska kultura nije podkultura neke specifine djelatnosti, ve postaje dio ope drutvene kulture

Sredstva ili oprema su orue za obradu, uvanje, pretraivanje i koritenje dokumenata

Ona se oblikuju spoznajama, vrijednostima i pravilima informacijske kulture

Informacijska kultura je kriterij za izbor sredstava da bi se zadovoljili opi drutveni ciljevi i interesi

Tri pristupa informacijskom sustavu

Teite pri stvaranju i razvijanju IS moe biti na:

1.ORGANIZACIJI

2.INSTITUCIONALIZACIJI

3. SUSTAVU VRIJEDNOSTI

PRETRAIVANJE INFORMACIJA U ZNANSTVENOJ LITERATURI

Klasifikacija znanstvene literature

Znanstvena literatura openito se dijeli na primarne, sekundarne i tercijarne izvore informacija koje treba znati razlikovatiPojedini asopisi mogu obuhvaati vie ovakvih kategorija, dok u nekima, ovisno o ciljanoj publici, nalazimo samo jednu

Primarna literatura

nUkljuuje svu znanstvenu literaturu koja predstavlja nove znanstvene injenice i ideje kao i rezultate novih znanstvenih istraivanja

nLiteraturu toga tipa piu znanstvenici koji su sami napravili istraivanje, no ona moe sadravati i kritike te analize koje unapreuju nove koncepte i stajalita o podacima dobivenima od drugih

nTakva literatura objavljuje se u asopisima na akademskoj razini, a u najire cijenjenim asopisima lanci su kritiki ocijenjeni od drugih znanstvenika prije publikacije

Sekundarna literatura- Ukljuuje saetke rezultata i ideja preuzetih iz primarne literature

- Namijenjena znanstvenicima koji posjeduju znanje o odreenoj temi

- Izvori informacija uvijek citirani takvi lanci su dobra mjesta za poetak pretraivanja informacija o temi koja nas zanima

Tercijarna literatura

nOpenito namijenjena potrebama neznanstvene publike

nIzvori informacija ovdje nisu citirani, moe biti ukljuena jedino bibliografija o tematski povezanim tekstovima

3. Prirunici mogu posluiti kao izvori poetnih informacija o odreenoj temi, no esto sadre netonosti i previe pojednostavljena objanjenja te su stoga neprihvatljivi kao izvori informacija u istraivakom radu

4. Enciklopedije kao i prirunici, mogu pomoi u upoznavanju s temom, no takoer neprihvatljive kao izvor informacija u istraivakom radu

Siva literatura

Postoji mnogo materijala koji nije lako klasificirati neki od njih pripadaju onome to znanstvenici nazivaju sivom literaturomUkljuuje mnoge publikacije vezane uz Vladu materijal moe varirati od raznih broura do detaljnih znanstvenih studija Vladinih znanstvenika (ili sveuilinih istraivanja pod nadzorom Vlade)Ta istraivanja mogu imati sve osobine primarnih izvora informacija, osim to ne podlijeu kritikom ocjenjivanju (postoje iznimke)

PRETRAIVANJE INFORMACIJA U ZNANSTVENOJ LITERATURI

osnovni koraci u pretraivanju znanstvene literature :

koritenje tercijarne literature radi dobivanja osnovnih podataka i referencidobar popis kljunih rijeipretraga raunalog katalogaupotreba raunalno vezanih indeksa koritenje citirane literature

IZVORI DOSTUPNI NA RAUNALU :

ALATI ZA PRETRAIVANJE :

godinji indeks pojedinanih asopisaznanstveni indeks citataelektroniki centar asopisa

BIBLIOMETRIJA

Bibliometrija

to je podruje koje razvija istraivake metode koje se koriste u bibliotekarstvu i informacijskoj znanostibibliometrijske metode vrednovanja se koriste u istraivanjima kako bi se odredio utjecaj jednog autora ili da se opiu odnos izmeu dva autora ili djela

Zakoni bibliometrije:

Lotkin zakon znanstvene produktivnostiBradfordov zakon distribucije lanakaZipfov zakon uestalosti rijei

Lotkin zakon

Opisuje uestalost publiciranja odreenog autora u zadanom polju On glasi: OBRNUTO PROPORCIONALAN KVADRATU TOG BROJA LANAKA. broj autora koji napiu n lanaka obrnuto je proporcionalan kvadratu tog broja lanaka (1/n2 )

Bradfordov zakon

slui bibliotekarima kao vodi u odluivanju broja kljunih asopisa u nekom poljuprema njemu se asopisi u jednom polju mogu podijeliti u 3 grupe s istim brojem lanaka:1. zona: prva se razina sastoji od manjeg broja temeljnih asopisa o odreenoj temi, koji sadre 1/3 svih lanaka o temi - druga razina sadri isti broj lanaka kao i prva, ali vei broj asopisa (oko 5 puta vie). Matematika veza izmeu broja asopisa u prvoj zoni je konstanta n a u drugoj n2

trea razina sadri takoer isti broj lanaka, ali i jo vei broj asopisa nego u drugoj zoni

Zipfov zakon

Koristi se za predvianje uestalosti pojavljivanja rijei unutar nekog teksta

r x f = k

r redni broj rijei f frekvencija ili uestalost pojavljivanja u tekstu k konstanta

Analiza citata

koristi razliite metode analize citata radi uspostavljanja odnosa izmeu autora i njihovih djelaKada jedan autor citira drugog, odnos meu njima je uspostavljenAnaliza citata koristi se i da bi se ustvrdilo koliko je puta neki autor citiran

Uparivanje citatima

To je metoda koja se koristi za uspostavu tematske slinosti izmeu 2 dokumentaAko su dokumenti A i B citirani u C, tad se moe rei da su oni meusobno povezani, iako direktno ne citiraju jedan drugog

Bibliografsko uparivanje

To je zrcalna slika sparivanja citatimaPovezuje 2 dokumenta koji citiraju isti lanak ( A i B citiraju C)Ta dva dokumenta su tada povezana iako ne citiraju jedan drugog

Dolazi do razvoja bibliometrije na Internetu- webometrija

Webometrija se koristi kako bi se prouile veze izmeu razliitih stranica na Internetu

BIBLIOGRAFIJA

Tiskani popis dokumenata koji sadri formalni opis tih dokumenata, tj. popis dokumenata s njihovim bibliografskim opisomTo je abecedni popis svih materijala koritenih u izradi nekog rada

Po svom obliku moe biti:

Najee tiskane forme:

Knjige i asopisiSastavni dijelovi knjigaPrilozi u asopisima

Bibliografije se mogu razlikovati:

Po sadraju, predmetu, opsegu, vremenu i metodama obrade, svrsi, obliku i nainu rasporeda grae

Bibliografije mogu biti:

Ope ili specijalneInternacionalne, nacionalne, pokrajinske ili lokalnePosebne (strune, predmetne)Retrospektivne, tekue ili kumulativnePopisne, opisne, analitike ili kritikeIscrpne ili selektivnePrimarne ili sekundarneAbecedne, kronoloke ili tematsketo ukljuuje bibliografija?

AutoraNaslovMjesto izdavanjaIzdavaaDatum izdavanjaPaginaciju (za lanke iz magazina, asopisa, novina, enciklopedija ili antologija)

to je anotirana bibliografija?

Raspraviti autorov povod pisanja bibliografijeRaspraviti sve zakljuke koje je autor donioOpisati vlastitu reakciju na jedinicu kritiki osvrt

Koja je namjera anotirane bibliografije?

Pregled literature na pojedinom predmetuIlustrirati kvalitetu istraivanja koje smo proveliOpisati druge jedinice na istu temu koje bi mogle zanimati itateljaProiriti predmet za daljnje istraivanje

Anotacija

Kratak komentar, objanjenje dokumenta ili njegova sadrajaNe sadri podatke koji su u naslovu ili se mogu iz njega zakljuitiSlui za bolje razumijevanje naslova bez obzira na odreene potrebe korisnikaOpisna je, ne sadri potpune reeniceObino je pisana u odlomku do 150 rijei

Anotacije i saetci (abstract)

Saetci su u potpunosti deskriptivni i esto ih moemo pronai na poetku znanstvenih lanaka ili u periodikim indeksimaAnotacije su deskriptivne i kritike, izraavaju autorovo stajalite, jasnou i prikladnost izraza, te autoritet

CITIRANI RADOVI, REFERENCE I BIBLIOGRAFIJA - U EMU JE RAZLIKA?

REFERENCE = CITIRANI RADOVI

CITIRANI RADOVI BIBLIOGRAFIJA

Citirani radovi - lista citataBibliografija - popis cjelokupnog materijala koritenog u pripremi eseja, bez obzira jesu li citati uope koriteni

Kod Internet stranica koristi se URL adresa kao referenca za unos imena u abecedni popis npr.: www.theyellowpages.com

ZAPAMTI

Ne numeriraj unose.Ne radi odvojeni popis citata po kategorijama. Sve reference su unesene u JEDAN ABECEDNI POPIS po prvim rijeima citata, bez obzira od kuda citati potjeu.

PISANJE BIBLIOGRAFIJE

Citiranje s Interneta

Internet

autor"naslov lanka, Web stranice ili site-anaslov publikacijeurednik ili projekt ako nije oitooznaiti tip materijala (slika, oglas, intervju, fotografija)datum lanka i datum posljednje promjene web stranice (ili datum slanja za email)sponzor web stranice ili web sjeditadatum pristupa web stranici Potpuni URL (Uniform Resource Locator) u uglatoj zagradi

KONTROLIRANI RJENIK

TO JE KONTROLIRANI RJENIK?

Kontrolirani rjenik je organizirana lista rijei, fraza i sustava biljeenja koja se koristi za poetno oznaavanje sadraja a zatim i za njegovo pronalaenje putem navigacije ili pretraivanja

To znai da je kontrolirani rjenik tip metabaze koji funkcionira kao podskup prirodnoga jezika, ali koji nije jednak svakodnevnome govoru (Amy Warner)

NEKONTROLIRANI RJENIK

Koristi se prirodnim jezikom u dokumentu i jednak je prirodnom jeziku korisnika

Upotrebom nekontroliranoga rjenika (uncontrolled vocabulary; UV) bit e ukljueni samo oni termini koje je uveo korisnik

EKVIVALENTNE VEZE

Odreene kategorije ili lanci na stranici mogu imati viestruka imena

preferirani termin (preffered term) - automobil

varijantni termin - kola

U mnogim situacijama jedan termin zamjenjuje drugi alternativni termin:

SINONIMI= razliite rijei sa istim znaenjem (npr. glazba i muzika)

HOMONIMI= rijei koje zvue isto ali imaju razliito znaenje (npr.luk i luk)

SPAJANJE SKRAENICA sa cijelom rijei (npr. NY i New York)

Dva tipa sinonimske ekvivalencije:

nSINONIMSKI PRSTEN

nAUTORITETNI DOKUMENTI

Sinonimski prsten je put prema spajanju varijantnih termina za pojam

HIJERARHIJSKI ODNOSI

prikazuju hijerarhijsku postavu meusobno povezanih pojmova

Oni su u CV-u prikazani pomou NT-a (uih pojmovima) i BT-a (irih pojmovima),te varijantnih termina (USE i USE FOR) vezanima uz primarni pojam naega pretraivanja

Taksonomija je postala standardni pojam za opis hijerarhijskih odnosa, kao to je prikazano na slici:

ASOCIJATIVNI ODNOSI

Pojmovi meusobno ili zasebno stvaraju veze (asocijacije) na druge pojmove

U tezaurusima se nalazi prikaz odnosa izmeu NT-a i BT-a, ali i prikaz njima srodnih pojmova (RT-a)

STVARANJE KONTROLIRANOG RJENIKA

Stvaranje kontroliranog rjenika

imbenici o kojima ovisimosadraj- to su termini sliniji, treba biti paljiv ciljan pri odabiru - paziti na usklaenost termina

tehnologija- alati - koji emo program upotrijebiti za obradu termina- integracija - kako e K.R. biti integriran sa ostalim dijelovima sustava

korisnici -K.R. je usmjeren prema korisnicima - moramo razumjeti korisnike prije odreivanja terminaodravanje - potrebna je struna osoba

2Sakupljanje termina - cilj je pronai odgovarajui termin koji e imati najvie uspjeha kod korisnika/pretraivanja- dvije metode

Pogled prema unutra- alternativni termini koje moemo upotrijebiti za svaki predmet

Pogled prema van- uiti od drugih- iskoristiti mogunost posuivanja

UNIVERZALNA DECIMALNA KLASIFIKACIJA

Dokumetacijski jezici za obradu dokumenata

Za indeksiranje, pohranjivanje i pretraivanje koristimo se dokumentacijskim jezicima

DOKUMENTACIJSKI JEZICI- umjetni jezici koji se koriste u informacijskim sustavima i slubama, i to za indeksiranje, pohranjivanje i pretraivanje

INDEKSIRANJE-(engl. indexing-izrada indeksa, kazala)

pod indeksiranjem se podrazumjeva skup naela, metoda, postupaka i njihovih primjena u informacijskom procesu kojima se dokumentu dodjeljuju termini(kjune rijei), radi opisivanja njihova sadraja i njihovog kasnijeg ponovnog pronalaenja

PRETRAIVANJE-(engl. retrieval- pronalaenje)-djelatnost ili metode i postupci za pronalaenje informacija iz zbirki ili datoteka pomou danih deskriptora (kljueva ili oznaka), a prema postavljenom zahtjevu korisnika

Tri su glavna tipa dokumentacijskih jezika:

Hijerarhijski i/ili facentni klasifikacijski sustavi

(Kontrolirane) Liste termina

Tezaurusi

KLASIFIKACIJSKI SUSTAVI- dijele se na univerzalne, specijalizirane i orijentirane prema zadatku

-najpoznatija je Univerzalna decimalna klasifikacija (UDK), Deweyeva decimalna klasifikacija, BSO (sistem irokog razvrstavanja)

DECIMALNA KLASIFIKACIJA (DDK)

Engl. Decimal classification

Koristi se decimalnom notacijom

Pronaao ga ameriki bibliotekar Melvil Dewey,a 1876. ga je prvi put publicirao pod tim naslovom

Dewey je podijelio znanje na deset grupa, a onda jo svaku grupu na deset podgrupa itd.

1895. preuzeo je Meunarodni bibliografski institut iz Bruxellesa, obogatio ga pomonim tablicama za oznaavanje jezika,oblika,mjesta,rase i naroda,vremena te ga nazvao UNIVERZALNA DECIMALNA KLASIFIKACIJA

Danas je DDK uveden u mnoge knjinice SAD-a i Velike Britanije

Preveden je na 9 europskih jezika,te kineski i japanski

UNIVERZALNA DECIMALNA KLASIFIKACIJA(UDK)

Engl. Universal decimal classification

Najraireniji i najpoznatiji biblioteni klasifikacijski sustav,primjenjuje se svugdje u svijetu, izradila ju je grupa strunjaka pod vodstvom Paula Otleta

Kao podloga za izradu UDK posluila je preraena Deweyeva decimalna klasifikacija

Razlog pojave UDK bila je potreba novoosnovanog Meunarodnog bibliografskog instituta (1895) za klasifikacijskim sustavom koji e obuhvaati sva podruja znanosti i biti uporabljiv na meunarodnoj razini

UDK obuhvaa:

GLAVNE TABLICE - sadre brojeve kojima se dokumenti klasificiraju prema sadraju- svaki UDK broj se nalazi u glavnim tablicama

POMONE TABLICE donose popis opih pomonih znakova koji oznaavaju karakteristike to se ponavljaju (opi pomoni znakovi mogu se odnositi na jezik, oblik, mjesto, vrijeme, rase i nacionalnosti )

ABECEDNI PREDMETNI INDEKS omoguuje laku uporabu i pronalaenje potrebnih UDK brojeva za klasificiranje

OSOBITOSTI UDK:

Zastupljenost svih podruja znanosti(vie od 100 000 strunih oznaka)

Naelo decimalne podjele, koje omoguuje neogranienu podjelu na podskupove

Uporabu iskljuivo numerikih oznaka koje se lako pamte, a nisu barijera u raznim jezinim podrujima

Postojanje razgraenog sustava pomonih brojeva

Primjena naela sintetskih oznaka

Mogunost uvrtavanja neogranienog broja dokumenata na svakoj razini podjela

PREDNOSTI UDK:

Univerzalnost

Mogunost meunarodne uporabe

Decimalni sustav oznaka

Dobro funkcioniranje nacionalnih i internacionalnih ustanova odgovornih za njezino odravanje

Zato je UDK jo glavni meunarodno prihvaeni sustav klasifikacije dokumenata u knjinicama i specijalnim knjinicama

U Hrvatskoj se sve ili veina javnih, narodnih, kolskih knjinica te Nacionalna i sveuilina knjinica najee koriste sustavom UDK - za odlaganje i pretraivanje

INFORMATION BROKERS

Definicija pojma

Relativno nov pojam

Odnosi se na pojedince ili organizacije plaene za obavljanje informacijskih usluga, izmeu ostalog nabavu informacija i njihovu prodaju klijentima. (Informatian broking= trgovanje informacijama).

Definicija inf. brokinga koju je razvila EIRENE-a: Inf. broking je opi pojam za osobu ili organizaciju koja ugovorno osigurava korisniku informacijske usluge.

Zanimanje je nastalo iz potrebe da pojedinci ili tvrtke dou do potrebnnih inf. na to bri i efikasniji nain.

Inf. brokere zovu jo i: inf. consultant (inf. savjetnik), freelance librarian (neovisni knjiniar), inf. retailer (trgovac informacijama), cybrarian (cyber-librarian)...

Postoje 2 kategorije slubi za inf. broking:

1) slube koje vode neovisni brokeri (tvrtke ili pojedinci) esto su specijalizirani za odreena podruja

2) slube u sklopu veih institucija ili organizacija (npr. knjinica ili neprofitnih org.) trokovi nabave inf. se pokrivaju iz lanarina

Nisu tako usko specijalizirane kao neovisne slube

Usluge koje pruaju inf. brokeri

Zavise od tvrtke ili pojedinca i od potreba klijenata

Ukljuuju praenje razvoja trita, nadziranje konkurenata i pronalaenje potencijalnih poslovnih partnera (Najee traene inf. su one o pojedinim tvrtkama i o istraivanjima trita).

Usluge koje brokeri pruaju mogu se podijeliti u 2 kategorije:

a) pretraivanje inf. ( information retrievaling)

b) organizacija inf. (information organisation)

a) pretraivanje informacija

Skup aktivnosti iji je cilj pronai klijentu eljenu inf.

Ukljuuje pretragu online baza podataka, intervjue (slue da bi se eljene inf. dobile izravno) i istraivanja trita (provodi se pomou intervjua ili pretrage baza podataka).

b) organizacija informacija

Ukljuuje tipino knjiniarske zadatke ( npr. prikupljanje i organizacija bibliografija, indeksiranje knjiga, katalogizacija knjiga i drugih materijala) koji se ne obavljaju u kontekstu knjinice

Potraga za informacijama i njihovo prikupljanje odvija se u 10 koraka

Obrazovanje inf. brokera

Veina ljudi u SAD-u koji se bave inf. brokingom imaju diplomu knjiniara, ali u zadnje vrijeme sve je vie brokera koji uz to imaju zavrene i druge teajeve (npr. menadmentsko savjetovanje) ili imaju diplome drugih struka.

Karakteristike uspjenog inf .brokera:

dobro poznavanje inf. pretraivanja ili diploma iz tog podruja,

redovita nadopuna svojih znanja

preciznost, brzina i uinkovitost u pronalaenju inf.

dobro poznavanje trita i znanje stranih jezika

predanost poslu, dobra informiranost i postizanje dobrih odnosa s klijentima

fleksibilnost,otvorenost za nove ideje i mogunosti

Mora uvjeriti klijenta da je upravo on osoba za taj zadatak ak i ako nije strunjak na tom podruju

Mora znati svoje granice

Organizacije inf. profesionalaca

1) Association Of Independent Information Professionals (AIIP)

Osnovala ju je 1986. u Americi skupina inf. profesionalaca

Danas u 20 zemalja ima oko 600 lanova koji imaju odreene povlastice (pristup privatnim online forumima, popusti na inf. usluge i produkte...)

Organizacija ima detaljno razraen i razvijen pravilnik o etinom poslovanju koji klijentima jami profesionalnu uslugu i povjerljivost

AIIP inf. brokere smatra posrednicima izmeu klijenata i informacija.

2) The European Association Of Inf. Servicies (EUSIDIC)

Danas pokriva preko 100 organizacija u 16 europskih zemalja

Nastoje okupiti inf. profesionalce i njihove org. oko ideja razmjene znanja, iskustava i ideja

Omoguuju komunikaciju izmeu profesionalaca s podruja inf. industrije

3) European Information Researchers Network (EIRENE)

Europski odgovor na AIIP

Okuplja oko 65 brokera s podruja zemalja EU, EFTA-e i zemalja Istone Europe

Osnovni cilj im je poveati pristup inf. i razviti inf. posrednitvo kao komercijalnu aktivnost

I oni imaju razvijen pravilnik o etinom poslovanju

4) Docere Inteligence

Vodea skandinavska tvrtka na podruju inf.brokinga

Specijalizirani za pruanje usluga na podruju energetike, financija, informatike, komunikacija, elektronikog poslovanja, politikih i globalnih trendova

Usluge koje pruaju: analitika izvjea, konzultacije i informacijski menadment, indeksiranje, ispitivanje trita, online pretraivanje, predavanja i seminari iz usavravanja u poslovanju

Zakljuak

Danas ivimo u informacijskom drutvu u kojem i pojedinci i vee organizacije imaju ogromnu potrebu to prije doi do tonih i vanih informacija na najbolji i najefikasniji nain.

Ovdje dolazi do izraaja uloga informacijskog posrednika kao osobe koja je plaena da korisniku nabavi traenu informaciju, upravo u onom obliku i sadraju u kojem ju korisnik treba.

RELEVANTNOST

1950-ih uvodi se pojam relevantne informacije

IR sustavi -> sustavi za pronalaenje relevantnih informacija

informacija opisana svojom relevantnou postaje glavni pojam informacijske znanosti

relevantnost izraava kriterij za postizanje uinkovitosti u pronalaenju informacija

relevantnost je postala najistraivanija tema informacijske znanosti

Karakteristike relevantnosti

Priroda okvir u kojem definiramo relevantnost (kao pojam)

Manifestacija razlikujemo kontekste i tipove relevantnosti

Ponaanje kakav je odnos meu traenjem, pronalaenjem i koritenjem informacija

Uinci kako iskoristiti relevantnost u teoriji i praksi, u razvoju IR-sistema, procesa, algoritama i njihovoj procjeni

Priroda relevantnosti

osim u informacijskoj znanosti, relevantnost je esto prouavana i u mnogim drugim znanostima kao to su filozofija, komunikacija, logika i psihologija

ima iroko podruje primjene

relevantnost zahtijeva intuitivno shvaanje

Intuitivno shvaanje relevantnosti

osnovno ljudsko kognitivno zapaanje

Karakteristike:

temelji se na spoznaji

ukljuuje interakciju i stalnu komunikaciju

dinamina je

bavi se prikladnou i uinkovitou

Izraava se u kontekstu

u informacijskoj znanosti potrebno je slijediti intuitivnu upotrebu relevantnosti

Relevantnost u filozofiji

u filozofiji se relevantnost definira kao svojstvo koje odreuje veze i relacije u naemu kompleksnom socijalnom svijetu (Schutz 1970.)

u trenutku osoba ima:

-temu koncentracije

-pozadinu (osobna iskustva, psiholoki prostor koji je mogue povezati s temom)

3 osnovna i nezavisna tipa relevantnosti:

tematska relevatnost percepcija problematinog da bi se osnovala tema, odvojena je od pozadine

interpretacijska relevantnost ukljuuje pozadinu i na njoj se temelji

motivacijska relevantnost ukljuuje selekciju interpretacije i odnosi se na smjer radnje koja e biti prihvaena

Relevantnost u komunikaciji

Sperber & Wilson novi pristup u prouavanju ljudske komunikacije

posebno su se koncentrirali na verbalnu komunikaciju

razliiti komunikacijski modeli

KODNI MODEL tumaenje komunikacije u uvjetima kodiranja i dekodiranja poruke od izvora do odredita

NAMJERE informativne, komunikativne

ine ljudsko ponaanje predvidivim

za voenje ljudske komunikacije

objanjavaju razliitost i povezanost

izmeu onoga to osobe ocjenjuju kao

relevantnost i onoga to poboljava sustav

Schutz, Sperber i Wilson interpretiraju relevantnost kao sustav mnogostruke vanosti

Osnovna svojstva

Veza relevantnost ukljuuje vezu

Namjera veza u izraavanju relevantnosti ukljuuje namjere i motivaciju

Kontekst relevantnost ne moe biti bez konteksta

Zakljuak - relevantnost ukljuuje procjenjivanje veze, esto visoko procjenjivanje stvarnosti ili stupnja poveanja dane veze

Uzajamno djelovanje - zakljuak je izveden kao dinamian, uzajaman proces, gdje se objanjenje drugih svojstava smije

promijeniti

relevantnost kriterij uinkovitosti razmjene informacija meu ljudima u komunikacijskom procesu

Priroda relevantnosti

rane 1960 relevantnost postala sve traenija tema prouavanja u inf. znanosti

rezultat istraivanja relevantnosti opirna literatura

veina istraivanja o relevantnosti se bavila ponaanjem i uincima

4 okosnice prirode relevantnosti: sustavna, komunikacijska, poloajna i psiholoka

Okosnica sustava

poslije 1950.god prva okosnica se razvila u tradicionalni IR model

model predstavlja IR kao dva skupa elemenata, sustava i korisnika koji si odgovaraju

pretraivanje usporeivanje dvaju prikaza; tekstova i upita

sustav jednostavan, jasno definira IR sustave

- odreuje ureivanje i usporeivanje ostalih procesa u kontroli sustava

relevantnost vlasnitvo sustava

Okosnica komunikacije

razmatranje komunikacije u okvirima razmjene poruka izmeu izvora i odredita, s moguom pojavom uma i povratne informacije to je osnovni model Shannon-ove teorije informacije

relevantnost kriterij za uspostavljanje uinkovitosti izmeu izvora i odredita

relevantnost predstavlja vezu

Okosnica poloaja

kola Syracuse istraivanje relevantnosti i nove generacije njenih istraivaa

glavni elementi koji karakteriziraju prirodu relevantnosti - poloaj, drutveni kontekst, vremenska ovisnost i dinaminost

relevantnost dinamini koncept koji ovisi korisnikovoj procjeni kvalitete veze izmeu informacije i informacijske potrebe u odreenom vremenu

Psiholoka okosnica

Harter je naziva psiholoka relevantnost

psiholoka relevantnost dinamina, promijenjiva interpretacija informacijske potrebe u vezi s predstavljenim tekstom

temelji se na pretpostavci da se kognitivno stanje korisnika stalno mijenja i raste svakim novim otkriem relevantne informacije

slabost joj je to se odnosi samo na relevantne informacije najograniavajui oblik relevantnosti u informacijskoj znanosti

Interakcijski okvir

pojavom online sustava, IR se razvio u iznimno interaktivan proces, kakav je i danas

IR interakcija je postala subjektom mnogih istraivanja

2 modela IR interakcija su se istaknula: kognitivni model i epizodni model

1. Kognitivni model (Ingwersen)

IR interakcija skup procesa kognitivnih opisa i modela koji se pojavljuju unutar i izmeu elemenata

tekst kognitivne strukture koje se smatraju informacijskim prostorom

interakcijski procesi su dinamini te su bazirani na relevantnosti

2. Epizodni model (Belkin)

IR sustav slijed razliitih epizoda

centralni proces korisnikova interakcija s informacijama

razliite vrste interakcija podravaju procese kao to su sudovi, interpretacije, modifikacije, pretraivanje, itd.

Acquistition Cognition Application(Saraevi i Kantor)

model zasnovan na pretpostavci da korisnik trai informacije da bi ih upotrijebio, upotreba je povezana sa spoznajom te kasnije sa zakljukom

proces je dinamian u svim smjerovima

IR interakcija tada postaje dijalog izmeu sudionika (elemenata) korisnika i raunala, a glavna namjera je utjecati na kognitivno stanje korisnika za efektivnu upotrebu informacija

IR interakciju moemo promatrati kao pojavu koja se sastoji od nekoliko povezanih razina:

- kognitivna razina

- situacijska razina

- razina uinkovitosti

kognitivna razina korisnik se koristi tekstom, smatrajui ga kognitivnom strukturom

situacijska razina korisnik je u meudjelovanju sa problemom zbog informacijske potrebe

razina uinkovitosti korisnik djeluje s namjerom i motivacijom

Oitovanja relevantnosti

razotkrivanje, opis, klasifikacija i oblikovanje razliitih oitovanja relevantnosti tema brojnih teorijskih, praktinih i promatrakih istraivanja u informacijskoj znanosti

istraivanja oitovanja rezultiraju najee u nekoj klasifikaciji i modelu od velike su vanosti iz 2 razloga:

promatranje relevantnih oitovanja mora vrednovati ili odbaciti dane teorije i okosnice o prirodi relevantnosti

mogu upravljati istraivanja o ponaanju i uincima relevantnosti

Tri linije ispitivanja oitovanja relevantnosti:

1. predloena su ili ispitana razliita svojstva od vanosti za korisnike u vezi s uinkovitom upotrebom informacija. Neka istraivanja predlau zamjenu relevantnosti (npr. s koritenjem), a neka dovode relevantnost u vezu s drugim svojstvima kao to je zadovoljstvo i koritenje i zadovoljstvo utvreni su kao razliita i vana oitovanja ili vrste relevantnosti

2. promatranje i postupno oblikovanje razliitih tipova zakljuivanja korisnika

-tipini model je Parkov - u kojem je korisnikova procjena relevantnosti ocrtana u mnogostrukim slojevima koji su interpretirani unutar 3 konteksta:

korisnikov unutarnji kontekst (znanje o predmetu, iskustvo pretraivanja)

vanjski kontekst (stupanj istraivanja, cilj istraivanja)

problemi konteksta

3. tzv. klju istraivanja - otkrivanje i kvalificiranje i klasificiranje svojstva ili kriterije na koje su korisnici usredotoeni kad dolaze do relevantnih zakljuaka, te pruanje kljua ili traga svemu to se razmatra kad zakljuujemo o relevantosti.

relevantnost ukazuje na odnos.

razliita oitovanja relevantnosti ukljuuju razliite odnose

Unutar konteksta relevantnosti informacije (IR-a) i informacijske znanosti, razlikujemo slijedea oitovanja relevantnosti:

sustav ili algoritamska relevantnost odnos izmeu upita i teksta informacije u datoteci sustava kao povratni ili neuspjeno povratni od procedure ili algoritma

tematska ili predmetna relevantnost odnos izmeu predmeta ili teme izraene u upitu, te tema ili predmet koji ga opisuje od povratnih tekstova ili tekstova datoteka sustava, ili ak u postojanju.

kognitivna/spoznajna relevantnost ili spoznajna ispravnost odnos izmeu stanja znanja i spoznaje informacije koja je potrebna korisniku i povratni tekstovi, ili u datoteci sustava, ili ak u postojanju.

relevantnost prema situaciji ili korisnost odnos izmeu situacije, zadatka ili trenutanog problema i povratnih tekstova, ili u datoteku sustava ili u postojanju.

motivacijska ili spontana relevantnost odnos izmeu napetosti, ciljeva i motivacije korisnika i povratnih tekstova od sustava ili datoteke sustava ili u postojanju. Ta oitovanja dinamino utjeu jadna na drugo

Zakljuak

meudjelovanje relevantnosti je ugraeno u IR sustave

korisnicima IR sustava nije potrebno objasniti to je relevantnost, jer e je ljudi intuitivno razumjeti, to i objanjava uspjeh IR-a.

dva primarna cilja ovog rada su:

1. objanjenje relevantnosti u informacijskoj znanosti

2. kratka sinteza studije vezane uz oitovanje relevantnosti

poboljanja IR sustava ovise o boljem razumijevanju relevantnosti

Uinkovitost IR-a ovisi o uinkovitosti meudjelovanja i prilagodbe razliitih oitovanja relevantnosti koje su organizirane u sustavu relevantnosti

glavni problem R&D-a u informacijskoj znanosti trebao bi biti usmjeren prema poveanju uinkovitosti relevantnosti meudjelovanja to bi trebao biti osnovni cilj istraivanja relevantnosti u informacijskoj znanosti

MODERNO PRETRAIVANJE INFORMACIJA

1.1. MOTIVACIJA

lpretraivanje informacija (information retrieval, IR) se bavi prikazom, pohranom, organizacijom i pristupanjem eljenim informacijama

lprikaz i organizacija informacija bi korisniku trebali pruiti jednostavan pristup informaciji za koju je zainteresiran

lproblem odreivanje korisnike potrebe za informacijama (user information need)

lkorisnik mora prevesti potrebu za informacijom u upit kojega e pretraiva ili IR sustav moi obraditi

lprevoenje rezultira nizom kljunih rijei (ili natuknica) koje odreuju potrebu korisnika za informacijom

lna temelju upita korisnika, IR sustav nastoji pronai informaciju korisnu ili relevantnu za korisnika

lNaglaena je razlika izmeu pretraivanja informacija i pretraivanja podataka

PRETRAIVANJE INFORMACIJA VS. PRETRAIVANJE PODATAKA

Pretraivanje podataka odreivanje dokumenata iz zbirke, koji sadre kljune rijei korisnikova upita

cilj je pronalaenje objekata koji zadovoljavaju jasno definirane uvjete

raspolaganje podacima s jasno definiranom strukturom i semantikom

jedan pogrean, od tisuu pronaenih objekata, je promaaj

nezadovoljavajue, jer se korisnik oslanja na pronalaenje informacija o objektu, a ne na pronalaenje podataka koji odgovaraju na upit

Pretraivanje informacija - koriste se prirodni jezici koji nisu uvijek jasno strukturirani i mogu biti dvosmisleni, odnosno semantiki zbunjujui

Pronaeni objekti mogu biti netoni i mogue je da manje greke prou neprimijeene

lpretraivanje podataka ne rjeava problem pretraivanja informacija prema subjektu ili temi zato IR sustav mora nekako interpretirati sadraj podataka u zbirci i poredati ih prema stupnju relevantnosti u upitu korisnika

linterpretacija sadraja dokumenta - izvlaenje semantikih i sintaktikih informacija iz teksta dokumenta i koritenje tih informacija za usklaenje s korisnikom potrebom za informacijom

losnovni, primarni cilj IR sustava jest pronalaenje SVIH relevantnih dokumenata za upit korisnika, a istovremeno pronalaenje to je manje mogue irelevantnih dokumenata

1.1.2. PRETRAIVANJE INFORMACIJA U SREDITU PANJE

lIR podruje neprestano raste, no ee se tumai kao usko podruje indeksiranja teksta i pronalaenja korisnih dokumenata u kolekciji

listraivanje unutar IR zapravo ukljuuje modeliranje, klasifikaciju, kategorizaciju, suelje korisnika, vizualne podatke, itd. zahvaljujui Web-u

lWorld Wide Web (WWW) je univerzalno skladite znanja i kulture dananjice

Web je koncipiran kao standardno suelje koje se ne mijenja u raunalnoj okolini koja ga pokree

pozitivne strane

qmedij dostupan svima i cijenom i svojom konstrukcijom

qkoritenjem raunala izvravaju se dnevni zadaci (revolucija)

negativne strane

qodsutnost dobro definiranog pozadinskog modela podataka (loa kvaliteta definicije i strukture informacije)

qhyperspace (svemir bez granica) uzrokuje teak odabir relevantnih informacija

1.2.1. ZADATAK KORISNIKA

lprevesti svoju potrebu za informacijom u upit na jeziku kojim se slui sustav (odreivanje niza rijei sa semantikom traene informacije)

upit specificira skup rijei koje prenose znaenje informacijske potrebe

upit prenosi ogranienja koja odgovori moraju zadovoljiti

lu oba sluaja korisniko pretraivanje izvrava zadatak pretraivanja (retrieval task)

zadaci korisnika (upueni IR sustavu)

pretraivanje (retrieval)

pregledavanje (browsing) podataka i/ili informacija

lpregledavanje dokumenata (browsing) je takoer proces pronalaenja informacija, ali onih koje nisu dovoljno dobro definirane (odreene) u poetku, i ija bi se svrha mogla promijeniti u vrijeme interakcije sa sustavom

liako kombiniranje pretraivanja informacija (retrieval) i pregledavanja jo nije uobiajena praksa, mogla bi postati u budunosti

lsuvremene digitalne knjinice i Mrena suelja mogli bi pokuati kombiniranjem ovih zadataka pruiti poboljane znaajke pretraivanja informacija/podataka

lretrieval i browsing su u jeziku WWW-a akcije povlaenja korisnik zahtijeva informacije interaktivnim putem

ldrugi, staromodniji nain pretraivanja je automatsko i stalno koritenje softvera koji guraju informaciju prema korisniku (npr. izvlaenje korisnih informacija periodino iz novinskih agencija) tada kaemo da IR sustav djelomino izvrava zadatak pretraivanja koji se sastoji od filtriranja relevantnih informacija za kasnije pregledavanje

1.2.2. LOGIKI PRIKAZ DOKUMENATA

liz povijesnih izvora dokumenti su esto prikazivani preko indeksa ili kljunih rijei

Kljune rijei se mogu izvui izravno iz teksta (automatski) ili ih odreuje neki subjekt (izdvaja ih specijalist), a u svakom sluaju su logiki prikaz dokumenta.

full text cjelokupni popis rijei iz dokumenta, najkompletniji logiki prikaz dokumenta, no zahtijeva jako puno raunanja

(potreba za smanjenjem skupa reprezentativnih kljunih rijei)

lreduciranje skupa reprezentativnih kljunih rijei

eliminacijom stop rijei (stopwords veznici i lanovi)

svoenjem razliitih oblika rijei na njihov zajedniki korijen

identifikacijom imenikih skupina (eliminiranjem pridjeva, priloga, glagola)

tekstualne operacije (transformacije)

smanjuju sloenost prikaza dokumenta

dozvoljavaju logiki prikaz od razine cijelog teksta do razine indeksa (prepoznavanje i unutarnje strukture dokumenta)

1.3. PROLOST, SADANJOST I BUDUNOST

li prije 4000 godina ovjek je organizirao informacije za kasnije pretraivanje i upotrebu

lprvi primjeri su bili sadraji

lpoveavanjem volumena nastajali su indeksi - skupovi izabranih rijei koje su (pokazivaima) pridruene srodnim informacijama ili dokumentima, omoguuju bri pristup i snalaenje

lruna izrada

lrazvojem tehnologije automatska izrada

Dva su gledita IR problema:

qproblem USMJEREN NA RAUNALA

izgradnja djelotvornih indeksa

djelotvorna obrada upita

razvoj algoritama koji poboljavaju kvalitetu odgovora

qproblem USMJEREN NA OVJEKA

Prouavanje navika korisnika

Razumijevanje njegovih potreba

Odreivanje kako to razumijevanje utjee na organizaciju i rad IR-a

(Prema drugome gleditu, upit baziran na kljunim rijeima moe biti prikazan kao nain rjeavanja problema pronalaenja informacija)

1.3.2. PRETRAIVANJE INFORMACIJA U KNJINICI

lknjinice kao prve institucije s usvojenim IR sustavom za pronalaenje informacija

lprva generacija tih sustava se sastojala od automatizacije prijanjih tehnologija (katalozi), dok se pretraga vrila prema autoru i naslovu

ldruga generacija ima poveanu funkcionalnost pretrage time to dozvoljava pretragu po naslovima, kljunim rijeima..

ltrea generacija, trenutno u razvoju, fokus je na poboljanim sueljima, elektronskim formama, hipertekstualnim karakteristikama

1.3.3. WEB I DIGITALNE KNJINICE

lWeb jo koristi indekse, potekle od prologa stoljea

ltri dramatine promjene u skladu s razvojem moderne kompjutorske tehnologije i nastanka mree:

ljeftin pristup informacijama velik raspon korisnika

lvei pristup mreama dokida se problem udaljenosti, poveanje komunikacijski mogunosti

lslobodan pristup informacijama

Web kao medij za visoku interakciju poboljana komunikacija

ltri pitanja budunosti

lkojim tehnikama pronai kvalitetne/relevantne informacije (koje zadovoljavaju potrebe korisnika)?

l(poveanje raspona pristupa informacijama, smanjenje ansi za brz odgovor)

lkojim tehnikama nainiti bre indekse uz mali utroak vremena?

l(na kvalitetu pronalaenja informacija utjee interakcija korisnika sa sustavom)

kako e bolje razumijevanje korisnikovih navika utjecati na razvoj novih strategija IR sustava?

1.3.4. PRAKTINI PROBLEMI

lsigurnost

problemi se javljaju pri online transakciji novcem, jer moe biti otkriven broj kreditne kartice

rjeenje je u off-line proceduri ili kodiranju podataka

lprivatnost informacija

ljudi izmjenjuju informacije samo uz uvjet da ne postanu javne

lpravo na patent i publikacijsko pravo

razliiti zakoni zatite tih prava

1.4. PROCES PRETRAIVANJA

lprije nego proces pretraivanja zapone, potrebno je definirati tekstualnu bazu podataka (text database)

to ini (database manager) prema sljedeem:

Odreuju se dokumenti koji e biti koriteni

Odreuju se operacije na tekstu (original to logical view)

Odreuje se model teksta

l(database manager) izgrauje indeks (index)

jedna od najvanijih struktura je invertna datoteka (inverted file)

brzo pretraivanje velike koliine podataka

lbaza podataka dokumenta je indeksirana, te moe zapoeti pretraivanje (retrieval)

korisnik definira svoje potrebe (user need) na kojima se izvravaju tekstualne operacije

operacije upita (query operations) mogu biti izvrene prije samog upita (query), da bi ostvarile prikaz potreba korisnika

upit (query) se obrauje da bi dobili traene dokumente (retrieved documents)

prije nego to su poslani korisniku, traeni dokumenti su rangirani (ranking)

korisnik pregledava dokument da bi naao relevantne informacije, te zatim pokree ciklus povratnih informacija (user feedback), pri kojemu sustav stvara novi upit koji daje kvalitetnije/relevantnije rezultate

OPIS I PODJELA MODELA ZA PRETRAIVANJE INFORMACIJA

Indeksiranje

Indeks je kljuna rije ili skupina rijei koja ima svoje vlastito znaenje i koja se pojavljuje u tekstu dokumenta

Problem

Sustavi pretraivanja koji se baziraju na indeksima mogu biti jako neprecizni jer se tekst dokumenta reducira na skupinu rijei koji ne moraju dosljedno opisivati dokument

mnogi Web korisnici se bune da kod pretraivanja nailaze na previe irelevantnih informacija

Koji su dokumenti relevantni a koji ne ?

IR modeli

Algoritam za odreivanje indeksa je temelj sustava za pretraivanje = IR model

3 klasina IR modela

Booleov, Vektorski i Probabilistiki

Booleov model dokumenti i upiti su formulirani kao skupovi indeksnih termina (set-theoretic model)

Vektorski model - dokumenti i upiti su izraeni kao vektori u t-dimenzionalnom vektorskom prostoru (algebaric model)

Probabilistiki model temelji se na teoriji vjerojatnosti i tako tretira dokumente i upite (probabilistic model)

Uz klasine razvili su se i alternativni modeli za svaku od navedenih klasa

2 naina rada IR sustava

Ad hoc Dokumenti u kolekciji su vrlo statini dok se sustav nadopunjuje upitima

-najee se koristi

Filtriranje Upiti su veinom statini dok dokumenti prolaze kroz sustav (npr. financijska burza)

Filtriranje

Prilikom filtriranja stvara se korisnikov profil koji opisuje korisnikove postavke

Takav korisniki profil se tada usporeuje sa pristiglim dokumentima u namjeri da se odredi to bi korisnika moglo zanimati, a to ne (primjer: kod pretraivanja novina na webu prvo se stvara korisniki profil u kojemu su odreeni upiti korisnika koji se onda koriste u pronalaenju odgovarajuih lanaka koji dnevno izlaze ili koji su pohranjeni u bazi podataka)

Kod filtriranja sustav korisniku uzvraa ono to bi ga moglo zanimati, a na korisniku samome je da odredi da li je to za njega doista relevantno ili nije

Sustav ak ne mora nuditi ni rangiranje filtriranih dokumenata

Ukoliko sustav ipak nudi rangiranje filtriranih dokumenata cilj je da korisnik moe pregledati manji broj dokumenata ako pretpostavi da su oni na vrhu rang liste relevantniji

Ovakvo filtriranje naziva se routing, ali nije jako popularno

Filtriranje

Kod filtriranja kljuno nije rangiranje dokumenata samo po sebi, ve stvaranje korisnikog profila koji doista reflektira korisnikove postavke

Postoji mnogo pristupa stvaranju korisnikih profila

Pristupi stvaranju dobrog korisnikog profila

najjednostavniji pristup kada je na korisniku da navede kljune rijei (najee nefunkcionalan jer korisnik ne poznaje sustav i vokabular)

dinamini pristup interesi korisnika se odreuju i direktno i posredno (prvo se stvara primitivni jednostavni model u kojemu korisnik navede kljune rijei po kojima mu sustav pronalazi potencionalno relevantne dokumente koje korisnik potom ocjenjuje kao korisne ili beskorisne a sustav prema tim novim informacijama mijenja korisniki profil koji se nakon nekoliko takvih ciklusa stabilizira)

Formalna karakterizacija IR modela

to je zaista IR model?

Definicija

IR model je etverostruk (D, Q, F, R) gdje

1) D je set sastavljen od logikih reprezentacija dokumenata u kolekciji

2) Q je set sastavljen od logikih reprezentacija korisnikovih informacijskih potreba

3) F je okosnica za modeliranje reprezentacija dokumenata, korisnikih upita i njihovih veza

4) R(qi, dj) je funkcija rangiranja koja upitima qi Q i prikazima dokumenata dj D pridruuje realne brojeve. Ova funkcija definira redoslijed uzvraanja dokumenata s obzirom na upit

Da bi se izradio model

Izradi se reprezentacija dokumenta

Razradi se okosnica po kojoj e biti modelirano

Izabere se sustav za vrednovanje

Booleov- skupovi dokumenata i standardne operacije na skupovima

Klasini vektorski model- osnove su sastavljene od t-dimenzionalnog vektorskog prostora i standardnih linearnih operacija na vektorima

Klasini probabilistiki model, okosnica je sastavljena

od skupova, standardnih operacija vjerojatnosti i Bayesovog teorema

PRETRAIVANJE INFORMACIJA

Klasino pretraivanje informacija

nOsnovni koncept

nBooleov model

nVektorski model

Klasino pretraivanje informacija

Osnovni koncept

nSvaki je dokument opisan skupom reprezentativnih kljunih rijei, koje se nazivaju INDEKSNI TERMINI

nIndeksni termin je rije ija semantika pomae u opisu glavnih tema dokumenta.

nIndeksni termini stoga slue indeksiranju i saimanju sadraja dokumenta.

nIndeksni termini veinom su imenice jer one nose znaenje same po sebi, te je njihovu semantiku jednostavnije identificirati i shvatiti.

nU skupu indeksnih termina dokumenta primjetno je, da svi termini nisu jednako korisni u opisivanju sadraja dokumenta neki indeksni termini nejasniji su od drugih.

nOdluivanje o vanosti termina za saimanje sadraja dokumenta nije beznaajno pitanje!

nIndeksni termini imaju svojstva koja se lako mogu izmjeriti i koja su korisna za procjenjivanje potencijala takvog termina.

n Npr. u zbirci od 100 000 dokumenata, rije koja se pojavljuje u svakom od tih dokumenata potpuno je beskorisna kao indeksni termin jer ne govori nita o dokumentu za koji je korisnik zainteresiran. S druge strane, rije, koja se pojavljuje u samo pet dokumenata korisna je, jer suava izbor dokumenata za koje bi korisnik mogao biti zainteresiran.

nStoga, jasno je da razliiti indeksni termini nisu od jednake vanosti pri opisivanju sadraja dokumenta.

nTo je vidljivo u dodjeljivanju tzv. brojanih vrijednosti svim indeksnim terminima dokumenta.

nNeka je ki - indeksni termin, dj dokument, a

wi.j > 0 vrijednost vezana uz par (ki , dj). Ova vrijednost kvantitativno odreuje vanost indeksnog termina za opisivanje semantikog sadraja dokumenta.

nDefinicija: Neka je t broj indeksnih termina u sustavu, a ki generiki indeksni termin. K = {k1,...,kt}je skup svih indeksnih termina.

nVrijednost wi,j > 0 vezana je za svaki indeksni termin ki dokumenta dj.

nZa indeksni termin kojega nema u tekstu dokumenta

wi,j = 0

S dokumentom dj povezan je vektor indeksnog termina dj prikazan kroz dj = (w1,j , w2,j , ... , wt,j). Nadalje, gi je funkcija koja vraa vrijednost povezanu s indeksnim terminom ki u svakom t-dimenzialnom vektoru

(i.e., gi (dj) = wij).

nVrijednosti indeksnih termina obino se smatraju meusobno neovisnima. To znai ako znamo vrijednost wi,j povezanu uz par (ki , dj), to nam ne govori nita o vrijednosti wi+1,j vezanoj uz par (ki+1,dj) ovo je pojednostavljeno jer pojavljivanja indeksnih termina u dokumentu nisu nepovezana .

nNpr. Termini raunalo i mrea koriste se za indeksiranje nekog dokumenta koji pokriva podruje raunalnih mrea.

nU tom dokumentu uestalo pojavljivanje jedne od tih rijei povlai pojavljivanje druge. Stoga, su te dvije rijei povezane i njihove vrijednosti bi mogle odraziti tu povezanost.

nMeusobna neovisnost je pojednostavljenje te pojednostavljuje zadatak raunanja vrijednosti indeksnih termina.

nModerne tehnike pronalaenja informacija baziraju se na povezanosti termina i uspjeno su testirane na odreenim zbirkama.

nTi uspjesi polagano usmjeravaju razumijevanje prema pogodnijim gleditima korisnosti veza termina u sustavima pretraivanja informacija

nTri su klasina modela pretraivanja informacija:

Booleov model

Vektor

Probabilistiki model (model vjerojatnosti)

Booleov model

nBooleov model je jednostavan model pretraivanja informacija, koji se temelji na postavljenoj teoriji i Booleovoj algebri.

nKako je koncept skupa prilino intuitivan, Booleov model omoguava lako shvaanje od strane korisnika IR sustava (information retrieval = informatiko pretraivanje).

nUpiti su predstavljeni kao Booleovi izrazi sa tono odreenom semantikom.

nBooleov model zapaen je prethodnih godina i preuzeli su ga mnogi raniji komercijalni bibliografski sustavi.

nBooleov model, naalost, ima velike nedostatke:

vNjegova strategija pretraivanja temelji se na kriteriju binarne odluke (predvia se relevantnost ili nerelevantnost dokumenta) bez rangiranja to spreava dobru izvedbu pronalaenja.

vStoga je Booleov model vie model pretraivanja podataka nego informacija.

vdok Booleovi izrazi imaju tono odreenu semantiku, esto nije jednostavno prevesti informacijsku potrebu u Booleov izraz.

vVeina korisnika teko izraava zahtjeve upita u sklopu Booleovih izraza.

nUsprkos tim nedostacima, Booleov model jo je uvijek dominantan u sustavima baza podataka i prua dobru poetnu toku novima na tom podruju.

nBooleov model uzima u obzir prisutnost, odnosno, odsutnost indeksnih termina u dokumentu. Kao rezultat toga sve vrijednosti indeksnih termina smatraju se binarnima

(wi,j {0,1}). Upit Q sastoji se od indeksnih termina povezanih trima veznicima: not, and i or. Upit je konvencionalni Booleov izraz koji se moe prikazati kao rastavni ili povezni vektor.

nBooleov model predvia da je svaki dokument ili relevantan ili nerelevantan. Ne postoji mogunost djelominog odgovaranja uvjetima upita.

nGlavne prednosti Booleovog modela su isti formalizam i jednostavnost.

nGlavni nedostaci su to tona preklapanja mogu dovesti do pronalaska premalo ili previe dokumenata.

Vektorski model

nVektorski model [697, 695] prepoznaje da je upotreba binarnih vrijednosti previe ograniavajua i predlae mogunost upotrebe djelominog preklapanja.

nTo se postie dodjeljivanjem ne-binarnih vrijednosti indeksnim terminima u upitima i dokumentima. Te vrijednosti na kraju se koriste za raunanje stupnja slinosti izmeu svih dokumenata pohranjenih u sustavu i upitu.

nSortiranjem pronaenih dokumenata padajuim redoslijedom stupnja slinosti - vektorski model uzima u obzir dokumente, koji djelomino odgovaraju terminima upita.

nGlavni rezultirajui uinak je; vea preciznost u pronalaenju informacija potrebnih korisniku od onog u Booleovom modelu.

nVektorski model procjenjuje stupanj slinosti dokumenta dj s obzirom na upit Q kao veze izmeu vektora = dj i Q. Dokument moe biti pronaen ak i ako samo djelomino odgovara upitu.

nVrijednosti indeksnih termina mogu se izraunati na puno razliitih naina:

vRad Saltona i McGilla [698] obrauje razliite tehnike odreivanja vrijednosti termina.

vGlavna ideja najuinkovitijeg odreivanja vrijednosti termina vezana je uz osnovne principe koji podupiru tehnike grupiranja.

vAko imamo zbirku objekata C i nejasan opis skupa A, cilj jednostavnog algoritma grupiranja mogao bi biti razdvajanje objekata zbirke C u dva skupa: prvog; koji se sastoji od objekata vezanih uz skup A i drugog koji se sastoji od objekata koji nisu vezani uz skup A .

vSofisticiraniji algoritmi grupiranja pokuali bi razdvojiti objekte zbirke u vie grupa (klasa) ovisno o njihovim svojstvima.

nPogled na IR problem kao problem grupiranja (Salton):

vDokumente smatramo zbirkom objekata C, a korisniki upit (nejasnom) specifikacijom skupa objekata A - u tom sluaju IR problem moe se svesti na problem odreivanja koji su dokumenti u skupu A, a koji nisu

vU problemu grupiranja moraju se rijeiti dva glavna pitanja:

vTreba se odrediti koje su karakteristike koje najbolje opisuju objekte u skupu A .

vTrebaju se odrediti karakteristike koje najbolje odreuju razlike izmeu objekata skupa A i preostalih objekata zbirke C .

nPrva skupina karakteristika omoguava kvantitativno odreivanje unutar-grupnih slinosti, a druga unutar-grupnih razlika.

nNajuspjeniji algoritmi grupiranja pokuavaju uravnoteiti ta dva uinka.

nU vektorskom modelu, unutar-grupne slinosti se kvantitativno odreuju mjerenjem frekvencije termina ki unutar dokumenta dj . Ta frekvencija termina je tf faktor i prikazuje mjeru kako dobro taj termin opisuje sadraj dokumenta (unutar dokumentna karakterizacija). Unutar grupne razlike se kvantitativno odreuju mjerenjem inverzne frekvencije termina ki meu dokumentima zbirke. Taj se faktor zove idf faktor (inverse document frequency = inverzna frekvencija dokumenta).

nMotivacija za upotrebu idf faktora je to to termini koji se pojavljuju u mnogim dokumentima nisu korisni za razlikovanje relevantnih od nerelevantnih dokumenata.

nKod dobrih algoritama grupiranja, najuinkovitije sheme odreivanja vrijednosti termina pokuavaju uravnoteiti ta dva uinka.

Glavne prednosti vektorskog modela

nNjegova shema odreivanja vrijednosti termina unapreuje izvedbu potranje.

nStrategija djelominog odgovaranja omoguava pronalaenja dokumenta koji priblino odgovaraju uvjetima upita.

nRangiranjem se sortiraju dokumenti prema stupnju slinosti u upitu.

Nedostatak vektorskog modela

nIndeksni termini smatraju se meusobno neovisnima.

nUsprkos svojoj jednostavnosti, vektorski model je fleksibilna strategija rangiranja opih zbirki.

nSuperioran je ili gotovo dobar kao poznate alternative.

nBrz je i jednostavan.

nZbog tih razloga danas je popularan model pretraivanja informacija.

OCJENJIVANJE SUSTAVA ZA PRETRAIVANJE INFORMACIJA

UVOD

-Prije zavrne implementacije sustava za pretraivanje informacija, radi se ocjenjivanje tog sustava

-Prvi tip ocjenjivanja je funkcionalna analiza u kojoj se jedna po jedna ispituju funkcije sustava

-Funkcionalna analiza trebala bi sadravati i analizu greaka gdje se namjerno pokuava sruiti sustav nastojei pronai greke u programiranju

-Nakon to sustav proe funkcionalnu analizu, procjenjuje se izvedba samog sustava

-Najee mjere izvedbe sistema su VRIJEME i PROSTOR

-to je vrijeme odgovora krae i to je manje prostora koriteno, to je sustav bolji

-Osim vremena i prostora, postoje jo neke mjere koje se koriste u sustavu za pretraivanje informacija

-Poto je korisnikov upit relativno nejasan, pronaeni dokumenti nisu toni odgovori i stoga moraju biti rangirani prema relevantnosti

-Rangiranje po relevantnosti predstavlja centralnu ulogu u pretraivanju informacija

-Sustavima za pretraivanje informacija potrebna je procjena preciznosti odgovora, a nju zovemo PROCJENA UINKOVITOSTI SUSTAVA ZA PRETRAIVANJE (retrieval performance evaluation)

-Takva je procjena obino bazirana na referentnoj testnoj zbirci i na mjeri procjene.

-Referentna testna zbirka se sastoji od zbirke dokumenata, seta primjera informacijskih upita i seta relevantnih dokumenata (koje prua informacijski strunjak) za svaki od tih upita

-MJERA PROCJENE usporeuje set pronaenih dokumenata sa setom dokumenata koje je priskrbio informacijski strunjak

-Na taj nain dobije se procjena valjanosti strategije pretraivanja

PROCJENA UINKOVITOSTI SUSTAVA ZA PRETRAIVANJE

-Kod ocjenjivanja uinkovitosti sustava za pretraivanje nuno je uzeti u obzir tip zadatka koji se ocjenjuje

-Postoje 2 tipa zadataka, a to su:

1. BATCH MODE (serijski obraen upit)

- korisnik postavlja upit i dobiva natrag konkretan odgovor

- mjeri se iskljuivo kvaliteta generiranog seta odgovora

2. INTERAKTIVNI NAIN - korisnik specificira svoju potrebu za informacijom kroz seriju interaktivnih koraka sa sustavom

- mjeri se korisnikov trud, karakteristike dizajna suelja, pomo sustava i duljina trajanja samog pretraivanja

-Osim tipa zadatka, poeljno je uzeti u obzir i okolinu u kojoj se ocjenjivanje odvijalo (laboratorij ili stvaran ivot)

Prilikom ovakvog definiranja odziva i preciznosti pretpostavlja se da su svi dokumenti u skupu odgovora pregledani.

Meutim korisnik ne pregledava sve dokumente nego su oni prvo sortirani po stupnju relevantnosti. Korisnik pregledava listu poevi od najrelevantnijih.

Odziv i preciznost informacija se mijenjaju kako korisnik pregledava listu.

Za ispravno procjenjivanje potrebno je izraditi krivulje i grafikon preciznosti/odziva.

Primjer: Rq su relevantni dokumenti za na upit ( u ovom primjeru ima 10 relevantnih dokumenata )

Rq= d3, d5, d9, d25, d39, d44, d56, d71, d89, d123

algoritam pretraivanja (retrieval algorithm) vrati, za upit Q, poredak dokumenata u sljedeem rangu :

d123

d84

d56

d6

d8

d9

d511

d129

d187

d25

d38

d48

d250

d113

d3

dokumenti relevantni za upit Q oznaeni su crvenom tokom

Korisnik pone od dokumenta na rangu broj 1 (d123).

Da li je d123 relevantan? DA.

Dakle, odgovara postotku od 10% svih relevantnih dokumenata (1/10) u setu Rq i kaemo da ima tonost od 100% u 10% odziva

Korisnik pregledava sljedei dokument d84.

Da li je d84 relevantan? NE.

Korisnik pregledava sljedei dokument d56.

Da li je d56 relevantan? DA.

d56 je na rangu broj 3

Dakle, ima tonost od 66% (2 od 3 dosad pregledana dokumenta su relevantna) u 20% odziva (2 od 10 relevantnih dokumenata je pregledano)

Ako nastavimo, vidjet emo da tonost na razinama odziva iznad 50% pada na 0% jer nisu pronaeni svi relevantni dokumenti

Kada se postavlja vie razliitih upita za svaki se od njih radi posebna krivulja. Da bi se ocijenila cjelokupna izvedba algoritama za pretraivanje informacija izraunava se prosjena preciznost na nivou odziva.

Vrijednosti odziva za svaki upit mogu biti razliite od 11 standardnih vrijednosti odziva , pa je esto potrebno koristiti postupak interpolacije (umetanja).

Interpolacija

Budui da razine odziva za razliite upite ne moraju biti uvijek na svih 11 standardnih razina odziva, koristi se interpolacija kako bi se mogla nacrtati cijela krivulja

Prisjetimo se rang liste:

d123

d84

d56

d6

d8

d9

d511

d129

d187

d25

d38

d48

d250

d113

d3

Skup relevantnih dokumenata za upit se promijenio i glasi Rq = {d3, d56, d129}

prvi relevantni dok. (d56) je na rangu 3 i ima odziv 33,3% (1 od 3 relevantna dokumenta je pregledan) te preciznost 33,3% (1 od 3 dosad pregledana dokumenta su relevantna)

drugi relevantni dok. (d129) je na rangu 8 i ima odziv 66,6% (2 od 3 relevantna dokumenta su pregledana) te preciznost 25% (2 od 8 dosad pregledanih dokumenata su relevantna)

trei relevantni dok. (d3) je na rangu 15 i ima odziv 100% (3 od 3 relevantna dokumenta su pregledana) te preciznost 20% (3 od 15 pregledanih dokumenata su relevantna)

Dakle, iz gornjeg primjera, imamo izraunatu tonost za odziv na razinama: 33.3%, 66.6% i 100%.

Interpolacija za svih 11 standardnih razina odziva se rauna na sljedei nain:

Dakle, u naem primjeru na standardnim razinama odziva od 0%, 10%, 20% i 30%, interpolirana razina tonosti je 33.3% (izraunata tonost na razini odziva 33,3%)

Na standardnim razinama odziva od 40%, 50%, i 60%, interpolirana razina odziva je 25% (izraunata tonost na razini odziva 66,6%)

Na standardnim razinama odziva od 70%, 80%, 90% i 100% (interpolirana razina odziva je 20% izraunata tonost na razini odziva 100%)

Interpolacija je korisna za usporedbu i vrednovanje pretraivanja novih algoritama s npr. klasinim vektorskim algoritmima koji rade iskljuivo sa standardnih 11 razina odziva

Takoer je korisna i za usporedbu uspjeha pretraivanja razliitih novih algoritama

PREGLED POJEDINANIH MJERENJA

-Prosjek preciznosti i odziva je koristan za usporedbu izvedbe odreenih algoritama za pretraivanje koji imaju odreen set upita

-Ali ipak postoje situacije u kojima bi sami htjeli usporediti izvedbe svojih algoritama za pretraivanje u individualnim upitima

-2 su razloga za to:

1. Izraunavanje prosjeka preciznosti za vie upita moe prikriti anomalije u algoritmima za pretraivanje

2. Usporedbom dva algoritma na pojedinanom upitu moemo ispitati postie li jedan od njih bolje rezultate za svaki upit u danom setu testnih upita (to se inae moe prikriti kod raunanja prosjeka tonosti)

-U takvim situacijama koristi se:

-pojedinana vrijednost preciznosti i oitava se kao povrina ispod krivulje preciznosti i odziva na koju se odnosi

-preciznost na odreenom nivou odziva (11 nivoa odziva)

-Ali, to nije i najbolji pristup; postoje i mnogo zanimljiviji naini, a neki od njih su:

1. preciznost vienih relevantnih dokumenata,

2. R-preciznost i

3. histogrami preciznosti

1. Preciznost vienih relevantnih dokumenata

-Preciznost se izraunava za svaki upit iza svakog relevantnog dokumenta na rang listi

-Izraunava se prosjek nad tokama preciznosti za svaki upit, a nakon toga izraunava se prosjek nad svim upitima

-Ovakav nain mjerenja favorizira sustave koji brzo pretrauju dokumente i daje dobar uvid u prosjenu preciznost vienih relevantnih dokumenata, ali daje slab uvid to se tie ukupnog odziva

2. R-preciznost

-Izraunava se tonost na R-toj poziciji na rang listi, gdje je R ukupan broj relevantnih dokumenata za odreeni upit

-Ako je R = 10 (imamo 10 relevantnih dokumenata za upit) i ako su na rang-listi izmeu prvih 10 dokumenata 4 relevantna, R-tonost za deseti dokument na listi = 0.4

-Ovakav nain mjerenja koristan je u promatranju ponaanja algoritma za svaki individualni upit u eksperimentu

3. Histogrami preciznosti

-R-preciznost za vie upita moe se koristiti i za usporedbu povijesti pretraivanja 2 algoritma:

RPA/B(i) = RPA(i) RPB(i)

-Pozitivan rezultat znai bolju izvedbu algoritma A, dok negativan rezultat znai bolju izvedbu algoritma B:

PRIMJERENOST PRECIZNOSTI I ODZIVA

-Preciznost i odziv esto se koriste za ocjenu izvedbe algoritama za pretraivanje, ali detaljniji uvid otkriva odreene nedostatke u gore navedenim nainima mjerenja:

1. Za pravilnu procjenu maksimalnog odziva za upit potrebno je detaljno znanje o svim dokumentima u zbirci

2. Preciznost i odziv meusobno su povezani naini mjerenja, ali obuhvaaju razliite aspekte seta pretraenih dokumenata

3. Isto tako, oni mjere uinkovitost za skup upita u batch modu (serijski odgovor na upit), a u modernim sustavima vanija je interaktivnost

4. Lako ih je definirati tek kada imamo linearni poredak pronaenih dokumenata

TRENDOVI I PROBLEMI PRETRAIVANJA

CACM, ISI i CF KOLEKCIJE

UVOD

TREC kolekcije problemi pri koritenju:

- velike kolekcije

- zahtijevaju puno pripreme prije aktivnog

koritenja

- testiranje zahtjeva puno vremena i truda

Rjeenje: koritenje manjih kolekcija

- vrijeme instaliranja i eksperimentiranja je znatno

Krae

CACM kolekcija

California Association of Comunity Menagers

Dokumenti u CACM kolekciji se sastoje od svih 3204 lanka publiciranih u Communications of the ACM od 1958. do 1979.g.

Ti dokumenti pokrivaju veliko podruje znanstvene literature o raunalima (asopis je godinama bio najrelevantniji u svom podruju)

Kolekcija uz tekstove dokumenta sadri i informacije o pojedinim podpodrujima:

- autorovo ime

- datum publikacije

- korijen rijei iz naslova i saetka

- kategorije izvedene iz hijerarhijske klasifikac. sheme

- direktne reference izmeu lanaka

- bibliografske veze

- broj ko-citata za svaki par lanak

CACM kolekcije osiguravaju jedinstvenu okolinu za testiranje algoritama koji su bazirani na informaciji izvedenoj iz meu-citiranih uzorakaOsim tekstova i podpodruja CACM kolekcija sadri i 52 informacijska upita

npr. Koji lanci se bave sa TSS (Time Sharing System), operativnim sustavom za IBM raunala?

Za svaki takav upit kolekcija ima 2 Boolova upita i skup relevantnih dokumenata Niska preciznost i odziv, jer su informacijski upiti jako specifini pa je i prosjean broj pronaenih relevantnih dokumenata malen(oko 15)

ISI kolekcija

esto se naziva i CISI

Nastala je na temelju ranije kolekcije koju je sastavio Small s Institute of Scientific Information (ISI)

Sastoji se od 1460 dokumenata sa podruja informacijskih znanosti

Odabrani su oni dokumenti koji su najee citirani u Smallovoj studiji o meucitatnim uzorcima

Glavna svrha ISI kolekcije je podravanje istraivanja slinosti na temelju uvjeta i meucitatnih uzorakaDokumenti u ISI kolekciji ukljuuje 3 podruja:

- autorovo ime

- korijen rijei naslova i saetke

- broj ko-citata za svaki par lanaka

ISI kolekcija sadri i:

- 35 test informacijskih upita sa Boolovim upitima

- 41 dodatan bez Boolovih upita

Informacijski upiti su openiti i to rezultira velikim

brojem uzvraenih relevantnih dokumenata (oko 50)

Postotak relevantnih dokumenata dobivenih

upitom je puno vei kod ISI kolekcije (3.4 %) nego

kod CACM kolekcije (0.5 %)

CF (Cystic Fibrosis) kolekcija

Sastoji se od 1239 dokumenata indeksiranih terminom cystic fibriosis u bazi MEDLINE National Library of Medicine

Svaki dokument sadri podruja:

- MEDLINE pristupni broj - reference

- autor - citate

- naslov

- izvor

- glavni predmeti

- sporedni predmeti

- saetak ili izvadak

Kolekcija sadri i:

100 informacijskih upita dokumente relevantne za svaki upit Bitne karakteristike: 1. ocjene relevantnosti: svaki dokument dobiva 4 ocjenePrimjer:1. ocjena: 0 (nerelevantan), 1 (granino relevantan), 2 (visoko relevantan)2. ocjena: generalna ocjena (u odnosu na upit) dokument moe dobiti ocjenu izmeu 0 i 8Itd Prosjean broj relevantnih dokumenata po upitu je izmeu 10 i 30Iako je mala, CF kolekcija ima 2 vane

karakteristike:

- skup relevantnih rezultata su napravili eksperti

na temelju paljive procjene

- ukljuuje velik broj informacijskih upita to

rezultira preklapanjima vektora pretraivanja

Trendovi i problemi pretraivanja

Glavni trend danas je interaktivno pretraivanje

Motiviran je uvjerenjem da uspjeno pretraivanje uvelike ovisi o dobivanju povratne informacije od korisnika

U budunosti e studije koje procjenjuju interaktivno pretraivanje biti sve uobiajenije

PROCJENA PRETRAIVANJA

ALTERNATIVNE MJERE (ALTERNATIVE MEASURES)

Budui da odziv i preciznost usprkos svojoj popularnosti nisu uvijek najprikladnija mjerila za procjenu procesa pretraivanja inf., tijekom godina predloene su alternativne mjere:

1) HARMONIJSKA SREDINA (The Harmonic Mean)

r(j) = odziv dok. J na rang listi dokumenata

P(j)= preciznost dok. J na rang listi dokumenata

F(j)= harmonijska sredina izmeu r i P

Funkcija F poprima vrijednosti samo u intervalu [ 0, 1 ]

F=0: nije pronaen niti jedan relevantan dokument

F=1: svi pronaeni dok. su relevantni

Vrijednost funkcije F je visoka jedino ako su i vrijednosti za r i P visoke

Tenja ka maksimalnoj vrijednosti funkcije F moe se objasniti kao pokuaj pronala-

ska idealnog kompromisa izmeu odziva i preciznosti.

2) E MJERA ( The E Measure)

Jo jedna od mjera koja kombinira odziv i preciznost.

Predloio ju je Rijsbergen.

Ova mjera omoguuje korisniku da sam odredi zanima li ga vie odziv ili preciznost.

r= odziv za dok. J na rang listi dokumenata

P= preciznost za dok. J na rang listi dokumenata

E (j)= mjera procjene za r i P

b=parametar koji odreuje korisnik (izraava relativnu vanost r i P za korisnika)

b=1 ,funkcija djeluje po naelu harmonijske sredine

b>1 , korisnika vie zanima preciznost nego odziv

b