66
Univerza v Mariboru Fakulteta za varnostne vede DIPLOMSKO DELO Programska oprema na področju jezikoslovja Tadej Špitalar Maj, 2010 Mentor: mag. Branko Aţ man

Univerza v Mariboru - COnnecting REpositories · 2017. 11. 27. · Nenazadnje pa so jezikovne tehnologije postale tudi nepogrešljiv del jezikovnega pouka. 3 ... nastajajo nove, po

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • Univerza v Mariboru

    Fakul te ta za varnostne vede

    DIPLOMSKO DELO

    Programska oprema na področ ju jezikos lovja

    Tadej Špi ta la r

    Maj , 2010 Mentor : mag . Branko Aţman

  • KAZALO

    1 UVOD .............................................................................................................. 1

    2 ORODJA V UREJEVALNIKIH BESEDIL ................................................ 3

    2.1 Črkovalniki ......................................................................................................... 3

    2.2 Delilniki .............................................................................................................. 4

    2.3 Lematizatorji ...................................................................................................... 5

    2.4 Generatorji besednih oblik ................................................................................. 5

    2.5 Slovnični pregledovalniki................................................................................... 5

    2.6 Orodja za povzemanje besedil ............................................................................ 6

    2.7 Program za optično branje dokumentov Amebis Prest ...................................... 6

    3 SLOVARJI ..................................................................................................... 8

    3.1 Enojezični slovarji .............................................................................................. 8

    3.2 Dvojezični slovarji ............................................................................................. 9

    3.3 Tezavri ali slovarji sinonimov .......................................................................... 10

    3.4 Terminološki enojezični ali dvojezični slovarji ............................................... 10

    3.5 Leksikoni besednih oblik.................................................................................. 11

    4 KORPUSI ..................................................................................................... 13

    4.1 Gradnja korpusov ............................................................................................. 14

    4.2 Tipologija korpusov ......................................................................................... 16

    4.2.1 Referenčni korpusi .................................................................................... 17

    4.2.2 Enojezični korpusi .................................................................................... 18

    4.2.3 Dvojezični korpusi .................................................................................... 19

    4.2.4 Vzporedni korpusi ..................................................................................... 20

    4.2.5 Primerljivi korpusi .................................................................................... 20

    4.3 Korpusna orodja ............................................................................................... 20

    4.3.1 Orodja za označevanje besedil ................................................................. 21

    4.3.2 Orodja za iskanje in analizo – konkordančnik ......................................... 21

    5 RAČUNALNIŠKA ORODJA ZA PREVAJANJE ................................... 28

    5.1 Strojno prevajanje............................................................................................. 30

  • 5.2 Računalniško podprto prevajanje ..................................................................... 32

    5.3 Pomnilniki prevodov ........................................................................................ 32

    5.4 Terminološki programi ..................................................................................... 34

    5.5 Strojno simultano prevajanje govora ................................................................ 35

    5.6 Razlike med strojnim simultanim prevajanjem govora in strojnim prevajanjem

    besedila ............................................................................................................. 37

    6 GOVORNE TEHNOLOGIJE .................................................................... 39

    6.1 Računalniki in naravni jezik ............................................................................. 39

    6.2 Sistemi za sintezo govora ................................................................................. 41

    6.2.1 MS Agents ................................................................................................. 41

    6.2.2 Amebis Govorec ........................................................................................ 42

    7 UPORABA RAČUNALNIŠKIH ORODIJ NA PODROČJU

    POUČEVANJA JEZIKA ............................................................................ 43

    7.1 Namenska gradiva ............................................................................................ 43

    7.1.1 Pripravljena gradiva ................................................................................ 43

    7.1.2 Referenčni viri .......................................................................................... 44

    7.1.3 Orodja za jezikovni pouk .......................................................................... 45

    7.2 Nenamenska gradiva in orodja ......................................................................... 45

    7.2.1 Nenamenska gradiva ................................................................................ 45

    7.2.2 Urejevalniki besedil pri jezikovnem pouku ............................................... 47

    7.2.3 Elektronska komunikacija…………………………...……………......……….47

    7.2.4 Elektronska pošta ..................................................................................... 48

    7.2.5 Internetna komunikacija ........................................................................... 48

    7.2.6 Elektronsko učenje na daljavo .................................................................. 49

    8 ZAKLJUČEK ............................................................................................... 50

    9 SEZNAM VIROV IN LITERATURE ....................................................... 51

    10 PRILOGA ..................................................................................................... 56

  • KAZALO SLIK

    Slika 1: Prepoznavanje govora in sinteza ....................................................................... 42

    KAZALO TABEL

    Tabela 1: KWIC konkordanca angleške besede greh ..................................................... 23

    Tabela 2: Tekst, uporabljen za konkordanco .................................................................. 23

    Tabela 3: Prikaz konkordance je moţen tudi na način, kjer je pred ali za ključno besedo,

    prikazanih tudi 75 do 80 znakov .................................................................... 24

    Tabela 4: Vzporedna angleško-francoska konkordanca za besedo “pour” .................... 24

  • POVZETEK

    Diplomska naloga pred vami je opisnega tipa in nudi pregled nad programsko opremo

    na področju jezikoslovja oziroma jezikovnih tehnologij. V prvem delu so predstavljena

    splošno znana orodja v urejevalnikih besedil, kot so črkovalniki in delilniki, slovnični

    pregledovalniki, generatorji besednih oblik, lematizatorji, orodja za povzemanje besedil

    in programi za optično branje dokumentov. V osrednjem delu so opisani elektronski

    slovarji, tako enojezični, dvojezični, terminološki kot tudi tezavri in leksikoni besednih

    oblik ter korpusi, kot empirična in izrazito računalniško podprta veja jezikoslovja. V

    nadaljevanju naloga opisuje računalniška orodja za prevajanje, med njimi orodja za

    strojno in računalniško podprto prevajanje, pomnilnike prevodov, terminološke

    programe ter orodja za strojno simultano prevajanje. V zadnjem delu naloga predstavlja

    nekaj govornih tehnologij, in sicer sisteme za sintezo govora ter računalniška orodja na

    področju poučevanja jezika.

    Ključne besede: jezikoslovje, računalniška orodja, črkovalniki, slovnični

    pregledovalniki, elektronski slovarji, korpusi, govorne tehnologije

  • LINGUISTICS SOFTWARE TOOLS

    SUMMARY

    Dissertation before you provides overview above most widespread software tools on

    field of language technologies. In the beginning dissertation describes generally known

    tools in text editors, among them spell checkers, hypenators, grammar checkers, word

    form generators, lemmatisers, tools for summarising of text and programs for optical

    reading of documents. In central part dissertation describes electronic dictionaries,

    thesaurus, lexica of word forms and corpora as explicitly empirical branch of linguistics

    supported by computers. Furthermore dissertation focuses on computational

    technologies used by translators. These technologies include machine tanslation,

    computer-aided translation (translation memories and terminological programs) and

    simultaneous machine translation. Last chapter discusses the speech technologies,

    particulary speech synthesis and computer tools on field of teaching of language.

    Key words: language technologies, spell checkers, grammar checkers, electronic

    dictionaries, corpora, speech tecnologies

  • 1

    1 UVOD

    Jezik je najbolj neposredni izraz kulture, je to, kar nas dela človeške in vsakemu izmed

    nas daje občutek identitete. Jeziki so vpeti v kulturo deţel in pokrajin, kjer jih prebivalci

    govorijo, v običaje, tradicije in sisteme prepričanj (Evropska komisija, 2009).

    Odkar ţivimo v informacijski dobi, so računalniške in komunikacijske tehnologije

    postale obvezen del našega vsakdanjika. Večina uporabnikov računalnikov se dnevno

    srečuje z urejevalniki besedil, ki poleg osnovnih funkcij za urejanje le-teh, vsebujejo

    tudi nekatera izmed programskih orodij za jezikoslovje, kot so črkovalniki, delilniki in

    slovnični pregledovalniki. Ti omogočajo, da se avtor preteţno osredotoči na vsebino

    besedila.

    Pozitivna raba interneta je v nekaj letih postala odvisna od učinkovitih iskalnikov, preko

    katerih uporabniki hitro ter enostavno najdejo ţelene informacije. V spletnih iskalnikih

    so vgrajeni črkovalniki, ki sproti preverjajo pravilnost vnesenih besed in v primeru

    napake ponudijo ustrezno. Elektronski slovarji so drugo področje programskih orodij v

    jezikoslovju, ki so poleg orodij v urejevalnikih besedil, najbolj znani širšim

    uporabnikom. Slovarji so na voljo kot samostojne aplikacije ali kot integrirani moduli v

    urejevalnikih besedil, z razmahom interneta pa so še bolj pridobili na pomenu, kjer jih

    je nemalo tudi brezplačno dostopnih.

    Internet je od samega začetka pomemben medij za razvoj korpusov, to so elektronske

    zbirke besedil, ki omogočajo raziskovanje jezikoslovja in jezikoslovnih pojavov z

    empirično-kvantitativnega vidika. Velja, da je internet kot medij z velikanskim številom

    elektronskih zbirk besedil, največji in najširše dostopni korpus. Korpusi sluţijo tudi kot

    temelj za razvoj drugih jezikoslovnih tehnologij, kot so na primer govorne tehnologije

    ali tehnologije za podporo prevajalstvu. Poleg namenskih prevajalskih aplikacij, spletni

    iskalniki ponujajo moţnost prevajanja posameznih besed ali celotnih vsebin. Na

    področju govornih tehnologij naprave, kot so na primer gsm aparati, ţe vključujejo

    programske pakete, ki pretvarjajo poljubno besedilo v govor in med drugim omogočajo

    glasovno prebiranje kratkih sporočil. Računalniški programi so danes tako zmoţni

  • 2

    zapisa po nareku in hkratnega stilnega prilagajanja besedila, povzemanja daljšega

    besedila in prevajanja v tuj ali materni jezik. Nenazadnje pa so jezikovne tehnologije

    postale tudi nepogrešljiv del jezikovnega pouka.

  • 3

    2 ORODJA V UREJEVALNIKIH BESEDIL

    Urejevalniki besedil, kot sta na primer MS Word ali Open Office, obstaja pa še vrsta

    drugih, so namenjeni oblikovanju besedil z moţnostjo vključevanja slikovnih in drugih

    objektov. Tipičen namen uporabe urejevalnikov je pisanje dokumentov, pa tudi bolj

    obseţnih gradiv, kot so publikacije. Danes so najbolj razširjeni grafično usmerjeni

    urejevalniki, torej urejevalniki, kjer vidimo besedilo v oknu, v njem pa z miško ali

    tipkovnico premikamo kazalec in tako določamo poloţaj, kjer bomo besedilo

    spreminjali.

    Programska orodja za potrebe jezikoslovja, ki so vgrajeni v sodobne urejevalnike

    besedil in jih bomo v nadaljevanju predstavili, so: črkovalniki, slovnični

    pregledovalniki (računalniško orodje, ki odkriva slovnične in slogovne napake v

    besedilih, kot so npr. neujemanje pridevnika in samostalnika, opozarja na nepravilne

    predloţne zveze, manjkajoče vejice, zanikanje s toţilnikom, nepravilne predloge pri

    lastnih imenih itd.), delilniki, samopopravki (vgrajen korektor v urejevalniku besedil, ki

    samodejno popravlja običajne tipkarske napake, nepravilno črkovanje, nepravilno

    uporabo velike začetnice), generatorji besednih oblik (modul, ki za določeno osnovno

    besedo generira vse njene besedne oblike).

    2.1 Črkovalniki

    Črkovalnik je najbolj splošno znano jezikovno računalniško orodje. Osnovna naloga

    črkovalnika je iskanje pravopisnih in tipkarskih napak. Program pregleduje besedilo,

    dokler ne naleti na napako. Takrat odpre okno, v katerem ima uporabnik moţnost

    besedo popraviti, pri tem pa mu program pomaga tudi z nasveti. Nasveti so po obliki

    najbolj podobne besede, ki jih ima črkovalnik v slovarju, ne glede na njihov pomen.

    Koristni so v primerih, ko uporabnik ne ve, katera oblika je pravilna. Tak primer so npr.

    besede "daljni", "dalnji", "daljnji", "nadaljni", "nadalnji" in "nadaljnji". Črkovalnik je

    lahko del programa ali samostojni program. Deluje na podlagi leksikona besed in

    besednih oblik, ki ga najlaţje pridobimo iz korpusa ali slovarja (Vintar, 2003).

  • 4

    Tipično deluje tako, da vhodno besedilo razreţe na besede in le-te poišče v slovarju, ki

    vsebuje seznam pravilnih besed za dani jezik. Če besede v slovarju ne najde, sklepa, da

    bi lahko bila napačna. V tem primeru poskusi poiskati po slovarju besede, ki bi lahko

    bile mišljene, in sicer tako, da upošteva tipične napake oziroma podobnost besed.

    Preverjanje lahko deluje ţe sproti med tipkanjem besedila ali pa na zahtevo. Slovar

    znanih besed nikoli ne more pokriti vseh besed, ker v jezikih po eni strani neprestano

    nastajajo nove, po drugi strani pa je predvsem lastnih imen, ki prihajajo iz drugih

    jezikov veliko preveč za kaj takega. Pretirano povečevanje slovarja v resnici lahko celo

    poslabša kakovost preverjanja črkovanja, ker se začne dogajati, da se zatipkane pogoste

    besede začnejo prekrivati z redkimi besedami (v slovenščini je tako pri besedi "ţelad"

    najbrţ bolj verjetno, da je to zatipkana beseda "čelad", kot da gre za redek samostalnik

    "ţelad"). Zato črkovalniki običajno ponujajo moţnost, da uporabnik v slovar doda

    besede iz svojega specifičnega besedišča, ki jih splošni slovar ne pozna.

    Namesto slovarja lahko črkovalniki uporabljajo tudi statistične metode (preverjajo,

    katere kombinacije črk so dovolj verjetne v nekem jeziku). S tem je moţno pokriti tudi

    novo nastale besede, vendar se lahko marsikatera zatipkana beseda razglasi za pravilno,

    ker "zveni" dovolj pravilno.

    2.2 Delilniki

    Delilnik je računalniško orodje za pravilno deljenje besed. Običajno je sestavljen iz

    programskega in slovarskega dela. Programski del je izveden glede na okolje, v katerem

    mora delovati. Običajno je to dll datoteka, njegova osnovna funkcija pa je deljenje

    besed. Ker je delilnik v osnovi algoritmičen, je za izjeme vgrajen dodatni slovar, ki jih

    algoritem ne deli pravilno. Slovar je spisek besed z označenimi mesti deljenja, ki jih

    programski del uporablja pri delovanju. Besede je mogoče poljubno dodajati. Glavni

    problem deljenja (zlogovanja) besed so običajno ohlapna pravila v pravopisu, ki način

    deljenja v večini primerov prepuščajo "akustičnemu občutku" posameznika. Ker je ta od

    človeka do človeka različen, je več tudi različnih deljenj določene besede, ki pa vsa

    ustrezajo obstoječim pravilom. Algoritem poleg pravopisno predpisanih pravil upošteva

  • 5

    tudi fonetična merila deljenja. Algoritem ima to lastnost, da poleg "najboljšega" deljenja

    predlaga tudi "moţna" deljenja, ki so prav tako pravilna. Ker sta deljenje in zlogovanje

    zelo tesno povezana, je v algoritmu velikokrat dodana moţnost zlogovanja. Tako lahko

    isto funkcijo poleg uporabe v modulu za deljenje uporabimo tudi v drugih programih,

    npr. pri sintezi govora, kjer je od števila zlogov odvisna tudi hitrost izgovarjave

    določene besede.

    2.3 Lematizatorji

    Lematizator je program, katerega funkcija je iskanje osnovne oblike besede za določeno

    besedno obliko, ki je lahko poljubna (npr. pišemo – pisati, drevesoma - drevo).

    Običajno je sestavljen iz programskega in slovarskega dela. Programski del je izveden

    glede na okolje, v katerem mora delovati. Običajno je to dll datoteka, njegova osnovna

    funkcija pa je iskanje osnovnih besed. Slovarski del vsebuje morfološko opisane

    osnovne besede, iz katerih izhajajo različne besedne oblike oziroma različne pomenske

    oblike (Amebis, 2008).

    2.4 Generatorji besednih oblik

    Generator besednih oblik je modul, ki za določeno osnovno besedo generira vse njene

    besedne oblike. Modul za vgradnjo v urejevalnik besedila je sestavljen iz programskega

    in slovarskega dela. Programski del je izveden glede na okolje, v katerem mora delovati.

    Običajno je to dll datoteka, njegova osnovna funkcija pa je generiranje ustreznih

    besednih oblik. Slovar je spisek besed, ki jih programski del uporablja pri delovanju.

    Besede je mogoče poljubno dodajati ali jih zbirati iz računalniških zbirk besedil

    oziroma korpusov (Amebis, 2008).

    2.5 Slovnični pregledovalniki

    Slovnični pregledovalnik je računalniško orodje, ki odkriva slovnične in slogovne

    napake v besedilih, kot so neujemanje pridevnika in samostalnika, opozarja na

    nepravilne predloţne zveze, manjkajoče vejice, zanikanje s toţilnikom, nepravilne

  • 6

    predloge pri lastnih imenih itd. V besedilih odkriva nekatere najznačilnejše napake in

    največkrat tudi predlaga, kako jih popraviti. Pri obvestilih o napakah prikaţe razlago,

    kaj naj bi bilo narobe. Slovnični pregledovalnik ne more nadomestiti lektorja - ne zna

    najti vseh vrst napak, marsikatera napaka pa postane opazna šele na pomenski ravni, kar

    je za računalniško tehnologijo še nedosegljivo. Kljub temu uporabniku, ki ureja

    besedilo, pomaga, da hitro odpravi očitne napake in se lahko več posveča drugim

    vidikom besedila. Amebisov pregledovalnik za slovenski jezik Besana po novem

    vsebuje tudi pregibnik, s katerim lahko sklanjamo, stopnjujemo in spregamo besedne

    oblike. Pregibnik išče besedo po vseh oblikah, zato je le-ta lahko vpisana v katerem koli

    sklonu, spolu, številu, stopnji, času osebi (Amebis, 2009).

    2.6 Orodja za povzemanje besedil

    Računalnik s pomočjo orodja za povzemanje besedil samodejno opravi povzetek

    daljšega besedila. V času vsesplošne informacijske zasičenosti je povzemanje koristna

    aplikacija. Danes je na voljo prek deset komercialnih orodij za povzemanje, med njimi

    najbrţ najbolj znan Microsoftov, ki ga je mogoče vključiti v Word in druge programe.

    Zgodnja orodja za povzemanje besedil so temeljila na luščenju ključnih besed in

    vrednotenju povedi glede na informativno teţo. Povzetek, katerega dolţino lahko

    uporabnik določi sam, je sestavljen iz ustreznega števila visoko uvrščenih povedi,

    katerih notranja zgradba ostane nespremenjena. Naprednejša orodja vključujejo

    jezikovno odvisne komponente obliko skladenjske analize in zmorejo mnogo več, med

    drugim tudi preoblikovanje povedi tako, da je zajeta le ključna informacija, pa tudi

    povzemanje mnoţice dokumentov (Vintar 2003).

    2.7 Program za optično branje dokumentov Amebis Prest

    Prest je prvi program za optično branje dokumentov z vgrajenim slovenskim

    črkovalnikom. Noben program ne more popolnoma natančno prebrati besedila, ki je

    zapisano kot slika, saj imajo pri tem teţave celo ljudje. Zato si ljudje pomagamo tako,

    da iz sosednjih črk in besed "uganemo" črke, ki jih ne moremo prebrati. Tako deluje

    tudi program Prest. Prest zna pretvoriti vse standardne vrste črk in številk v obliko, ki je

  • 7

    namenjena nadaljnjemu obdelovanju z urejevalnikom. Tudi program Prest ima že

    vgrajen enostaven urejevalnik in črkovalnik slovenskega jezika (Amebis, 2008).

  • 8

    3 SLOVARJI

    Slovar je knjiga, v katerem so abecedno urejene in pojasnjene besede nekega jezika.

    Slovarji lahko vsebujejo podatke o pisavi, izgovoru, pomenu in izvoru posameznih

    besed (SSKJ, 1998). Najbolj klasični jezikovni priročniki v elektronski obliki so

    obstoječi knjiţni slovarji, bodisi enojezični ali dvojezični, neposredno preneseni v

    računalniško okolje. Preskok v digitalno okolje pa je obenem tudi kvalitativni preskok.

    Uporabnost slovarja v elektronski obliki je ob ustrezni programski opremi, ki omogoča

    kompleksna iskanja po celotni slovarski bazi podatkov, vključno z večino gesel ali

    njegovimi posamičnimi deli, neprimerno večja kot v knjiţni obliki (Landau, 2001).

    Slovarji se v digitalni obliki pojavljajo v večini računalniških okolij kot aplikacije pa v

    vseh vrstah računalnikov, na internetu, v obliki SMS sporočil v mobilni telefoniji ali v

    specializiranih napravah, kot je denimo kombinacija optičnega čitalnika in slovarja –

    Quicktionary (Krek, 2003).

    3.1 Enojezični slovarji

    Splošnih enojezičnih slovarjev v knjiţni obliki, ki opisujejo sodobni jezik, je veliko.

    Nam najbolj znan je Slovar slovenskega knjiţnega jezika, ki je izšel v petih zvezkih od

    leta 1970 do 1991 (SSKJ), Slovenski pravopis iz leta 2001 (SP 2001) in Veliki slovar

    tujk iz leta 2002 (VST 2002). Tem bi pogojno lahko dodali tudi Besedišče slovenskega

    jezika z oblikoslovnimi podatki (BSJ), tj. spisek besed, ki niso bile vključene v SSKJ,

    ter Odzadnji slovar slovenskega jezika po Slovarju slovenskega knjiţnega jezika

    (OSSJ), spisek iztočnic iz SSKJ, razvrščenih po abecedi od zadnje črke do prve. SSKJ

    se je kot prvi, pojavil leta 1997 na disketah v programu ASP za operacijski sistem DOS

    in Windows. Trenutno je SSKJ dostopen v paketu s programom ASP32, ki deluje v

    obliki enouporabniške ali mreţne aplikacije v različicah operacijskega sistema

    Windows za osebne računalnike in streţnike.

    Program ASP32 je slovarski vmesnik s funkcijami, ki so postale standard pri podobnih

    programih: različne moţnosti tiskanja gesel in geslovnika, moţnost dodajanja opomb,

    prilagajanja velikosti ali barv črk na ekranu, sito, ki s skrivanjem posameznih delov

  • 9

    gesla omogoča boljši pregled vsebine pri daljših geslih, odpiranje več oken z več gesli

    itd. Predvsem je moţno orodje za kompleksna iskanja – z nadomestnimi znaki za en (?)

    ali niz znakov (*) ter operatorji »IN«, »ALI«, »NE«, »BLIZU« ter t. i. »NOTRANJI

    NE« in »NOTRANJI IN«, ki delujeta znotraj posameznega niza iskanih znakov.

    Celotno slovarsko bazo lahko preiskujemo po posameznih delih gesel: geslo, zaglavje,

    razlaga, primer, podgeslo in kvalifikator, iskanja po posameznih segmentih lahko tudi

    poljubno kombiniramo. Iščemo lahko po vseh posebnih znakih, ki so v SSKJ, od

    naglasnih znamenj za izgovarjavo besede do grških črk in matematičnih znakov. Ena od

    uporabnih lastnosti programa ASP32 je tudi moţnost shranjevanja in iskanja po izboru

    gesel, kar nam olajša pogosta iskanja po geslih, ki smo jih iz celote ţe izločili s

    kompleksnejšim iskalnim pogojem. Moţnosti pri spletnem vmesniku so v primerjavi z

    ASP32 skromnejše, vendar tudi ta omogoča iskanje po celotni vsebini SSKJ, kar je

    dovolj za osnovno uporabo (Krek, 2003).

    3.2 Dvojezični slovarji

    Dvojezični slovarji so bili poleg črkovalnikov, prvi jezikovni priročniki, ki so – ob

    koncu osemdesetih in na začetku devetdesetih let ţe v nelicenčni obliki – obstajali tudi

    v obliki računalniške aplikacije, takrat za operacijski sistem DOS, kar govori o veliki

    potrebi po njih. Pri nas je bil leta 1994 prvi dvojezični slovar, ki je bil legalno dostopen

    v računalniški obliki v programu ASP za DOS in Windows.

    Temu so sledili drugi dvojezični slovarji in trenutno so v tej obliki dostopni vsi

    obseţnejši in novejši dvojezični slovarji zaloţbe DZS, osemjezični Evropski slovar

    Zaloţbe Mladinska knjiga ter nekaj manjših avtorskih slovarjev, ki jih je izdalo podjetje

    Amebis (Krek, 2003). Širjenje interneta v devetdesetih letih prejšnjega stoletja je s seboj

    prineslo tudi silovit razmah dostopnosti dvojezičnih slovarjev, vendar je (pri tujih

    jezikih) razvoj potekal v dveh smereh. Globalno omreţje nudi brezplačen dostop do

    mnoţice slovarjev zelo različnega izvora, navadno pa so to zbirke, ki so rezultat

    akademskih projektov, posameznih navdušencev, starejše verzije sodobnih slovarjev in

    podobno. Sčasoma so se poleg splošnih brskalnikov na svetovnem spletu pojavili tudi

    specializirani iskalniki, ki iskano besedo ali zvezo iščejo po vseh brezplačno dostopnih

  • 10

    slovarjih, npr. , ,

    itd. V večini primerov je tem slovarjem skupna bodisi

    nedokončanost bodisi zastarelost in relativno majhen obseg ali fragmentarnost, vendar

    imajo tudi takšni viri svojo vrednost.

    3.3 Tezavri ali slovarji sinonimov

    Beseda tezaver izhaja iz grščine, kar pomeni podobno kot zaklad. Dolgo časa je termin

    tezaver pomenil celotni besedni zaklad enega jezika. Roche je k temu dodal, da je

    tezaver bolj slovar sinonimov. Tezaver je kontrolirani slovar s strukturo (hierarhičen,

    asociativen) in je standardiziran (izdela se po ISO standardu 2788. Za slovenski jezik

    slovar sinonimov ali tezaver v knjiţni obliki ne obstaja, obstaja pa v elektronski obliki.

    Microsoft v svojem programskem paketu Office od leta 1997 ponuja tudi orodje, ki

    uporabniku predlaga sopomenke. Slovar, ki ga orodje uporablja, je razmeroma

    nedodelan in potrebna bo nadaljnja jezikoslovna dodelava. Poznamo več vrst tezavorov,

    in sicer splošni - zajemajo večja tematska področja, tematski - so omejeni na eno temo,

    večjezični - v katerem so izrazi v različnih jezikih. Poznamo še makrotezavre, ki

    zajemajo široka področja in mikrotezavre, ki zajemajo oţja področja oziroma

    predstavljajo nekakšen podtezaver (SSKJ, 1998).

    3.4 Terminološki enojezični ali dvojezični slovarji

    Terminološki slovarji so zelo primeren priročnik za medij, kakršen je internet. Če

    iščemo prevod ali razlago nekega termina, nas pravzaprav ne zanima, ali je v slovarju

    deset ali deset tisoč iztočnic. Vsaka ad hoc sestavljena lista terminov s prevodi ali

    razlagami, ki jih je sestavil bodisi navdušeni amater bodisi akademik, ki lahko na

    svetovnem spletu sproti dopolnjuje terminologijo nekega področja brez dragega

    tiskanja, nam bo dala bolj ali manj zanesljivo informacijo. Na svetovnem spletu kar

    mrgoli tovrstnih virov, ki jih lahko najdemo s pomočjo splošnih ali specializiranih

    iskalnih orodij za slovarje, ki so omenjeni v poglavju o dvojezičnih slovarjih. V spletni

    slovarski zbirki povezav je mogoče najti

    terminološke slovarje z zelo različnih področij, od zootehnike do besedja na temo

  • 11

    slapov, bogato knjiţnico povezav najdemo tudi na strani , precej manjšo tudi na portalu Matkurja

    . Med vsemi

    terminološkimi slovarji gotovo izstopa Evroterm, terminološka baza s spletnim

    iskalnikom Sektorja za prevajanje Sluţbe Vlade RS za evropske zadeve, ki vsebuje več

    kot 30.000 dvojezičnih slovensko-angleških vpisov in je nastala pri prevajanju evropske

    zakonodaje v slovenski jezik. Geslovnik je trijezični, zato lahko iščemo angleške,

    francoske, nemške in slovenske iztočnice. Baza Evroterm se dnevno dopolnjuje in

    revidira. Iskalnik omogoča tudi iskanje z nadomestnimi znaki (Vlada Republike

    Slovenije, 2009).

    3.5 Leksikoni besednih oblik

    Leksikoni besednih oblik so izjemno pomembni za veliko aplikacij na področju

    jezikovnih tehnologij. Moţnosti hranjenja in hitrega dostopa do velikih količin

    podatkov ter potrebe povsem računalniških jezikovnih orodij, kot so črkovalniki,

    delilniki, besedilni korpusi, avtomatski prevajalniki itd. so s seboj prinesli tudi potrebo

    in moţnost organiziranja leksikonov besednih oblik pri pregibnih besednih vrstah, ki so

    nujni zlasti pri jezikih z velikim številom oblikoslovnih paradigem. Te informacije so

    bile do računalniške dobe v precej skrčeni obliki navadno dostopne v zaglavju

    enojezičnih ali dvojezičnih slovarjev kot rodilniška oblika ednine pri samostalnikih in

    pridevnikih ali prvoosebna oblika ednine pri glagolih, z občasnimi opozorili pri

    izjemah, ter v oblikoslovnih razdelkih slovnic slovenskega jezika.

    Informacija tako v slovnici (nekaj primerov paradigme) kot v slovarju (pri posamezni

    besedi le ena ali nekaj oblik) je bila dokaj neizoblikovana in je za uporabo v resnici

    predpostavljala poznavanje slovnice oziroma oblikoslovnih paradigem. Uporabniško

    gledano je sklepanje iz osnovne oblike na vse oblike besede za domače govorce

    (slovenščine) predvsem pri oblikah, ki so oblikoslovno teţavnejše in morda manj v rabi,

    sorazmerno naporno, za tujce, ki se učijo slovenščino, pa tako rekoč neobvladljivo.

    Računalniški medij je za tovrstni priročnik precej bolj primeren kot knjiţna oblika,

    najbrţ celo edini moţni, kajti izpisovanje vseh oblik določene besede je prostorsko

  • 12

    precej potratno, predvidljivost oblik velika. Na svetovnem spletu najdemo orodja, ki

    imajo funkcijo iskalnika po računalniškem leksikonu besednih oblik.

  • 13

    4 KORPUSI

    Kadar nam slovarski ali drugi jezikovni priročniki ne nudijo odgovorov na vprašanja

    oziroma ko ţelimo določen jezikovni pojav raziskati z empirično-kvantitativnega

    vidika, so nam v pomoč besedilni korpusi ali elektronske zbirke besedil. Do nekaterih

    korpusov lahko dostopamo preko interneta, za specifične potrebe pa si lahko zgradimo

    tudi lastno računalniško zbirko besedil, po kateri nam iskanje omogočajo različni

    korpusni programi.

    Razvoj korpusnega jezikoslovja kot empirične in računalniško podprte veje

    jezikoslovja, ki svoja spoznanja črpa iz zbirk jezikovnih proizvodov, tj. govornih ali

    pisnih besedil, danes merimo ţe v desetletjih. Z razmahom interneta so nekateri korpusi

    postali prosto dostopni tudi za širši krog uporabnikov. Uporaba korpusov ni omejena le

    na jezikoslovne raziskave, temveč se vse bolj uveljavlja tudi pri pouku maternega in

    tujega jezika, prevajanju, lektoriranju in drugih z jezikovno prakso povezanih

    dejavnostih. V jezikoslovju se na besedilne zbirke naslanjata predvsem leksikografija in

    terminografija, vzporedni in primerljivi korpusi so dragocen vir za prevodoslovje in

    primerjalne študije. Posebno vlogo igrajo računalniške zbirke besedil v računalniškem

    jezikoslovju in pri razvoju jezikovnih tehnologij, kjer se na podlagi korpusov razvija

    metodologija za avtomatsko obdelavo jezika, npr. lematizacijo in oblikoskladenjsko

    analizo, analizo in sintezo govora, strojno prevajanje, avtomatsko iskanje terminografije

    in rudarjenja podatkov (Vintar, 2001).

    Korpusno jezikoslovje pomeni zbirni pojem za niz različnih dejavnosti v zvezi s

    korpusi, pri tem pa je izhodišče analize velika količina načrtno zbranega avtentičnega

    gradiva in empirična analiza dejanskih vzorcev jezikovne rabe (Biber, Conrad, Reppen,

    1998). Šele pojav računalnikov in oblikovanje metod zbiranja ter gradnje korpusov je

    omogočilo pridobiti veliko količino relevantnih aktualnih jezikovnih podatkov za

    jezikoslovne študije; sodobni jezikovni opisi tako lahko temeljijo na empirični analizi

    zares velike količine avtentičnih besedil (Biber in sodelavci, 1998). Gre za značilnosti

    jezikovnih podatkov, ki jih starejšim zbirkam jezikovnih podatkov ne moremo pripisati

    (Čermak, 2002).

  • 14

    Delo v zvezi s korpusi je danes povezano z različnimi dejavnostmi; oblikovanje

    kakovostnih korpusov pa zahteva učinkovito sodelovanje jezikoslovcev z raziskovalci s

    področja druţboslovnih ved in računalništva, predvsem tistega dela, ki se ukvarja z

    naravnimi jeziki.

    4.1 Gradnja korpusov

    Gradnja korpusov zdruţuje tako jezikoslovce kot računalniške strokovnjake, saj je delo

    na področju oblikovanja korpusa vezano tako na načela njihove gradnje kot na

    zagotavljanje ustreznega elektronskega zapisa, ki v nadaljevanju omogoča analizo

    jezikovnih podatkov (Kennedy, 1998). Pri načelih gradnje korpusov je najprej potrebno

    pripraviti okvirni načrt gradnje, ki zajema serijo premislekov in odločitev. V osnovi bi

    jih lahko strnili v naslednje sklope (Kennedy, 1998):

    specifikacija korpusa in njegova oblika,

    strojna in programska oprema,

    zajem besedil in označevanje korpusnih dokumentov,

    procesiranje zbranega gradiva,

    končna oblikovanost korpusa in povratne informacije v zvezi z njim.

    V največji meri so jezikoslovni premisleki v zvezi s korpusom vezani na prvo alinejo,

    torej specifikacijo korpusa in njegovo obliko. Temeljni premislek je vezan na tip

    korpusa, ki ga ţelimo graditi. To za seboj potegne odločitve v zvezi z jezikom besedil

    (enojezični ali večjezični korpus), s časovnim zajemanjem besedil (sinhroni ali diahroni

    korpus), premislek o zajemu besedil glede na prenosnik (pisni ali govorni korpus) itd.

    Izhodiščni jezikoslovni premislek pri osrednjem tipu korpusa, tj. referenčnem korpusu,

    ki ţeli predstaviti določen jezik v čim širšem obsegu njegove pojavnosti, pa je vezan

    tudi na določitev parametrov za uravnoteţenost v korpusu zajetih besedil na eni strani

    (Biber, 1993) ter njihovo jezikoslovno označenostjo v korpusu na drugi.

  • 15

    Prav to so parametri, ki dvigajo kakovost jezikovnim podatkom v korpusu, saj je

    razumljivo, da korpus, ki zajema samo leposlovna besedila ali samo besedila enega

    časopisa, ne more biti kakovosten vir za npr. referenčne jezikovne priročnike.

    Da bi z gradnjo sploh lahko začeli, je potrebna tehnična podpora, ki mora od samega

    začetka slediti zahtevam tako glede strojne kot programske opreme ter biti sposobna

    oblikovati orodja za procesiranje zbranega gradiva. Prav pri procesiranju podatkov se je

    potrebno odločati tako, da jezikovnim podatkom zagotovimo čim večjo uporabnost,

    izmenjavo ter trajnost, kar v zadnjem času omogočajo standardi za prenos in zapis

    jezikovnih podatkov. Čeprav se razmislek v zvezi s postopki zajemanja besedil zdi

    dokaj trivialen, pa so se korpusi prav na tem nivoju velikokrat znašli pred nerešljivo

    teţavo: kako sploh organizirati zbiranje besedil ter prepričati avtorje, da za namene

    korpusa svoja besedila odstopijo. Prav zaradi nepredvideno zapletenih postopkov se je

    pr mnogih korpusih njihova gradnja precej zavlekla, tako da se danes vsi zavedajo

    zahtevnosti in zamudnosti zbiranja besedil (Atkins, Clear, Oster, 1992).

    S pridobivanjem besedil je povezano še eno temeljno vprašanje, ki ga mora vsak resno

    zastavljen korpusni projekt rešiti pred začetkom gradnje, tj. zagotavljanje varovanja

    avtorskih pravic. Potrebno je poznavanje področja varovanja avtorskih pravic, in sicer

    tako na mednarodni kot drţavni ravni, ter v skladu s tem oblikovanje ustreznih rešitev

    (Atkins in sodelavci, 1992). Prav izkušnje pri starejših korpusih, ki vprašanja avtorskih

    pravic niso zadovoljivo rešile, tako da danes tovrstnih podatkov sploh ni mogoče

    uporabljati, so oblikovalce kasnejših korpusov prisilile v razmislek ter iskanje ustreznih

    rešitev.

    Pri končni obliki korpusa je z vseh vidikov smiselno spremljati odzive na rešitve, jih

    sistematično obdelati ter razmisleke v zvezi z gradnjo revidirati ter tako pri njegovi

    nadgradnji dosegati večjo kakovost ter prijaznost do uporabnikov. Čeprav se zdi

    samoumevno, pa je mogoče vendarle potrebno izpostaviti potrebo po gradnji korpusa

    tako, da lahko sproti sledimo jezikovnim spremembam, torej zasnovati delo na način, da

    lahko novo besedilno gradivo v korpus nenehno vključujemo.

  • 16

    Razvoj orodij za delo s korpusom je vezan predvsem na področje računalniškega

    jezikoslovja (Kennedy, 1998), danes pa nekateri široko dostopni programi omogočajo

    tudi računalniško manj izobraţenim uporabnikom korpusa samostojen razvoj manj

    kompliciranih programskih orodij, ki si jih za svoje specifične potrebe lahko oblikujemo

    sami; ob tem se vzporedno razvijajo tudi postopki in metode korpusne analize.

    Ob delu s korpusi se razvijajo druga področja jezikovnih tehnologij, ki za svoje

    izhodišče potrebujejo kakovostne jezikovne vire. Sem sodi razvoj črkovalnikov,

    različnih slovničnih pregledovalnikov, elektronskih slovarjev in tezavrov pa tudi sinteze

    in analize govora ipd. V jezikoslovju sodijo na področje korpusnega jezikoslovja

    raziskave za potrebe opisnega jezikoslovja, kamor tradicionalno sodijo različne vrste

    slovničnih in leksikalnih analiz (Kennedy, 1998). Predvsem leksikologija in

    leksikografija sta področji, ki ţe po tradiciji izhajata iz sistematično zbranega gradiva

    (McEnery, Wilson, 1996). Prav slovarji, narejeni na podlagi korpusov, pa so tudi prvi

    res široki javnosti dostopni rezultati jezikoslovne uporabe korpusov. S pojavom večjega

    števila širši javnosti dostopnih različnih tipov korpusov pa se njihova uporabnost širi

    predvsem na tradicionalno gradivo usmerjena jezikoslovna področja, kot so

    besediloslovje, prevodoslovje, sociolingvistika, stilistika ipd. (McEnery in sodelavci,

    1996).

    Uporaba računalnika z avtomatičnimi in interaktivnimi tehnikami omogoča analizo

    velike količine jezikovnih podatkov. Z razvojem tehnik korpusne analize količina

    jezikovnih podatkov ne predstavlja ovire, pač pa prav obratno, z večjo količino

    podatkov lahko pridemo do novih informacij. Za določene postopke korpusne analize

    pa so sploh primerni samo izjemno veliki korpusi. Ob tem pa ostaja področje odprto za

    druge veje jezikoslovja, ki korpus uporabljajo le kot klasično gradivo zgolj za

    preverjanje svojih hipotez.

    4.2 Tipologija korpusov

    S širjenjem računalniških korpusov se je pojavila tudi potreba po ovrednotenju ter

    razvrstitvi korpusov. Z opisom karakteristik s katerimi lahko neki korpus ovrednotimo

  • 17

    in z definiranjem zvrsti korpusov, ki jih je med seboj smiselno razlikovati, se je

    ukvarjala skupina za tipologijo korpusov pri evropski iniciativi Eagles (Expert Advisory

    Group for Language Engineering). Po tipologiji Eagles so karakteristike nekega korpusa

    naslednje (ISTWORLD, 2009):

    velikost, tj. količina podatkov, ki jih neki korpus vsebuje;

    kakovost njegove izdelave;

    avtentičnost glede na merila, po katerih je bil zgrajen;

    enostavnost njegovega zapisa;

    dokumentiranost.

    V nadaljevanju bomo opisali posamezne korpuse ter njihove specifike.

    4.2.1 Referenčni korpusi

    Referenčni korpus je obseţna elektronska besedilna zbirka, ki zajema vzorčni deleţ

    besedil nekega jezika. Referenčni korpus naj bi kar najbolj reprezentativno in

    uravnoteţeno predstavljal jezik v vseh njegovih besedilnih udejanjenjih (Vintar, 2001).

    Njegov osnovni namen je, da omogoča temeljit vpogled v jezik na najrazličnejših

    ravneh in področjih, in je tako pomemben vir za uporabno in teoretično jezikoslovje,

    npr. slovaropisje v vseh oblikah (eno in večjezični slovarji, terminološki slovarji in

    drugi jezikovni priročniki), poučevanje jezika (učbeniki in učni pripomočki), jezikovne

    tehnologije (črkovalniki, slovnični pregledovalniki, govorni vmesniki) ter tudi druge

    druţboslovne in humanistične vede, npr. literarno vedo, psihologijo in sociologijo (Fida,

    2009).

    Referenčni korpusi predstavljajo osnovno zvrst korpusa in sluţijo kot jezikovni

    standardi. Posebna pozornost se pri takšnih korpusih posveča izbiri komponentnih

    besedil, saj naj bi tak korpus predstavljal idealizirano podobo nekega jezika. Primer

    takšnega korpusa je prvi široko dostopni računalniški korpus, in sicer korpus Brown

    ameriške angleščine, ki vsebuje petsto skrbno uravnoteţenih odlomkov iz petnajstih

    jezikovnih zvrsti, ki segajo od religije, preko znanstvene fantastike, do humorja.

  • 18

    Referenčni korpus ne more zajeti vseh jezikovnih moţnosti, kar pomeni, da je v jeziku

    lahko tudi tisto, česar v korpusu ni. K temu sodi tudi zrcalna trditev: vse, kar je v

    korpusu, je tudi (bilo) v jeziku (Stabej, 1998).

    Kot nasprotje referenčnim korpusom stojijo specializirani korpusi (sluţijo nekemu

    namenu) in oportunistični (cenena različica referenčnih korpusov; zbrani so glede na

    dane moţnosti) ali spremljevalni korpusi (dinamični korpusi, v katerih je vidno

    spreminjanje jezika) (Ponikvar, 2002).

    4.2.2 Enojezični korpusi

    Najbolj splošni tip enojezičnega korpusa so zgoraj navedeni referenčni korpusi. Za

    slovenščino je prvi tak korpus FIDA, korpus slovenskega jezika, ki vsebuje 103

    milijone besed iz skoraj 30.000 besedil. Za iskanje po korpusu FIDA obstaja prilagojena

    internetna različica programa ASP32, ki poleg iskanja po korpusu omogoča tudi

    urejanje rezultatov in njihovo statistično analizo. Korpus FIDA je tematiziran in

    oblikoslovno označen, kar pomeni, da je vsaki besedi pripisana osnovna oblika (lema)

    in oblikoskladenjska oznaka. To je pri iskanju zelo pomembno, saj lahko brez teţav

    dostopamo do pojavitev določene besede v vseh njenih oblikah, moţna pa so tudi

    zahtevnejša iskanja.

    Druga velika zbirka slovenskih elektronskih besedil na internetu je Beseda in novejša

    različica Nova beseda, ki vsebuje skupno 48 milijonov besed, od tega 42 milijonov

    besedil dnevnika Delo, pribliţno dva milijona besed izvirnega slovenskega leposlovja in

    milijon besed prevodov v slovenščino (Jakopin, 2000).

    Referenčni korpusi so na internetu dostopni tudi za številne druge jezike, npr. angleški

    BNC, nemški Cosmas, češki ČNK, hrvaški HNK in drugi. Omeniti velja tudi spletni

    konkordančnik WebCorp, ki za korpus uporablja ogromno število dokumentov na

    svetovnem spletu in za iskani pogoj izpiše konkordance.

  • 19

    Čeprav so korpusi začeli nastajati predvsem za potrebe leksikografov, se danes s

    koristjo uporabljajo v vseh tistih vejah jezikoslovja, kjer kvantitativne informacije lahko

    pripomorejo do novih spoznanj in kjer je opazovane jezikovne pojave mogoče do te

    mere formalizirati, da jih s pomočjo računalniških orodij lahko hitreje in učinkoviteje

    obdelujemo. To pogosto vključuje različne ravni označevanja korpusa, od katerih je

    nekatere danes ţe moţno zadovoljivo opraviti avtomatsko (lematizacija,

    oblikoskladenjsko označevanje), druge pa zahtevajo ročno delo (npr. označevanje

    pomena, stilnig prvin, pri govornih korpusih prozodije, komunikacijskih funkcij,

    gestike).

    Za običajne uporabnike je korpus lahko pomembno dopolnilo enojezičnega slovarja.

    Slovarski priročniki pogosto ţe ob izidu zamujajo in tako ne odraţajo aktualnih

    razvojnih procesov v jeziku. Tako na primer SSKJ ne vsebuje gesel za danes ţe povsem

    udomačene besede, kot so internet, notesnik, zgoščenka.

    4.2.3 Dvojezični korpusi

    Dvojezični korpusi se po tradicionalni tipologiji delijo na vzporedne in primerljive. V

    zadnjem času se pojavlja še en tip korpusa, tako imenovan prevajalski korpus. Na

    splošno je dvojezične korpuse nekoliko teţje graditi kot enojezične, še posebej če

    potrebujemo elektronske različice besedil v izvirniku in prevodu, zato se praviloma tudi

    odpovemo zahtevi po reprezentativnosti za jezikovni par v celoti in se raje omejimo na

    določeno jezikovno zvrst, besedilno vrsto, ţanr ali strokovno področje. Na podlagi

    dvojezičnega izpisa konkordanc lahko raziskujemo prevodno ustreznost, primerjamo

    prevajalske odločitve glede na tip besedila ali področje, primerjalno raziščemo

    leksikalno polje izbranega leksema ali opazujemo terminološko variabilnost (Vintar,

    2001). Z večjezičnimi korpusi dostopamo do naravnih vzorcev v jeziku, saj nam nudijo

    vpogled v jezikovne strukture v njihovem domačem okolju in ne v prevedenem

    besedilu. S prepoznavanjem strokovnih izrazov oz. njihovih prevodov, besed in fraz se

    pribliţujejo pomnilnikom prevodov in terminološkim bazam. Pomembno vlogo imajo

    pri materialih za pisanje, poučevanju prevajalcev in pri izboljšavi programov za strojno

    prevajanje (Ponikvar, 2002).

  • 20

    4.2.4 Vzporedni korpusi

    Vzporedni korpusi vsebujejo ista besedila v izvirniku in prevodu, včasih gre tudi v obeh

    primerih za prevod iz tretjega jezika (Vintar, 2001). so nepogrešljivi pri prevajanju, za

    izdelavo prevajalskih pripomočkov, pri izboljšavah za strojno prevajanje in za izdelavo

    terminoloških baz, kot orodje pri programih za poučevanje prevajanja, pri učenju

    jezikov s pomočjo jezikovnih tehnologij in pri terminoloških študijah, kjer so

    terminološki izrazi izluščeni iz korpusov. Največji uporabniki vzporednih korpusov so

    Zdruţeni narodi, Nato, Evropska unija in drţave z dvema uradnima jezikoma (npr.

    Kanada). V vzporednih korpusih lahko iščemo prevodne ustreznice s pomočjo

    vzporednih konkordanc. Primerjamo lahko pogostost posameznih prevodnih ustreznic

    in njihova sobesedila, kar olajša izbiro primernega prevoda (Ponikvar, 2002).

    4.2.5 Primerljivi korpusi

    Primerljivi korpusi vsebujejo za vsak jezik različen izbor besedil, ki so po izbranih

    merilih primerljiva (Vintar, 2001). So nekakšni kriţanci med večjezičnimi in

    vzporednimi korpusi in so sestavljeni iz dveh posameznih ločenih zbirk besedil v istem

    jeziku: iz besedil v izvirnem jeziku in iz zbirke prevodov v ta jezik iz enega ali več

    drugih jezikov (npr. časopisni članki iz evropskih časopisov v nekem obdobju). S tem je

    moţno prepoznavanje vzorcev, ki so specifični za prevedena besedila ne glede na

    izhodiščni oz. ciljni jezik, kar sproţi nove hipoteze o postopku prevajanja, ugotavljanje

    prevodnih norm v specifičnih kontekstih ter odkrivanje metod in rešitev za poklicne

    prevajalce (Ponikvar, 2002).

    4.3 Korpusna orodja

    Kadar korpusi, do katerih lahko dostopamo, za naše potrebe ne zadoščajo oziroma nam

    obdelava besedil preko interneta ne ustreza, si lahko zgradimo lastno zbirko besedil ali

    pa ţe obstoječi korpus prenesemo na lasten računalnik in z njim delamo lokalno. V ta

    namen je na voljo vrsta programskih orodij, ki jih lahko razdelimo na orodja za

  • 21

    označevanje, to je vnašanje jezikovnih in drugih informacij v besedilo, in orodja za

    iskanje in obdelavo rezultatov, ki jim pravimo konkordančniki (Vintar, 2001).

    4.3.1 Orodja za označevanje besedil

    Označevanje nekaterih jezikovnih ravni poteka preteţno avtomatsko in je človeško delo

    potrebno le za preverjanje rezultatov označevanja in prileganje programja. Druge ravni

    označevanja je teţje avtomatizirati, zato se izvajajo ročno, pogosto pa je ročno

    označevanje tudi prvi korak pri razvijanju in učenju računalniških programov za

    označevanje. Za vnašanje oznak v korpus je na voljo precej različnih orodij, še posebej

    pestra je izbira na področju govora. Novejša orodja večinoma temeljijo na standardu

    xml in uporabniku dovoljujejo, da opredeli lastno označevalno shemo. Ker pogosto

    označujemo več ravni hkrati, je pomembno tudi, da izbrano orodje dopušča večplastno

    označevalno shemo z gnezdenjem elementov.

    4.3.2 Orodja za iskanje in analizo – konkordančnik

    Orodjem za iskanje po korpusih in obdelavo rezultatov pravimo tudi konkordančniki

    (Vintar, 2001). Konkordančniki prikaţejo pojave določene besede (ali niza) poravnane

    skupaj s sobesedilom v oknu »KWIC« (ang. Key Word in Context). Z njimi lahko

    ugotovimo, v kakšnem sobesedilu je mogoče uporabiti besedo, s katerim predlogom se

    veţe, ali jo je mogoče uporabiti figurativno itn. Če je konkordanca zadosti velika, si

    lahko pogledamo primere rabe besede v dejanskih besedilih. To je še posebej koristno

    pri neologizmih, izposojenkah in drugih besedah, ki jih v običajnih slovarjih (še) ni

    mogoče najti.

    Najširše uporabljan konkordančnik je Wordsmith (Blaţič, 2002), ki poleg prikaza

    konkordanc omogoča tudi vrsto drugih obdelav besedil od izdelave besedilnih

    seznamov, izračunavanja besednih skupkov (clusters) in kolokacij, primerjave besednih

    seznamov in izračuna ključnih besed, do vključevanja seznamov prepovedanih besed

    (stoplist) in podpore pri ročni lematizaciji. Program podpira tudi označena besedila in

    nudi vrsto funkcij za predpripravo korpusa (Vintar, 2001).

  • 22

    Sodobna analiza jezikovne rabe ne more več temeljiti na intuiciji, na jezikovni

    kompetenci enega govorca ali minimalnem besedilnem gradivu, ampak ji njeno

    relevantnost zagotavlja prav empirična analiza velike količine avtentičnih besedil.

    (Gorjanc, 1999).

    Korpus velja za zelo zanesljiv vir podatkov o realni rabi določenih jezikovnih oblik. Z

    velikim obsegom pisnih in/ali govorjenih besedil korpusov ter z različnimi moţnostmi

    iskanja, ki jih omogoča konkordančnik med obseţnim številom dobljenih zadetkov,

    skupaj dajeta reprezentativno sliko jezikovne rabe, vzorcev in trend razvoja določenega

    jezika. Za raziskovanje jezika, iskanje po korpusu in obdelavo rezultatov iskanja

    uporabljamo programsko orodje, imenovano konkordančnik. Konkordančnik je bila

    prvotno metoda analiziranja pisnih besedil, ki je nudila seznam vseh besed v besedilu in

    kje so te besede uporabljene v le-tem.

    Konkordančnik ali programski vmesnik je programsko orodje, ki se uporablja v

    korpusnem jezikoslovju in je potrebno za iskanje po korpusu in obdelavo rezultatov

    iskanja. S pomočjo konkordančnika lahko iščemo po različnih kriterijih, zadetke

    razvrščamo in jih statistično obdelujemo. Omogoča iskanje posameznih besed, fraz,

    delov besed ali kombinacij le-teh (DZS, 2009)

    Konkordančnik nam pokaţe, kako se določena beseda ali besedna zveza pojavlja v

    kontektstu besedila. Tako lahko na primer preverimo, kako pogosto se pojavlja neka

    beseda v korpusu, statistično izmerimo pomensko povezanost neke besede ali pa

    razvrstimo seznam zadetkov po abecednem vrstnem redu. (Inštitut Joţef Stefan, 2009).

    Prednost konkordančnika pri analizi besedil je v tem, da je kontekst rabe izbranih besed

    ali besednih zvez vedno prisoten. Značilnost sodobnih konkordančnikov je

    interaktivnost, saj uporabnik »prikliče« konkordančni niz za izbrano besedo, kadar ţeli.

    Konkordančna orodja omogočajo odkriti jezikovne vzorce, ki obstajajo v vsakem

    naravnem jeziku, a na prvi pogled niso lahko vidni. S konkordančniki vzorce poiščemo

  • 23

    in še pomembneje, prikaţemo. Konkordančiki te vzorce prikaţejo in jih prikazati na tak

    način, da so uporabniku lahko vidna in razumljiva. (Tribble, 1997)

    Pri enostavnem iskanju se nam na zaslonu izpiše iskana beseda, ki predstavlja osrednji

    del prikazanih zadetkov. Za vsak zadetek vidimo na zaslonu minimalno sobesedilo le-

    tega, nekaj besed levo ter desno od iskane besede. Posamezni zadetek ali eno vrstico

    besedila imenujemo konkordanca, nabor vseh zadetkov skupaj pa konkordančni niz.

    Takšnemu prikazu angleško rečemo Key Word In Context (KWIC) in je najbolj pogosto

    uporabljen način prikaza konkordanc. (Tribble, 1997).

    Tabela 1: KWIC konkordanca angleške besede greh (Internet)

    1. Thus from my lips, by yours, my Sin is purged.

    2. Then have my lips the Sin that they have took.

    3. Sin from thy lips? O trespass sweetly urged!

    4. Give me my Sin again.

    Tabela 2: Tekst, uporabljen za konkordanco, ključna beseda odebeljena (Internet)

    JULIET

    Ay, pilgrim, lips that they must use in prayer.

    ROMEO

    O, then, dear saint, let lips do what hands do;

    They pray, grant thou, lest faith turn to despair.

    JULIET

    Saints do not move, though grant for prayers’ sake.

    ROMEO

    Then move not, while my prayer’s effect I take.

    Thus from my lips, by yours, my sin is purged.

    JULIET

    Then have my lips the sin that they have took.

    ROMEO

    Sin from thy lips? O trespass sweetly urged!

    Give me my sin again.

  • 24

    Tabela 3: Prikaz konkordance je moţen tudi na način, kjer je pred ali za ključno besedo,

    prikazanih tudi 75 do 80 znakov (Internet)

    1. move not, while my prayer’s effect I take. Thus from my lips, by yours, my sin is

    purged. JULIET Then have my lips the sin that they have took. ROMEO

    2. Thus from my lips, by yours, my sin is purged. JULIET Then have my lips the sin

    that they have took. ROMEO Sin from thy lips? O trespass sweetly urged!

    3. is purged. JULIET Then have my lips the sin that they have took. ROMEO Sin

    from thy lips? O trespass sweetly urged! Give me my sin again

    4. they have took. ROMEO Sin from thy lips? O trespass sweetly urged! Give me my

    sin again.

    Tabela 4: Vzporedna angleško-francoska konkordanca za besedo “pour” (Internet)

    Originalni tekst Prevod

    1. Ainsi, quand il aperçut POUR la

    première fois mon avion [...]

    1. The first time he saw my aeroplane, for

    instance [...]

    2. Alors elle avait forcé sa toux

    POUR lui infliger quand même des

    remords.

    2. Then she forced her cough a little more SO

    THAT he should suffer from remorse just the

    same.

    3. -Approche-toi que je te voie mieux,

    lui dit le roi qui était tout fier d’être

    enfin roi POUR quelqu’un.

    3. “Approach, so that I may see you better,”

    said the king, who felt consumingly proud of

    being at last a king OVER somebody.

    4. Car, POUR les vaniteux, les autres

    hommes sont des admirateurs.

    4. For, TO conceited men, all other men are

    admirers.

    5. C’est comme POUR la fleur. “ 5. It is just as it is WITH the flower.

    6. C’est donc POUR ça encore que

    j’ai acheté une boîte de couleurs et des

    crayons.

    6. It is FOR THAT PURPOSE, again, that I

    have bought a box of paints and some pencils.

    7. C’est le même paysage que celui de

    la page précédente, mais je l’ai

    dessiné une fois encore POUR bien

    vous le montrer.

    7. It is the same as that on page 90, but I have

    drawn it again TO impress it on your memory

  • 25

    Izdelava konkordančnika tudi še danes, v dobi računalništva, zahteva veliko časa in

    truda. Zato so bili pvi konkordančniki v srednjem veku izdelani le za pomembnejša

    literarna dela, kot sta Biblija in Koran. Prvi konkordančnik, imenovan »Concordantiae

    Sacrorum Bibliorum ali Concordantiae S. Jacobi« je bil izdelan 1262, na pobudo

    francoskega kardinala Huga de Sancto Charo, ob sodelovanju več kot petsto menihov.

    (Appleton, 1983).

    Poleg Biblije, so bila za izdelavo konkordančnikov, najbolj pogosto uporabljene zbirke

    besedil Shakespeara. Leta 1894 je ameriški urednik Bartlett izdelal konkordančnik z

    naslovom »A Complete Concordance to Shakespeare's Dramatic Works and Poems«.

    Konkordančniki se uporabljajo na področju računalniško podprtega in strojnega

    prevajanja, na področju leksikografije in slovaropisja. Značilen primer je Collins

    Cobuildov slovar, kjer so vnosi nastali zgolj na podlagi korpusne analize milijonov

    avtentičnih besedil. Uporaba konkordančnikov je znana tudi na področju stilistike in

    literarnih raziskav. Vsi našteti primeri običajno zahtevajo velike, več milijonske

    korpusne zbirke besedil. Manj bolj jezikovno specifične zbirke besedil, pa so lahko v

    povezavi z uporabo konkordančnikov, namenjene področju učenja in poučevanja jezika.

    Z razmahom interneta, ki sluţi kot lahko dostopen korpus in z razvojem internetnih

    konkordančnikov, so le-ti postali uporabni tudi za namen poučevanja in učenja jezika.

    Razvoj in dostopnost osebnih računalnikov je ta proces še pohitril, saj so orodja postala

    »uporabniku prijazna« in so zmoţna analizirati velike količine besedil v zanemarljivo

    kratkem času. Danes pomembnejši zaloţniki, kot so Oxford University Press, Longman

    in Cambridge University Press, izdajajo reprezentativne korpuse za namen poučevanja

    in učenja jezika. Slednji je na primer izdal korpus »Million Word Corpora«, ki obsega

    zbirke pisnih in govornih besedil različnih ţanrov in področij (znanstvena, splošna,

    strokovna, informativna, umetnostna, športna in podobno). To uporabnikom

    konkordančnikov omogoča, da za poučevanje ali učenje ter raziskovanje jezika izberejo

    besedila iz točno ţelenega področja, kar je zlasti pomembno z vidika reprezentativnosti

    in dejanske uporabnosti.

  • 26

    Konkordančniki so s stališča osebe, ki se uči določenega jezika, zanimivi tako na

    področju semantike in sintakse. Prvo zanima pomen besed v njenem osnovnem

    (konotativnem) in dodatnem (denotativnem) pomenu, slovarski in besedilni pomen

    besed in razmerje med obema, sintaksa pa se ukvarja z zgradbo stavkov. Primer za to je

    beseda brati, ta ima več pomenov: brati jagode, grozdje, brati knjigo, ima pa sinonim

    čitati, ampak samo v drugem pomenu, v prvem ne. Pravi pomen besede dobimo torej

    šele z besedilom oziroma stavkom, v katerem je bila beseda brati uporabljena. (Zavod

    Med.Over.Net, 2009).

    Vloga konkordančnikov na področju spoznavanju oziroma učenja jezika je v

    vzpodbujanju načela učenja po principu odkrivanja (angleško »learning by discovery«).

    Učenje po principu odkrivanja pomeni, da učitelj predstavi učencem neki specifičen

    primer, učenci pa skušajo odkriti interrelacijo ter strukturo obravnavanega. V skladu z

    Brunerjevo kognitivno teorijo naj bi za učinkovitejše učenje učitelji vzpostavili

    problemske situacije, ki bi učence stimulirale k samostojnemu odkrivanju strukture

    obravnavanega (Plut Pregelj, 2000).

    Samostojna uporaba konkordančnika, glede na trenutno jezikovno zmoţnost osebe, ki

    se uči določenega jezika, je ena izmed najbolj zaţelenih uporab le-tega. Tovrstno rabo

    Johns opredeljuje tudi kot »naključno učenje« (Johns, 1998). Gre za podobnost z

    listanjem slovarja in ugotavljanjem pomena besed, njihove rabe v jeziku in določenih

    pravopisnih zakonitosti jezika. Uporaba konkordančnika na ta način ima po mnenju

    James in Garett-a 1991 spodnje prednosti:

    Oseba je pri samoučenju s pomočjo konkordančnika avtonomna pri izbiri »kaj

    in kdaj« ţeli raziskovati v izbranem jeziku

    »Odgovori na vprašanja« ustrezajo trenutnemu nivoju znanja osebe oziroma

    »jezikovni kompetenci«

    Raziskovanje jezika s pomočjo konkordančnika povečuje jezikovno in kulturno

    zavest

  • 27

    Uporaba konkordančnika v procesu učenja jezika omogoča samostojno raziskovanje

    pomena in rabe besed v kontektstu besedila in posledično sklepanje o slovničnih

    zakonitostih jezika.

    Oseba s pomočjo konkordančnika lahko v avtentičnem besedilu poišče kolokacije,

    njihov pomen in rabo v izbranem jeziku. Učenec namesto vloge zgolj receptorja pridobi

    vlogo raziskovalca jezika. (Ammar Merhbi, 2009).

    Učenci lahko konkordančnik pod mentorstvom učitelja uporabijo za analizo in popravek

    napak pri njihovem pisanju. Konkordančnik omogoča tudi induktivno učenje. Pri

    induktivnem učenju učenec napreduje od specifičnega k splošnemu oziroma od

    posameznih primerov proti oblikovanju splošnega pravila (Flowerdew, 1996).

    »Pasti pri uporabi konkordančnikov« se skrivajo predvsem pri izbiri korpusa za analizo.

    Velja mnenje, da večji kot je korpus, bolj je reprezentativen. Kjer ima uporaba

    konkordančnika vlogo študija kolokacij in leksikalnega pomena besed, tam bomo

    uporabili večji korpus. Pri izbiri korpusa za preučevanje »splošnega jezika« je

    pomembno tudi, da korpus vključuje primere govorjenega jezika. V primeru da učenec

    spoznava jezik na specifičnem področju, pa je bolj kot sama velikost, pomembno da je

    korpus izbran iz preučevanega področja (Flowerdew, 1996).

    Za uspešno izrabo moţnosti, ki jih ponujajo konkordančniki pri analizi korpusov, je

    bistvenega pomena priprava ter seznanjanje učencev z uporabo le-teh s strani učiteljev

    in sprotna analiza ter usmerjanje učencev s strani slednjih.

  • 28

    5 RAČUNALNIŠKA ORODJA ZA PREVAJANJE

    Ideje o samodejnem prevajanju med ljudmi obstajajo ţe dolgo (predlog o mehanskem

    slovarju Descartesa in Leibniza seţe v 17. stoletje). Sistemi za samodejno prevajanje se

    tako razvijajo ţe od časov izuma elektronskega računalnika v štiridesetih letih. Dolga

    leta zatem se je tako prevajanje izvajalo neposredno preko dvojezičnih slovarjev in

    postopek je vključeval skopo analizo drugih jezikovnih prvin.

    V osemdesetih letih je napredek v računalniškem jezikoslovju prinesel bolj kompleksen

    pristop k prevajalskemu postopku. Ti sistemi so vključevali programe za prepoznavanje

    besednih oblik (morfološka raven), strukture stavkov (skladenjska raven) in

    razpoznavanje večpomenskosti, enakozvočnic ter leksikalnih razmerij (leksikalna

    raven).

    Skozi zgodovino so bili razviti trije tipi sistemov strojnega prevajanja (Hutchins,

    Somers, 1992: 4):

    Pri neposrednem pristopu, ki je najstarejši, gre za strojno prevajanje

    posameznega para jezikov v eno smer. Izhodiščno besedilo je analizirano zgolj

    za potrebe pretvarjanja v ciljni jezik.

    Vmesno stopnjo prevajalskega postopka predstavlja od jezikov neodvisni

    tako imenovani vmesni jezik (ang. interlingua). Pri tem gre za dva dela

    postopka: prevod iz izhodiščnega jezika v vmesni jezik, kateremu sledi prevod

    iz vmesnega jezika v ciljni jezik.

    Transferni pristop ima tri stopnje:

    o pretvorbo izhodiščnega besedila v abstraktno izhodiščno predstavo, kjer

    se razreši večpomenskost ne glede na jezik,

    o prenos predstave v abstraktno ciljno predstavo in

    o tvorbo besedila v ciljnem jeziku.

  • 29

    S pojavom osebnih računalnikov se je začel tudi razvoj prevajalske programske opreme

    zanje. Danes je razvoj usmerjen k statističnim sistemom, ki se prevajanja naučijo iz

    vzporednih korpusov (npr. EGYPT).

    V devetdesetih so postala priljubljena prevajalska namizja (ang. workbench), ki

    zdruţujejo večino prevajalskih orodij (za štetje besed, pretvarjanje formatov, filtriranje,

    poravnavanje ţe prevedenega besedila). Tako so omogočala večjezično obdelovanje

    besedil, pošiljanje in sprejemanje dokumentov v elektronski obliki, pretvorbo grafičnih

    zapisov v besedila elektronske oblike, upravljanje terminologije s konkordančnim

    iskanjem, pomnilnike prevodov itn.

    Prevajalska namizja so računalnik prevajalcem predstavila v povsem novi luči. Dobili

    so orodja, ki so jim omogočala širok razpon uporabe. Kot vedno pa je vrednost

    tehnologij odvisna od kakovosti dela. Pri strojnem prevajanju slovarji in terminologija

    zahtevajo trud, čas in denar, pomnilniki prevodov pa se zanašajo na zbirko uporabnih

    prevodov. Štiri največja prevajalska namizja, ki jih poznamo danes, so TRADOSi,

    STAR (Transit), LinguaNet (TranslationManager) in LANT (Eurolang Optimizer).

    Do pred nekaj leti so ti sistemi tekli na velikih računalnikih (ang. mainframe computers)

    in so bili naprodaj za več milijonov dolarjev. S kasnejšim razvojem moči osebnih

    računalnikov in operacijskih sistemov Unix je postalo dostopnih veliko rešitev enake

    kakovosti in natančnosti in to po ceni, ki si jo prevajalci lahko privoščijo (ItoCAT,

    2002).

    Poleg tega je na internetu dostopna celo brezplačna programska oprema, s katero se

    proti patentiranju bori projekt prostovoljcev, imenovan GNU (GNU's Not Unix).

    Posledica moţnosti nalaganja programske opreme, za katero ni potrebno plačilo in ki se

    jo pod njihovimi pogoji (v nespremenjeni obliki in brezplačno) lahko ponuja naprej, sta

    širjenje in lokalizacija. Slovenski GNUsl skuša v duhu GNU ponuditi tiste tehnologije,

    ki so prosto dostopne in vezane na slovenski prostor: internetni črkovalni servis Primoţ

    Trubar, prazne besede slovenskega jezika (predlogi, vezniki, zaimki, pomoţni glagoli

    itn.), navodila za prilagoditev nekaterih računalniških orodij slovenskemu jeziku (npr.

  • 30

    kodni nabori, tezaver slovenskega jezika, oblikoskladenjski slovar) ter nenazadnje

    orodje za lokalizacijo programov v obliki pomnilnika prevodov SMART skupine za

    slovenjenje Linuxa (Košir, Peterlin, Erjavec, 1998).

    Področje prevajalskih tehnologij se deli na dve veji, ki se med seboj tudi povezujeta:

    strojno in računalniško podprto prevajanje.

    5.1 Strojno prevajanje

    Strojni prevajalniki so programi z lastnimi moduli za jezikovno analizo izhodiščnega in

    sintezo ciljnega besedila, tako da prevajanje poteka bolj ali manj samodejno. Usmerjeno

    je v simulacijo samega miselnega, introspektivnega dela prevajalskega postopka.

    Kakšen je dober prevod, je kompleksno vprašanje, na katerega se ne da preprosto

    odgovoriti. Pri strojnih prevajalnikih je odločilen podatek, koliko sprememb in

    popravkov potrebuje prevod (čeprav zna prevajalnik tudi sam zaznati nekatere napake

    in sam ponuja načine, kako se izogniti napakam), da ustreza prevajalcu, bralcu ali

    naročniku in čas, ki ga pri tem porabimo (Ilič, Golob, Čurić, 1999). Pred tem merilom

    se slovenski uporabnik strojnega prevajanja spopade še z večjo oviro. Širše uporabnih in

    prosto dostopnih strojnih prevajalnikov pri nas namreč še ni. Na srečo so nekatera

    orodja za pridobivanje slovenskih jezikovnih virov in jezikovni viri drugih jezikov

    dostopni v tujini ali celo brezplačno na internetu.

    Uporabnost sistemov strojnega prevajanja pa je odvisna tudi od drugih dejavnikov, med

    katerimi je treba posebej upoštevati izhodiščno besedilo samo. Da se izognemo

    nepotrebnim napakam, je priporočljivo izhodiščno besedilo najprej pripraviti (ali

    prenesti v nadzorovani jezik), pri čemer moramo paziti na enostavno stavčno strukturo

    in manjši obseg besedila, ki gre v prevod. Besedila ne smejo imeti napak pri črkovanju

    (te so lahko posledica nenatančnega skeniranja dokumenta), slovničnih napak,

    neslovničnih struktur in leksikalnih dvoumnosti.

  • 31

    Prevajalniki so uporabni predvsem pri besedilih z določenega področja, za katera mora

    biti v računalnik vnesena tudi vsa potrebna terminologija (tudi ţargonski izrazi), ki se v

    takšnih besedilih velikokrat ponavlja. Stavčna struktura takšnih besedil navadno ni

    zapletena oz. bi jo lahko laţje prilagodili.

    Ob nepravi uporabi se lahko strojni prevajalnik res izkaţe za zamudnega. Vseeno

    uporabniki počasi začenjajo sprejemati prednosti strojnega prevajanja pri enostavno

    strukturiranih besedilih, saj je uporabno tudi za preverjanje besedila.

    Strojno prevajanje je dostopno tudi na internetu. Uporabniki lahko v določenem

    obdobju uporabljajo poskusne različice strojnih prevajalnikov ali pa kot stalni

    uporabniki izkoristijo streţniško ponudbo (Systran Logos, GLOBALink).

    Dodaten znak velikega vpliva interneta je naraščanje programov za strojno prevajanje

    spletnih strani, elektronske pošte in pripetih dokumentov ter klepetalnic. Nekatera

    orodja lahko za uporabo strojnih prevajalnikov in pomnilnikov prevodov jezik

    izhodiščnega besedila priredijo nadzorovanemu jeziku.

    Strojne prevajalnike uporabljajo tudi poslovni ljudje, in sicer za prevajanje glavnega

    pomena dokumentov, elektronske pošte, časopisnih člankov, poslovnih pisem; koristni

    so pri izbiri besedil, ki potrebujejo prevod strokovnjaka, za posredovanje informacij, ki

    spremljajo izhodiščno besedilo ter za izdelavo prevodov kot polizdelkov za nadaljnjo

    uporabo.

    V zadnjem času se vedno pogosteje pojavlja teţnja po zdruţevanju strojnih

    prevajalnikov s pomnilniki prevodov. Translator's Workbench je danes na voljo z

    integriranim sistemom za strojno prevajanje podjetja Logos, ki vskoči pri vseh

    prevodnih enotah, ki nimajo ustreznic v pomnilniku prevodov. Obratno tudi vse več

    komercialnih sistemov za strojno prevajanje (npr. Langenscheidt) ponuja komponento

    za arhiviranje strojno prevedenih in popravljenih stavkov, ki (kot pomnilnik prevodov)

    sluţijo kot priporočilo ob novih prevodih. Pri nas komercialni prevajalnik PRESIS, ki

  • 32

    ima vgrajen tudi pomnilnik prevodov, prevaja iz nemščine v slovenščino, angleščine v

    slovenščino in slovenščine v angleščino).

    Podjetja se zavedajo potenciala strojnega prevajanja, zato se v bliţnji prihodnosti

    obetajo nove, izboljšane verzije in sveţe ideje. V Singapurju, na primer, je bil ţe leta

    1995 lokalno razvit sistem za prevajanje iz angleščine v kitajščino, malajščino,

    japonščino in korejščino, ki ga pregledujejo poklicni prevajalci. Sistem omogoča

    prevajanje ogromnih količin dokumentov za naročnike z vsega sveta, ponuja pa tudi

    lokalizacijo podjetjem, ki razvijajo programsko opremo za kitajsko govoreči del trţišča

    (Hutchins, 1999).

    5.2 Računalniško podprto prevajanje

    Računalniško podprto prevajanje (ang. CAT – Computer-Aided Translation) predstavlja

    drugo vejo prevajalskih računalniških tehnologij, ki se je razvila s prevlado osebnih

    računalnikov.

    Uporaba teh orodij olajšuje in pospešuje, optimizira in zniţa stroške prevajalskega

    postopka. Ti programi nam sluţijo za podporo referenčnega dela, tj. iskanja po

    slovarjih, vzorčnih besedilih, terminoloških bazah. Med orodja za računalniško podprto

    prevajanje v širšem smislu sodijo vse jezikovne tehnologije, ki prevajalcu sluţijo kot

    pripomoček na poti do prevoda, se pravi tudi črkovalniki, tezavri, elektronski slovarji in

    drugi elektronski podatkovni viri, v oţjem pomenu pa predstavljajo pomemben korak na

    tem področju predvsem programi za izdelavo in vzdrţevanje terminoloških bank ter

    programi s pomnilnikom prevodov (Vintar, 2001).

    5.3 Pomnilniki prevodov

    Po definiciji skupine strokovnjakov za standarde jezikovnega inţeniringa EAGLES

    (Expert Advisory Group on Language Engineering Standards) je pomnilnik prevodov

    »večjezični besedilni arhiv, ki vsebuje (segmentirana, poravnana, razčlenjena in

    klasificirana) večjezična besedila in dovoljuje shranjevanje besedil in iskanje po njih

  • 33

    glede na različne pogoje« (Peterlin, 2002). Natančneje pa pomnilnik prevodov opiše

    Špela Vintar (1998): »Pomnilnik prevodov je podatkovna zbirka prevodnih enot,

    navadno povedi ali krajših delov besedila, ki so v izvirniku in prevodu shranjeni v

    pomnilnik in so ob morebitni ponovitvi enakega ali zelo podobnega dela besedila na

    razpolago za ponovno uporabo.«

    Pomnilnik prevodov je lahko integriran v urejevalnik besedil, lahko pa ima lastno

    delovno namizje, v katerega uvozimo dokument, ki ga ţelimo prevesti. Navadno obsega

    še orodje za izdelavo in upravljanje terminoloških enot, komponento za vzporejanje, s

    katero pomnilnike ustvarjamo iz ţe prevedenih besedil, preverjanje črkovanja, strojno

    prevajanje, lahko pa ima tudi statistični program, s katerim lahko ugotovimo tako

    imenovan dejavnik ponavljanja v besedilu. Ta nam pove, kako pogosto pride do

    ponovitev, kar nam je v pomoč pri izbiri primernega prevajalskega postopka in orodja.

    To orodje nima vgrajenih modulov za oblikoskladenjsko analizo prevodnih enot, niti

    lastnih leksikonov, saj deluje na jezikovno neodvisnem principu, kar pomeni, da ne

    zaznava podobnosti pomenov. Sposobno je prepoznavati podobnost na ravni besed ali

    besednih nizov, zato je uporabno za vse jezikovne pare oz. za vse jezike, za katere je

    zagotovljena znakovna podpora. Program med prevajanjem v ozadju išče enake

    (popolni zadetek, ang. exact match) ali podobne enote (megleni zadetek, ang. fuzzy

    match), ki jih prevajalcu samodejno ponudi. Podobnost je odvisna predvsem od števila

    besed, ki se ujemajo v obeh prevodnih enotah, in besednega reda. Prag ujemanja lahko

    določi prevajalec sam.

    Ti programi se v svetu najhitreje uveljavljajo v velikih industrijskih podjetjih z

    mednarodno dejavnostjo in drţavnih institucijah, kjer se prevajajo velike količine

    besedil z istega področja in kjer se ţe prevedena besedila pogosto posodabljajo in

    izdajajo na novo (npr. navodila za uporabo, uporabniški priročniki, dokumenti

    mednarodnih in drţavnih upravnih organov). Shranjene prevodne enote pa so dragocen

    jezikovni vir za prihodnje delo (za korpus ali (pol)samodejno pridobivanje

    terminologije) terminologov in prevodoslovcev.

  • 34

    5.4 Terminološki programi

    Spreminjajoče se terminologije, zaradi nenehnega razvoja strokovnih in drugih področij,

    pogosto ne more spremljati ne slovaropisje ne prevajalec. Prevajanje besedil s področij

    kot so proizvodnja, energija, pravo, medicina idr. je lahko zato zelo naporno, saj je

    iskanje izrazov in njihovih prevodov lahko dolgotrajno in neuspešno. Veliko izrazov je

    moč najti na internetu in v drugih javnih medijih, terminologija pa je lahko v lasti

    izdelovalca terminološke baze oz. naročnika prevoda in tako zaščitena z avtorskimi

    pravicami. Prevajalec ali skupina prevajalcev, ki večinoma prevajajo besedila

    določenega področja, si zato sami ustvarjajo terminološko bazo, ki jim v naslednjih

    prevodih zagotavlja tudi enotnost pri izbiri izrazov. Delajo pa lahko tudi na različnih

    jezikih, saj lahko terminološki program za posamezen izraz shranjuje večjezične

    prevodne ustreznice (ItoCAT, 2002).

    Terminološki programi so orodja za izdelavo in vzdrţevanje terminologije. Imajo vlogo

    skladišča, kamor se zbirajo in shranjujejo izhodiščni in ciljni izrazi za kasnejšo uporabo

    v prevodu. Hranijo lahko neomenjeno število terminoloških vnosov. Tehnike

    shranjevanja in prikazovanja izrazov pa so različne od programa do programa. Ta

    (lahko) vsebuje orodja, ki (Ibid, 2002):

    strukturirajo, posodabljajo in povezujejo vnose,

    o omogočajo preproste funkcije iskanja,

    o omogočajo konceptualni prikaz popolnih in meglenih zadetkov,

    o podpirajo shranjevanje grafičnih prikazov,

    o omogočajo samodejno vnašanje izrazov v urejevalnik besedil

    z jezikovno analizo izhodiščnega in ciljnega besedila prepoznajo in izločijo

    izraze za uvoz v terminološki program,

    o vključujejo tudi slovarsko upravljanje terminologije,

    o podatkovno bazo izvozijo in uvozijo v druge aplikacije.

  • 35

    V nekaterih pogledih so zelo podobni pomnilnikom prevodov:

    Podpirajo vse jezike, za katere je zagotovljena znakovna podpora, saj je iskanje

    tudi tu pogojeno s podobnostjo besed.

    Omogočajo globalno iskanje (iskanje tudi po delih izraza), megleno iskanje

    (prikaţe se kazalo besednih zvez, ki poleg korena iskane besede vsebuje tudi

    tvorjenke, oblikoslovne različice besed ipd.) in filtriranje (prikaz vnosov po

    merilih, ki jih določi uporabnik).

    Omogočajo doslednost in enotnost.

    Terminološki vnosi so opremljeni s podatki o vnašanju (vnašatelj, datum vnosa, datum

    spremembe, področje, kje v besedilu se izrazje nahaja itn.) in o izrazu samem (o rabi,

    obliki, lastnostih, definiciji idr.).

    Terminološka baza je ob nakupu prazna in neuporabna, dokler vanjo ne vnesemo

    terminoloških vnosov. Čas, ki ga potrebujemo za vnašanje izrazov, lahko skrajšamo s

    predpripravo enojezične baze, ki ji samo dodamo prevodne ustreznice.

    Prevajalec lahko uporablja terminološko bazo kot dopolnilo pomnilniku prevodov ali

    drugim jezikovnim virom. Podjetjem, ki se resno ukvarjajo s prevajanjem, pomeni

    takšen terminološki program dragocen jezikovni vir.

    5.5 Strojno simultano prevajanje govora

    Ideja, kako uporabni bi bilo, če bi imeli na voljo prevajalski stroj, je zelo stara. Prvi

    koraki v tej smeri so bili narejeni v letih po drugi svetovni vojni. Tako je takrat

    Američan Warren Weaver zapisal: "Pred seboj imam besedilo v ruščini, vendar se bom

    pretvarjal, da je v resnici zapisano v angleščini in zakodirano s čudnimi simboli. Vse,

    kar moram narediti, je razbiti kodo, da dobim informacijo, ki jo vsebuje besedilo."

    (Arnold, 1994) Takšen pogled na strojno prevajanje in razlike med jeziki je seveda zelo

    preprost, vendar je Weaver s tem spodbudil raziskave na tem področju in leta 1954 je

  • 36

    bila demonstracija prototipa angleško-ruskega sistema strojnega prevajanja pisanega

    besedila.

    Začetnega optimizma glede strojnega prevajanja besedila je bilo konec s poročilom

    ALPAC-a (Automatic Language Processing Advisory Committee) leta 1966, ki je

    ugotavljalo, da to področje ni perspektivno in da zahteva preveč stroškov glede na

    končno doseţeno kakovost produkta. Posledica je bila, da ameriška vlada ni bila več

    pripravljena financirati raziskav s tega področja, delo so nadaljevale le redke skupine

    zunaj ZDA.

    V sedemdesetih so se vendarle zgodili nekateri pomembni premiki: zgrajena sta bila

    Systran za prevajanje besedil med ruščino in angleščino (za potrebe ameriškega

    letalstva) ter Meteo za prevajanje vremenskih napovedi. V Evropi so naredili angleško-

    francosko verzijo Systrana.

    Pravo prebujenje tehnologije strojnega prevajanja besedila pa se je zgodilo v

    osemdesetih. Pomembnejši projekti na tem področju so bili evropski Eurotra, na

    Japonskem Mu, v ZDA pa t.i. Knowledge-Based Machine Translation. Nastajati so

    začeli tudi nekateri komercialni sistemi.

    V poznih osemdesetih in začetku devetdesetih se je za področje strojnega prevajanja

    besedila začelo zanimati veliko podjetij, med pristopi se razvija statistično strojno

    prevajanje besedil. V tem času pa se začne tudi zanimanje za strojno simultano

    prevajanje govora, ki je veliko zahtevnejše in se, kot bomo videli v nadaljevanju,

    bistveno razlikuje od strojnega prevajanja besedil.

    V poznih devetdesetih lahko opazujemo strojno prevajanje besedil na internetu, širjenje

    uporabe raznih elektronskih pripomočkov za prevajanje besedil, tudi pri nas (Hirci,

    2003). Med pristopi se začnejo razvijati na primerih temelječi sistemi strojnega

    prevajanja besedila (ang. example-based machine translation). V letu 2002 dobimo prvi

    večji strojni prevajalnik besedil tudi za slovenščino: podjetje Amebis predstavi

    slovensko-angleški prevajalni sistem Presis (Romih, Holozan 2002), poskuse

  • 37

    statističnega strojnega prevajanja besedil prav tako iz slovenščine v angleščino delajo

    tudi na Fakulteti za računalništvo in informatiko v Ljubljani in Inštitutu Joţef Stefan

    (Vičič, Erjavec, 2002).

    Ustrezni jezikovni viri so osnova za izdelavo sistemov strojnega simultanega prevajanja

    govora, vendar je najprej potreben temeljit premislek o vrsti in velikosti teh virov, o

    podatkih, ki naj jih vsebujejo, o zagotavljanju njihove kakovosti, o njihovi usklajenosti s

    podobnimi viri za tuje jezike.

    5.6 Razlike med strojnim simultanim prevajanjem govora in strojnim

    prevajanjem besedila

    Sistemi strojnega simultanega prevajanja govora se v marsikaterem pogledu razlikujejo

    od sistemov strojnega prevajanja pisanega besedila. Prva pomembna razlika je, da mora

    sistem strojnega simultanega prevajanja govora najprej razpoznati govor (tj. znati

    prevesti zvok v takšno pisno obliko, kot to naredi človek), šele nato lahko sledi govorno

    orientirano prevajanje (ki pa je zaradi lastnosti govorjenega jezika, ki jih opisujemo v

    naslednjem odstavku, prav tako drugačna, zahtevnejša naloga kot strojno prevajanje

    besedila), potem pa je treba prevedeno besedilo ponovno pretvoriti v zvok. Sistemi

    strojnega simultanega prevajanja govora so torej sestavljeni iz treh osrednjih modulov:

    razpoznave, govorno orientiranega prevajanja, sinteze (Hoege, Miksić, 2002). To pa

    pomeni veliko dodatno oviro za uspešnost strojnega simultanega prevajanja govora, saj

    je povsem natančna razpoznava zelo teţavna, zaradi česar se lahko ţe na tej ravni

    vnesejo napake. Poleg tega so v besedilu z ločili podane nekatere informacije o skladnji

    in prozodiji, ki se pri razpoznavi govora izgubijo.

    Razlike med govorno orientiranim strojnim prevajanjem in strojnim prevajanjem

    besedila pa so pogojene tudi z razlikami med pisnim in govorjenim jezikom.

    Primerjalne raziskave obeh (Wiebe, 1996) so pokazale, da v govoru ljudje posredujejo

    več informacij implicitno, kar se kaţe v veliko večji pogostosti rabe zaimkov in

    nedokončanih stavkov. Prvo predstavlja problem v primerih, ko se v jezikih, med

    katerima prevajamo, zaimek ne ujema, npr. ang. "I saw a cat. It was crossing the

  • 38

    street.", slovenjeno. "Videl sem mačko. Prečkala je cesto." (to je problem tudi pri

    strojnem prevajanju besedila). Poleg tega najdemo v govoru: napačne začetke, pomote

    pri pregibanju besed (npr. vprašal sem vam namreč), ponavljanje, izpuste, obotavljanje,

    mašila (npr. eee, mhm) (Kay, Gawron, Norvig, 1994).

    Kay in sodelavci (1994) navajajo, da je takih elementov pri pazljivem govoru

    povprečno 15 %, lahko pa tudi več kot polovica. Simultani prevajalci ne prevajajo vseh

    teh elementov dobesedno, ampak samo, če je to smiselno, in enako pričakujemo od

    strojnega simultanega prevajalnika govora. Zaradi vsega tega je naloga strojnega

    simultanega prevajanja govora bistveno zahtevnejša in tudi bistveno drugačna od naloge

    strojnega prevajanja besedila. Jezikovni viri, namenjeni za razvoj govorno orientiranega

    strojnega prevajanja, morajo zato izhajati iz govorjenega jezika in ne iz zapisanega

    besedila.

  • 39

    6 GOVORNE TEHNOLOGIJE

    Govorna tehnologija je v svetu ţe dobro uveljavljena. Vključuje sisteme prepoznavanja

    govora, sinteze govora, govornega dialoga in strojnega simultanega prevajanja govora.

    Predvsem sinteza in prepoznavanje govora nezadrţno prodirata v naše ţivljenje. Ob

    narekovalnih sistemih, ki so najbolj vidni predstavnik uporabe te tehnologije, je uporaba

    govorne tehnologije danes praktično prisotna povsod (avtomobilska industrija, mobilne

    naprave, govorni portali, glasovno prebiranje elektronske pošte, vojaška industrija). Ker

    je bilo v preteklosti izvedenih največ raziskav za angleški jezik, je uporaba govorne

    tehnologije najbolj razširjena prav v drţavah tega govornega področja. V slovenskem

    prostoru še ni bilo pravega preboja na področju uporabe govorne tehnologije v

    komercialnih sistemih. Trenutno obstajata samo sistem M-vstopnica, ki omogoča

    rezervacijo kino vstopnice za nabor filmov tekočega dneva, ter Vida - virtualna davčna

    pomočnica.

    6.1 Računalniki in naravni jezik

    Naravni jezik pomeni najpomembnejšo obliko komuniciranja med ljudmi. Razumevanje

    naravnega jezika, ko je besedilo z vneseno v računalnik, zadeva dve področji:

    samo razumevanje naravnega jezika in

    prevajanje (iz enega v drug naravni jezik).

    Najstarejši in najpreprostejši sistem za prepoznavanje naravnega jezika je ujemanje

    besed. Bistvo je prepoznavanje specifičnih ključnih besed v vhodnem besedilu. Ključne

    besede se spreminjajo od besed do fraz in celih stavkov. Tak način ne izvede analize, s

    katero bi lahko ugotovili, kako določene besede ali fraze vplivajo druga na drugo in

    tako dajo besedilu spremenjen pomen.

    Sistem za prepoznavanje naravnega jezika na osnovi sintakse in semantike za

    prepoznavanje uporablja kombin