View
15
Download
0
Embed Size (px)
Citation preview
Đorđe Nedeljković, Faculty of Civil Engineering, teaching assistantDepartment of construction project management
Application of Text Mining and graph database on civil engineering projects
Predmet istraživanja- Pretraga, izdvajanje, analiziranje i vizuelizacija znanja iz
nestruktuiranih/polustruktuiranih dokumenata sa građevinskih projekata
- Osnovni zadatak (klasifikacija) – dobri rezultati sa BoW modelom
- Kompleksniji zadaci – loši rezultati, potreban novi feature vector
Sadržaj- Građevinski projekti / tehnički dokumenti- Postojeća rešenja- Predloženi model
- Pretpostavke- Mere asocijacije- Reprezentacija detektovanih ključnih fraza- Povezivanje značajnih fraza na osnovu semantičke bliskosti- Pravila za izdvajanje koncepata i relacija
- Primeri- Zaključak
Investicioni projekat (građevinski, arhitektonski)- Za razliku od projekata u opštem smislu, izgradnja,
rekonstrukcija, modifikacija i opremanje investicionih objekata su uvek u direktnoj vezi sa građevinarstvom kao privrednom granom
- Kompleksan tehničko-tehnološki, organizacioni, finansijski i pravni poduhvat, koji se sastoji od skupa koordinisanih i kontrolisanih aktivnosti sa jasno definisanim početkom i krajem, čiji je cilj izgradnja, rekonstrukcija, modifikacija i/ili opremanje objekta ili objekata koji su potrebni vlasniku (investitoru)
Investicioni projekat - specifičnosti- Složen- Unikatan- Na više lokacija- Dugotrajan- Veliki broj učesnika- Razuđenost procesa- Važnost klimatskih uslova- Imovinsko-pravni problemi
Dokumenti na građevinskom projektu- Pored tehničkih crteža i proračuna, značajan korpus
tekstualnih dokumenata, (posebno u fazi realizacije projekta):
Zapisnici sa sastanaka, varijacije, klejmovi, fakture, izveštaji, dopisi...- Veliki broj učesnika sa različitim poslovnim procesima i
stepenom ICT zrelostiMane PrednostiStatički, neinformativni sadržaj (zaglavlja, formulari, itd.)
Konzistentna struktura
Domenski žargon, skraćeniceManje višeznačnih jezičkih konstrukcija (polisemija, metonimija, itd.)
Dužina, više temaSadržaj na različitim jezicima (često na nivou rečenice)
Trendovi na domaćem tržištu- Alati koji se najčešće koriste za obradu podataka:
Programi za rad sa tabelama
- Prepreke za prelazak na napredniji alat za obradu podataka:
Nekompatibilnost sa postojećim poslovnim procesimaPodaci su u neodgovarajućem formatu za pretragu i
analizu
- Prepreke za optimalno korišćenje nestruktuiranih podataka u procesu donošenja odluka:
Značajni podaci se nalaze na različitim mestima
Postojeća rešenja za pretragu, izdvajanje, analiziranje i vizuelizaciju- Ručno obeležavanje, rad sa prethodno definisanim
formama- Information exctraction, Ontology based, Semantic
annotation
- Document management system- Enterprise search- BI applications- Sales enablement software- Content management system- Enterprise resource planning
Predloženi model - hipoteze
- Robusnost na nedostatak NLP resursa, podrška za više jezikaIzdvajanje ključnih fraza zasnovano na merama
asocijacije reči
- Transferabilnost na različite domene sa minimalnim trudom eksperta za konfiguraciju sistema prethodnim znanjemMogućnost definisanja prethodnog znanja kroz resurs
fajlove i zadata pravila
Inicijalno izdvajanje značajnih fraza- Značajne fraze (ZF) kao par susednih reči- Informativnije od pojedinačnih reči- Mere za određivanje verovatnoće zajedničkog
pojavljivanja reči x i y u paru (x,y)- Isti par može biti drugačije rangiran za različite mere- Pojedinačno, mere preferiraju parove reči sa određenim
kombinacijama frekvencija
- Kombinovanje najbolje rangiranih parova za različite mere
Mere asocijacije rečiPMI (Church and Hanks 1989)PMIsig (Washtell and Markert 2009)sPMId (Damani and Ghonge 2013)Dice (Dice 1945)G2 (Dunning 1993)
Natural language processing (NLP) resursi- Detektor jezika- Nivo rečenice, zasnovan na frekvenciji najčešćih bigrama
- Lemmatizer- Svođenje reči na kanonski oblik, kompaktniji rečnik
- Part-of-speach tagger- Klasifikacija reči, dozvoljene kombinacije
Redukcija neinformativnog sadržaja- Uvećan skor za parove reči u neinformativnim delovima teksta- Česti parovi reči u istom kontekstu – šum- Parovi reči u različitim kontekstima – informativne ZF- Informativnost para reči – entropija skupa string reprezentacije svih
pojavljivanja- Korigovanje skora dobijenog merama asocijacije
Uspostavljanje relacija- Domenski nezavisan pristup – relacije između ZF na osnovu
kontekstualne sličnosti- Mera - Jaccard indeks za skupove paragrafa/rečenica- Relacije with, always_under, always_with
- Grupisanje ZF od dve reči povezanih always_with relacijom (Bron-Kerbosch algoritam)
Pki
Pk jwith
Pki
Pk j
always
_under
Pki Pk jalways_with
Graf značajnih fraza/dokumenata
- Značajne_fraze i dokumenti kao čvorovi grafa
- Automatski generisan- Parametari ekstrakcije
definišu strukturu
Definisanje dodatnih koncepata i relacija- Automatska detekcija obrazaca u tekstu
Regularni izrazi - datum, novac- Struktura dokumenata:
Zapisnici sa sastanaka - osoba, kompanijaPredmet i predračun - pozicija_radaWork breakdown structure, gantogram – aktivnost, faza
- ZF koje ispunjavaju zadati uslov konstruktivni_elementi, materijali- Relacije:
osoba radi_za kompanija sastanak održan datum osoba akcija ZF
Primeri upita
- Značajne_fraze (materijali) koje su u vezi sa konkretnom osobom i dokumenti u kojima se pojavljuju
Primeri upita
- Dokumenti (sastanci) i datumi održavanja
- U dokumentima sadržan datum budućeg sastanka
Zapisnici sa sastanaka (minutes of meeting)- Važan dokument - dinamika realizacije projekta- Opšte prihvaćena/sistematizovana struktura
učesnik (inicijali), kompanija, uloga, agenda, diskusija, odgovornost, rok
- Obrasci diskusijeOsoba akcija ... ZF ... ZF...Osoba Kompanija akcija ... ZF ... ZF... veznik ...Osoba akcija Osoba ... ZF ... ZF ... akcija ...Uloga akcija ... ZF ... ZF ...
Zapisnici – primeri upita
Meeeting held
added
agreed asked
discussed
noticed
promised
reminded
replied
required said
suggested
06-11-13 1 1 2 1 5 14-11-13 2 3 1 6 229-11-13 2 2 4 6 2 205-12-13 1 12 12-12-13 2 2 1 18-12-13 4 1 1 1 15-01-14 2 1 4 22-01-14 3 5 4 1 2 4 2 2 7 1129-01-14 2 2 2 9 05-02-14 1 2 4 5 1 2 1 17 26-03-14 10 3 3 8 2 11 08-04-14 1 4 2 3 12 27-05-14 6 09-06-14 2 2 6 1 11
total 24 18 12 8 10 16 20 16 8 103 15
- Sumarni rezultat za obrazac osoba akcija ... ZF ... ZF... za konkretnu osobu
Zaključak (SW)
• Nezavisnost u odnosu na jezik• Izdvajanje ključnih fraza na bazi
entropije• Analiza i vizuelizacija moguća bez
prethodno definisane reprezentacije domenskog znanja
• Nema potrebe za menjanjem postojećih poslovnih procesa
• Integracija fragmentisanih podataka na nivou dokumenta
• Lošija performansa bez NLP komponenti• Novi pristup u domenu upravljanja
građevinskim projektima• Razdvojeni rečnici značajnih fraza za
različite jezike
Zaključak (OT)• Veliki udeo nestruktuiranih tekstualnih
podataka u projektnoj dokumentaciji• Postprojektna analiza• Upotreba ML tehnika za poboljšanje
performansi i nove funkcionalnosti (klasifikacija, klastering, detekcija događaja,...)
• Network analysis (SNA, Link analysis, Centrality measures)
• Teškoća da se proceni uticaj na proces donošenja odluka
• Prava pristupa nad informacijama iz više dokumenata
• Definisanje pravila za izdvajanje novog znanja