26
Đorđe Nedeljković, Faculty of Civil Engineering, teaching assistant Department of construction project management Application of Text Mining and graph database on civil engineering projects

Application of text mining and graph database on civil engineering projects - Djordje Nedeljkovic

Embed Size (px)

Citation preview

Đorđe Nedeljković, Faculty of Civil Engineering, teaching assistantDepartment of construction project management

Application of Text Mining and graph database on civil engineering projects

Predmet istraživanja- Pretraga, izdvajanje, analiziranje i vizuelizacija znanja iz

nestruktuiranih/polustruktuiranih dokumenata sa građevinskih projekata

- Osnovni zadatak (klasifikacija) – dobri rezultati sa BoW modelom

- Kompleksniji zadaci – loši rezultati, potreban novi feature vector

Sadržaj- Građevinski projekti / tehnički dokumenti- Postojeća rešenja- Predloženi model

- Pretpostavke- Mere asocijacije- Reprezentacija detektovanih ključnih fraza- Povezivanje značajnih fraza na osnovu semantičke bliskosti- Pravila za izdvajanje koncepata i relacija

- Primeri- Zaključak

Investicioni projekat (građevinski, arhitektonski)- Za razliku od projekata u opštem smislu, izgradnja,

rekonstrukcija, modifikacija i opremanje investicionih objekata su uvek u direktnoj vezi sa građevinarstvom kao privrednom granom

- Kompleksan tehničko-tehnološki, organizacioni, finansijski i pravni poduhvat, koji se sastoji od skupa koordinisanih i kontrolisanih aktivnosti sa jasno definisanim početkom i krajem, čiji je cilj izgradnja, rekonstrukcija, modifikacija i/ili opremanje objekta ili objekata koji su potrebni vlasniku (investitoru)

Investicioni projekat - specifičnosti- Složen- Unikatan- Na više lokacija- Dugotrajan- Veliki broj učesnika- Razuđenost procesa- Važnost klimatskih uslova- Imovinsko-pravni problemi

Dokumenti na građevinskom projektu- Pored tehničkih crteža i proračuna, značajan korpus

tekstualnih dokumenata, (posebno u fazi realizacije projekta):

Zapisnici sa sastanaka, varijacije, klejmovi, fakture, izveštaji, dopisi...- Veliki broj učesnika sa različitim poslovnim procesima i

stepenom ICT zrelostiMane PrednostiStatički, neinformativni sadržaj (zaglavlja, formulari, itd.)

Konzistentna struktura

Domenski žargon, skraćeniceManje višeznačnih jezičkih konstrukcija (polisemija, metonimija, itd.)

Dužina, više temaSadržaj na različitim jezicima (često na nivou rečenice)

Trendovi na domaćem tržištu- Alati koji se najčešće koriste za obradu podataka:

Programi za rad sa tabelama

- Prepreke za prelazak na napredniji alat za obradu podataka:

Nekompatibilnost sa postojećim poslovnim procesimaPodaci su u neodgovarajućem formatu za pretragu i

analizu

- Prepreke za optimalno korišćenje nestruktuiranih podataka u procesu donošenja odluka:

Značajni podaci se nalaze na različitim mestima

Postojeća rešenja za pretragu, izdvajanje, analiziranje i vizuelizaciju- Ručno obeležavanje, rad sa prethodno definisanim

formama- Information exctraction, Ontology based, Semantic

annotation

- Document management system- Enterprise search- BI applications- Sales enablement software- Content management system- Enterprise resource planning

Predloženi model - hipoteze

- Robusnost na nedostatak NLP resursa, podrška za više jezikaIzdvajanje ključnih fraza zasnovano na merama

asocijacije reči

- Transferabilnost na različite domene sa minimalnim trudom eksperta za konfiguraciju sistema prethodnim znanjemMogućnost definisanja prethodnog znanja kroz resurs

fajlove i zadata pravila

Inicijalno izdvajanje značajnih fraza- Značajne fraze (ZF) kao par susednih reči- Informativnije od pojedinačnih reči- Mere za određivanje verovatnoće zajedničkog

pojavljivanja reči x i y u paru (x,y)- Isti par može biti drugačije rangiran za različite mere- Pojedinačno, mere preferiraju parove reči sa određenim

kombinacijama frekvencija

- Kombinovanje najbolje rangiranih parova za različite mere

Mere asocijacije rečiPMI (Church and Hanks 1989)PMIsig (Washtell and Markert 2009)sPMId (Damani and Ghonge 2013)Dice (Dice 1945)G2 (Dunning 1993)

Natural language processing (NLP) resursi- Detektor jezika- Nivo rečenice, zasnovan na frekvenciji najčešćih bigrama

- Lemmatizer- Svođenje reči na kanonski oblik, kompaktniji rečnik

- Part-of-speach tagger- Klasifikacija reči, dozvoljene kombinacije

Redukcija neinformativnog sadržaja- Uvećan skor za parove reči u neinformativnim delovima teksta- Česti parovi reči u istom kontekstu – šum- Parovi reči u različitim kontekstima – informativne ZF- Informativnost para reči – entropija skupa string reprezentacije svih

pojavljivanja- Korigovanje skora dobijenog merama asocijacije

Uspostavljanje relacija- Domenski nezavisan pristup – relacije između ZF na osnovu

kontekstualne sličnosti- Mera - Jaccard indeks za skupove paragrafa/rečenica- Relacije with, always_under, always_with

- Grupisanje ZF od dve reči povezanih always_with relacijom (Bron-Kerbosch algoritam)

Pki

Pk jwith

Pki

Pk j

always

_under

Pki Pk jalways_with

Graf značajnih fraza/dokumenata

- Značajne_fraze i dokumenti kao čvorovi grafa

- Automatski generisan- Parametari ekstrakcije

definišu strukturu

Definisanje dodatnih koncepata i relacija- Automatska detekcija obrazaca u tekstu

Regularni izrazi - datum, novac- Struktura dokumenata:

Zapisnici sa sastanaka - osoba, kompanijaPredmet i predračun - pozicija_radaWork breakdown structure, gantogram – aktivnost, faza

- ZF koje ispunjavaju zadati uslov konstruktivni_elementi, materijali- Relacije:

osoba radi_za kompanija sastanak održan datum osoba akcija ZF

Primeri upita

- Interakcija osoba na projektu (pojavljivanje u istom kontekstu)

Primeri upita

- Osobe koje su se najčešće pojavljivale zajedno, sa kompanijama za koje rade

Primeri upita

- Značajne_fraze (materijali) koje su u vezi sa konkretnom osobom i dokumenti u kojima se pojavljuju

Primeri upita

- Dokumenti (sastanci) i datumi održavanja

- U dokumentima sadržan datum budućeg sastanka

Zapisnici sa sastanaka (minutes of meeting)- Važan dokument - dinamika realizacije projekta- Opšte prihvaćena/sistematizovana struktura

učesnik (inicijali), kompanija, uloga, agenda, diskusija, odgovornost, rok

- Obrasci diskusijeOsoba akcija ... ZF ... ZF...Osoba Kompanija akcija ... ZF ... ZF... veznik ...Osoba akcija Osoba ... ZF ... ZF ... akcija ...Uloga akcija ... ZF ... ZF ...

Zapisnici – primeri upita

- Osoba promised ... ZF ... ZF... , sa dokumentima

Zapisnici – primeri upita

Meeeting held

added

agreed asked

discussed

noticed

promised

reminded

replied

required said

suggested

06-11-13 1 1   2   1       5  14-11-13 2           3 1   6 229-11-13 2 2       4 6     2 205-12-13 1                 12  12-12-13   2           2   1  18-12-13     4   1 1     1    15-01-14   2   1           4  22-01-14 3 5 4 1   2 4 2 2 7 1129-01-14 2       2       2 9  05-02-14     1 2 4 5 1 2 1 17  26-03-14 10   3     3   8 2 11  08-04-14 1 4   2 3         12  27-05-14                   6  09-06-14 2 2         6 1   11  

total 24 18 12 8 10 16 20 16 8 103 15

- Sumarni rezultat za obrazac osoba akcija ... ZF ... ZF... za konkretnu osobu

Zaključak (SW)

• Nezavisnost u odnosu na jezik• Izdvajanje ključnih fraza na bazi

entropije• Analiza i vizuelizacija moguća bez

prethodno definisane reprezentacije domenskog znanja

• Nema potrebe za menjanjem postojećih poslovnih procesa

• Integracija fragmentisanih podataka na nivou dokumenta

• Lošija performansa bez NLP komponenti• Novi pristup u domenu upravljanja

građevinskim projektima• Razdvojeni rečnici značajnih fraza za

različite jezike

Zaključak (OT)• Veliki udeo nestruktuiranih tekstualnih

podataka u projektnoj dokumentaciji• Postprojektna analiza• Upotreba ML tehnika za poboljšanje

performansi i nove funkcionalnosti (klasifikacija, klastering, detekcija događaja,...)

• Network analysis (SNA, Link analysis, Centrality measures)

• Teškoća da se proceni uticaj na proces donošenja odluka

• Prava pristupa nad informacijama iz više dokumenata

• Definisanje pravila za izdvajanje novog znanja

Hvala na pažnji