23
Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

Embed Size (px)

Citation preview

Page 1: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

Diplomarbeitsvortrag

Ontologien, Information Extraction und Information Retrieval – eine Synthese

Marcus Heidmann

in Zusammenarbeit mit

AIFB &

Page 2: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

Inhaltsübersicht

1. Problemstellung – Informationsextraktion

2. Einordnung der Arbeit in die Semantic Value Chain

3. Informationsextraktion

4. SMES Beispielanalyse

5. Prozess der Datenextraktion

6. Architekturüberblick SmesMiner

7. Demonstration des SmesMiner

8. Evaluation von SMES

9. Analyse der Firmennamenerkennung

10. Vergleich der Erkennungsleistung von Firmennamen

11. Zusammenfassung & Ausblick

Page 3: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

Problemstellung - Informationsrecherche

Vision des Semantic Web:

Maschinelle Agenten "verstehen" Informationen und unterstützen den Benutzer bei der Recherche

Tim Berners-Lee

Informationsrecherche

zu vieleDokumente

falscheStichwörter

Dokumente stattAntworten

Eigennamen?Personen, Orte, Unternehmen

Manuelle Extraktionvon Informationen

Informationsverknüpfungverschiedener Quellen

Page 4: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

Semantic Value Chain

Generierung neuen Wissens durch Kombination der Information und Ableitung

der Zusammenhänge

Extraktion von Wissen und Verknüpfung von Inhalten mit den Wissensmodellen

Anwendungen zum Aufsuchen und Finden von Wissen

Werkzeugunterstützte Modellierung von Wissensbereichen und Domänen

Knowledge Generation

Knowledge Collecting

Knowledge Retrieval

Knowledge Modelling

Faktengenerierung durchlinguistische Analyseund Konzeptmapping

SMES &Ontobroker

Browserbasierte interaktive Abfragekomponente

SmesMiner

Page 5: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

Informationsextraktion

Tokenscanner Wortsegmentierung

SyntaktischeAnalyse

Parsingan die Börse (Präpositional-Phrase)

die Börse (Nominal-Phrase)

Verbgruppen

LexikalischeAnalyse

Part-of-Speech

Flexionsform

Kompositerkennung

Eigennamenerkennung

Nomen (z.B. Aufgabe), Verb, Pronomen etc.

Aufgaben (Genus:weiblich, Numerus:Plural)

z.B. An- und Verkauf

Firmen, Personen, Orte

Token Klasse: Aufgabe (first_capital_word)

DomänenAnalyse

Templatevereinigung

Mustererkennung Der Umsatz beträgt 1,5 Mio €

Anker Zahl & WährungVerb

Page 6: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

SMES Beispielanalyse

SMES

SMES-Beispielausgaben von Marcus Heidmann.

<?xml version="1.0" standalone="yes"?><SPPC_XML> <PARAGRAPH> <S> <NP TYPE="1"> <W TC="31" POS="1" COMP="smes - beispiel ausgaben“ STEM="ausgabe" INFL="[6 7 8 9]">SMES-Beispielausgaben</W></NP> <W TC="21" POS="23" STEM="von" INFL="[24]">von</W> <NE ID="1" TYPE="5" SUBTYPE="5"> <W TC="22">Marcus</W> <W TC="22">Heidmann</W></NE> </S> </PARAGRAPH></SPPC_XML>

Person ohne Titel

Nomen

Page 7: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

Prozess der Datenextraktion

DomänenLexikon

Fakten

Ontobroker

Ontologie

www.boersenmagazin.de

HTMLentfernen

ASCII-Dateien

ASCII-Dateien

AnalyseXML-Dateien

AnalyseXML-Dateien

SMES

Konzept und Nomen Extraktion (XQL)Klassifizierung mit Domain Lexikon

Page 8: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

Architekturübersicht SmesMiner

FaktenBasis

Ontobroker

OntologieSynonym

Wörterbuch

InternetInternet

DokumenteDokumente

Index Server

Servlet

SmesMiner

Page 9: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

SmesMiner

DEMO

Page 10: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

Evaluation von SMES

Analysebereich

Anzahl Ausprägungen

Precision Recallkorrekt falsch fehlt

Firmennamen 745 53 196 93% 80%

Personennamen 180 16 22 92% 90%

Ortsbezeichnungen 497 10 81 98% 86%

Gesamt 1422 79 299 95% 83%

Nomen 1456 78 217 95% 88%

Analyse von 100 Testdokumenten durch manuellen Abgleich► "wahre" Precision wahrscheinlich etwas niedriger

Sehr gute Leistung bei der Eigennamenerkennung und der Identifikation von Nomen

Probleme mit englischen Begriffen ► Lexikon aktualisieren

Page 11: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

Analyse der Firmennamenerkennung

Analysebereich

Anzahl Ausprägungen

Precision Recallkorrekt falsch fehlt

DAX 13 2 15 86% 50%

Dow Jones 8 1 21 88% 30%

Nemax 50 8 15 27 35% 46%

Nemax 50 (Variation) 80 28 2 74% 98%

Euro-Stoxx-50 15 8 27 65% 46%

Falsche Erkennung von zusammengesetzten Firmennamen, wenn ein Teil des Namens ein deutsches Wort ist (z.B. Münchener Rück, MAN)

geringe Abdeckung des internen Firmennamenlexikons

hohe Erkennungsleistung bei Gesellschaftsbezeichnungen durch Referenzauflösung

Page 12: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

Vergleich Firmennamen- Erkennungsleistung

SMES

FACILE

IsoQuest-1

Kent Ridge Digital Labs

Language Tech. Group

MITRE Corporation

Univ. of Durham

Univ. of Manitoba-1

Univ. of Manitoba-2

Annotator-1Annotator-2

BBN

New York Univ.

Univ. of Sheffield

IsoQuest-2

60%

70%

80%

90%

100%

60% 70% 80% 90% 100%Recall

Pre

cisi

on

Systeme von MUC-7 (Englisch)

Page 13: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

Zusammenfassung & Ausblick

1. Konzepterkennung auf Dokumentenebene

Unternehmen1

Unternehmen2

Kennzahl

1,25 Mio €

Person

2. Kontexterkennung

3. Zuordnung von Ausprägungen

4. Relationen zur Bildung von Ableitungen

5. Multilinguale Analyse

Page 14: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

VIELEN DANK FÜR IHRE AUFMERKSAMKEIT

Marcus Heidmann

Page 15: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

Backup Folien

Page 16: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

FACILE

Kent Ridge Digital Labs

MITRE Corporation

OKI

Univ. of Manitoba-2

SMES

Annotator-1

Annotator-2

BBN

IsoQuest-1Language Tech. Group

New York Univ.

Univ. of Manitoba-1

Univ. of Sheff ield

IsoQuest-2

80%

85%

90%

95%

100%

80% 85% 90% 95% 100%Recall

Pre

cisi

on

Evaluation der Personennamen

Personennamen

Page 17: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

FACILE

OKI

Univ. of Manitoba-2

SMES

Annotator-1

Annotator-2

BBN

IsoQuest-1

Kent Ridge Digital Labs

Language Tech. Group

MITRE Corporation

New York Univ.

Univ. of Manitoba-1

Univ. of Sheff ield

IsoQuest-2

80%

85%

90%

95%

100%

75% 80% 85% 90% 95% 100%Recall

Pre

cisi

on

Evaluation der Ortsbezeichnungen

Ortsbezeichnungen

Page 18: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

Eigennamenerkennung

Weighted Finite State Automaton

Page 19: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

SmesMiner – Anfrageerstellung

Page 20: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

SmesMiner - Dokumentenansicht

Page 21: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

SmesMiner – Ontobroker Ansicht

Page 22: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

SmesMiner – Einschränkung der Ergebnisse

Page 23: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &

November 2001, Marcus Heidmann AIFB &

SmesMiner – Index Server Ansicht