Nouns In WordNet

  • Upload
    lilajoy

  • View
    234

  • Download
    1

Embed Size (px)

Citation preview

  • 7/23/2019 Nouns In WordNet

    1/21

    Nouns in WordNet

    nach G.A.Miller

    Radost Peneva

  • 7/23/2019 Nouns In WordNet

    2/21

    Informationswissenschaft WS 07/08

    Informationslinguistik

    Einfhrung

    WortNet eine elektronische leksikalische Datenbank derenglischen Sprache

    Ursprngliche Idee natrlichsprachliche Texteverstndlich fr Computer zu machen

    Deutschsprachige Analogie GermaNet

  • 7/23/2019 Nouns In WordNet

    3/21

    Informationswissenschaft WS 07/08

    Informationslinguistik

    WordNet (1.5)

    WordNet beinhaltet ca. 80 000 Formen von Nomen in ca. 60 000lexikalischen Konzepten mit kurzenUmschreibungen, manchmalBeispielstzen und jede Menge semantische Relationen

    WordNet enthlt nicht : Aussprache

    Beugung

    Etymologie

    Verwendungsweise

    Bilder

    WordNet ist auch ein Thesaurus

    Grundlegende Relation Synonymie

  • 7/23/2019 Nouns In WordNet

    4/21

    Informationswissenschaft WS 07/08

    Informationslinguistik

    WordNet (1.5)

    Ein Hyperonym wird durch Hyponyme beschrieben (wie imLexikon)

    WordNet-Synonyme knnen nur in manchen Kontexten

    ausgetauscht werden. Die Wrter sind als sogenannte synsets vorhanden, die

    durch pointer untereinander verknpft sind. Synsetsets of synonyms- Simuliert eine in Sprache ausdrckbare

    Idee ;ist gegeben durch die Menge der dafr vorhandenen synonymen

    Wrter ; ist das zentrale Organisationselement von WordNet Beispiel : {shot, injection} verknpft mit {shot, pellet}

  • 7/23/2019 Nouns In WordNet

    5/21

    Informationswissenschaft WS 07/08

    Informationslinguistik

    Der lexikalische Aufbau des WordNet

    Die Substantive sind in einer hauptschlich auf ber- undUnterordnung basierenden Hierarchie geordnet ->Baumstruktur

    Durch die Baumstruktur Wissensreprsentation mglich(inheritance system)

    Reprsentation einer Wortform: einfach durch sich selbst

    einer Wortbedeutung: durch die Menge der SynonymenWortformen, die sie bezeichnen - das Synset

  • 7/23/2019 Nouns In WordNet

    6/21

    Informationswissenschaft WS 07/08

    Informationslinguistik

    Substantive

    Aufbau in einer Baum-Struktur These: Jedes Substantiv hat ein ihm bergeordnetes und

    mindestens ein ihm untergeordnetes Substantiv

    Beispiel:

    {Rotkehlchen} @-> {Vogel}

    @-> bedeutet IS-A oder IS-A-KIND-OF

    Das bergeordnete Substantiv nennt man Hypernym, das

    untergeordnete Hyponym

    Hyponym @-> Hypernym

    Hypernym ~-> Hyponym Die Lexikographen setzen bei ihrer Arbeit nur das @->Meistens hat ein

    Substantiv nur ein Hypernym, aber viele Hyponyme

  • 7/23/2019 Nouns In WordNet

    7/21Informationswissenschaft WS 07/08

    Informationslinguistik

    Probleme bei der lexikalischen Hierarchie

    Synonym-/Hyperonymunterscheidung nicht immermglich.

    Beispel: Board,Surfboard. Board als Synonym oder Hyperonym

    Anaphern Hyperonyme werden oft benutzt, umHyponyme zu beschreiben.Im Satzzusammenhang wird dasHyperonym zu einer Art Synonym.

    Beispiel: I thought it was a robin but the bird flew away before I couldget close enough to be sure

  • 7/23/2019 Nouns In WordNet

    8/21Informationswissenschaft WS 07/08

    Informationslinguistik

    Unique Beginners

    Die Baum-Struktur, bedarf noch einer gewissen Ordnung. So muss einklarer und eindeutiger Anfang (bzw. Ende) geschaffen werden: diesogenannten unique beginners

    Anfangs gab es 25 unique beginners, spter einigte man sich auf 11.

    Fr die unique beginners gibt es keine Hyperonyme

    Probleme bei der Einordnung: Manches kann WordNet nicht wissen, soz.B. dass ein Pinguin zwar ein Vogel ist, aber nicht fliegen kann. Oderdass ein Walfisch kein Fisch, sondern ein Sugetier ist.

  • 7/23/2019 Nouns In WordNet

    9/21Informationswissenschaft WS 07/08

    Informationslinguistik

    Table of 25 unique beginners for WordNet nouns

  • 7/23/2019 Nouns In WordNet

    10/21Informationswissenschaft WS 07/08

    Informationslinguistik

    Psycholinguistisches

    Eine typische DefinitionBaum:

    eine groe, holzige, mehrjhrige Pflanze

    mit ausgeprgtem Stamm

    Ein Rotkehlchen : Eigenschaften: rote Brust,warmbltig, Wirbeltier

    Teile: hat Schnabel, Federn,Flgel Funktionen: kann singen, fliegen, Eier legen

    Eigenheiten

  • 7/23/2019 Nouns In WordNet

    11/21Informationswissenschaft WS 07/08

    Informationslinguistik

    Psycholinguistisches

    Eigenheiten (features) sollen notwendige und hinreichende Kriterien sein

    funktionieren gut bei der Organisation des Wrterbuchs

    Aber spielen sie in tatschlichen Denkprozessen eine hnlicheRolle?

    Kognitiv: Fr Assoziation von Wrtern mit Attributen(Adjektiven), Teilen (Nomen), Funktionen (Verben) gibt eskeine direkte Beschreibung durch Hyperonyme

  • 7/23/2019 Nouns In WordNet

    12/21Informationswissenschaft WS 07/08

    Informationslinguistik

    Psycholinguistisches

    Auf Gedankenebene liegen einige Wrter oft nherbeieinander als andere.

    Kognitiv wird etwas als mehr oder weniger eingeordnet

    Beispiel: Vogel: Der Spatz ist mehr Vogel als das Huhn

    Unterschied zu WordNet => Tennis-Problem:Suppose you wanted to learn the specialized vocabulary of tennis and asked where

    in WordNet you could find it.The answer would be everywhere and nowhere.Tennisplayers are in thenoun.person file, tennis equipment is in noun.artifact, thetennis court is in noun.location, the various strokes are in thenoun.act, and so on

  • 7/23/2019 Nouns In WordNet

    13/21Informationswissenschaft WS 07/08

    Informationslinguistik

    Nicht in WordNet enthalten

    is not a kind of RelationzB: a whale is not a fish

    @ steht eigentlich fr mehr als eine Bedeutung

    zB: is a kind of- und is used as a kind of-

    Pustejovsky unterscheidet die Hyponyme in diesenRelationen in formal und telic

    formal: A trush is a birdtelic: An adornment is a decoration manchmal kann auch beides der Fall sein

  • 7/23/2019 Nouns In WordNet

    14/21Informationswissenschaft WS 07/08

    Informationslinguistik

    Nicht in WordNet enthalten

    Drei Arten damit umzugehen: @ reprsentiert die formal und telic Relation zur selben Zeit

    zB: {poker}@ {fire_iron} der Pointer zeigt auf mehr als ein Hyperonym

    zB: {written_agreement}@

    {legal_document}formal RelationzB: {written_agreement}@ {agreement}

    telic Relation Das Hyperonym kann in 2 verschiedene Synsets aufgeteilt werden

    zB: {chicken}@

    {bird} formal{chicken}@ {food} telicKann als: chicken is a bird that is used for food zusammen gefasst

    werden

  • 7/23/2019 Nouns In WordNet

    15/21Informationswissenschaft WS 07/08

    Informationslinguistik

    Nicht in WordNet enthalten

    Keine Unterscheidung zwischen proper und common nouns oderzwischen mass und count Nomen

    keine Identifizierung von basic- level Kategorien oder genericconcepts Rosch:

    - ber dem basic-level werden die Beschreibungen kurz und allgemeinausgegeben

    - auf der Stufe des basic-levels: sehr detailliert- ber dem basic-level: es werden noch weitere Funktionen hinzugefgt

    Es gibt nicht gengend semantische Relationen und keine

    Definitionen.Relationen sollten ausreichen um Synsets zuunterscheiden Erklrende Phrasen zu den Synsets

  • 7/23/2019 Nouns In WordNet

    16/21Informationswissenschaft WS 07/08

    Informationslinguistik

    Teile und Meronymie

    Meronymie - befasst sich mit Relationen zwischen Objekt und denBestandteilen (Teil-Ganzes Beziehung):

    - Sm ist Meronym von Sh is a part of

    - Sh ist Holonym von Sm has a

    ist als einziges der besagten Eigenheiten in WordNet eingebaut vererbt sich auf Hyponyme

    zu formal und telic, zustzlich: constitutive

    Meronyme helfen bei konkreten Objekten ein basic-level zu bestimmen

    Problem: Die richtige Relation von Meronymen und Hyponymen zu

    finden, wenn ein Nomen beides istis part of zeichnet nicht immerein Meronym aus, kann ersetzt werden durch: is attached to

  • 7/23/2019 Nouns In WordNet

    17/21Informationswissenschaft WS 07/08

    Informationslinguistik

    Teile und Meronymy

    Winston, Chaffin, Hermann differenzieren 7 Arten vonMeronymen: 1. component object (branch/tree) 2. member collection (tree/forest) 3. portion mass (slice/cake)

    4. stuff object (aluminium/airplane) 5. feature activity (paying/shopping) 6. place area (Princeton/New Jersey) 7. phase process (adolescence/growing up)

    In WordNet nur 3 Arten: Wm pWh (component) WmmWh (member) Wm sWh (stuff)

  • 7/23/2019 Nouns In WordNet

    18/21Informationswissenschaft WS 07/08

    Informationslinguistik

    Antonymie

    Antonymie ist eine lexikalischeBeziehung zwischen Wortformen

    vererbt sich nicht

    bei Substantiven nicht besonders interessant

    wird nur der Vollstndigkeit halber in WordNet behandelt

    In WordNet : [{man}!{woman}] Beinhaltet aber nicht alle Frauen und Mnner

    Antonyme Nomen haben fast immer dasselbe Hyperonym

  • 7/23/2019 Nouns In WordNet

    19/21

    Informationswissenschaft WS 07/08

    Informationslinguistik

    Attribute und Modifikation

    In WordNet: Verbindung zwischen Attributen und denAdjektiven, die sie ausdrcken

    Die Modifikation von Adjektiven spielt in WordNet eine

    Rolle bei der Anordnung von Wortverbindungen, dieBegriffe unterscheiden, die spezifischer als das basic-levelsind

    Versuch, die Anordnung modifier and noun in WordNetaufzunehmen

  • 7/23/2019 Nouns In WordNet

    20/21

    Informationswissenschaft WS 07/08

    Informationslinguistik

    hnliche Bedeutungen von vieldeutigen Nomen

    In Lexikas oft als eine Art Baum dargestellt Vorteil: Grad der Feinheit bei Unterscheidung von Stzen kann kontrolliert

    werden

    In WordNet 1.5 werden die Bedeutungen zu ihrer relativen Hufigkeit

    angeordnet

    In WordNet ca: 15000 vieldeutige Nomen

    Philip N. Johnson Laird: Wenn 2 Bedeutungen eines Wortes hnlich sind, sollten ihre Unterbegriffe

    ebenfalls hnlich sein! zB: Fisch ist Tier und Nahrung, ebenso wie Barsch

    Diese 2 Bedeutungen werden cousins genannt

  • 7/23/2019 Nouns In WordNet

    21/21

    Informationswissenschaft WS 07/08

    Informationslinguistik

    hnliche Bedeutungen von vieldeutigen Nomen

    Claudia Leacock: nahm cousins in Wordnet auf Regeln: 1. sisters: sind Wortformen (einfache oder Verbindungen), die

    unmittelbare Unterbegriffe desselben Knotens haben

    2. Twins: wenn 2 Synsets die gleiche Wortform haben, ist der Sinn

    hnlich haben 3 oder mehr Wrter gemeinsam

    In WordNet 1.5 mehr als 100 cousin relations