20
Maschinelle Übersetzung Sprachtechnologien, Informations- und Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com

Maschinelle Übersetzung - Zentraler Informatikdienst ...homepage.univie.ac.at/bartholomaeus.wloka/files/ST/st03.pdf · Welche Wortart? Das englische Wort book: Auf deutsch das Buch

  • Upload
    trantu

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Maschinelle Übersetzung Sprachtechnologien, Informations- und Wissensmanagement VO 340088

Bartholomäus Wloka

https://www.adaptemy.com

• MÜS – Maschinelles Übersetzungssystem

• MÜ – Maschinelle Übersetzung

• MT – Machine Translation

• SMT – Statistical Machine Translation

• FAT – Fully Automatic Translation

• FAHQMT – Fully Automatic High Quality Machine Translation

• CAT – Computer Aided Translation

• HAMT – Human Assisted Machine Translation

• MAHT – Machine Assisted Human Translation

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 2

Abkürzungen

„MÜ wird niemals in der Lage sein Poesie zu übersetzen und ist deswegen Zeitverschwendung.“

Ist die Entwicklung von Industrierobotern Zeitverschwendung, nur weil sie nie Schwanensee tanzen können?

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 3

Mythen und Kritik an der MT

„Die Übersetzungen der MÜS sind oft katastrophal.“

Die Qualität der Systeme hängt stark von den Ressourcen und der Anwendung ab.

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 4

Mythen und Kritik an der MT

„Durch die niedrige Qualität der MÜS sind diese Systeme nutzlos.“

Eine qualitativ schlechte Übersetzung kann nichtsdestotrotz eine Hilfe für den Übersetzer/Dolmetscher sein.

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 5

Mythen und Kritik an der MT

„MÜ bedroht die Arbeitsplätze der Übersetzer.“

Wie auch in vielen anderen Bereichen: Eine Maschine wird nie einen kreativen Prozess ersetzen können, den die meisten Übersetzungen verlangen.

• Ausgaben für Übersetzungen n EU-Ländern:

○ 1995 500 Mio Euro

○ 2000 2 Mrd Euro

• Weltweiter Umsatz von Übersetzungsdienstleistungen:

• 2001 3 Mrd US-Dollar

• 2006 6 Mrd US-Dollar

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 6

Mythen und Kritik an der MT

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 7

Mythen und Kritik an der MT

„MÜ bedroht die Arbeitsplätze der Übersetzer.“

Wie auch in vielen anderen Bereichen: Eine Maschine wird nie einen kreativen Prozess ersetzen können, den die meisten Übersetzungen verlangen.

• Ausgaben für Übersetzungen n EU-Ländern:

○ 1995 500 Mio Euro

○ 2000 2 Mrd Euro

• Weltweiter Umsatz von Übersetzungsdienstleistungen:

• 2001 3 Mrd US-Dollar

• 2006 6 Mrd US-Dollar

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 8

Mythen und Kritik an der MT

• Erste Versuche kurz nach dem 2. Weltkrieg: automatische Übersetzung russischer Kommunikation durch den US Geheimdienst

• 1954 – erste große MÜ Demonstration mit darauffolgender großer Förderung, Ziel: FAHQMT

• Übersetzungen mit Wörterbüchern und regelbasiertes Zusammenstellen der Sätze

• Eines der größten Probleme: Mehrdeutigkeit der natürlichen Sprache und ihr dynamischer Aspekt

• 1960er – Erkenntnis, dass FAHQMT nicht möglich ist

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 9

Geschichte der MÜ

Von Yehoshua Bar-Hillel genanntes Beispiel auf Anfrage der US Regierung für ein FAHQMT:

„Little John was looking for his toy box. Finally he found it. The box was in the pen.“

Weitere Beispiele:

„Ich sah den Mann mit dem Fernglas.“

„Rice flies like sand.“

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 10

Mehrdeutigkeit

Angehängte Präpositionalphrase

I saw the man with the telescope.

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 11

Syntaktische Ambiguität

Welche Wortart?

Das englische Wort book: Auf deutsch das Buch oder reservieren?

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 12

Lexikalische Ambiguität

Homografie

Schloss – das Schloss in der Tür: lock, das Schloss auf dem Berg: castle

Polysemie

abschließen – die Tür abschließen: to lock, eine Arbeit abschließen: to finalize

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 13

Semantische Ambiguität

Homografie

Sie blieben zwei Tage im Schloss.

Sie besichtigten die Schlösser.

Metonymie

Schiller lesen

ein Glas trinken

der Saal applaudiert

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 14

Komplexe semantische Ambiguität

Homografie

John hit the Dog with a stick.

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 15

Komplexe kontextuelle Ambiguität

Geeignetes Wort in der Zielsprache

verstehen – know, understand

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 16

Lexikalische Auswahl

Unterspezifiziert in der Quellsprache

Im Japanischen: 行きます (ikimasu)

Kann bedeuten: ich gehe, du gehst, er/sie/es geht, wir/ihr/sie gehen

Lass(t) uns gehen und als Zukunftsform der o.g. Möglichkeiten.

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 17

Lexikalische Auswahl

Abgeschlossenheit

I have studied physics. I studied physics.

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 18

Lexikalische Auswahl

• 1980er – Fokus auf s.g. mainframe solutions (Supercomputer) mit den Programmen Systran, Logos, Ariane-G5 und Metal

• Methoden gestützt auf morphologischer, syntaktischer und semantischer Analyse

• Ende 1980er – IBM entwickelt das erste MÜS welches auf statistischen Methoden beruht (SMT)

• 1990er – Verlagerung von mainframes zu PCs

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 19

Entwicklung der MÜ

• Seit 2000 – neue Evaluation früherer Ansätze wegen exponentiell steigender Recheneffizienz (Mooresches Gesetz) und enormen Datenzuwachs durch den Internet Boom

• aktuell – SMT und example-based MT sind sehr aktive Bereiche

• Zukunft – immer mehr Forscher konzentrieren sich auf s.g. Neuronale MÜ, in der die Maschine die Funktion des menschlichen Gehirns nachahmt

Sprachtechnologien, Informations- und Wissensmanagement VO 340088, Bartholomäus Wloka

Seite 20

Aktuelle Forschung