WEDT Tłumaczenie automatyczne & Query answering

WUTTWG

2006

WEDT

Tłumaczenie automatyczne&

Query answering

Wykład 8

Piotr [email protected]

2007

WUTTWG

2006

Źródło: Wikipedia

Cyfrowe wykluczenie

Digital divide - The term digital divide refers to the gap between those with regular, effective access to Digital and information technology, and those without this access. It generally encompasses both physical access to technology hardware and, more broadly, skills and resources which allow for its use.

WUTTWG

2006Cyfrowe wykluczenie

WUTTWG

2006

Źródło: Global Reach (www.glreach.com)

Tłumaczenie automatyczne

WUTTWG

2006Tłumaczenie automatyczne

WUTTWG

2006

• W latach 50-tych ubiegłego wieku wydawało się, iż jest to stosunkowo prosty problem, którego rozwiązanie wymaga jedynie zwiększenia mocy obliczeniowej i przede wszystkim pojemności nośników danych

• Podejście słownikowe – tłumaczenie poszczególnych słow – nie może być skuteczne, występują bowiem różnice w gramatykach języków: źródłowego i docelowego

• Nawet jeśli potrafimy dokonać translacji gramatyki to dalej mamy problem – word sense disambiguation np.:

Tłumaczenie automatyczne - początki

Holy Spirit

WUTTWG

2006

Przykład: Babelfish (Angielski – Japoński – Angielski)

God drew up the heaven and the earth with beginning. The earth the formless and was invalid, as for the darkness there was a surface being deep, mind of God was moving to the surface of the water. (2005)

God drew up the heaven and the earth with beginning. And without form or the space there was earth; And the darkness was on the surface being deep. And mind of God moved to the surface of the water. (2007)

• Na kilkadziesiąt lat to mocno osłabiło popularność badań nad AI


WUTTWG

2006

Google Translate (Angielski – Francuski – Angielski) – najprostsza bodajże możliwa kombinacja

In starting God created the sky and the ground. And the ground was without form, and vacuum; and the darkness was on the face of the deep one. And the spirit of God moved on the face of water. (2007)

Powinno być:In the beginning God created the heaven and the

earth. And the earth was without form, and void; and darkness was upon the face of the deep. And the Spirit of God moved upon the face of the waters. (Genesis, King’s James version)


WUTTWG

2006Tłumaczenie automatyczne

Problemy

Word level W łóżku jest szybka In bed is window-pane

Syntactic level She is a window-pane in bedW łóżku jest szybka

Semantic level She is quick in bedW łóżku jest szybka

Knowledge representation

She is quick in bedW łóżku jest szybka

Formalna reprezentacja języka

Source: Polish

Target: English

• Różne słowniki• Różne gramatyki i reguły składni• Nawet różne zestawy znaków

Oczywiście i tak zwykle najważniejszym problemem okazuje się że i tak nie mamy słownika

WUTTWG

2006

Hieroglify

Egipski demotyczny

Grecki (Ptolemeusz V)

Nieco historii

Tłumaczenie – Champollion, ~ 20 lat

WUTTWG

2006Bitexts - BibliaEnglish: In the beginning God created the heavens and the earth.Spanish: En el principio crió Dios los cielos y la tierra.French: Au commencement Dieu créa les cieux et la terre.Haitian: Nan konmansman, Bondye kreye syèl laak latèa.Danish: Begyndelsen skabte Gud Himmelen og Jorden.Swedish: I begynnelsen skapade Gud himmel och jord.Finnish: Alussa loi Jumala taivaan ja maan.Greek: Latin: in principio creavit Deus caelum et terramVietnamese: Ban dâu Ðúc Chúa Tròi dung nên tròi dât.

Inne źródła – głównie teksty prawnicze (UE), zapisy z posiedzeń parlamentarnych (np. Kanada)

WUTTWG

2006

Biblia

English: In the beginning God created the heavens and the earth.Spanish: En el principio crió Dios los cielos y la tierra.French: Au commencement Dieu créa les cieux et la terre.Haitian: Nan konmansman, Bondye kreye syèl laak latèa.Danish: Begyndelsen skabte Gud Himmelen og Jorden.Swedish:I begynnelsen skapade Gud himmel och jord.Finnish: Alussa loi Jumala taivaan ja maan.Greek: Latin: in principio creavit Deus caelum et terramVietnamese: Ban dâu Ðúc Chúa Tròi dung nên tròi dât.

WUTTWG

2006

Biblia cont.


WUTTWG

2006

Biblia cont.


WUTTWG

2006

English: In the beginning God created the heavens and the earth.Vietnamese: Ban dâu Ðúc Chúa Tròi dung nên tròi dât.

English: God called the expanse heaven.Vietnamese: Ðúc Chúa Tròi dat tên khoang không la tròi.

English: … you are this day like the stars of heaven in number.Vietnamese: … các nguoi dông nhu sao trên tròi.

Tłumaczenie słów

WUTTWG

2006

English: In the beginning God created the heavens and the earth.Vietnamese: Ban dâu Ðúc Chúa Tròi dung nên tròi dât.

English: God called the expanse heaven.Vietnamese: Ðúc Chúa Tròi dat tên khoang không la tròi.

English: … you are this day like the stars of heaven in number.Vietnamese: … các nguoi dông nhu sao trên tròi.

Tłumaczenie

Jeszcze lepiej – dopasowanie wzorców:Książka okazała się adjective, The book turned out to be adjective

WUTTWG

2006Słownik dwujęzyczny• Posiadając repozytorium „sparowanych” zdań możemy skonstruować dla

każdego słowa wektor, opisujący jego występowanie w zdaniach• Podobieństwo wektorów (czyli wektory najmniej odległe w przestrzeni – np.

wg. miary kosinusowej) wyznaczają nam powiązane semantycznie słowa• Zwykle częstość występowania słów ograniczana jest do K=1000 - 10000

<PAIR>S0<ENGLISH>I am very pleased to see that happening. </ENGLISH><FRENCH>Je suis très heureux que cela se produise. </FRENCH></PAIR>

<PAIR>S1

<ENGLISH>

As I mentioned earlier, my riding is very diverse.

</ENGLISH>

<FRENCH>

Comme je l'ai dit tout à l'heure, ma circonscription est très diversifiée.

</FRENCH>

</PAIR>

<PAIR>S2<ENGLISH>Dauphin-Swan River is located in west central Manitoba, the second largest settled area riding. </ENGLISH><FRENCH>La circonscription est située au centre ouest du Manitoba et vient au deuxième rang quant à sa superficie habitée. </FRENCH></PAIR>

WUTTWG

2006

E_I :occ: S0 1E_I :occ: S1 1E_in :occ: S2 1E_large :occ: S2 1E_locate :occ: S2 1E_Manitoba :occ: S2 1E_mention :occ: S1 1E_my :occ: S1 1E_pleased :occ: S0 1E_rid :occ: S2 1E_riding :occ: S1 1

F_centre :occ: S2 1F_circonscription :occ: S1 1F_circonscription :occ: S2 1F_Comme :occ: S1 1F_deuxième :occ: S2 1F_dit :occ: S1 1F_diversifiée :occ: S1 1F_du :occ: S2 1F_est :occ: S1 1F_est :occ: S2 1F_et :occ: S2 1F_habitée :occ: S2 1F_heure :occ: S1 1F_heureux :occ: S0 1F_Je :occ: S0 1F_Je :occ: S1 1

(E_I -> simsF_Je 0.66442F_que 0.324093...

(E_ riding -> simsF_circonscription 0.565143F_comté 0.315204...

(E_my -> simsF_mon 0.318009F_ma 0.301029F_j 0.159929F_Je 0.153954...

Słownik dwujęzyczny

WUTTWG

2006

Text Alignment

• Tak naprawdę potrzebujemy informacji o tym, które części zdań tłumaczone są na które w języku docelowym

• Reguły gramatyczne (oraz styl pisania tłumaczy) powodują, iż zmienia się nie tylko kolejność słów, ale nawet całych zdań.

• Potrzebne jest zatem dokonanie „sparowania” – alignment ciągów zdań (beads) – (typu 1:1, 0:1, 1:0, 1:2 itd.)

• Podejścia:• Wykorzystujące gramatykę• Wykorzystujące jedynie informacje statystyczne (Length-Based

Approach) – Church, Gale 1993• „krótkie zdania tłumaczone będą na krótkie zdania, a długie – na

długie”• metody programowania dynamicznego użyte do znalezienia

sparowania o najmniejszym koszcie

WUTTWG

2006

Pattern matching – inne zastosowania

Telephone

Cell phone

Telecommunications

Fax machine

Data transmission network

Electronic mail

ADBTRT

Post and telecom

Np. Automatyczne budowanie tezaurusów

Tezaurus (sieć semantyczna) przechowuje informacje o związkach pomiędzy słowami (pojęciami) – przykład WordNet

• Relacje askryptor - deskryptor• Relacje typu „Broader term” – „Narrower term”• Relacje typu „Related term”

The U.S.S Nashville arrived in Colon harbour with 42 marines

With the warship in Colon harbour, the Colombian troops withdrew

Także Latent Semantic Analysis (LSA)

WUTTWG

2006Question Answering• Kolejny „etap rozwoju” metod IR• To co zaczyna nas interesować w przypadku bardzo dużych

repozytoriów dokumentów (Internet) to nie tylko zbiór relewantnych dokumentów ale wiedza

• QA (question answering): w odpowiedzi na zapytanie użytkownika należy dostarczyć skrótowej definicji, ew. popartej listą źródeł

AltaVista query log (~2000)who invented surf music?how to make stink bombswhich english translation of the bible is used in official catholic liturgies?how to do clayarthow to copy psxhow tall is the sears tower?

Excite query log (12/1999)how can i find someone in texaswhere can i find information on puritan religion?what are the 7 wonders of the worldhow can i eliminate stressWhat vacuum cleaner does Consumers Guide recommend

Zwykle około 12–15% wszystkich zapytań

WUTTWG

2006QA – metody naiwne• Metoda 1• Używana m.in. przez Google • 1. Dodanie słów „pytających” do stop-listy• 2. Standardowe IR

To czasami nawet działa:

• Pytanie: Who was the prime minister of Australia during the Great Depression?• The Great Depression - Stories from Australia's Culture and ...

Prime Ministers during the Great Depression. James Henry Scullin. James HenryScullin. Image courtesy of National Library of Australia. Labor Prime Minister ...www.cultureandrecreation.gov.au/articles/greatdepression/ - 29k - Cached - Similar pages

Ale zwykle nie (np. „How much money did IBM spend on advertising in 2002?”)

• Metoda 2 - Też używana przez Google • Bierzemy zapytanie i poszukujemy stron zawierających dokładnie ten sam tekst• Traktujemy następne zdanie występujące w dokumencie jako odpowiedź.• Działa doskonale jeśli mamy szczęście i trafiliśmy na FAQ, email z pytaniem itp.• W pozostałych przypadkach działa bardzo źle...

WUTTWG

2006

• Elementy QA można odnaleźć w wielu systemach wykorzystujących NLP:• Bazy danych z interfejsem w języku naturalnym (np. Lunar)

• Wiele wczesnych prac• Systemy IVR

• Dziedzina rozwijana obecnie

• Nowością jest przejście do systemów typu „open-domain”• MURAX (Kupiec 1993): Odpowiedzi encyklopedyczne• TREC QA competition: od 1999

• Jeden z pierwszych publicznych systemów – Ask Jeeves• Wykorzystuje analizę wzorców aby dopasować pytanie do własnej bazy

parametryzowanych odpowiedzi (tworzonych ręcznie)• Jeśli trafimy na wzorzec pytania – otrzymujemy odpowiedź b. wysokiej

jakości (ale koszty utrzymania bazy są duże)• Jeśli nie – zwykłe wyszukiwanie w sieci WWW• www.ask.com; Inne systemy – AnswerBus - www.answerbus.com, LCC -

www.languagecomputer.com

Inne systemy QA

WUTTWG

2006

• http://trec.nist.gov • Polega na udzieleniu odpowiedzi na kilkaset pytań (typu „zapytań o

fakty”) • Przez pierwsze trzy lata konkurujące systemy mogły udzielić

uporządkowaną listę 5-ciu urywków tekstu (50/250 bytes) na każde pytanie.

• Ostatnio (2005) kilka zadań - udzielanie odpowiedzi (jednej), porządkowanie dokumentów zawierających odpowiedzi (<=1000).

• Korpus (1,033,461 dokumentów, 3GB tekstu):• AP newswire, 1998-2000• New York Times newswire, 1998-2000• Xinhua News Agency newswire, 1996-2000

• Można „podpierać się” wyszukiwaniem w innych źródłach np. WWW

• Czas – tydzień na przeprowadzenie analizy i udzielenie odpowiedzi...

• Może to temat na pracę magisterską? (jak na razie żaden zespół z Polski nie uczestniczy w TREC).

TREC QA Competition

WUTTWG

2006Przykłady pytań z TREC

1. Who is the author of the book, "The Iron Lady: A Biography of Margaret Thatcher"?2. What was the monetary value of the Nobel Peace Prize in 1989?3. What does the Peugeot company manufacture?4. How much did Mercury spend on advertising in 1993?5. What is the name of the managing director of Apricot Computer?6. Why did David Koresh ask the FBI for a word processor?7. What debts did Qintex group leave?8. What is the name of the rare neurological disease with symptoms such as: involuntary movements (tics), swearing, and incoherent vocalizations (grunts, shouts, etc.)?

• Obecnie najlepsze systemy udzielają odpowiedzi na ok. 70% pytań (TREC-12 – 0.7, TREC-10 – 0.75)

• B. różne podejścia• 2000, 2001 – podejścia holistyczne używające wielu zaawansowanych technik NLP (Harabagiu, Moldovan et al.)

• AskMSR – proste metody wykorzystujące obfitość danych i redundancję informacji

• Różnego rodzaju algorytmy dopasowujące wzorce (a la DIPRE)

WUTTWG

2006AskMSR: Simplicity• Opracowany przez Microsoft Research (dla MSN)• In what year did Abraham Lincoln die?• Ignorujemy dokumenty trudne do analizy i poszukujemy

prostych

WUTTWG

2006AskMSR cont.

WUTTWG

2006Query rewriting• Zapytanie użytkownika jest często syntaktycznie bliskie zdaniu zawierającemu

odpowiedź:• Where is the Louvre Museum located?• The Louvre Museum is located in Paris

• Who created the character of Scrooge?• Charles Dickens created the character of Scrooge.

• Klasyfikacja zapytania do jednej z siedmiu kategorii• Who is/was/are/were…?• When is/did/will/are/were …?• Where is/are/were …?

a. transformacje (zależne od kategorii pytania)np: “For Where questions, move ‘is’ to all possible locations”:

“Where is the Louvre Museum located” “is the Louvre Museum located” “the is Louvre Museum located” “the Louvre is Museum located” “the Louvre Museum is located” “the Louvre Museum located is”

b. specyfikacja „typu” odpowiedzi (np. Date, Person, Location, …)When was the French Revolution? DATE

Powyższe reguły tworzone ręcznie

WUTTWG

2006Search engine• System wag powiązanych z „zaufaniem” odpowiedzi

• Wszystkie zapytania wysyłamy do wyszukiwarki• Pobieramy opisy (snippets) najlepszych N dokumentów

+“the Louvre Museum is located”

Where is the Louvre Museum located?

Weight 5Jeśli coś znajdziemy to jest wysoce prawdopodobne iż jest to poszukiwana odpowiedź

+Louvre +Museum +located

Waga = 1Wiele możliwych

fałszywych trafień

WUTTWG

2006Mining• Tworzymy listę wszystkich n-gramów (N=1,2,3...k) ze

wszystkich odnalezionych opisów• Poszczególnym n-gramom przypisujemy wartości

związane z liczbą wystąpień ważonych wagami zapytań

• Np: “Who created the character of Scrooge?”• Dickens - 117• Christmas Carol - 78• Charles Dickens - 75• Disney - 72• Carl Banks - 54• A Christmas - 41• Christmas Carol - 45• Uncle - 31

WUTTWG

2006Filtrowanie & składanie• Każde zapytanie jest związane z filtrami typów

odpowiedzi

• When…• Where…• What …• Who …

• Podwyższamy wartość n-gramów które pasują• Obniżamy wartość tych, które nie pasują

Date

Location

Person

Dickens

Charles Dickens

Mr Charles

Scores

20

15

10 Mr Charles DickensScore 45

WUTTWG

2006Rezultaty

• Słabo działa na repozytorium TREC (dobre odpowiedzi na ~4 – 5 pozycji)

• Nieźle działa w WWW (2-3) – przyczyną jest rozmiar repozytorium

• Niestety w wielu zastosowaniach (szczególnie komercyjnych) dysponujemy jedynie ograniczonym zbiorem dokumentów

• Działa tylko dla prostych pytań typu fact-based

• Oparty o ręcznie tworzony i niewielki zbiór:• klas pytań• reguł tworzenia zapytań• filtrów odpowiedzi

WUTTWG

2006

Dopasowywanie wzorców

• Wykorzystywane są charakterystyczne frazy• "When was <person> born”

• Typowe odpowiedzi• "Mozart was born in 1756.”• "Gandhi (1869-1948)...”

• A zatem takie wzorce• "<NAME> was born in <BIRTHDATE>”• "<NAME> ( <BIRTHDATE>-”

• Wyrażenia regularne mogą być tu przydatne

WUTTWG

2006Wzorce• Oczywiście najlepiej, jeśli wzorców nie trzeba będzie tworzyć

ręcznie – potrzebne są metody uczenia• Np:

• “The great composer Mozart (1756-1791) achieved fame at a young age”

• “Mozart (1756-1791) was a genius”• “The whole world would always be indebted to the great music of

Mozart (1756-1791)”• Najdłuższy wspólny podciąg to "Mozart (1756-1791)”• Możemy użyć tu np. algorytmu drzew sufiksowych do

odnajdywania najdłuższych wspólnych ciągów• (Suffix Tree, używane także do grupowania jako Suffix Tree

Clustering)

• Należy powyższe powtórzyć dla innych pytań np.• “Gandhi 1869”, “Newton 1642”, etc.

• Rezultat (jako wzorzec dla BIRTHDATE)• a. born in <ANSWER>, <NAME>• b. <NAME> was born on <ANSWER> , • c. <NAME> ( <ANSWER> -• d. <NAME> ( <ANSWER> - )

WUTTWG

2006Przykładowe wyniki• 6 typów pytań

• BIRTHDATE, LOCATION, INVENTOR, DISCOVERER, DEFINITION, WHY-FAMOUS

• różna precyzja otrzymywanych odpowiedzi:

• BIRTHDATE• 1.0 <NAME> ( <ANSWER> - )• 0.85 <NAME> was born on <ANSWER>,• 0.6 <NAME> was born in <ANSWER>• 0.59 <NAME> was born <ANSWER>• 0.53 <ANSWER> <NAME> was born• 0.50 - <NAME> ( <ANSWER>• 0.36 <NAME> ( <ANSWER> -

• INVENTOR• 1.0 <ANSWER> invents <NAME>• 1.0 the <NAME> was invented by <ANSWER>• 1.0 <ANSWER> invented the <NAME> in

• DISCOVERER• 1.0 when <ANSWER> discovered <NAME>• 1.0 <ANSWER>'s discovery of <NAME>• 0.9 <NAME> was discovered by <ANSWER> in

• DEFINITION• 1.0 <NAME> and related <ANSWER>• 1.0 form of <ANSWER>, <NAME>• 0.94 as <NAME>, <ANSWER> and

WUTTWG

2006Problemy• Potrzebna jest analiza POS i semantyczna

• "Where are the Rocky Mountains?”• "Denver's new airport, topped with white fiberglass cones in imitation of the Rocky Mountains in the

background , continues to lie empty”• <NAME> in <ANSWER>• "background" to nie <LOCATION>

• Long distance dependencies• "Where is London?”• "London, which has one of the most busiest airports in the world, lies on the banks of the river

Thames”• tu potrzebny byłby wzorzec tego typu:

<QUESTION>, (<any_word>)*, lies on <ANSWER>• Nadzieja w obfitości danych w WWW

• Tylko jedno słowo charakterystyczne• "In which county does the city of Long Beach lie?”• "Long Beach is situated in Los Angeles County”• możliwy wzorzec:

<Q_TERM_1> is situated in <ANSWER> <Q_TERM_2>

• Wielkość liter może być istotna• "What is a micron?”• "...a spokesman for Micron, a maker of semiconductors, said SIMMs are...„

• Dla pytania o Micron taka odpowiedź byłaby poprawna

Documents

WEDT Tłumaczenie automatyczne & Query answering