34
SEGMENTATION GUIDELINES FOR InterBEST 2009 THAI WORD SEGMENTATION: AN INTERNATIONAL EPISODE (Release 1, 1 st June 2009) Contact: Human Language Technology Laboratory (HLT) National Electronics and Computer Technology Center (NECTEC) National Science and Technology Development Agency (NSTDA) 112 Thailand Science Park, Phahonyothin Road, Klong 1, Klong Luang, Pathumthani 12120, THAILAND Telephone: +66 (0)2564-6900 ext 2211-2214 Fax: +66 (0)2564-6872 Website: http://www.hlt.nectec.or.th/best/ This document is licensed under the Attribution-NonCommercial-ShareAlike 3.0 Unported license, available at http://creativecommons.org/licenses/by-nc-sa/3.0/

SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

SEGMENTATION GUIDELINES FOR

InterBEST 2009THAI WORD SEGMENTATION: AN INTERNATIONAL EPISODE

(Release 1, 1st June 2009)

Contact: Human Language Technology Laboratory (HLT)National Electronics and Computer Technology Center (NECTEC)National Science and Technology Development Agency (NSTDA)112 Thailand Science Park, Phahonyothin Road,Klong 1, Klong Luang, Pathumthani 12120, THAILAND

Telephone: +66 (0)2564-6900 ext 2211-2214Fax: +66 (0)2564-6872

Website: http://www.hlt.nectec.or.th/best/

This document is licensed under the Attribution-NonCommercial-ShareAlike 3.0 Unported license, available at http://creativecommons.org/licenses/by-nc-sa/3.0/

Page 2: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:
Page 3: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

Table of contentsPage

Objectives 1General Principles 1Word Segmentation Criteria 21. Types of Words 2

1.1 Word categories 31.1.1 Simple words 31.1.2 Compound words 31.1.3 Related compounds 51.1.4 Reduplicatives 6

1.2 Grammatical words 71.2.1 Conjunctions 71.2.2 Determiners 81.2.3 Interjections 9

1.3 Particles 91.4 Words with specific communicative functions 10

1.4.1 Question words 101.4.2 Aphorisms, proverbs and sayings 11

1.5 Words of non-Thai origin 111.5.1 Loanwords from Pali-Sanskrit 111.5.2 Loanwords from English and other foreign languages 13

1.6 Court vocabulary 142. Punctuations 16

2.1 Punctuations on words or phrases 162.1.1 Quotation marks “ “ ” ” 162.1.2 Brackets “ ( ) ” 162.1.3 Exclamation mark “ ! ” 172.1.4 Abbreviation mark “ ฯ ” 172.1.5 Hyphen “ - ” 172.1.6 Stroke “ / ” 182.1.7 Period “ . ” 182.1.8 Comma “ , ” 18

2.2 Punctuations in sequence 18

Page 4: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

Page

3. Pauses 194. Websites and emails 195. Named entities, Abbreviations and Poems 20

5.1 Symbol <NE>…</NE> for Named entities 205.1.1 Personal names 215.1.2 Organisation names 235.1.3 Location names 24

5.2 Symbol <AB>…</AB> for Abbreviations 255.3 Symbol <POEM>…</POEM> for Poems 27

Conclusion 28Bibliography 29Committee drafting the guidelines for InterBEST 2009 Thai Word Segmentation: an International Episode 30

Page 5: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

1

Segmentation Guidelines for InterBEST 2009Thai Word Segmentation: an International Episode

ObjectiveTo create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation: an

International Episode

General PrinciplesThe general principle of word segmentation is to divide words into their smallest units of

meaning. By implication, if the word segments retain their original meaning after segmentation, the word is considered ‘segmentable’. If, however, they do not, the word is considered ‘unsegmentable’. In these guidelines, the “|” symbol is used to indicate the end of a segmented word.

Segmentable words:เงFนเดIอน เงFน|เดIอน| การเดFน การ|เดFน|นNOาอPดลม นNOา|อPด|ลม| จดทะเบWยน จด|ทะเบWยน|หลอดลม หลอด|ลม| ลงทZน ลง|ทZน|Unsegmentable words:ดFนฟ]าอากาศ ดFนฟ]าอากาศ| ดWใจ ดWใจ|ท`องตลาด ท`องตลาด| ใจเสWย ใจเสWย|แมdบ`าน แมdบ`าน| สะบPกสะบอม สะบPกสะบอม|

Words that need a context in order to judge their segmentabilityว.าความ

● As a consecutive string of words, วdาความ must be segmented.วdาความ วdา|ความ|

เขาคFดว.าความสะอาดเปiนเรIjองสOาคPญ เขา|คFด|ว.า|ความ|สะอาด|เปiน|เรIjอง|สOาคPญ|● As a compound word, วdาความ is not segmentable.

วdาความ วdาความ| (defend a case)ทนายว.าความคดWทOารา̀ยรdางกาย ทนาย|ว.าความ|คดW|ทOารา̀ย|รdางกาย|

Page 6: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

2

ม2อาย5● As a consecutive string of words, มWอายZ must be segmented.

มWอายZ มW|อายZ|โดยปกตFจะผสมพPนธZqหมrสาวเมIjอม2อาย5ได`ราว ๗-๘ เดIอน

โดย|ปกตF|จะ|ผสมพPนธZq|หมr|สาว|เมIjอ|ม2|อาย5|ได|̀ราว| |๗|-|๘| |เดIอน|● As a compound word, ม2อาย5 is not segmentable

มWอายZ มWอายZ| (aging, approaching old age)ผr`หญFงคนนWNดrม2อาย5 ผr`หญFง|คน|นWN|ดr|ม2อาย5|

Word Segmentation CriteriaWe will consider word segmentation under the following headings:

1. Types of Words2. Punctuations3. Pauses4. Websites and emails5. Named entities, Abbreviations and Poems

1. Types of WordsSegmentation at the word level takes into consideration types of words and meanings. The

types of words considered in these guidelines are:

1.1 Word categories, i.e. simple words, compound words, related compounds and reduplicatives

1.2 Grammatical words, i.e. conjunctions, determiners, and interjections1.3 Particles, i.e. words that appear at the end of a sentence or a linguistic constituent and

that do not carry any meaning by themselves but are usually added for some linguistic effect1.4 Words with specific communicative functions, i.e. question words, idiomatic

expressions, proverbs and sayings1.5 Words of non-Thai origin, i.e. loanwords1.6 Court vocabulary

The details for each type are provided below.

Page 7: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

3

1.1 Word categories

1.1.1 Simple words

Simple words are usually isolated monosyllabic words such as พdอ แมd ช` า ง น ก นNO า ขPน กF น . Polysyllabic simple words exist too, but if the individual syllables of such words have a meaning, it is unrelated to the meaning of the polysyllablic words as a whole. For example, the word “กระถาง” means “a flower pot”. However, the words “กระ” and “ถาง” have meanings unrelated to the meaning of “กระถาง”, namely, “กระ” is a species of sea turtles while “ถาง” is a verb, meaning to clear or mow the land. Another example is “นาฬFกา” which is a watch or a clock. When it is segmented, “นา” is a rice field for farming, “ฬF” has no meaning, and “กา” could be a crow or a kettle; the meaning of each segment does not bear any relationship with the meaning of “นาฬFกา”. The polysyllabic simple words in the examples given above must not be segmented.

1.1.2 Compound words

“ Compound words are words that have been formed by the joining of at least two free morphemes with different meanings to create a new meaning… Morphemes that are joined to make compound words can be nouns, verbs, ordinal and cardinal numbers, or prepositions. Once the words are combined, they are mostly nouns or verbs…” (Ministry of Education 2006: 32, 35)

Compound words can be classified into 2 main categories, i.e. those that do not retain the meaning of the original words and those that still retain the meaning of the original words.

(1) Compound words that do not retain the meaning of the original wordsCompound words of this type often have metaphorical meanings, or are plant and animal

names. They are considered “unsegmentable”; for example:

Typical compound wordsกFนใจ| = touchingใจหาย| = shocked, stunnedดอกฟ]า| = a lady of high statusมIอถIอ| = cellphoneลrกนNOา| = mosquito larvaeวdาความ| = defend a caseหางเสIอ| = helm

Page 8: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

4

A nimal names ปลาดZก| ปลากระดWj| ปลากPด| ปลาหม�ก|เพลWNยกระโดดสWนNOาตาล| เพลWNยไฟ|แมงมZม| แมงดาทะเล| แมงป�อง|เสIอโครdง| เสIอดาว| เสIอปลา| เสIอลายพาดกลอน|

Plant namesทZเรWยนหมอนทอง| ทZเรWยนก̀านยาว|ผPกกระเฉด| ผPกกrด| ผPกชWลาว| ผPกหวาน|มะมdวงเขWยวเสวย| มะมdวงนNOาดอกไม`|

Parts of a plant, such as stems, leaves, flowers, or branches, are not considered part of the compound word referring to the plant name. Therefore, they must be segmented.

ดอกกZหลาบหนr ดอก|กZหลาบหนr| ดอกแค ดอก|แค|ต`นกZหลาบมอญ ต`น|กZหลาบมอญ| ต`นพญาไร`ใบ ต`น|พญาไร`ใบ|ใบกระเพรา ใบ|กระเพรา| ใบมะมdวง ใบ|มะมdวง|

(2) Compound words that still retain the meaning of the original wordsCompound words of this type are “segmentable” and can be further grouped as followed:

(2.1) Compound words that often begin with headwords such as ก̀าน ข`อ คน เครIjอง คOา ชdาง ชาว ตr` นPก ผ`า ล̀อ หมอ, e.g.

ก̀านก̀านบWบเลWNยว ก̀าน|บWบ|เลWNยว| ก̀านสrบ ก̀าน|สrบ|

ข`อข`อกฎหมาย ข`อ|กฎหมาย| ข`อเสนอแนะ ข`อ|เสนอแนะ|

เครIjองเครIjองครPว เครIjอง|ครPว| เครIjองซPกผ`า เครIjอง|ซPก|ผ`า|

ชdางชdางเชIjอม ชdาง|เชIjอม| ชdางตPดผม ชdาง|ตPด|ผม|

ชาวชาวไทย ชาว|ไทย| ชาวประมงไทย ชาว|ประมง|ไทย|

นPกนPกเรWยน นPก|เรWยน| นPกสIบ นPก|สIบ|

ผา̀ผา̀คลZมไหลd ผา̀|คลZม|ไหลd| ผ`าไหม ผา̀|ไหม|

ล̀อล̀อเครIjองเป�าลม ล̀อ|เครIjอง|เป�า|ลม| ล̀ออPดดFน ล̀อ|อPด|ดFน|

Page 9: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

5

(2.2) Compound nouns that are mathematical or geometrical units, e.g.

Mathematical UnitsตารางนFNว ตาราง|นFNว|ตารางเมตร ตาราง|เมตร|ลrกบาศกqเซนตFเมตร ลrกบาศกq|เซนตFเมตร|ลrกบาศกqเมตร ลrกบาศกq|เมตร|

Geometrical UnitsสามเหลWjยม สาม|เหลWjยม|สามเหลWjยมด`านเทdา สาม|เหลWjยม|ด`าน|เทdา|สWjหลWjยมคางหมr สWj|เหลWjยม|คางหมr|วงกลม วง|กลม|วงรW วง|รW|

(2.3) Compound nouns that begin with “การ” “ความ” and “อย&าง”, e.g.การ

การเดFน การ|เดFน| การปราบปราม การ|ปราบปราม|ความ

ความประสงคq ความ|ประสงคq| ความหวPง ความ|หวPง|อยdาง

อยdางเร�ว อยdาง|เร�ว| อยdางสนZกสนาน อยdาง|สนZกสนาน|

1.1.3 Related compounds

“Related compounds are words that are created from two or more words related in meaning, whether it be identical, similar, or opposite meanings. The effect of putting words together like this is to intensify the meaning of the resulting word.” (Ministry of Education 2006: 57) Once combined, related compounds will have a new meaning, thereby making them unsegmentable.

Related compounds can be classified into 2 categories:

(1) Semantically related compounds“Semantically related compounds are derived from 2 words of similar, identical or opposite

meanings.” (Anchaleenukoon 2004: 33), e.g.คอยทdา| ฆdาฟ�น| จFตใจ| เจ�บป�วย| เด�ดขาด|ตPดสFน| ตFดตPNง| ทรPพยqสFน| ป�วยไข|̀ พPดวW|ยากลOาบาก| แยกแยะ| ร`องเรWยน| รPบรอง| ล̀มล̀าง|เสาะแสวงหา| เสาะหา| เสIjอสาด| หนทาง| อยrdอาศPย|

Page 10: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

6

(2) Phonetically related compounds“ Phonetically related compounds are derived from putting together monosyllabic or

polysyllabic words with the same beginning consonant sound, either the same or different final consonant sound, combined with two different vowels. The meaning of a phonetically related compound word can be derived from either one or all of the syllables of the word.” (Anchaleenukoon 2004: 37). In some cases, they are derived from the words with the same vowels. Examples of phonetically related compounds are:

เกะกะ| ขมZกขมPว| โครมคราม| งPวเงWย| จPดจ`าน|ฉาดฉาน| ชFงชPง| ซZdมซdาม| ต`วมเตWNยม| ตZ�ต�ะ|ทาบทาม| แปลบปลาบ| ยอกย`อน| รอนแรม| ลวนลาม|สะบPกสะบอม| สZรZdยสZรdาย| เหFนหdาง| อFรZงตZงนPง| อFลZdยฉZยแฉก|

1.1.4 Reduplicatives

“Reduplicatives are made up of two words that are identical. In other words, reduplicatives are words that are repeated such as เด�กๆ, สาวๆ, หนZdมๆ, หลานๆ, ดOาๆ, แดงๆ, สวยๆ, ดWๆ. In creating reduplicatives, the symbol ‘ๆ’ is used to replace the repeated word.” (Ministry of Education 2006: 62). The meanings of the words that make up a reduplicative are retained. As a result of this, reduplicatives are segmentable. A caveat must be stated, however. There are words that look like reduplicatives but are not. Those words are by implication not segmentable.

Reduplicatives can be segmented as follows:

● Typically, reduplicatives that occur with ‘ๆ’ must be segmented, e.g.คนแก.ๆ คน|แก.|ๆ| ชFNนเลCกๆ ชFNน|เลCก|ๆ|พวกเดCกๆ พวก|เดCก|ๆ| สWดEาๆ สW|ดEา|ๆ|

● Reduplicatives that are partly repeated are not segmentable. The symbol ‘ๆ ’ is used to show partial reduplication and is usually placed after the first word. Reduplicatives of this nature are made up of words that always co-occur with each other, e.g.ตdางๆ นานา ตdางๆ นานา| ตdอๆ ไป ตdอๆ ไป|ตdอๆ มา ตdอๆ มา| ทPNงๆ ทWj ทPNงๆ ทWj|ทPjวๆ ไป ทPjวๆ ไป|

Page 11: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

7

● Words that are pseudo-reduplicatives are not segmentable. Pseudo-reduplicatives are made up of words that cannot occur on their own but must always be repeated. The second repeated word is omitted and replaced by the symbol ‘ๆ’, e.g.ครPNงก.อนๆ ครPNง|ก.อนๆ| เถWยงฉอดๆ เถWยง|ฉอดๆ|ของต.างๆ ของ|ต.างๆ| พrดปาวๆ พrด|ปาวๆ|ดrเผLนๆ ดr|เผLนๆ| เพFjงมาถ�งหยกๆ เพFjง|มา|ถ�ง|หยกๆ|เห�นกPนอยrdหลNดๆ เห�น|กPน|อยrd|หลNดๆ|

● Reduplicatives formed by the addition of a contextually meaningless word phonologically associated with the head word are not segmentable, e.g.กระปQงกระเป�า กระปQงกระเป�า| แขนแมน แขนแมน|ความดงความดW ความดงความดW| จงจาน จงจาน|ซTงซINอ ซTงซINอ| ตr`เตTอ ตr`เตTอ|สะเด�ดสะเด.า สะเด�ดสะเด.า| หอมเหLม หอมเหLม|

1.2 Grammatical words, i.e. Conjunctions, Determiners and Interjections

1.2.1 Conjunctions

Conjunctions are words or groups of words that show relationships between words, phrases or sentences. They can be classified into 2 types, i.e. singular conjunctions and compound conjunctions. (Bandhumedha 2006: 89)

(1) Singular conjunctions are กระนPNน, ทวdา, แตd, จ�ง, บน, ใน, นอก, หน̀า, กPบ, และ, หรIอ, ฉะนPNน, เพราะ, แม`, หาก, ถ̀า, etc.

(2) Compound conjunctions are เพราะฉะนPNน, อยdางไรก�ตาม, ถ̀าเผIjอ, ด`วยเหตZนWN, ด`วยเหตZวdา, โดยทPjวไปแล̀ว, ตราบเทdาทWj, แมแ̀ตd, etc.

Conjunctions can be segmented as follows:

● Conjunctions whose meanings cannot be derived from the original words or those formed by compounding words together are not segmentable, e.g.ก�ดW| ก�ตาม| กdอนหน̀า| ครPNนเมIjอ| ดPงเชdน|ตราบจน| นอกเหนIอ| แล̀วแตd| สIบเนIjอง| สZดแตd|

● Conjunctions that are formed from two simple words whose meanings are retained or those formed from two conjunctions are segmentable.○ Conjunctions formed from two conjunctions, e.g.

Page 12: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

8

■ Conjunctions showing contrast + conjunctions showing conditionsแตdถ̀า แตd|ถ̀า|

■ Conjunctions showing contrast + conjunctions showing causeแตdเนIjองจาก แตd|เนIjอง|จาก|

■ Conjunctions showing cause + conjunctions showing conditionsเพราะถ̀า เพราะ|ถ̀า|

■ Conjunctions showing cause + conjunctions showing exceptionsเพราะนอกจาก เพราะ|นอก|จาก|

○ Conjunctions formed from two simple words whose meanings are retained, e.g.กdอนทWj กdอน|ทWj| กdอนหน̀าทWj กdอนหน̀า|ทWj|ขณะเดWยวกPน ขณะ|เดWยวกPน| ข`างนอก ข`าง|นอก|ดPงนPNน ดPง|นPNน| โดยทWj โดย|ทWj|โดยทPjวไปแล̀ว โดย|ทPjวไป|แล̀ว| แตdอยdางไรก�ตาม แตd|อยdาง|ไร|ก�ตาม|ถ�งกระนPNน ถ�ง|กระนPNน| เทdาทWj เทdา|ทWj|นอกจาก นอก|จาก| นอกจากนWN นอก|จาก|นWN|เนIjองจาก เนIjอง|จาก| ในทางตรงกPนข`าม ใน|ทาง|ตรงกPนข`าม|เบINองหน̀า เบINอง|หน̀า| เพราะฉะนPNน เพราะ|ฉะนPNน|เพIjอให̀ เพIjอ|ให̀| ภายใน ภาย|ใน|ภายหน̀า ภาย|หน̀า| เมIjอครPNง เมIjอ|ครPNง|แล̀วก� แล̀ว|ก�| หลPงจาก หลPง|จาก|อยdางไรก�ดW อยdาง|ไร|ก�ดW| อยdางไรก�ตาม อยdาง|ไร|ก�ตาม|

1.2.2 Determiners

Determiners can be classified into 2 categories (Panupong 1989), namely,

(1) Tone 3 Determiners are นWj นPjน โนdน นrdน(2) Tone 4 Determiners are นWN นPNน โน̀น นr`น

● Determiners are segmentable if they can be separated from the headword or they appear as part of conjunctions, e.g.รถน2W ของพWjใชdไหมคะ รถ|น2W| |ของ|พWj|ใชd|ไหม|คะ|ละครเรIjองน2XสนZกมาก ละคร|เรIjอง|น2X|สนZก|มาก|วPนน2XเราไปเดFนเลdน วPน|น2X|เรา|ไป|เดFน|เลdน|ตอนนNXนยPงเช`าอยrdมาก ตอน|นNXน|ยPง|เชา̀|อยrd|มาก|ใครนNWน เดFนมาทWjประตr ใคร|นNWน| |เดFน|มา|ทWj|ประตr|บ`านโนTนปลrกต`นไม`เยอะ บ`าน|โนTน|ปลrก|ต`นไม`|เยอะ|

Page 13: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

9

● Determiners that are part of conjunctions should be segmented as follows:ดPงน2X ดPง|น2X| ดPงนNXน ดPง|นNXน|นอกจากน2X นอก|จาก|น2X| นอกจากนNXน นอก|จาก|นNXน|

● However, in phrases like “ทPNงนWN ” and “ทPNงนPNน” , the determiners should not be segmented from the headword due to the fact that the original meaning of “ทPN ง ” has changed as shown below.○ “ทPNง” means “all over, including all, through out”○ “ทPNงนWN” means “as previously mentioned”○ “ทPNงนPNน” means “all”

ทPNงน2X ทPNงน2X| ทPNงนNXน ทPNงนNXน|

1.2.3 Interjections

Interjections are words used to express particular feelings (Bandhumedha 2006: 140) such as เฮ`ย, เออ, เอ�ะ, อ̀าว, อZ�ย, อZ�ยตาย, อZ�ยต�ายตาย, ตายจรFง, โอ�ย, อrย, ป��ดโธd, โธd, โถ, เฮ`อ, แหม, คZณพระชdวย, etc. Interjections are unique in meaning and the original meanings of the words that make up interjections are not retained. For the reasons mentioned, they are not segmentable, e.g.

ตายจรFง ตายจรFง| อZ�ยต�ายตาย อZ�ยต�ายตาย|คZณพระชdวย! คZณพระชdวย|!| อZ�ยตาย! อZ�ยตาย|!|

1.3 Particles

Particles are words that appear in the middle or at the end of each sentence (Panupong 1987). Particles can be classified into 2 categories, i.e. singular particles and compound particles. Typically, singular particles cannot be segmented but compound particles can. Examples of particles are:

ยPงไมdกลPบหรอก ยPง|ไมd|กลPบ|หรอก| ไปกPบน̀องค.ะ ไป|กPบ|น̀อง|ค.ะ|ได`แล̀วครNบผม ได|̀แล̀ว|ครNบผม| อยrdนWjขอรNบกระผม อยrd|นWj|ขอรNบกระผม|นPjนน.ะซL นPjน|น.ะ|ซL| ดWทWเดWยวแหละ ดW|ทWเดWยว|แหละ|

Page 14: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

10

1.4 Words with specific communicative functions

1.4.1 Question words

These are words used to ask questions, e.g. ไหม มPN ย ใด ไ หน อะ ไร ทO า ไ ม etc. They can be segmented as follows:

● The question word is segmentable from the rest of the sentence, e.g.ชอบอPนนWNมNXย ชอบ|อPน|นWN|มNXย|จะทOาอะไร จะ|ทOา|อะไร|ทEาไมไมdมา ทEาไม|ไมd|มา|

● Words that make up the question word are segmentable when the original meanings of the constituent words are retained or when the question word is used with a classifier.

○ Question words with the original meanings retained, e.g.ทWjใด ทWj|ใด| ทWjไหน ทWj|ไหน|เทdาใด เทdา|ใด| เทdาไหน เทdา|ไหน|เทdาไร เทdา|ไร| เทdาไหรd เทdา|ไหรd|เมIjอใด เมIjอ|ใด| เมIjอไร เมIjอ|ไร|เมIjอไหรd เมIjอ|ไหรd| หรIอเปลdา หรIอ|เปลdา|หรIอไมd หรIอ|ไมd| หรIอยPง หรIอ|ยPง|อยdางใด อยdาง|ใด| อยdางไหน อยdาง|ไหน|อยdางไร อยdาง|ไร| ยPงไง ยPง|ไง|

For example:เธอจะไปหร_อเปล.า เธอ|จะ|ไป|หร_อ|เปล.า|เขาอยrdท2Wไหน เขา|อยrd|ท2W|ไหน|น̀องมาถ�งเม_Wอใด น̀อง|มา|ถ�ง|เม_Wอ|ใด|สFjงนWNดWยNงไง สFjง|นWN|ดW|ยNง|ไง|โต�ะตPวนWNราคาเท.าไหร. โต�ะ|ตPว|นWN|ราคา|เท.า|ไหร.|

○ Question words that are used with a classifier, e.g.รdมของเธอคIอคNนไหน รdม|ของ|เธอ|คIอ|คNน|ไหน|ลrกหมาตNวใดทWjจะเอาไปเลWNยง ลrก|หมา|ตNว|ใด|ทWj|จะ|เอา|ไป|เลWNยง|ขนมชLXนใดทWjใหญdทWjสZด ขนม|ชLXน|ใด|ทWj|ใหญd|ทWjสZด|อยrdขTางไหน ซ`ายหรIอขวา อยrd|ขTาง|ไหน| |ซ`าย|หรIอ|ขวา|

Page 15: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

11

1.4.2 Aphorisms, proverbs and sayings

These are strings of words used in specific situations. The words that make up these expressions may or may not rhyme and are often in the form of similes or metaphors or contain morals, hence no original meanings retained. Aphorisms, proverbs and sayings are not segmentable, e.g.

กOาแพงมWหr ประตrมWชdอง| เกลIอเปiนหนอน| ขWjช`างจPบตP�กแตน|คดในข`องอในกระดrก| ดFนพอกหางหมr| ตาเปiนมPน|ถdานไฟเกdา| ปากคนยาวกวdาปากกา| ฝากเนINอฝากตPว|พลอยฟ]าพลอยฝน| ลrกผWลrกคน| สอนจระเข`ให̀วdายนNOา|

1.5 Words of non-Thai origin, i.e. loanwords

Loanwords are words directly taken into one language from another. In the case of Thai, this most often means Pali, Sanskrit, English, French, Japanese, Chinese or Korean. These words can be classified into 2 categories, namely,

1.5.1 Loanwords from Pali-Sanskrit

These are words taken from Pali or Sanskrit directly. They cannot be segmented. These words can be further classified into 2 types based on how they are formed as follows:

(1) “Combinations” are words that are made up of 2 simple words put together in accordance with their Pali-Sanskrit syntactic properties (The Royal Institute 1999, 2003). The meaning of the newly coined word can be derived (in terms of English equivalents) by translating back to front. There may or may not be an assimilation between morphemes. These are considered ‘genuine combinations’, e.g.

จFตรกรรม is pronounced as จFด – ตfระ – กOาis made up of จFตร + กรรมMeaning: A form of arts especially drawing and paintingจFตรกรรม จFตรกรรม|

ชWววFทยา is pronounced as ชW – วะ – วFด – ทะ – ยาis made up of ชWว + วFทยาMeaning: A scientific study of living things; biologyชWววFทยา ชWววFทยา|

Page 16: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

12

อPคคWภPย is pronounced as อPก – คW – ไพis made up of อPคคW + ภPยMeaning: FireอPคคWภPย อPคคWภPย|

Moreover, there are words that behave like ‘combinations’ but are made up of words some of which are not Pali- or Sanskrit-based. In other words, they are a combination of a Thai word or a foreign word with a Pali- or Sanskrit-based word. This type of word formation imitates the way the genuine combination is coined, therefore it is called “pseudo-combinations”, e.g.

ครFสตกาล is pronounced as ครFด – ตะ – กานis made up of ครFสตq (English: Christ) + กาล (Pali-Sanskrit)Meaning: The years during which Jesus Christ livedครFสตกาล ครFสตกาล|

ทZนทรPพยq is pronounced as ทZน – นะ – ซPบis made up of ทZน (Thai) + ทรPพยq (Sanskrit)Meaning: Money or property used to start a business, i.e.

capitalทZนทรPพยq ทZนทรPพยq|

สรรพสFนค`า is pronounced as สPบ – พะ – สFน – ค`าis made up of สรรพ (Sanskrit) + สFนค`า (Thai)Meaning: All kinds of productsสรรพสFนค`า สรรพสFนค`า|

(2) “Sandhi” are words formed by two words usually with the fusion of sounds across word boundaries or an addition of sounds (Ministry of Education 2006: 83). Sandhis are typically of Pali or Sanskrit origin and their meanings can be derived by translating back to front, e.g.

ราชrปโภค is pronounced as รา – ชr – ปะ – โพกis made up of ราช + อZปโภคMeaning: the King’s belongingsราชrปโภค ราชrปโภค|

Page 17: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

13

วFทยาลPย is pronounced as วFด – ทะ – ยา – ไลis made up of วFทยา + อาลPยMeaning: collegeวFทยาลPย วFทยาลPย|

มหาวFทยาลPย is pronounced as มะ – หา – วFด – ทะ – ยา – ไลis made up of มหา + วFทยา + อาลPยMeaning: universityมหาวFทยาลPย มหาวFทยาลPย|

(3) Any words that do not meet the above criteria and whose meanings are derived by translating front to back must be segmented, e.g.

รถจPกรยานยนตq is pronounced as รด – จPก – กะ – ยาน – ยนis made up of รถ + จPกรยาน1 + ยนตqMeaning: motorcycleรถจPกรยานยนตq รถ|จPกรยาน|ยนตq|

รถยนตq is pronounced as รด – ยนis made up of รถ + ยนตqMeaning: carรถยนตq รถ|ยนตq|

1.5.2 Loanwords from English and other foreign languages

Loanwords from languages such as English, French, Japanese, Chinese, Korean, etc. are segmented in accordance with how the words are originally written in those languages. For example, if there is a space between words in the original, they must be segmented from each other in Thai, e.g.

EnglishคอมพFวเตอรq|โน̀ตบZค| comes from notebook| |computer|แคลเซWยม|ฟอสเฟต| comes from Calcium| |Phosphate|ทWม|ฟZตบอล| comes from football| |team|บางกอก|ดอลลq| comes from Bangkok| |Doll|มาย|แฟรq|เลดW| comes from My| |Fair| |Lady|อเมรFกPน|ฟZตบอล| comes from American| |Football|

1 The word “จPกรยาน” is a combination, coined from “จPกร” + “ยาน” referring to bicycle.

Page 18: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

14

FrenchLe| |français| |pour| |les| |élèves| |thaïs| means French language for Thai students

Japanese | means I am Thai.

However, loanwords referring to the name of plants or animals, or plant or animal species are not segmentable. Use the same guidelines for compound nouns referring to the name of plants and animals or the name of plant and animal species (See section 1.1.2 (1), page 3), e.g.

Plant namesกrดข`อตdอภrหลวง| |(|Arthromeris phuluangensis|)|ปรงทอง| |(|Acrostichum aureum|)|สะโมง| |(|Pyrrosia longifolia|)|

Animal namesไกdฟ]าพญาลอ| |(|Lophura diardi|)|ปrเจา̀ฟ]า| |(|Phricotelphusa sirindhorn|)|วาฬบรrด`า| |(|Balaenoptera edeni|)|

Plant SpeciesพPนธZq|อเมรFกPนแซดเดFล| |(|American Saddle|)|พPนธZq|คลWฟแลนดq เบยq| |(|Cleveland Bay|)|พPนธZq|เทนเนสซW วอลqคกFNง| |(|Tennessee Walking|)|

Animal SpeciesพPนธZq|เฟ�รqสทqไพรซq| |(|First Prize|)|พPนธZq|ซWโฟม| |(|Sea Foam|)|

1.6 Court Vocabulary

Court vocabulary is specifically used with the King, members of the royal family, and monks. Most court vocabulary is derived from Pali, Sanskrit and Khmer words. The guidelines for segmenting court vocabulary are as follows:

1.6.1 Court vocabulary can be segmented when

(1) it is innately court vocabulary, e.g.กPนแสง| เจา̀จอม| เจ`าจอมมารดา| ชายา| ตOาหนPก| ทรงเครIjอง| ธFดา|ประชวร| พระทPย| รPบสPjง| สZบFน| อZระ| โอรส|

Page 19: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

15

(2) it co-occurs with the prefixes in bold face below, e.g.พระบรมอรรคราช e.g. พระบรมอรรคราชบรรพบZรZษ|พระบรมมหาราช e.g. พระบรมมหาราชวPง|พระบรมมหา e.g. พระบรมมหาชนก| พระบรมมหNยกา|พระบรมราช e.g. พระบรมราชชนนW| พระบรมราโชวาท|พระบรม e.g. พระบรมโพธFสมภาร| พระบรมโอรสาธFราช|พระอPครราช e.g. พระอNครราชชายา|พระอPคร e.g. พระอNครมเหสW|พระมหา e.g. พระมหาเศวตรฉPตร|พระราช e.g. พระราชบFดา| พระราชวPง| พระราชอาคPนตZกะ|พระ e.g. พระดOารF| พระประชวร| พระพWjเลWNยง| พระสหาย|

พระสาง| พระหPตถq| พระอาจารยq|(3) it is a court compound noun whose meaning is different from the meanings

of the original constituent words, e.g.ฉลองพระเนตร| = แวdนตา ทองพระกร| = กOาไลข`อมIอธารพระกร| = ไม`เท`า บPNนพระองคq| = เอว

(4) it is a court compound verb that is made up of the string General verb+ Court compound noun in (3) above, or Court compound noun in (3) + General verb, e.g.

ตกพระทPย| = ตกใจ พระทPยหาย| = ใจหายสระพระเจ`า| = สระผม

1.6.2 A court word is segmentable when

(1) it is constructed with words whose original meanings are retained, e.g.ของเสวย ของ|เสวย| ทWjบรรทม ทWj|บรรทม|ข`อพระบาท ข`อ|พระบาท| นNOาสรง นNOา|สรง|ตZ`มพระกรรณ ตZ`ม|พระกรรณ| รถทรง รถ|ทรง|ถ̀วยพระสZธารส ถ̀วย|พระสZธารส| รถพระทWjนPjง รถ|พระทWjนPjง|

(2) it co-occurs with the word “หลวง” or “ต�น”, e.g.หลวง

ลrกหลวง ลrก|หลวง| รถหลวง รถ|หลวง|ต`น

เครIjองต`น เครIjอง|ต`น| ช`างต`น ช`าง|ต`น|

Page 20: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

16

(3) it is made up of the string ‘ทรง + General verb’, e.g.ทรงเรWยน ทรง|เรWยน| ทรงสอน ทรง|สอน|ทรงระล�กถ�ง ทรง|ระล�ก|ถ�ง|

(4) it is made up of the string ‘ทรง+ Court compound noun/verb’, e.g.ทรงพระราชสมภพ ทรง|พระราชสมภพ|ทรงพระบรรทม ทรง|พระบรรทม|ทรงบOาเพ�ญพระราชกZศล ทรง|บOาเพ�ญ|พระราชกZศล|

(5) it is made up of verbs in sequence with one another. This could be either a string of all innately court verbs, or the string ‘ทรง+ Court compound verb’, e.g.

เสด�จพระราชดOาเนFนทอดพระเนตร เสด�จพระราชดOาเนFน|ทอดพระเนตรเสด�จประพาสต`น เสด�จ|ประพาสต`น|2

ทรงพระกรZณาโปรดเกล̀าฯพระราชทาน ทรง|พระกรZณา|โปรดเกล̀า|ฯ|พระราชทาน|ทรงมWพระราชปฏFสPนถารกPบผrถ̀วายการตอ̀นรPบ ทรง|มW|พระราชปฏFสPนถาร|กPบ|ผr|̀ถวาย|การ|ต`อนรPบ|

2. PunctuationsThere are two ways punctuations are segmented.

2.1 Punctuations on words or phrases

All the punctuations are segmentable from words or phrases. The following is a list of punctuations that must be segmented.

2.1.1 Quotation marks “ “ ” ”

“ใชdครPบ” “|ใชd|ครPบ|”|“เจอรqเก̀น คลFนสqมPนนq” “|<NE>เจอรqเก̀น คลFนสqมPนนq</NE>|”|

2.1.2 Brackets “ ( ) ”

1) กล̀วย 2) สม̀ 3) มะมdวง 1|)| |กล̀วย| |2|)| |สม̀| |3|)| |มะมdวง|(ก) แมว (ข) สZนPข (ค) หมr (|ก|)| |แมว| |(|ข|)| |สZนPข| |(|ค|)| |หมr|

2 “ประพาสต`น” is considered a court word in its entirety, wholly referring to an unofficial trip by the King, not a combination of a general word with “ต`น” to make the word court vocabulary.

Page 21: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

17

2.1.3 Exclamation mark “ ! ”

ระวPงสZนPขดZ! ระวPง|สZนPข|ดZ|!|คZณพระชdวย! คZณพระชdวย|!|

2.1.4 Abbreviation mark “ ฯ ”

โปรดเกล̀าฯ โปรดเกล̀า|ฯ|เสด�จฯ เสด�จ|ฯ|

2.1.5 Hyphen “ - ”

The hyphen can be segmented as follows:

(1) Segment the hyphen from the words, e.g.12 - 13 ป  12| |-| |13| |ป |5 - 6 ก.ก. 5| |-| |6| |<AB>ก.ก.</AB>|12 มWนาคม – 1 เมษายน 2550 12| |มWนาคม| |–| |1| |เมษายน| |2550|5 – 6 หมIjน 5| |–| |6| |หมIjน|0-2589-6317 0|-|2589|-|6317|3-1014-05872-28-6 3|-|1014|-|05872|-|28|-|6|

(2) For number plates, the hyphen must be segmented from the characters and numbers on the plate. The name of the province must be segmented too and marked with <NE>…</NE>, e.g.

Taxi:มข-3139 กรZงเทพมหานคร มข|-|3139| |<NE>กรZงเทพมหานคร</NE>|Coach:12-8147 กรZงเทพฯ 12|-|8147| |<NE>กรZงเทพฯ</NE>|Truck:81-5707 สระบZรW 81|-|5707| |<NE>สระบZรW</NE>|70-0785 อZดรธานW 70|-|0785| |<NE>อZดรธานW</NE>|Bus:13-342 กทม. 13|-|342| |<NE><AB>กทม.</AB></NE>|13-7743 กทม. 13|-|7743| |<NE><AB>กทม.</AB></NE>|Car:7 ธ-6761 กทม. 7|ธ|-|6761| |<NE><AB>กทม.</AB></NE>| ภฉ 6184 กรZงเทพมหานคร ภฉ| |6184| |<NE>กรZงเทพมหานคร</NE>|

Page 22: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

18

Motorcycle:กขจ-532 เพชรบrรณq กขจ|-|532| |<NE>เพชรบrรณq</NE>|กยล 491 บZรWรPมยq กยล| |491| |<NE>บZรWรPมยq</NE>|

2.1.6 Stroke “ / ”

บ`านเลขทWj 4/11 บ`าน|เลข|ทWj| |4|/|11|บ`านเลขทWj 9/10-15 บ`าน|เลข|ทWj| |9|/|10|-|15|ป.1/5 <AB>ป.</AB>|1|/|5|ศอ. 5204.008/2551 <NE><AB>ศอ.</AB></NE>| |5204|.|008|/|2551|

2.1.7 Period “ . ”

รวมเปiน 105.85 บาท รวม|เปiน| |105|.|85| |บาท|ระหวdาง 20.35-25.23 ม. ระหวdาง| |20|.|35|-|25|.|23| |<AB>ม.</AB>|1. กล̀วย 2. สม̀ 3. มะมdวง 1|.| |กล̀วย| |2|.| |สม̀| |3|.| |มะมdวง|ก. สWดOา ข. สWแดง ค. สWชมพr ก|.| |สW|ดOา| |ข|.| |สW|แดง| |ค|.| |สW|ชมพr|a. banana b. orange c. mango a|.| |banana| |b|.| |orange| |c|.| |mango|

2.1.8 Comma “ , ”

1,000,000 1|,|000|,|000|ข`าวสาร, นNOาตาลทราย ข`าวสาร|,| |นNOาตาลทราย|

2.2 Punctuations in sequence

The segmentation of punctuations in sequence is done on the basis of how they appear together.

2.2.1 The same type of punctuations appearing after one another cannot be segmented, e.g.

● The hyphen in sequence as inเชFงอรรถ : ------------------------------- เชFง|อรรถ| |:| |-------------------------------|ข`อมrลเพFjมเตFม--------------------------- ข`อมrล|เพFjมเตFม|---------------------------|

● The period in sequence as inครIด................. ครIด|..................|

Page 23: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

19

2.2.2 Different types of punctuations appearing in sequence must be segmented from one another, e.g.

● The period in sequence with quotation marks, e.g."เออ คIอวdา..........." "|เออ| |คIอ|วdา|...........|"|

● The question mark in sequence with an exclamation mark, e.g.ทOาไมถ�งเปiนอยdางนWN???!!! ทOาไม|ถ�ง|เปiน|อยdาง|นWN|???|!!!|

3. PausesThe term “Pauses” refers to the spaces between words, phrases, or sentences. Where there is a

pause, the “|” symbol should be put between the pause and words, phrases or sentences, e.g.รวมเปiน 105.85 บาท รวม|เปiน| |105|.|85| |บาท|ก. สWดOา ข. สWแดง ค. สWชมพr ก|.| |สW|ดOา| |ข|.| |สW|แดง| |ค|.| |สW|ชมพr|บ`านเปiนคOาไทย เดFมหมายความวdาหมrdบ`าน ป�จจZบPนยPงมWเค`าให̀เห�นอยrdในชIjอตOาบลตdางๆ

บ`าน|เปiน|คOา|ไทย| |เดFม|หมาย|ความ|วdา|หมrd|บ`าน| |ป�จจZบPน|ยPง|มW|เคา̀|ให̀|เห�น|อยrd|ใน|ชIjอ|ตOาบล|ตdางๆ|The sunset is often more brightly colored than the sunrise.

The| |sunset| |is| |often| |more| |brightly| |colored| |than| |the| |sunrise|.|

4. Websites and emailsWebsites and emails are unique in that they comprise characters, numbers, and symbols to

denote the location and address of an individual, an organisation, or an Internet site, e.g.

Websites, e.g.http://www.hlt.nectec.or.th/ refers to Human Language

Technology Laboratoryhttp://www.moph.go.th refers to Ministry of Public Health

Emails, [email protected] refers to The address of music page

at the websitehttp://www.kapook.com

[email protected] refers to The address of traveling pageat the websitehttp://www.sanook.com

Page 24: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

20

Since all the characters, numbers and symbols in the websites and emails wholly indicate the location and address of an individual, organisation and an Internet site, websites and emails must not be segmented.

Websiteshttp://www.hlt.nectec.or.th http://www.hlt.nectec.or.th|http://www.moph.go.th http://www.moph.go.th|

[email protected] [email protected]|[email protected] [email protected]|

5. Named entities, Abbreviations and Poems

5.1 Symbol <NE>…</NE> for Named entities

The symbol <NE>…</NE> is typically used to mark named entities. If there exists a marker before a named entity, it must appear inside <NE>…</NE>. Note that the symbol “|” must not appear inside <NE>…</NE>.

Named entities are names of people, organizations, locations, etc. including the marker that appears before the named entity as well. In these guidelines, we classify named entities into 3 types, namely, the person's name, the organization's name and the location name, with some exceptions as follows:

● Named entities other than the 3 types above, such as the name of a product, the name of a plant or animal, are not considered named entities here; therefore, they must not be marked with <NE>…</NE>, e.g.

เครIjองเสWยงพานาโซนLค เครIjอง|เสWยง|พานาโซนLค|รถยนตqโตโยตTาโซลzน.า รถ|ยนตq|โตโยตTา|โซลzน.า|รถจPกรยานยนตqฮอนดTาเวฟ รถ|จPกรยาน|ยนตq|ฮอนดTา|เวฟ|

● If an otherwise considered named entity appears after a noun as a noun modifier but does not refer to a person, an organization or a location, it is not considered a full-fledged named entity and is therefore not marked with <NE>…</NE>, e.g.

Page 25: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

21

ไทยการชdางไทย การ|ชdาง|ไทย|ชาวประมงไทย ชาว|ประมง|ไทย|รPฐสภาไทย รPฐสภา|ไทย|

จWนชาจWน ชา|จWน|

ญWjปZ�นโต�ะญWjปZ�น โต�ะ|ญWjปZ�น|

เยอรมPนพจนานZกรมเยอรมPน พจนานZกรม|เยอรมPน|

อPงกฤษภาษาอPงกฤษ ภาษา|อPงกฤษ|

จPงหวPดนครราชสWมาชาวจPงหวPดนครราชสWมา ชาว|จPงหวPด|นครราชสWมา|

จPงหวPดชPยนาทชาวจPงหวPดชPยนาท ชาว|จPงหวPด|ชPยนาท|

5.1.1 Personal names

Personal names are first names, last names, nicknames, pen names or pseudonyms. The name of a person may be preceded by a form of address (henceforth, marker) which suggests the social status or identity of that person such as the marker from birth, from marriage, from education, and from position at work (e.g. academic titles, police and military ranks, etc.). Personal names also include titles granted by the King, kinship terms and other pronouns, e.g.

● The marker from birth, e.g.เด�กชาย ด.ช. เด�กหญFง ด.ญ. นางสาว น.ส. นายหมdอมเจ`า ม.จ. หมdอมราชวงศq ม.ร.ว. หมdอมราชวงศqหญFง ม.ร.ว.หญFงหมdอมหลวง ม.ล. Mister Mr. Miss Ms.

● The marker from marriage, e.g.นาง เจา̀จอม เจา̀จอมมารดา Missis Mrs.

● The marker from education or position at work, e.g.ด�อกเตอรq ดร. นายแพทยq นพ. แพทยqหญFง พญ.ทPนตแพทยq ทพ. ทPนตแพทยqหญFง ทพญ. เภสPชกร ภก.เภสPชกรหญFง ภกญ.

Page 26: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

22

● The marker from academic titles, or police or military ranks, e.g.ศาสตราจารยq ศ. รองศาสตราจารยq รศ. ผr`ชdวยศาสตราจารยq ผศ.สารวPตรใหญd สวญ. เสนาธFการ เสธ. จอมพล

● The title granted by the King, e.g.ทdานผr`หญFง คZณหญFง

● Kinship terms or other pronouns, e.g.○ Kinship terms

พWj น̀อง น̀า ป]า ลZง ปr� ยdา ตา ยาย ป�า○ Pronouns

ทdาน ฯพณฯ นายก บF�ก ผr`วdาThe symbol <NE>…</NE> is used with named entities which refer to personal names as

follows:

● The named entity should be put in between <NE>…</NE>, e.g.

○ First nameบZษกร <NE>บZษกร</NE>| ธWรเดช <NE>ธWรเดช</NE>|ภPทรพล <NE>ภPทรพล</NE>| ยงยZทธ <NE>ยงยZทธ</NE>|

○ Nicknameหนdอย <NE>หนdอย</NE>| เคน <NE>เคน</NE>|พอล <NE>พอล</NE>| แพนเค`ก <NE>แพนเค`ก</NE>|

○ Nickname + First Nameหนdอย บZษกร <NE>หนdอย</NE>| |<NE>บZษกร</NE>|“ฉลามขาว” เจอรqเก̀น คลFนสqมPนนq

“|<NE>ฉลามขาว</NE>|”| |<NE>เจอรqเก̀น คลFนสqมPนนq</NE>|● The first name and last name should be put inside <NE>…</NE>

เจอรqเก̀น คลFนสqมPนนq <NE>เจอรqเก̀น คลFนสqมPนนq</NE>|มFเกล อารqเตต`า <NE>มFเกล อารqเตต`า</NE>|เลชqตPน เบนสq <NE>เลชqตPน เบนสq</NE>|ปาสเตอรq, หลZยสq3 <NE>ปาสเตอรq, หลZยสq</NE>|

● Pseudonyms that appear in abbreviations such as น.ม.ส., ว. ณ ประมวลมารค must appear inside <NE>…</NE> without the symbol <AB>…</AB>, e.g.

น.ม.ส. <NE>น.ม.ส.</NE>|ว.ณ ประมวลมารค <NE>ว.ณ ประมวลมารค</NE>|

3 This is a citation style that typically appears in the reference

Page 27: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

23

● If there is a marker before the named entities, put it inside <NE>…</NE> and mark it with <AB>…</AB> if necessary, e.g.

น.พ.ชาตรW บานชIjน <NE><AB>น.พ.</AB>ชาตรW บานชIjน</NE>|พล.อ.สZรยZทธq จZลานนทq <NE><AB>พล.อ.</AB>สZรยZทธq จZลานนทq</NE>|นายเทWjยง <NE>นายเทWjยง</NE>|

● When a named entity is spelt in Thai, followed by the English spelling in parentheses, both the Thai and English named entities must be marked with <NE>…</NE> separately, e.g.

นายพW อารq โจนสq (P.R. Jones) <NE>นายพW อารq โจนสq</NE>| |(|<NE><AB>P.R.</AB> Jones</NE>|)|

5.1.2 Organisation names

Organisation names refer to both private and government organisations, including those organisations established by a group of people for specific purposes. There may be a marker preceding the named entity to indicate the kind of organisation, e.g.

กรม กระทรวง กลZdม กอง คณะ คณะกรรมาธFการธนาคาร บรFษPท ฝ�าย พรรคการเมIอง ภาควFชา มหาวFทยาลPยมrลนFธF โรงพยาบาล โรงเรWยน วPด วFทยาลPย สถาบPนสภา สOานPกงาน หนdวย ห̀าง ห̀างสรรพสFนค`า องคqการ

Criteria for marking the named entity that refers to an organisation with <NE>…</NE> are as follows:

● The named entity that refers to an organisation should be put inside <NE>…</NE>, e.g.การไฟฟ]าสdวนภrมFภาค <NE>การไฟฟ]าสdวนภrมFภาค<NE>|สFนเจรFญบราเธอรq <NE>สFนเจรFญบราเธอรq</NE>|รองผr`บPญชาการตOารวจแหdงชาตF รอง|ผr|̀บPญชา|การ|<NE>ตOารวจแหdงชาตF</NE>|รPฐมนตรWสาธารณสZข รPฐมนตรW|<NE>สาธารณสZข</NE>|ประชาธFป�ตยqชาตFไทยมหาชนผน�กกOาลPง

<NE>ประชาธFป�ตยq</NE>|<NE>ชาตFไทย</NE>|<NE>มหาชน</NE>|ผน�ก|กOาลPง|

● When a marker appears before the named entity, put it inside <NE>…</NE> together with the named entity, e.g.กระทรวงสาธารณสZข <NE>กระทรวงสาธารณสZข</NE>|กองคOานวณและเฉลWjยทรPพยq <NE>กองคOานวณและเฉลWjยทรPพยq</NE>|

Page 28: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

24

ภาควLชาความสPมพPนธqระหวdางประเทศ <NE>ภาควLชาความสPมพPนธqระหวdางประเทศ</NE>|มzลนLธLชPยพPฒนา <NE>มzลนLธLชPยพPฒนา</NE>|วNดคลองเตยใน <NE>วNดคลองเตยใน<NE>|แบงก�ชาตF <NE>แบงก�ชาตF</NE>|วLทยาลNยการโรงแรมดZสFตธานW <NE>วLทยาลNยการโรงแรมดZสFตธานW</NE>|

● When the name of an organisation is spelt in Thai, followed by the English spelling in parentheses, both the Thai and English names must be marked with <NE>…</NE> separately, e.g.องค�การการค`าโลก (WTO) <NE>องค�การการค`าโลก</NE>| |(|<NE><AB>WTO</AB></NE>|)|

● When the abbreviated English named entity is spelt in Thai, mark it only with <NE>…</NE>, e.g.อธFบดWด2เอสไอเป�ดแถลงขdาว อธFบดW|<NE>ด2เอสไอ</NE>|เป�ด|แถลง|ขdาว|

5.1.3 Location names

Location name means a place where something is located or a geographical name. A marker may precede the named entity to indicate the kind or feature of a place, e.g.

Municipal areasจPงหวPด อOาเภอ เขต ตOาบล

Man-made constructionsเขIjอน ต�ก ถนน อนZสาวรWยqพระทWjนPjง พระราชวPง พระตOาหนPก วPง

Geographical placesคลอง แมdนNOา

Criteria for marking the named entity that refers to a location with <NE>…</NE> are as follows:

● The named entity that refers to a location should be put inside <NE>…</NE>, e.g.โรงงานในราชบZรW โรง|งาน|ใน|<NE>ราชบZรW</NE>|เลWNยวรถไปทางตรWเพชร เลWNยว|รถ|ไป|ทาง|<NE>ตรWเพชร</NE>|นNOาล̀นสองฝ�©งเจ`าพระยาชาวบ`านเดIอดร`อนหนPก

นNOา|ล̀น|สอง|ฝ�©ง|<NE>เจา̀พระยา</NE>|ชาว|บ`าน|เดIอดร`อน|หนPก|

Page 29: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

25

● When a marker appears before the named entity, it should be put inside <NE>…</NE> together with the named entity, e.g.จNงหวNดปทZมธานW <NE>จNงหวNดปทZมธานW</NE>|พระท2WนNWงอนPนตสมาคม <NE>พระท2WนNWงอนPนตสมาคม</NE>|เข_Wอนป�าสPกชลสFทธFª <NE>เข_Wอนป�าสPกชลสFทธFª</NE>|แม.นXEาเจา̀พระยา <NE>แม.นXEาเจ`าพระยา</NE>|

● When the marker is abbreviated, it should be marked with <AB>…</AB> first, then the whole string should be marked with <NE>…</NE>, e.g.อ.เมIอง <NE><AB>อ.</AB>เมIอง</NE>|

● When the named entity is abbreviated and followed by the abbreviation mark (ฯ ), the mark (ฯ) should be put inside <NE>…</NE>, e.g.นราฯ <NE>นราฯ</NE>|

● The words “แถบ แถว ยdาน” are not considered markers, therefore must be segmented from the location name, e.g.แถบดอนเมIอง แถบ|<NE>ดอนเมIอง</NE>|แถวรPงสFต แถว|<NE>รPงสFต</NE>|ยdานปทZมวPน ยdาน|<NE>ปทZมวPน</NE>|

5.2 Symbol <AB>…</AB> for Abbreviations

The symbol <AB>…</AB> is used to mark abbreviations. The symbol “|” must not appear inside <AB>…</AB>.

Abbreviations can be classified into 2 main categories, namely,

(1) Genuine abbreviations usually co-occur with a period “.”, e.g.ก.ก. = กFโลกรPม น. = นาฬFกาธ. = ธนาคาร น.ส. = นางสาว

(2) Abbreviations containing a noun often suggest a police or military rank or an organisation, e.g.

ผบ.ตร. = ผr`บPญชาการตOารวจแหdงชาตFบก. ทหารสrงสZด = กองบPญชาการทหารสrงสZด

Page 30: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

26

Elision, shortened words and words abbreviated by means of the abbreviation mark (ฯ ) are not considered a full-fledged abbreviation and must not be marked with <AB>…</AB>, e.g.

ElisionมหาลPย = มหาวFทยาลPย

Shortened wordsโทร4 = โทรศPพทq โล = กFโลกรPม, กFโลเมตรวF = วFนาทW

Words abbreviated by means of the abbreviation mark ( ฯ ) กรZงเทพฯ = กรZงเทพมหานครโปรดเกล̀าฯ = โปรดเกล̀าโปรดกระหมdอม

Criteria for using the symbol <AB>…</AB> with abbreviations are as follows:

● Use <AB>…</AB> with abbreviations, e.g.1 ม.ค. 2551 1| |<AB>ม.ค.</AB>| |2551|เงาะจOานวน 3 ก.ก. เงาะ|จOานวน| |3| |<AB>ก.ก.</AB>|อยrdหdางประมาณ 400 ก.ม. อยrd|หdาง|ประมาณ| |400| |<AB>ก.ม.</AB>|เวลา 09.00 น. เวลา| |09|.|00| |<AB>น.</AB>|โทร. 0-2564-6900 <AB>โทร.</AB>| |0|-|2564|-|6900|

● Use <AB>…</AB> with the marker, then mark the whole string with <NE>…</NE>, e.gPerson

ด.ช. ยอดเยWjยม สดใส <NE><AB>ด.ช.</AB> ยอดเยWjยม สดใส</NE>|พล.อ. สZรยZทธq <NE><AB>พล.อ.</AB> สZรยZทธq</NE>|

Organisationธ.ไทยพาณFชยqให̀ดอกเบWNยสrง

<NE><AB>ธ.</AB>ไทยพาณFชยq</NE>ให̀|ดอกเบWNย|สrง|อบต.สายนาวPงมWพINนทWjเยอะ

<NE><AB>อบต.</AB>สายนาวPง</NE>|มW|พINนทWj|เยอะ|

4 The word “โทร” appears in two cases:1. Used as a noun, it is followed by a period (.) and is considered an abbreviated form of “โทรศPพทq”, e.g.

โทร . 0-2564-69002. Used as a verb, it is not followed by a period (.) and is not considered an abbreviation. Instead, it is

considered a shortened form of “โทรศPพทq”, e.g. เมIjอวานเขาโทรหาฉPน

Page 31: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

27

LocationไปทWjรพ.จZฬาฯ ไป|ทWj|<NE><AB>รพ.</AB>จZฬาฯ</NE>|ไปประชZมทWj สวทช. ไป|ประชZม|ทWj| |<NE><AB>สวทช.</AB></NE>|

● When the abbreviation contains a noun, usually a police or military rank, or is the name of an organisation, put the abbreviation inside <AB>…</AB>, e.g.

Abbreviation for an organisationกร.ทหาร <NE><AB>กร.</AB>ทหาร</NE>|บก.ทหารสrงสZด <NE><AB>บก.</AB>ทหารสrงสZด</NE>|

Abbreviation for a police or military rankตOาแหนdงรอง ผบ.ตร. ตOาแหนdง|รอง| |<AB>ผบ.</AB>|<NE><AB>ตร.</AB></NE>|ตOาแหนdงรอง ปล.กห. ตOาแหนdง|รอง| |<AB>ปล.</AB>|<NE><AB>กห.</AB></NE>|ตOาแหนdงผr`ชdวย ผบช. ตOาแหนdง|ผr|̀ชdวย| |<AB>ผบช.</AB>|

5.3 Symbol <POEM>…</POEM> for Poems

The symbol <POEM>…</POEM> is used to mark poems of any kinds including all versifications, rhymes, folk songs, and other kinds of songs. Again, the symbol “|” must not appear inside <POEM>…</POEM>. The whole poem must be marked <POEM>…</POEM> only once, e.g.

สมเด�จพระเจ`าบรมวงศqเธอ กรมพระนราธFปประพPนธqพงศq ได`ทรงนFพนธqพรรณนาเปiนบทกวW ถวายราชสดZดWไว`ใน เฉลFมเกWยรตFกษPตรWคOาฉPนทq ดPงนWN

สมเดCจพระยอดหญLง ด5ระกรLWงกระเหม.นภNยเม2WยนอมLตร�ประชLดไทT ธสLหวLดจะเส2ยองค�

<NE>สมเด�จพระเจา̀บรมวงศqเธอ กรมพระนราธFปประพPนธqพงศq</NE>| |ได|̀ทรง|นFพนธq|

พรรณนา|เปiน|บท|กวW|ถวาย|ราชสดZดW|ไว`|ใน| |เฉลFมเกWยรตFกษPตรW|คOา|ฉPนทq| |ดPงนWN|<POEM>สมเดCจพระยอดหญLง ด5ระกรLWงกระเหม.นภNยเม2WยนอมLตร�ประชLดไทT ธสLหวLดจะเส2ยองค�</POEM>|

บางครPNงเด�กๆ เลdนกPนอยrdใต`ถZนบ`าน ชPกชวนกPนเลdนลFงชFงหลPก เลdนขายของ อ̀ายเขอ̀̀ายโขงอTายเขTอTายโขง อยz.ในโพรงไมTสNกอTายเขTฟ�นหNก กNดคนไม.เขTา

บาง|ครPNง|เด�ก|ๆ| |เลdน|กPน|อยrd|ใต`ถZน|บ`าน| |ชPกชวน|กPน|เลdน|ลFง|ชFง|หลPก| |เลdน|ขาย|ของ| |อ̀าย|เข`|

อ̀าย|โขง|

Page 32: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

28

<POEM>อTายเขTอTายโขง อยz.ในโพรงไมTสNกอTายเขTฟ�นหNก กNดคนไม.เขTา</POEM>|

ConclusionThese guidelines serve as a manual for the Working Committee to build a large corpus of Thai

with words segmented. This corpus is used to train and test the efficiency of the system for InterBEST 2009 Thai Word Segmentation: an International Episode.

Word segmentation in Thai can be done in many ways. Words may be segmented short or long depending on the application. For example, short word segments are suitable for printing jobs as it is easy to adjust the page layout, and for retrieving information since the hit rate is higher than when long word segments are used. Long word segments are suitable for translation as the focus is on the meaning of the string of words which can be achieved with efficiency and accuracy by long word segments.

InterBEST 2009 Thai Word Segmentation: an International Episode is based on an approach called Minimal Integrity Unit (Aroonmanakun 2007) which sees the smallest linguistic unit as having the integrity in terms of form and meaning. Short word segmentation allows the word to be intervened, separated, or combined with other words for further analysis, if need be. Also, InterBEST 2009 Thai Word Segmentation: an International Episode has taken into consideration the principles of Thai linguistics and linguistic theories in general such as word formation theories, grammatical and communicative functions of words and word origins to offer a most accurate and complete analysis of Thai and to make advances in Thai NLP-related research.

Page 33: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

29

Bibliography

Anchaleenukoon, Sunant. Thai Morphology. [in Thai] 2nd ed. Bangkok: Project of Academic Research Publicity, Faculty of Arts, Chulalongkorn University, 2004.

Aroonmanakun, Wirote. “Thoughts on Word and Sentence Segmentation in Thai” In Proceedings of the Seventh International Symposium on Natural Language Processing (SNLP2007). Pattaya, Chonburi, Thailand, pp. 85 – 90, 2007.

Bandhumedha, Navavan. Thai Grammar. [in Thai] Bangkok: Chulalongkorn University Printing House, 2006.

Kawinpanithan, Amornthip. A computational linguistic study of context clues of proper names in Thai. [in Thai] Master's Thesis, Faculty of Arts, Chulalongkorn University, 2003.

Ministry of Education. Thai Language Institute, Bureau of Academic and Educational Standard, the Office of Basic Education Commission. Thai Language Standard Vol. 2: Words, Word Formation and Word Borrowing. [in Thai] Bangkok: Khurusapha Printing House, Lad Phrao, 2006.

Panupong, Vichin. The Structure of Thai: Grammatical System. [in Thai] Bangkok: Ramkhamhaeng University, 1989.

Prime Minister's Office (the). The Office of National Identity Promotion, The Secretariat of the Prime Minister. Royal Vocabulary. [in Thai] Bangkok: Chalongratana PCL., 1994.

Singnoi, Unchalee. Compound Nouns: Science and Art for Thai Word Formation. [in Thai] Bangkok: Chulalongkorn University Printing House, 2005.

Uppakitsilapasara, Phraya. Thai Language Principles. [in Thai] Bangkok: Thai Watana Panich Press, Co., Ltd., 1991.

Page 34: SEGMENTATION GUIDELINES FOR InterBEST 2009hltshare.fbk.eu/IWSLT2015/InterBEST2009Guidelines-2.pdf · To create word segmentation guidelines for InterBEST 2009 Thai Word Segmentation:

30

Committee drafting the guidelines forInterBEST 2009 Thai Word Segmentation:

an International Episode

AdvisorsChairAsst. Prof. Dr. Wirote Aroonmanakun Chulalongkorn University, Thailand

MembersMrs. Mukda Suktarachan Kasetsart University, ThailandMs. Pacharee Varasrai Kasetsart University, ThailandDr. Thatsanee Charoenporn Thai Computational Linguistics

Laboratory, Thailand

CommitteeDr. Chai Wutiwiwatchai NECTEC, ThailandDr. Krit Kosawat NECTEC, ThailandMs. Kanyanut Kriengket NECTEC, ThailandMs. Monthika Boriboon NECTEC, ThailandDr. Sanooch (Segkhoonthod) Nathalang NECTEC, ThailandMr. Sitthaa Phaholphinyo NECTEC, ThailandMs. Sumonmas Purodakananda NECTEC, Thailand