Pengenalan Kata Berbahasa Indonesia dengan Hidden Markov ... · Pengenalan Kata Berbahasa Indonesia dengan Hidden Markov Model (HMM) menggunakan AIgoritme Baum-Welch ... • Matlab

Pengenalan Kata Berbahasa Indonesia denganHidden Markov Model (HMM) menggunakan AIgoritme Baum-Welch

Agus Buono, Arief Ramadhan, Ruvinna

Departemen llmu Komputer, FMIPA - IPB

Abstract

Speech recognition is the process of converting an acoustic signaJ, captured by a microphone or a telephone, to a set ofII·O/·ds.Speech can be defined as waws of air pressure created by airflow pressed out of the lungs and gOing out through themouth and nasal cavities. The air passes through the vocal fo/ds (chords) via the path from the lungs through the vocal tract,vibrating them at different frequencies. To make 0 computer system reacts as a human being in recognizing a word IS not aneasvtask. A good model is needed to represent the speech signal as the input of the speech system. . .This research used Baum-We/ch training algorithm 10 train IlJf.H as the model of a word The purpose of th IS research IS toimplement HAl,\! using Baum- We/ch training algorithm to recogni:e an isolated word. lI'ords of this research are ranged tnto 2types of svllable: theyare :l svllables and 3 syllables. Speaker of this research is also ranged lilia 2 tratned woman speaker andl Irained men speaker. theretore thrs system is said to be speaker-dependeni. In general this research resulted same 11.\1,\1,.thatrcprescnt specch signal input as all Indonesian word. The best H\f,\f la recogni:e all isolated word IS I/MM IISlIIg 3 hiddenstates that lI'ere trained IIP 10 JOepochs and the best accuracy IS 8J J:l5%.

PENDAHULUANLatar Belakang

Mengenali sebuah kata atau kalimat bukanlah halyang sulit dilakukan bagi manusia, Apalagi katatersebut merupakan 'Bahasa Utama' yangdigunakannya sehari-hari, Berbagai logat ataupuncara bicara tidak menjadi halangan untuk mengenalikata tersebut. Namun pekerjaan ini bukanlah halyang mudah dilakukan oleh sebuah sistem komputer.

Berbagai sistem pengenalan suara atau yangdapat disebut juga A ut omat ic Speech Recognition(ASR) telah banyak dikembangkan di berbagainegara dengan berbagai bahasa. Berikut merupakanbeberapa sistem pengenalan suara yang telahdikembangkan:

• Spoken Dialoque System. sistem yang dapatmelakukan dialog singkat guna mendapatkaninformasi tertentu. Seperti pada seorangcustomer servive, pengguna hanya perlumenjawab 'ya' atau 'tidak' untuk mendapatkaninformasi tertentu.

• Speed Dialing System, sistem yang dapatmengenali sebuah nama atau ID seseorang danmencarinya dalam buku telepon untuk segeradihubungi. Pengguna tidak perlu mencari nomortelepon seseorang. biasanya dalam teleponselular, untuk dapat menghubunginya, namuncukup dengan menyebutkan nama atau ID orangyang akan dihubungi dan system secara otomatismenghubunginya.

32

• Speech 10 Text Translation System, sistem yangsecara otomatis mengetikkan kata-kata yangdiucapkan pengguna.Sistem-sistem tersebut memang telah banyak

dikembangkan, namun kata yang dikenali ialah kataberbahasa Inggris. Oleh sebab itu, pengembangansistem pengenalan kata berbahasa lndonesia perludilakukan mengingat bahasa lndonesia memiliki poladan cara pengucapan yang berbeda dengan bahasaInggris,

Agar sistem komputer dapat mengenali sebuahkata, maka dibutuhkan representasi yang baikterhadap sinyal-sinyal yang masuk berikut perubahanfrekuensinya terhadap rentang waktu tertentu, Hal initidak mudah dilakukan mengingat lndonesiamerupakan sebuah bangsa yang sangat besar denganberbagai ragam suku dan logat atau cara bicara.Kesulitan lainnya ialah sistem tidak dapatmembedakan sinyal suara yang masuk dengan sinyalnoise.

Tujuan PenelitianTujuan penelitian ini ialah menerapkan Hidden

Markov Model (HMM) menggunakan algoritmeBaurn-welch untuk mengenali sebuah kata.

Ruang LingkupAdapun ruang lingkup dari penelitian ini antara

lain:I. Kata-kata) ang digunakan ialah kata berbahasa

lndonesia.

Pengenalan Kata Berbahasa lndonesia dengan Hidden Marl<ov Model (HMM)

2. Penelitian ini terbatas pada pengenalan kata(Isolated word), bukan pengenalan kal imat.

3. Kata yang digunakan sebanyak 40 kata yangdibedakan ke dalam 2 suku kata dan 3 sukukata.

4. Kata yang dikenali harus berasal dari pembicarayang telah terlatih (Dependent speaker).

METODE PENELITIAN

Kerangka PemikiranLangkah-langkah yang dilakukan pada penelitian

ini sesuai dengan apa yang disarankan oleh Jurafskyataupun Rabiner. Namun dilakukan beberapapenyesuaian ) ang diperlukan. Secara umum,langkah-langkah yang dilakukan dalam penelitian inidigambarkan pada Gambar 1 berikut:

________~I--+··;~~·j.-'---T--~

Gambar I Proses Pengenalan Kala.

Studi PustakaStudi pustaka dilakukan guna memahami

langkah-langkah dalam metode yang digunakandalam penelitian ini. Selain itu, perlu dipelajariperkembangan mengenai Signal Processing padaumumnya dan Speech Recognition pada khususnya.agar metode yang digunakan tepat sasaran.Referensi-referensi yang digunakan pada penelitianini dapat dilihat pada daftar pustaka.

Pengambilan Data SuaraPenzarnbilan data suara dilakukan dengan

b •

Frekuensi Sampel (Fs) II KHz selama 5 detik untuksetiap kata, karena menurut Do (/994) frekuensi inidapat meminimalisasi efek alias ing saat konversisinyal analog ke sinyal digital.

Data suara sendiri terbagi dalam 2 macam jumlahsuku kata, yaitu: 2 suku kata dan 3 suku kata.Pemilihan ini dilakukan karena sebagian besar katadalam bahasa lndonesia terdiri oleh 2 atau 3 sukukata. Setiap kelompok kata terdiri/ dari 20 katasehingga total seluruh kata yang digunakan ialah 40kata. Daftar kata yang digunakan dapat dilihat padaTabel) di bawah ini:

Tabel I Daftar Kala

1SIII.II I.al;1 J SIII.II "ala

Alam Aljabar

Bogor Bahasa

Citra Digital

Data Empati

Ganda Fakultas

Hasil Gelombang

llmu Institut

Jumlah Jaringan

Keras Kembali

Lulus Komputer

Matriks Laporan

Nama Metode

Program Nurncrik

Robot Ornamen

Sistem Perangkat

Tcmu Revisiumum Sarjana

Virus Teori

Warna UsahaYakin Wisuda

Sistem ini dibatasi dalam hal pembicaranya(Speaker Dependent). sehingga pembicara hanyaterdiri dari 4 orang. yaitu: 2 orang wanita dan :1orang laki-laki. Setiap Pembicara mengucapkan katadengan pengulangan sebanyak 10 kali untuk setiapkata.

Tempat yang digunakan untuk prosespengambilan suara bersifat hening. karena jenis noiseyang digunakan bersifat Low yaitu di bawah 30 db.Bila Noise yang terdapat pada ruangan terlalu besar.maka hal tersebut akan menyulitkan saat prosespembersihan/cleaning data suara. Selain itu, sangatsulit bagi sistem untuk dapat membedakangelombang suara dengan noise dari lingkungan.

33

Jumal Ilmiah llmu Komputer Edisi 11 Vol.6 No.2 I Desember 2008: 32 - 40

PreprocessingData suara yang terkumpul merupakan data suara

kotor. karena masih terdapat blank atau jeda padaawal atau akhir suara. seperti yang terlihat padaGambar 2 di bawah ini. Data suara tersebutselanjutnya dibersihkan dari blank pada awal atauakhir suara. proses ini disebut sebagai prosespembersihan data.

•••!>ll •.••RA...

NOISE

Gambar 2 Dara Suara Kotor.

Apabila noise yang terdapat pada suara terlalubesar. maka proses pembersihan ini tidak dapatberjalan optimal. Hal ini dikarenakan sistem tidakmampu membedakan lagi antara gelombang suaradengan noise.

Sinval suara berubah secara perlahan seiringdengan berjalannya waktu dan sepanjang itu, sinyalyang dihasilkan akan berubah karakteristiknya sesuaidengan kata yang disebutkan. Berdasarkan penelitianDavis dan Mermelstein (1980) dalam Ganchev(J()05). A1FCC dapat merepresentasikan sinyal lebihbaik dari LPC. LPCC dan yang lainnya, dalampengenalan suara. Oleh sebab itu, penelitian inimenggunakan MFCC FB-.fO untukmerepresentasikan karakteristik sinyal suara. Tujuandari feature extraction 101 ialah untukmerepresentasikan gelombang sinyal yang masuk kedalam vektor-vektor ciri akustik. dimana setiapvektornya merepresentasikan inforrnasi dalambeberapa frame sinyal.

Pada penelitian ini,frame yang digunakan sebe ar30 ms. dimana terjadi over/ap pada setiap framesebanyak 5(J% seperti yang terlihat pada Gambar 3.Hal ini mengingat cara bicara orang lndonesia yangcenderung cepat sehingga frame sebesar 30 msdianggap cukup representatif dalam mencirikansebuah potongan kata. Masing-masing/rame sendirimenghasilkan sebuah vektor ciri yang terdiri dari13 koefisien ccpstral.

34

I ,i Ii I I

I

<.Oi'ap~Y.

/

Gambar 3 Proses Frame Blocking.

Pemodelan KataProses pemodelan kata dibagi dalam 2 tahapan,

yaitu: inisialisasi HMM dan pelatihan HMM

A. Clustering datallnisialisasi Model KataInisialisasi HMAI dimulai dari pengelompokkan

tClustering) Cepstral Coeficients yang telahdidapatkan dari proses ekstraksi fitur di atas .Pertama-tama, vektor ciri suara disatukan menurutkatanya,

{

kata 1 = Ot+I'Ot+2 .:: <o,kata 2 = Ohl'Oh2 .:: ·,OkGabung :

kata N = Ok+I,Ok+2' ... .O;

Pada penelitian ini digunakan 6 macam jumlahstate, mulai dari 3, 4, hingga 8 state HMM untuksetiap katanya. Oleh sebab itu, matriks yangdidapat selanjutnya dikelompokkan menjadi 3. 4.hingga 8 kelompok. Pengelompokan ini digunakanuntuk mendapatkan nilai inisialisasi HMM yang akandilatih.

L JcluSCer 1L Ob1t'rvGSI

rr= L Jduscer 2rObs("rll(1si

r klust" NrObsl'n.lasiE(1-1) E(l-N)

E I-(I-N) E 1-(1-N)

11=[(N-I) [(.'1-.'1)

1:N-(1-N) [N-(I-N}

["'L' 1B =PN:LN

Karena setiap kata dikkelompokkan ke dalam 6macam kelompok. maka setiap kata tersebut akanmemiliki 6 buah inisialisasi HA·!"! Pada penelitianini sendiri. digunakan 40 kata. sehingga hasillnisialisasi H.HM ialah sebanyak 240 macam 1I,\fM

Pengenalan Kata Berbahasa lndonesia dengan Hldden Marlcov Model (HMM)

B. Pelatihan Model kataPelatihan HA,IM dilakukan dengan menggunakan

alzoritrne Baum-Welch dan distribusi Gaussian, Padap;nelitian ini digunakan Algoritme Baum-.We/chkarena menurut Shu, et al. (2003) banyak studi yangtelah membuktikan bahwa algoritme Baum-We/chmampu melatih HUM. untuk sinyal akustik. l~bihbaik dibanding viterbi. Selain itu, Baum-We/ch tidakmemerlukan nilai inisialisasi yang cukup dekat untukmenzhasilkan H.\fM yang baik.

r)istribusi Gaussian yang digunakan ialahDistribusi Gaussian Multivariate. karena setiappada matriks observasi bukan merupakan nilai skal~~melainkan sebuah vektor ciri. Karena terdiriJari 13 koefisien cepstral. maka dimensi (d) yangdigunakan dalam Gaussian Multivariatc ialah 13.

Fungsi Scaling berikut: Cc = N I jugaLi_, ai(C}

diaunakan dalam pelatihan HAlAl Fungsi ini bergunauntuk rnenskalakan nilai Alfa ta) dan Beta ({3) yangdihasilkan agar tidak terlalu kecil sehinggamendekati nol. Langkah-langkah yang dilakukanpada pelatihan HAfAl ini ialah:I, Menghitung nilai dan dengan menyertakan

fungsi Scaling.;1) lorwar«!

Inisialisasi:a,O) = lT,b,(OI)Ci,(l) = (:\ a,O)

Rekursi :N

a,(t + 1) = bj(Oc+\) IUi(t),Cl"i= 1

ii,CC + I) = m~::CsI a,(t + 1)

Terminasi :r

log[P(OIA)1 = - L logec

C=1

b) Back •• (//'dInisialisasi:P,(T) =PI(T) = c, P,(T)

Rekursi :fJ,(t) = l:7=lfJl(t+ l)ai,b,(OC+l)

P,(t) '" m~=c CsI Piet)

") vlenghitung nilai v dan ~,

ai (t)P, (l))',(t) = P(Qc = ilO. A) = L~~1 al(c)p,(t)<, , ( t) = P (Q I = i. Q t + 1 = jlo. ..l)_ aj(t)ajd1i(t + l)bj(OC+l)

- L~~1 l:7=1 ai(t)a,/Pi(t + l)hl(Or+ \)

4, Proses di atas dilakukan hingga didapat nilaiyang dianggap cukup baik.

PengujianPengujian dilakukan dengan membandingkan

hasil kata yang diberikan oleh HMM dengan katayang dimasukkan sebenamya.

Persentase tingkat akurasi dihitung dengan fungsiberikut: h 'I - L kaca yang bena, X 100%.

aSl - L kaca yang diuji

Lingkungan PengembanganPada pengembangan sistem pengenalan suara in i

digunakan perangkat keras dan perangkat lunakdengan spesifikasi berikut:

ai Perangkat Keras• Processor Intel(R) Pentium(R) 4 CPU

~,40GHz• Memori DDR 768 MB• Harddisk 160 G B• Microphone

MonitorKeyboard dan MOl/se

••

hl Perangkat Lunak• Sistem Operasi Windows XP Professional• Matlab 7.0, f

HASIL DAN PEMBAHASAN

Preprocessing Data SuaraData suara yang telah berhasil direkam pada

Frekuensi Sampel (Fs) 11 KHz selama 5 detik untuksetiap kata merupakan data suara kotor, Hal inidikarenakan data tersebut tidak hanya mengandungsebuah kata. namun terdapat pula jeda waktu padaawal dan akhir pengucapan kata, seperti yang terlihatpada Gambar 4 sebelumnya.

Pada tahap preprocessing, data suara dibersihkandari jeda pada awal dan akhir pengucapan katatersebut. sehingga dihasilkan data suara yang hanyamengandung sebuah kata dan memiliki dimensi yangjauh lebih kecil (Gambar 4) Di sisi lain, apabila datasuara mengandung noise yang cukup besar, bisa jadi

35

Jurnal Ilmiah llmu Komputer Edisi 11 Vol.6 No.2 I Desember 2008: 32 - 40

hasil pembersihan kata masih mengandung jeda diawal dan akhir kata. Oleh sebab itu, pada saatperekaman suara. keadaan sekitar harus hening, agartahap preprocessing dapat berjalan sesuai harapan.

Gambar 4 Pembersihan data suara.

Data suara yang telah dibersihkan, selanjutnyadianalisis atau diekstrak ciri-cirinya. Proses inidilakukan dengan menggunakan toolbox yang telahtesedia, yaitu : Auditory Toolbox milik Slaney(1998). Seperti yang telah dijelaskan sebelumnya,pada penelitian ini frame yang digunakan sebesar 30ms, dimana terjadi over/ap pada setiap framesebanyak 50 %, sedangkan Cepstra/ Coeficients-nyaberjumlah 13 untuk setiap frame. Proses di atasmenghasilkan matriks (T x 13) untuk setiap kata,dimana 13 merupakan jumlah koefisien ciri dan Tmerupakan jumlah vektor observasi setiap kata.

lY1Y1Y1Y1Y1Y1Y ...r:••• ~~IIl'CC

iUU.~'UIIIII

. .

l'!I~ .'1~i.4 '·j' ..'l·t'J.a·~·••• 1 •••••••••••••••.•••• , •••••• , •• I •••••••••••••••••••••••

I!.f,'.'I' ",,1 ,""'~~ i'l'

Gambar ~ MFCC data suara.

Baum-We/ch TrainingData yang telah mengalami preprocessing

selanjutnya dibagi ke dalam 2 bagian, yaitu : datalatih (Training) dan data uji (Testing). Masing -masing memiliki jumlah yang sama, yaitu 20 datauntuk setiap katanya. Data latih digunakan untukmelatih seluruh HMM. mulai dari HMM dengan 3Hidden State hingga HMM dengan 8 Hidden State.

Pada proses pelatihan ini. Metode Baum-Welahyang digunakan merupakan Metode Baum-We/chuntuk Multiple Observation Sequences. Prosesperhitungannya sendiri telah dijelaskan sebelumnyadalam metode penelitian. Sebelum data dilatihdengan metode Baum-We/ch, nilai inisialisasi HMMditentukan dengan pengelompokkan K -Means.

36

Model yang telah dilatih selama 5, 10, dan 50epoh, selanjutnya diuji menggunakan data uji. Hasilpengujiannya diukur melalui tingkat akurasi, sesuaiformulasi yang telah dijelaskan sebelumnya. Berikutini merupakan penjelasan mengenai hasil pengujianyang telah dilakukan dengan data uji:

I. Pelatihan menggunakan 3Hidden StateHMM menggunakan 3 Hidden State

menunjukkan kinerja yang sangat baik dibandingkanHMM lainnya, seperti yang ditunjukkan oleh Tabel 2di bawah ini .

. Tabel 2 Hasil Pengujian HMM dengan 3 Hidden State~~~!"f .:;.•..•r?:'~~~~~~ ..~O" .•(;'~,..;:-.~......,.... •.•."...,.,.,..~;Jo•.~.•./~r,~'t1h Q...'-1.~!J~~... , '3 1"~· 1-;J,..Je. ).li:t:~~ru~""" ~•. ~.- . ~..w "'·~:Wo .·l' q;, .'. ! -.. "tt~ ~"!tZ ;1I \' ~1. ' _ JIIo~'S~.,. •••••.~~ ~ •.••'1":'t ~:.ar.". y"., -". '):.

~-:ii't~~l '*"i4'!f'~,~\.'c- "'I:~~4~~Wt4Ii:.t~-.' ..~~r.:t.tfi =-',. t ••..~i;~;i;.,.{;:...•.•1( tt!~ ~~.e.;'1~~~~;""~"'-'lr!'r ...::a> "'11~.~ •.'~_ r, r- ~ ~~)"f' .•.;.,r. <1 •.•.~1("•••• ,1t--: •.•-•.•-t,.f~.••••.~ ••.~.J.iE'} ••.••~~';·1'i,

.••••_~!!.l~~. z:: _l~::~ ..»: ..< ••••.~~~\~,~.-.to~;....d~" '~~~i~~~ loh

5 81.5% 84.5% 83%10 82.75% 83.5% 83.125%50 81.75% 82.25% ! 82%

L .J

Hal ini terlihat dari tingkat akurasi pengujianyang keseluruhannya di atas 80%. Hasil terbaikdicapai oleh pelatihan 3 suku kata selama 5 epoh,yaitu 84.5%. Beberapa kata juga berhasil dikenalihingga 100%, di antaranya kata: Citra, llmu, Lulus,Yakin, Institut, dan Komputer.

Kecenderungan pengaruh epoh tidak terlihat padahasil di atas, khususnya pada pelatihan HMM untuk 2suku kata. Rataan tingkat akurasi terbaik didapat saatpelatihan selama 10 epoh, yaitu: 83.125%. Di lainpihak, pelatihan dengan 5 epoh mencapai rataan83%. dimana waktu yang dihabiskan jauh lebihsedikit dibanding dengan pelatihan selama 10 epoh.Oleh sebab itu, dapat disimpulkan bahwa jumlahepoh tidak mempengaruhi hasil pelatihan HMMdengan 3 hidden state.

2. Pelatihan menggunakan 4 Hidden StateSecara umum persentase hasil pengujian terhadap

data uji dengan HMM yang memiliki 4 Hidden stateditunjukkan pada Tabel 3.

Tabel3 Hasil Pengujian H.\f.\/ dengan 4 Hidden State

5 81.625%80% 83.25%10 80% 82.25% 81.125%50 79.5% 83.25% 81.375%

Berdasarkan tabel di atas, terlihat bahwapelatihan 1!.J..1M dengan 5 epoh menunjukkan kinerja

Pengenalan Kata Berbahasa lndonesia dengan Hidden Markov Model (HMM)

vana terbaik dibandingkan yang lainnya. Selain• ::>

rataan persentase yang lebih tinggi, pelatihan dengan~ epoh ini tidak menghabiskan waktu yang lamaseperti pada pelatihan 10 epoh dan 50 epoh,sehingga kinerja model tersebut dinilai lebih efektifdibanding pelatihan dengan epoh yang lebih tinggi.

Melalui tabel di atas juga terlihat bahwa jumlahepoh tidak terlalu berpengaruh terhadap kinerja akhirH.\fA1 dengan 4 hidden state. Hal ini ditunjukkanoleh kecilnya perbedaan tingkat akurasi yangdihasilkan oleh masing-masing jumlah epoh. Secaraumum. perbedaan tingkat akurasi pada 5. 10 dan 50epoh tidak lebih dari 0.5%. Selain itu. tidak terdapatkecenderungan peningkatan tingkat akurasi padasetiap peningkatan jumlah epoh.

Kata vang memiliki jumlah suku kata 3 jugacenderung lebih mudah dikenal, terlihat dari tingkatakurasi yang lebih tinggi dibanding tingkat akurasipengujian 2 suku kata. Dengan kata lain pengujianterhadap kata dengan jumlah suku kata 3 selama 5epoh menunjukkan hasil yang terbaik denganpersentase mencapai 83.250'0.

3. Pelatihan menggunakan 5 Hidden StatePada pelatihan HMM dengan 5 hidden state

terdapat penurunan tingkat akurasi yang cukupsignifikan dibandingkan dengan model-HMMsebelumnya. Rataan tingkat akurasinya tidak satupunyang herhasil mencapai 80%. Rataan tingkat akurasitertinggi didapat oleh HMM dengan pelatihan selama5 epoh sebesar 79.875%.

Tabel"' Hasil Pengujian HMM dengan 5 Hidden State

50 77.75% 79.75% 78.75%

Bila mengacu pada rataan tingkat akurasi.banyaknya jumlah epoh cukup mempengaruhi hasilpengenalan kata. walaupun nilainya tidak terlalusignifikan. Epoh yang semakin hanyak justrumemperburuk hasil pengenalan kata. Selain itu.waktu yang dibutuhkan untuk pelatihan juga semakinlama, sehingga pada penelitian ini HMM dengan 5hidden state dinilai tidak efektif dalam mengenalikata.

4. Pelatihan menggunakan 6 Hidden StateSama seperti pelatihan HMAI dengan 5 hidden

state. pelatihan HMM dcngan 6 hidden state jugamenghasilkan tingkat akurasi yang kurang baik.

Bahkan bila kita membandingkan antara Tabel 4 dantabel 5, terlihat jelas bahwa HMM dengan 6 hiddenstate lebih buruk dibandingkan HMM dengan 5hidden state. Pada HMM dengan 5 hidden staterataan tingkat akurasi tertinggi, yaitu: 79.875%,dicapai saat jumlah epoh 5, sedangkan pada HMMdengan 6 hidden state rataan tingkat akurasi tersebutbaru dapat dicapai saat epoh telah mencapai 10.

Tabtl5 Hasi; Pengujian HMM dengan 6 Hiddeft SttueI~:;-'~~'.t~:f~~··'·:~'~~·~l{!r;.v-.::;::~~!r;$~~."';';'\'\:':::p,~:__,,;.••·-rk~.!ii:l """~~.!'!'~~""!C' .,'."', ':"-;;'-="" in"11""'-:~l.tP! ..,r' ":'~., ~>'l>;"~;'""~1:.~ll..•.:,f.$~ ~~~~~ ..f""~~...~t:r.;'""':!;..w.-:_ ~~ ........~~t ~~- __....r·~·~.....~~ ':' , ....c.."" <"".,~_~ ~~....~

4~"'Ii·~ e, iii'-i ~ ••.•....•_ .•_'l:r ••.. .aL"Y~.~~_~~J.b-."'\oC.<;;:A~~~~

5 77.5% 80% 78.75%10 78.25% 81.5% 79.875%50 75% 79.5% 77.25%

Berbeda dengan HMM dengan 5 hidden state.model tnl tidak menunjukkan kecenderunganpengaruh jumlah epoh terhadap hasil pengenalankata. Seperti yang terlihat pada Tabel S di bawah,kata bersuku kata 2 maupun 3 dikenali dengan baikoleh HMM ini saat epoh mencapai 10.

5. Pelatihan menggunakan 7Hldden StatePelatihan HMM menggunakan 7 hidden state

untuk kata bersuku kata 3 menghasilkan tingkatakurasi yang sedikit lebih baik dari HMMmenggunakan 5 atau 6 hidden state. Namun secaraumum. model ini pun tidak mampu menghasilkantingkat akurasi yang optimal dibanding HMMlainnya. Tingkat akurasi maksimum didapat saatpelatihan mencapai 5 epoh, yaitu: 78.5%.

Tabel6 /Iasil Pengujian HMM dengan 7Hidd~n State

5 75.25% 81.75% 78.5%10 75.5% 81% 78.25%

Pada tabel 6 di atas terlihat bahwa pelatihanhanya dilakukan hingga 10 k.ali epoh, sedangkanpelatihan hingga 50 epoh tidak dilakukan. Hal ini,dikarenakan waktu yang dibutuhkan untuk melatihmodel ini sangatlah lama. sehingga pelatihan hanyadilakukan hingga 10 kali epoh. Selain itu, padapelatihan HMM yang sebelumnya terlihat bahwapeningkatan jumlah epoh tidak meningkatkanpersentase tingkat akurasi.

Pada tabel di atas juga terlihat bahwa

37


peningkatan jumlah epoh pada pelatihan HMM untuk.3 suku kata menurunkan tingkat akurasi pengenalankata. Di lain pihak, pelatihan HMM untuk 2 sukukata mampu meningkatkan tingkat akurasipengenalan kata, walaupun jaraknya tidak cukupsigni fikan.

6. Pelatihan menggunakan 8Hidden StateSama seperti pelatihan HMM menggunakan 7

hidden state, pelatihan HMM dengan 8 hidden statejuga hanya dilakukan hingga 10 kali epoh. Hal ini,dikarenakan waktu yang dibutuhkan untuk melatihmodel ini jauh lebih lama dibanding pelatihan HMMsebelumnya.

Tabel 7 di bawah ini juga menunjukkan hasilyang tidak jauh berbeda dengan HMM menggunakan7 hidden state. Selain tidak adanya kecenderunganpengaruh perubahan jumlah epoh terhadap tingkatakurasi pengenalan kata, model mi jugamenghasi Ikan rataan tingkat akurasi terendahdibanding HMM sebelumnya. Tingkat akurasipengenalan kata yang dihasilkan oleh pelatihanselama 5 ataupun 10 kali epoh menghasilkanpersentase sebesar 77 .125%.

Tabel 7 llasil Pengujian IIMM dengan 8 Hidden State

5 73.25% 81% 77.125%

10 74% 80.:25% 77.125%

Hasil Pengenalan KataDari penjelasan-penjelasan sebelumnya dan

dengan melihat hasilnya secara umum pada Gambar6, hasil pengenalan kata bersuku kata 2 tidakdipengaruhi olch banyaknya jumlah epoh yangdilakukan. Perbedaan hasil pengenalan kata ini lebihdipengaruhi oleh banyaknya jumlah state. Secaranyata terlihat bahwa penambahan jumlah statemampu menurunkan presentase hasil pengenalankata. Tingkat akurasi terbaik untuk pengenalan katabersuku kata 2 ialah 82.75%. dimana model tersebutmenggunakan 3 hidden state dan dilatih hingga 10kali epoh.

Serupa dengan hasil yang didapat olehpengenalan kata bersuku kata 2. pengenalan katabersuku kata 3 juga lebih banyak dipengaruhi olehbanyaknya jumlah state. Hasil pengenalan kataterbaik didapat oleh HMM menggunakan 3 hiddenstate dengan pelatihan selama 5 epoh, yaitu: 84.5%.Pada Gambar 7, terlihat kecenderungan penurunantingkat akurasi terkait dengan penambahan jumlah

38

I 84.00%-' --------.=82.00% ~

1

80.00%78.00% ..:...'--76.00% " -.----------'

,-- .__ ....A!L..~~ ••• __

i74.00%

172.00%I 70.00%168.00%I

i1L- ~

-: ------- ---------------- ..••••••••• - •• • ..........- ----: __ M ••

3 State 4 State S State6 State 7 State 8 State

-+-Sepoch _lOepoch ..••..... SOepoch

Gambar 6 Grafik Hasil Pengenalan Kala Bersuku Kata 7.

state. Pada beberapa titik peningkatan hasilpengenalan kata terjadi dengan cukup signifikan,namun tidak cukup mengubah kecenderunganpenurunan hasil pengenalan kata. Grafik di bawahjuga semakin menegaskan tidak adanya pengaruhjumlah epoh terhadap hasil pengenalan kata.

Pada penelitian ini, Hasil terbaik didapat olehHMM menggunakan 3 hidden state dengan pelatihanselama 10 kali epoh sebesar 83.125%, Penelitiansebelumnya yang dilakukan oleh Yani (2005jdihasilkan HMM terbaik dengan tingkat akurasi70.56%. Selain itu, penelitian sebelumnya hanyamenggunakan 20 kata, sedangkan penelitian inimenggunakan hingga 2 kali lipatnya, yaitu 40 kata.Dengan kata lain, pelatihan HMM berbasis suaramenggunakan algoritme Baum-We/ch dinilai lebihbaik dibanding pelatihan menggunakan pelatihanViterbi. Selain itu, ia juga dapat meningkatkantingkat akurasi pengenalan kata.

r···----··----·----·------ ----~-I 85.00% . I

I 84.00% - -183.00%

182.00%I 81.00%180.00%I 7~.OO°1v/78.00%i 77.00%I

.- -- - - i

3 St<1te4 State 5 State6 State 7 State8 State-+-Scpoch .•.••• 10epoch -,r-SOepoch

Gambar 7 Crafik Hasil Pengenalan Kala Bersuku Kata J

Grafik pada Gambar 8 memperlihatkankecenderungan bahwa peningkatan jumlah state

Pengenalan Kata Berbahasa lndonesia dengan Hidden Markov Model (HMM)

secara umum menurunkan hasil pengenalan kata. Halini bisa saja disebabkan oleh terlalu banyaknyajumlah state yang dapat mengurangi perbedaan atauvariance antar state itu sendiri. Pada saat prosespengenalan kata. sistem tidak mampu membedakansetiap observasi yang masuk dan memberikan bobot~ang serupa untuk setiap observasi yang masuk.karena perbedaan antar state itu sendiri tidak terlalujelas. Hal ini menyebabkan sebuah kata dapatdianggap sebagai kata lainnya walau sebenamyakeduany a sangat berbeda. karena bobot yangdiberikan hampir sama.

S "->

8"'·~O

80""

78V•

3 St •..•Ie <l SI,1\(' 5 State 6 State 7 Stak 8 St,Hl'

Cambar R (iro/iI.. l las)! l'envenalan Seluri.h ""<1/<1

KESIMPU LAN DAN SARAN

Kesimpu la II

Dari penelitian ini dihasilkan beberapa HMM: ang merepresentasikan sinyal uara yang masukmenjadi sebuah kata berbahasa lndonesia HAI\-!terbaik untuk pengenalan kata bcrsuku kata 2 ialahflM~f menggunakan 3 hidden state dan dilatihhingga 10 kali epoh Iingkat akurasi 1l!r1inggi )angdidapat untuk pengenalan kata bersuku kata 2 ialahsebesar 82.7:'00 dan tingkat akurasi terendah nyasebesar 73.2:'00. Demikian halnya dengan HA1lduntuk kata bcrsuku kata 3. tingkat akurasi terbaikjuga didapat oleh Hlf.\! menggunakan 3 hiddenstate. namun pelatihan ;.ang dilakukan cukup dengan:' kali epoh. Pengenalan kata untuk kata bersuku kata-' secara umum lebih baik dari pada pengenalan katabersuku kata 2. Hal ini terlihat dari tingkat akuravi: ang didapat keduany a. dimana tingkat akurasiterbaik untuk kata bersuku kata 3 mencapai 84.:'000,-cdangkan tingkat akurasi tcrendahnx a sebesar-9.50°0. .

Secara umum f/.1·fJf terbaik y ang dihasilkan ialahH.lf.\! menggunakan 3 hidden state :ang telah dilatihselama 10 cooh. dimana tingkat akurasinya mencapaiR~.1~5°o. Oi sisi lain. HAfJ! ~ang menggunakan 8

hidden state menghasilkan rataan tingkat akurasiterburuk. yaitu: 77 .125%.

Berdasarkan hasil yang telah dijabarkansebelumnya. terlihat bahwa jumlah epoh pelatihantidak mempengaruhi tingkat akurasi pengenalan kata.Begitupun jumlah suku kata tidak mempengaruhijumlah state yang harus digunakan.

SaranPada dasarnya. penelitian ini masih sangat

memungkinkan untuk dikembangkan lebih lanjut.Pembatasan noise dan jumlah kata yang digunakanpada penelitian ini membuat sistem) ang dihasilkanbelum memungkinkan untuk lar.gsung digunakandalam kondisi nyata. Selain itu. penelitian ini belummembahas lebih lanjut mengenai pengaruhpreprocessing data suara terhadap hasil pengenalankata, khususnya pengaruh jumlah CepstralCoefficients sebagai hasil AfFCC.

DAFTAR PliST AKA

Allen. J. F. 2007. An Overview of SpecchRecognition.\\\\w.cs.rochestl.:r.l.:dll u james CSC~·~8'l~1~"rQr. 12 Oktober 20071

..J/- .'Jka idi. .I!. }()(r Fracral Specch Processing.Cambridge University Press.

DI/guci. R. dan Desai. C. IJ. /9W5. ri Tutorial 10

Hidden Markov Models. Indian Institute ofI echnology, India.

Do, ;\!S /99-1. DSr Mini-Project:All Automatic Speaker Rccognition System.httR:' www.ifb.uiuc.eduz- minhdo 'teaching/spea~er recognition.doc. [JO Mei 20071

(;,/IIc!/L"'. t. D. ~O(}5. Speaker Rccognition.Ulli\rr~il) of Patras. Grcece.-----~

Jackson. r _'00-1. HMM Tutorial 4.http: www.ce.surrcy.ac.uk·Personal.P.Jackson·tutor ial 'hmm tu.!:!J2Qf [S Mei 2007 J

Jelinek. F. 1995. Training and earch Methods forSpeech Recognition. Proc. Natl. Acad. Sci. USA.Vol. 92. pp. 99M-9969.0ctober 1995.

.lurafskv; D. dan Marun. J H }()(r. An Introductionto Natural l.anguage Processing. CornputationalLinguistics, and Speech Recognition. Second[dition. [2 Oktober 20071

Rabiner, L R. 1989. A Tutorial in H idden MarkovModels and Sclccrcd Applications in Spccch

39

http://www.ifb.uiuc.eduz-


Recognition. Proc. JEEE. vol. 77. pp. 257-287.February 1989.

51/111. H. ~003. Baurn-Welch Training forSegrnent-Based Speech RecognitionMassachussets Institute of Technology. USA.,

• IYani. M. 1005. Pengembangan model markov

tersembunyi untuk pengenalan kutu berbahasa

40

lndonesia. Skripsi. Departemen llmu Komputer,FMJPA, Institut Pertanian Bogor.

Young. 5.. ~ 200 I. HTK Book. CambridgeUniversity Engineering Department.

Zue. V.. ~.. 2007. Speech Recognition.hlfp:/lcslu. cse. ogi. edul HLTsurvevlch / node4. htm/./JO Mei 2007}

Documents

Pengenalan Kata Berbahasa Indonesia dengan Hidden Markov ... · Pengenalan Kata Berbahasa Indonesia dengan Hidden Markov Model (HMM) menggunakan AIgoritme Baum-Welch ... • Matlab