1lintang.staff.gunadarma.ac.id/Downloads/files/4313/... · Web viewADAPTASI SISTEM PENGENALAN UCAPAN BAHASA INGGRIS KE DALAM SISTEM PENGENALAN UCAPAN BAHASA INDONESIA BAKU MENGGUNAKAN

Proposal Research Grant – TPSDP Tahun Ke-4 – Dirjen DIKTI Depdiknas Republik Indonesia

1. JUDUL PROYEK PENELITIAN

ADAPTASI SISTEM PENGENALAN UCAPAN BAHASA INGGRIS KE DALAM SISTEM PENGENALAN UCAPAN BAHASA INDONESIA BAKU MENGGUNAKAN PENDEKATAN BOOTSTRAPPING TERMODIFIKASI

ADAPTING ENGLISH SPEECH RECOGNITION SYSTEM INTO INDONESIAN STANDARD LANGUAGE SPEECH RECOGNITION SYSTEM USING MODIFIED BOOTSTRAPPING APPROACH

2. PENDAHULUAN

Sistem pengenalan ucapan pada dasarnya merupakan sistem yang mendengarkan ucapan seseorang dan membandingkan ucapan tersebut dengan data kata-kata atau frase yang telah disiapkan sebelumnya agar diperoleh data kata yang paling mendekati tepat dengan ucapan yang diterima. Kedengarannya memang mudah, namun banyak hal yang perlu disesuaikan dengan budaya bahasa manusia, sehingga muncul banyak tantangan yang dihadapi agar sistem pengenalan ucapan memberikan kinerja yang baik, terutama pengolahan data yang cepat dan akurat. Kecepatan dan keakuratan sistem pengenalan ucapan seharusnya mampu menyesuaikan diri dan membentuk interaksi manusia dan komputer seperti layaknya percakapan alamiah sesama manusia [1].

Didalam dunia bahasa, banyak terdapat kasus-kasus ambiguitas yang masih sulit diproses oleh komputer. Ambiguitas tersebut muncul pada tingkat yang berbeda-beda, mulai dari simbol (misalnya simbol titik), kata, frasa, bahkan kalimat. Beberapa penelitian telah berusaha memecahkan masalah bahasa ini. Penelitian tersebut mencoba dari berbagai sudut pandang atau gabungannya.

Para peneliti telah mencoba memecahkan masalah-masalah bahasa pada penerapannya di sistem pengenalan ucapan. Pemecahan dilakukan dengan sudut pandang global, seperti pengembangan sistem pengenalan multi-bahasa yang diharapkan mampu memecahkan masalah semua bahasa. Hal ini telah dilakukan oleh [2,3,4,5,6,7]. Telah diteliti pula penerapan sistem pengenalan ucapan pada FPGA [8], yang sangat mungkin dibangun pada sistem tertanam (Embedded System). Bahkan beberapa peneliti mencoba mengadopsi data fonem satu bahasa ke bahasa lain dikarenakan belum tersedianya data fonem pada bahasa yang bersangkutan. Diantara para peneliti ini adalah Kumar [9] yang mengembangkan pengenalan ucapan Bahasa India dan Yuen [10] yang mengembangkan pengenalan ucapan Bahasa Cina. Kedua peneliti menggunakan pendekatan bootstrapping dalam membuat data fonem baru untuk bahasa yang belum memiliki atau belum lengkap data fonem dan data pelatihannya. Keduanya mempunyai maksud yang sama yaitu mempercepat pengembangan sistem pengenalan ucapan, tanpa direpotkan dengan pelatihan data kosakata yang begitu besar jumlahnya.

Sementara itu, bahasa Indonesia sampai saat ini belum diimplementasikan ke dalam sistem pengenalan ucapan, tidak seperti bahasa negara maju. Ketertinggalan ini dapat dimengerti karena memang tingkat kesulitannya tinggi, baik dalam pengembangan sistem pengenalan ucapan maupun ketersediaan data dan struktur bahasa itu sendiri. Walaupun demikian, tidaklah perlu berpangku tangan, berbagai langkah untuk pengembangan sekecil apapun dalam upaya meningkatkan kualitas bahasa akan berdampak positif secara luas pada bidang lain.

Tim Pengusul : Lintang Yuniar Banowosari, Nurul Huda, Wahyu Kusuma Raharja Hal 1 dari 17


Oleh karena itu, peneliti mulai menerapkan wacana penelitian di bidang sistem pengenalan ucapan bahasa Indonesia dimulai dari titik awal dengan melihat aspek pemetaan fonem seperti yang dilakukan oleh Kumar dengan memodifikasi pendekatan bootstrapping. Disamping itu, hal ini sangat sesuai dengan kondisi bahasa Indonesia yang belum menyiapkan data fonem dan data pelatihan khusus untuk sistem pengenalan ucapan bahasa Indonesia.

2.1 Perumusan Masalah

Penelitian ini termasuk pada Kelompok Penelitian Intelijensi Buatan dan Sistem Pakar. Bidang ilmu yang erat terkait pada penelitian ini diantaranya adalah Pengolahan Sinyal Digital, Sistem Kendali, Statistika dan Linguistik.

Penelitian ini akan mengkaji masalah-masalah yang berhubungan dengan pengembangan sistem pengenalan ucapan dengan obyek Bahasa Indonesia menggunakan pendekatan bootstrapping. Masalah-masalah tersebut adalah sebagai berikut :

1. Bagaimana mengembangkan secara cepat prototipe suatu sistem pengenalan ucapan Bahasa Indonesia dengan memanfaatkan sistem pengenalan ucapan Bahasa Inggris yang sudah ada.

2. Bagaimana merancang pemetaan antara fonem Bahasa Indonesia dengan fonem Bahasa Inggris.

3. Bagaimana merancang algoritma penyesuaian akibat perbedaan fonem Bahasa Indonesia dan Bahasa Inggris untuk membangun notasi fonem Bahasa Indonesia.

2.2 Tujuan Penelitian

Penelitian ini mempunyai tujuan sebagai berikut :1. Agar terbangunnya prototipe sistem pengenalan ucapan bahasa Indonesia

menggunakan pendekatan bootstrapping yang dimodifikasi untuk penyesuaian pemetaan antara fonem Bahasa Indonesia dengan fonem Bahasa Inggris.

2. Tercapainya hasil pengujian yang memenuhi kriteria “baik” terhadap algoritma penyesuaian untuk menyelaraskan notasi fonem hasil pemetaan menjadi notasi fonem Bahasa Indonesia baku.

2.3 Batasan Penelitian

Penelitian ini dibatasi pada beberapa spesifikasi yang dijekaskan berikut ini.1. Sistem pengenalan ucapan Bahasa Inggris yang diadaptasikan berupa

paket program berbasiskan open source.2. Pengembangan sistem pengenalan ucapan Bahasa Indonesia mengacu

pada kaidah Bahasa Indonesia baku.3. Fonem Bahasa Indonesia mengacu pada kamus Bahasa Indonesia dan

kamus terjemahan Bahasa Indonesia – Inggris.4. Fonem Bahasa Inggris mengacu pada International Phonetic Alphabet

(IPA).5. Prototipe sistem pengenalan ucapan yang dibangun hanya ditujukan

sampai pada notasi fonem Bahasa Indonesia.

3. TINJAUAN PUSTAKA



Bagian ini menjelaskan tentang konsep sistem pengenalan ucapan, beberapa masalah penting pada pengenalan ucapan dan penelitian pengembangan sistem pengenalan ucapan yang dijadikan sebagai acuan untuk penelitian ini.

3.1 Konsep Sistem Pengenalan Ucapan

Pengenalan Ucapan yang dimaksudkan disini dalam istilah bahasa Inggris adalah Speech Recognition. Pengenalan Ucapan merupakan suatu proses dimana suatu komputer atau suatu jenis mesin mampu mengidentifikasi kata yang diucapkan seseorang. Gambaran mudahnya, seperti layaknya seseorang berbicara dengan komputer dan komputer mampu mengenali apa yang sedang dikatakannya.

Pada umumnya, Sistem Pengenalan dan Sintesis Ucapan dibentuk dengan proses seperti tampak pada Gambar 1 berikut ini [11].

Gambar 1. Model Sistem Pengenalan dan Sintesis UcapanGambar disadur dari [11]

Gambar 1 menjelaskan adanya hubungan antara dua entitas yaitu manusia dan komputer. Manusia mengucapkan suatu kata, kemudian dilakukan proses Recognition. Proses Recognition mengubah ucapan manusia, dalam hal ini Speech, menjadi bentuk yang dimengerti oleh komputer dan menghasilkan suatu data berupa Text. Text ini belum memberikan pengertian sehingga diperlukan proses berikutnya yaitu Understanding. Proses inilah yang menganalisis Text menjadi sesuatu yang memiliki arti secara simantik.

Proses Synthesis membangkitkan suara sintetik hasil dari pengolahan komputer. Proses ini memerlukan bahan Text yang biasanya hasil pengembangan dari pengetahuan, dalam hal ini Meaning, yang telah disiapkan sebelumnya oleh manusia. Proses Synthesis pada umumnya lebih mudah dibanding proses Recognition. Seperti yang diungkapkan [1,12].

Lebih mendalam, proses Pengenalan Ucapan diselesaikan melalui beberapa tahap seperti tampak pada Gambar 2 berikut ini [11].



Gambar 2. Proses Pengenalan UcapanGambar disadur dari [11]

Pada Gambar 2, Speech Signal direkam oleh komputer. Hasil rekaman sinyal ini dianalisis oleh proses Representation. Analisis representasi disesuaikan dengan data referensi yang telah disiapkan sebelumnya pada Training Data. Penyesuaian ini dilakukan dengan berbagai metode normalisasi dan filter agar dapat diperoleh hasil yang mempunyai format yang sama dengan Training Data. Hasil Representasi kemudian dibandingkan pada proses Search dengan data dari Training Data dengan menerapkan beberapa model, baik hanya satu model atau gabungan beberapa model dari Acustic, Lexical atau Language Model. Proses perbandingan ini ditujukan untuk memilih “Kata” yang paling mendekati tepat (Recognized Words). Keseluruhan proses pada Gambar 2 tersebut akan diulang untuk mengolah ucapan berikutnya.

Khusus pada bagian Training Data, data perlu disiapkan sebelum adanya implementasi dari Sistem Pengenalan Ucapan. Proses yang digunakan untuk menyediakan data dilakukan dengan pengumpulan data. Tidak sekedar dikumpulkan saja, namun juga dilakukan proses pelatihan agar didapat pengolahan data yang cepat dalam pencariannya. Pelatihan dilakukan dengan menerapkan Jaringan Syaraf Tiruan.

Secara teknis, Sistem Pengenalan Ucapan dapat dijabarkan menggunakan contoh seperti pada Gambar 3 berikut [11].

Gambar 3. Contoh Penjabaran Teknis Sistem Pengenalan Ucapan



Gambar disadur dari [11]

Sumber sinyal yang berasal dari ucapan seseorang, dinyatakan sebagai Speech Waveform pada Gambar 3. Sumber sinyal ini kemudian dicari ciri pentingnya yang dapat membedakan antara satu sinyal dengan sinyal lain. Pengungkapan ciri dilakukan dengan pengolahan sinyal.

Terdapat banyak cara dalam melakukan pengolahan sinyal untuk pengungkapan ciri, diantara yang terkenal adalah :

Mel Frequency Cepstral Coefficients (MFCC). Analisis Transformasi Fourier menghasilkan frekuensi diskrit terhadap waktu dan dapat ditampilkan gambarnya. Biasanya nilai frekuensi dinyatakan menggunakan skala Mel, dimana skala skala ini linier untuk rentang dibagian yang rendah dan berbentuk logaritmik pada rentang bagian tinggi. Hal ini sesuai dengan karakteristik pendengaran manusia. Koefisien Sepstral frekuensi-Mel inilah yang dijadikan ciri.

Linear Predictive Coding (LPC). Cara ini menghasilkan koefisien dari persamaan linier yang memperkirakan nilai data ucapan beberapa saat terakhir. Vektor koefisien inilah yang dijadikan ciri.

Hasil dari pengolahan dan analisis sinyal adalah deretan vektor ciri ucapan, dinyatakan sebagai spectral feature vector pada Gambar 3. Vektor-vektor ini dilatih menggunakan Jaringan Syaraf Tiruan. Pelatihan dimaksudkan agar pemrosesan vektor dapat dilakukan dengan cepat. Hasil dari pelatihan berupa deretan fonem-fonem yang membentuk data ucapan. Pemodelan fonem ini menggunakan model akustik Hidden Markov Model (HMM).

Proses pencarian kesamaan data fonem dilakukan dengan menggunakan Grammar N-Gram dan dikodekan kembali menggunakan algoritma Viterbi. Proses ini melihat nilai total penjajaran terbaik. Dari penjajaran ini diperoleh deretan kata yang terpilih dan diasumsikan yang paling benar, tampak hasil “I need a” pada Gambar 3.

3.2 Masalah-Masalah Penting Pada Sistem Pengenalan Ucapan

Pada kenyataannya, Sistem Pengenalan Ucapan sampai saat ini masih perlu meningkatkan beberapa hal guna memperbaiki kinerjanya, terutama masalah akurasi. Dalam thesis [13] disebutkan beberapa masalah mengapa sulit menigkatkan akurasi. Masalah tersebut dijelaskan sebagai berikut.

1. Semakin besar ukuran kosakata, semakin tinggi kesalahan dalam pengenalan ucapan. Sebagai contoh, 10 digit dari “nol” sampai “sembilan” dapat dengan mudah dikenali [14]. Tetapi dengan meningkatnya ukuran vocabulary menjadi 200, 5000, atau 100000 maka bisa terjadi rata-rata kesalahan 3%, 7%, atau 45% [15,16,17]. Sementara itu, setiap bahasa mempunyai huruf ketika diucapkan sulit untuk dibedakan. Sebagai contoh huruf C, D, J dalam kasus Bahasa Indonesia.

2. Tingkat ketergantungan kepada pembicara. Sistem pengenalan ucapan Speaker Dependence hanya ditujukan untuk pembicara tunggal. Sedangkan Speaker Independence ditujukan untuk siapapun. Jenis Speaker Independence sulit untuk dilakukan karena parameter suatu sistem pengenalan ucapan biasanya dilatih menggunakan Speaker tertentu, yang sangat spesifik ucapannya. Hasil penelitian [18]



menunjukkan bahwa Speaker Independence mempunyai kesalahan rata-rata 3 sampai 5 kali lebih besar dibanding Speaker Dependence.

3. Penggalan ucapan. Isolated Speech berarti ucapan kata tunggal. Discontinuous Speech berarti satu kalimat penuh tetapi kata dipilah berdasarkan keadaan diam (silence). Continuous Speech berarti ucapan kalimat secara alamiah. Isolated dan Discontinuous Speech relatif lebih mudah karena penggalan kata dapat dikenali dan kata per kata dapat diucapkan lebih “bersih”. Sedangkan Continuous Speech lebih sulit dilakukan karena tidak diketahui penggalan kata dan juga dipengaruhi oleh artikulasi gabungan kata.

4. Persyaratan bahasa. Berbagai pekerjaan sulit untuk dilakukan bilamana tidak memenuhi syarat-syarat penggunaan bahasa. Termasuk didalamnya adalah Sintaks, Simantik dan Grammarnya. Sebagai contoh, query terhadap jasa penerbangan dengan pernyataan ‘Pesawat itu berwarna merah’, diterima oleh Sintaks, Simantik maupun Grammar. Sedangkan pernyataan ‘Pesawat itu sedang marah’, diterima Sintaks dan Grammar tetapi ditolak oleh Simantik. Sehingga, semua struktur bahasa perlu ditinjau dalam membangun sistem pengenalan ucapan.

5. Ucapan Spontanitas. Sistem pengenalan ucapan dapat ditinjau dari pembicara yang sedang membaca skrip atau berbicara secara spontan. Pembicaraan spontan seperti emm, uh, e dan lain-lain, lebih sulit dikenali.

6. Kondisi lingkungan. Kinerja sistem pengenalan ucapan dapat juga diuji melalui lingkungan alamiah yang terdapat banyak interferensi, derau dan lain-lain. Sehingga usaha untuk dapat mengenali ucapan dari pembicara yang dimaksudkan dengan suara bersih telah banyak diteliti dengan berbagai metode. Diantaranya, penghilangan derau, penggandaan mikrofon, pembatasan lebar pita frekuensi, dan perubahan gaya ucapan.

Bahkan [19] menyebutkan kelemahan Sistem Pengenalan Ucapan yang mendasar, yaitu bahasa pembicaraan akan lebih efektif bila digunakan antar manusia dan akan mempunyai banyak kekurangan bila diterapkan pada interaksi antara manusia dengan komputer. Hal ini diakibatkan oleh lambatnya komputer merepresentasikan informasi dan sulitnya melakukan review dan edit. Sehingga perancangan Sistem Pengenalan Ucapan harus mengerti tentang acustic memory dan prosody.

3.3 Penelitian Acuan

Penelitian yang akan dilakukan penulis mengacu pada metode pengembangan sistem pengenalan ucapan standar yang secara umum banyak digunakan pada berbagai penelitian sebelumnya, seperti telah dijelaskan pada Subbab 3.1. Tahap pertama adalah penyediaan Data Terlatih yang dijadikan referensi untuk proses perbandingan sesuai dengan Model Data yang digunakan. Tahap kedua adalah penentuan Model Akustik, Model Bahasa dan Model Lainnya yang digunakan dalam persyaratan bahasa. Tahap ketiga adalah proses perbandingan antara ucapan yang diolah terhadap Data referensi menggunakan ciri-ciri Model yang diterapkan. Hasil yang diharapkan adalah kata yang diucapkan seseorang dapat dikenali dengan benar berdasarkan Data referensi yang ada.

Penelitian yang akan penulis lakukan menggunakan teknik-teknik yang dilakukan pada penelitian Kumar. Kumar bersama dua rekannya meneliti tentang pengembangan Large Vocabulary Continuous Speech Recognition System (LVCSR) untuk bahasa India [9]. Para peneliti ini mempunyai kerangka penelitian sebagai berikut :



Pemodelan Akustik dilakukan dengan mengadopsi data Phone Set bahasa Inggris yang terdapat di International Phonetic Alphabet (IPA) untuk pemodelan Phone Set bahasa India menggunakan pendekatan Bootstrapping.

o Bootstrapping dilakukan dengan penjajaran data ucapan bahasa tujuan.Ide baru yang dimunculkan berbentuk modifikasi Bootstrapping, yaitu dilakukan dengan menambahkan lexeme context comparator dengan tujuan supaya data ucapan bahasa tujuan yang mempunyai fonem yang mirip dan mempunyai arti berbeda dapat diketahui bedanya dengan jelas. Konsep ini tampak pada Gambar 4.

Gambar 4. Penjajaran Data Bahasa Tujuan Gambar disadur dari [9]

o Pemetaan fonem didefinisikan menggunakan pengetahuan linguistik dari kedua bahasa. Pemetaan ini dibagi ke dalam 3 kategori. Kategori pertama, Pemetaan Tepat (exact mapping) untuk kondisi kedua bahasa mempunyai fonem yang benar-benar sama. Kategori kedua, Penggabungan (Merging) untuk kondisi beberapa fonem bahasa tujuan mempunyai suara berasal dari beberapa fonem bahasa sumber. Kategori ketiga, Aproksimasi untuk kondisi beberapa fonem bahasa tujuan sama sekali tidak terdapat didalam fonem bahasa sumber. Peningkatan kinerja pemetaan dilakukan dengan metode pengukuran kesamaan fonetik. Hal ini dilakukan dengan mengukur jarak diantara fonem-fonem yang terdapat didalam domain MFCC dengan rumus sebagai berikut.

dimana vi menyatakan vektor MFCC 24-Dimensi yang dimiliki oleh dan m adalah rata-rata vektor yang bersesuaian dengan Lihat Gambar 4 untuk mengetahui arti simbol-simbol pada rumus ini.

Pemodelan Bahasa dilakukan dengan membuat Bentuk Dasar bahasa (Baseform) dengan teknik pendekatan Hybrid yang menggabungkan pendekatan Basis Aturan (Rule-Based) dan pendekatan Statistik.

o Pendekatan Berbasis-Aturan digunakan untuk membuat semua kemungkinan Bentuk Dasar kata. Penelitian ini menerapkannya



pada kasus aturan yang sederhana dan mudah diturunkan tanpa pengetahuan linguistik yang mendalam.

o Pendekatan Statistik digunakan untuk menyelesaikan kasus aturan yang kompleks dan kasus yang terdapat keraguan didalamnya.

Percobaan dilakukan dengan beberapa parameter sebagai berikut.o 24-Dimensi MFCC sebagai vektor ciri dari data ucapan. 4 vektor

sebelum dan sesudah vektor MFCC digabungkan dan vektor yang digabungkan ini dianalisis menggunakan Linear Discriminant Analysis (LDA) agar dimensi vektor ciri dapat diturunkan dari 24x9 menjadi 60 dimensi.

o Model akustik diterapkan menggunakan Hidden Markov Model (HMM).

o Model akustik telah dilatih selama lebih dari 200 jam dan menggunakan data ucapan lebih dari 500 pembicara.

o Sistem pengenal ucapan yang digunakan adalah ViaVoice dari IBM.o 12350 kata dibuat oleh ahli bahasa. Sebanyak 11510 kata

digunakan untuk pelatihan dan 840 kata untuk pengujian sistem.

Hasil yang diperoleh dari penelitian tersebut adalah sebagai berikut : Pemetaan yang telah dimodifikasi menghasilkan peningkatan relatif 13%

pada kecepatan klasifikasi. Penambahan Lexeme-Context Comparator mempercepat pembuatan data

label untuk bahasa tujuan. Dibuktikan hasilnya dengan peningkatan rata-rata klasifikasi sebesar 23,82% dibanding tanpa Lexeme-Context Comparator.

Pada pembuatan Bentuk Dasar, pendekatan statistik (85,38%) memberikan peningkatan lebih besar dibanding pendekatan Berbasis-Aturan (68,51%).

Salah satu kelebihan utama yang dihasilkannya sesuai dengan arah penelitian ini adalah peningkatan kecepatan dalam penyediaan model fonem, yang dilakukan dengan modifikasi pendekatan Bootstrapping. Hal ini sangat sesuai untuk bahasa-bahasa baru yang belum mempunyai Training Data dan data Fonem khusus untuk sistem pengenalan ucapan, termasuk bahasa Indonesia.

Melihat kenyataan bahwa hasil penelitian tersebut memberikan peningkatan kinerja sistem pengenalan ucapan, maka penulis mengadopsi teknik-teknik yang digunakan sesuai dengan Batasan Penelitian yang dijelaskan pada Subbab 2.3.

4. METODE PENELITIAN

Pada bab ini akan dijelaskan tentang kerangka penelitian, modifikasi bootstrapping yang diajukan, metodologi penelitian dan penurunan topik penelitian strata satu yang akan digunakan.

4.1 Kerangka Penelitian

Kerangka penelitian yang akan penulis gunakan disesuaikan dengan metode penelitian acuan. Perbedaan yang ada tampak pada Gambar 5 berikut.



Gambar 5. Perbedaan Kerangka Penelitian

Pada Gambar 5, kolom kiri merupakan rangkuman dari kerangka penelitian Kumar yang dijadikan sebagai acuan untuk penelitian penulis. Kolom tengah merepresentasikan kembali metodologi pengenalan ucapan yang umum banyak digunakan oleh para peneliti. Kolom kanan merupakan kerangka rencana penelitian yang akan penulis lakukan.

Gambar 5 menjelaskan bahwa perbedaan kerangka penelitian terjadi pada bagian Ucapan, Data Pelatihan dan Bootstrapping. Ketiga bagian ini menerapkan obyek bahasa yang berbeda. Penelitian acuan menerapkan bahasa India, sedangkan penelitian yang diajukan penulis menggunakan obyek bahasa Indonesia. Disamping itu, penulis menyederhanakan kerangka penelitian yang akan dilakukan, dengan menghilangkan tahap Model Bahasa, dengan asumsi bahwa sistem pengenalan ucapan berbahasa Indonesia relatif belum ada, sehingga berbagai data pendukung pengenalan ucapan sangatlah terbatas. Hal ini dapat diperkirakan bahwa pengadaan data pendukung menjadikan perjalanan penelitian ini sangat panjang waktunya jika dilakukan semua tahapan yang ada.

4.2 Modifikasi Bootstrapping

Kontribusi yang dijadikan ide baru untuk penelitian ini, yang akan penulis ajukan, mengarah pada modifikasi pendekatan bootstrapping dengan penjajaran



notasi fonem Bahasa Indonesia. Bentuk modifikasi ini tampak pada Gambar 6 berikut.

Gambar 6. Modifikasi Pendekatan Bootstrapping

Gambar 6 menjelaskan bahwa kosakata Bahasa Indonesia yang perlu disiapkan sebelumnya akan dilakukan pemetaan. Pemetaan didasarkan pada unit bunyi pengucapan terkecil yaitu fonem. Pemetaan ini dilakukan dengan melihat hubungan fonem satu-satu dan satu-banyak antara fonem Bahasa Indonesia ke Bahasa Inggris. Hasil pemetaan digunakan sistem pengenalan ucapan untuk diolah menggunakan produk pengenal ucapan Bahasa Inggris yang sudah ada di pasaran global berbasiskan open source.

Selanjutnya, Ucapan Bahasa Indonesia yang dikeluarkan oleh mulut manusia akan diolah bersama data pemetaan oleh Sistem Pengenal Ucapan Bahasa Inggris. Hasil dari Sistem Pengenal Ucapan Bahasa Inggris berupa data notasi fonem terjajar Bahasa Indonesia. Jika terdapat data terjajar yang mempunyai keraguan, baik pengucapan sama tetapi label berbeda maupun pengucapan berbeda tetapi label sama, maka diolah oleh bagian Klasifikasi. Bagian ini mengidentifikasi perlu tidaknya label dipilih sesuai dengan konteks kata yang diucapkan. Proses klasifikasi dilakukan dengan pendekatan statistik. Peluang terbesar kemunculan data terjajar yang terpilih, akan memperoleh prioritas utama. Informasi peluang diambil dari Data Klasifikasi. Data klasifikasi diperlukan untuk menampung secara historis data terjajar yang terpilih.

4.3 Metodologi Penelitian

Secara khusus, metodologi penelitian yang diterapkan pada penelitian ini ditampilkan pada Gambar 7 berikut ini.



Gambar 7. Metodologi Penelitian

Tahap Identifikasi digunakan untuk mengumpulkan data dan menentukan kriterianya. Tahap ini dilakukan dengan melakukan eksplorasi beberapa hal sebagai berikut :

Standar Fonem Bahasa Inggris yang ada, termasuk International Phonetic Alphabet (IPA) dan WordNet yang mengacu pada karakter ASCII.

Standar Fonem bahasa Indonesia berdasarkan beberapa jenis kamus bahasa Indonesia dan sumber informasi dari Masyarakat Linguistik Indonesia (Linguistic Indonesian Society).

Sistem Pengenalan Ucapan berbasis open-source. Saat ini, sistem yang akan digunakan telah diprioritaskan pada produk Pengenal Ucapan, yaitu CMU Sphinx Versi 3.5 dari Carnegie Mellon University.

Sumber data ucapan. Variasi data menggunakan kriteria umur dan jenis kelamin. Disamping itu, data ucapan juga direncanakan akan diambil dari rekaman berita radio dan televisi yang memenuhi pengucapan kata yang baik. Pemilihan berita disesuaikan dengan topik domain sederhana yang akan ditentukan kemudian.

Tahap Klasifikasi digunakan untuk menentukan “kelas” fonem Bahasa Indonesia dengan pendekatan statistik. Kelas fonem ini akan digunakan untuk mengelompokkan jenis-jenis fonem berdasarkan artikulasinya, yaitu konsonan, vokal, harakat dan gaya pengucapan (narasi). Pengelompokan ini juga dilakukan untuk fonem Bahasa Inggris berdasarkan jenis kelompok dari pemetaan. Tahap ini juga digunakan untuk merancang Data Klasifikasi awal yang digunakan pada modifikasi Bootstrapping proses penjajaran bagian Klasifikasi dari Gambar 7.

Tahap Pemetaan Fonem melakukan pembuatan peta fonem bahasa Indonesia ke fonem bahasa Inggris. Pada tahap ini, akan dicari keterhubungan setiap fonem yang ada, baik hubungan satu-satu dan satu-banyak. Metode yang digunakan untuk melakukan pemetaan mengacu pada metode pemetaan penelitian acuan, yaitu Pemetaan Tepat, Penggabungan dan Aproksimasi. Pemetaan Tepat diterapkan bila terdapat fonem yang sama persis dari kedua bahasa Inggris dan Indonesia. Penggabungan diterapkan bila fonem Bahasa Indonesia berasal dari gabungan beberapa fonem Bahasa Inggris. Aproksimasi diterapkan bila fonem Bahasa Indonesia tidak terdapat pada fonem Bahasa Inggris.



Tahap Penyesuaian diperlukan untuk melihat kembali apakah hasil Pemetaan Fonem sudah memenuhi kriteria yang diharapkan. Jika ditemukan kekurangan, maka perlu diubah kembali dan disesuaikan dengan klasifikasi yang ditentukan pada tahap sebelumnya dari proses Klasifikasi kemudian dipetakan kembali pada proses Pemetaan Fonem.

Tahap Klasifikasi, Pemetaan Fonem dan Penyesuaian akan memerlukan bantuan tenaga ahli bidang Ilmu Linguistik yang mempunyai kompetensi bidang Bahasa Indonesia skala nasional. Keterlibatan tenaga ahli ini sangat diperlukan terutama pada kegiatan perancangan fonem Bahasa Indonesia. Sampai saat ini belum ditemukan tenaga ahli yang bersedia secara intensif membantu penelitian ini.

Tahap Pengujian melakukan beberapa hal sebagai berikut :1. Ujicoba terhadap hasil pemetaan dengan melihat tingkat kemiripannya.

Tingkat kemiripan diukur dengan Teknik Pengukuran-Jarak antar fonem yang dibandingkan pada domain MFCC. Teknik pengukuran ini mengadopsi cara yang digunakan pada penelitian acuan menggunakan Rumus Jarak yang dijelaskan pada Subbab 3.3.

2. Penerapan pemetaan fonem yang dihasilkan pada penelitian ini akan diujicobakan ke sistem pengenalan ucapan berbasis open-source untuk melihat apakah hasil penelitian ini memberikan kontribusi yang memadai atau tidak, terutama dalam hal peningkatan akurasi.

3. Melibatkan pihak sumber data kosakata, terutama pembicara. Direncanakan pada penelitian ini akan menyewa tenaga pengucap kosakata sebanyak 20 orang dari berbagai tingkat usia dan jenis kelamin yang berbeda. Juga, akan diujicobakan dengan menggunakan sumber data kosakata dari pembawa berita hasil rekaman media elektronik.

4. Menerapkan pelatihan data dengan menggunakan jaringan syaraf tiruan.5. Ujicoba terhadap metode yang diajukan pada modifikasi pendekatan

bootstrapping, baik menggunakan proses Klasifikasi maupun tidak dengan tujuan agar diperoleh hasil apakah modifikasi yang diajukan memberikan penjajaran yang lebih baik atau tidak.

Hasil pengujian menentukan apakah perlu atau tidak melakukan perbaikan terhadap rancangan pemetaan yang telah dilakukan. Jika tidak terdapat peningkatan kinerja, maka akan dicari dimana letak kekurangannya, sehingga perlu melihat kembali Tahap Klasifikasi, Pemetaan Fonem dan Penyesuaian untuk dilakukan perbaikan.

4.4 Topik Penelitian Strata Satu

Bersumber pada metodologi penelitian yang akan dilakukan, dapat diturunkan beberapa topik penelitian untuk memberikan peluang bagi mahasiswa Strata Satu Jurusan Sistem Komputer yang dapat digunakan sebagai topik skripsi. Hasil penurunan topik ini tercantum pada tabel berikut.

Tabel 1. Topik Penelitian S1

No Bagian Metodologi Topik Penelitian1 Klasifikasi Karakterisasi Akustik Fonem Bahasa Indonesia Baku 2 Pemetaan Fonem Algoritma Penjajaran pada Pendekatan Bootstrapping

Termodifikasi3 Pemetaan Fonem Pengukuran Beda-Jarak Akustik pada Pemetaan Fonem

Bahasa Indonesia Baku ke Fonem Bahasa Inggris4 Pengujian Pengukuran Kecepatan Pengolahan Fonem Menggunakan



Jaringan Syaraf Tiruan

Sebenarnya, penurunan metodologi penelitian dapat dilakukan secara menyeluruh, tetapi akan muncul ketidak-sesuaian terhadap bidang ilmu Sistem Komputer, seperti bagian Identifikasi yang berkonsentrasi pada bidang Ilmu Linguistik. Masalah ketidak-sesuaian ini akan ditangani secara langsung oleh Tim Peneliti bersama tenaga ahli bidang Ilmu Linguistik dan tidak disediakan untuk penelitian Mahasiswa S1 Jurusan Sistem Komputer.

5. INDIKATOR KINERJA

Indikator keberhasilan dari penelitian ini dilihat dari dua hal sebagai berikut :1. Seberapa dekatnya jarak akustik fonem yang dipetakan dari fonem

Bahasa Indonesia ke fonem Bahasa Inggris. Rumus jarak yang digunakan sama dengan rumus yang dijelaskan pada Subbab 3.3.

2. Seberapa tingginya peningkatan kecepatan relatif proses pemetaan, baik menggunakan tambahan proses hasil modifikasi yang diajukan (proses Klasifikasi pada Gambar 6) maupun tidak.

6. KONSIDERAN PERCOBAAN

Konsideran percobaan yang akan digunakan untuk penelitian ini adalah sebagai berikut.

1. Data ucapan diperoleh dari 20 orang dengan variasi umur antara 20 sampai 55 Tahun dan variasi jenis kelamin, pria dan wanita.

2. Ciri fonem diungkapkan dengan mengambil besaran MFCC 24-dimensi.3. Pelatihan data menerapkan Jaringan Syaraf Tiruan.4. Kemiripan dan Perbedaan antar fonem dilihat menggunakan Rumus Jarak

pada domain frekuensi.5. Sistem Pengenalan Ucapan bahasa Inggris yang akan digunakan adalah

CMU Sphinx Versi 3.5 dari Carnegie Mellon University dengan tingkat akurasi diatas 90%.

6. Perancangan fonem Bahasa Indonesia dan pemetaannya ke Bahasa Inggris melibatkan tenaga ahli bidang Linguistik yang memiliki kompetensi skala nasional.

7. Pengembangan data klasifikasi berdasarkan domain sistem pengenal ucapan. Domain yang akan digunakan adalah Teknologi Informasi.

8. Proses klasifikasi diterapkan menggunakan pendekatan statistik dengan melihat bobot probabilitas kata yang diucapkan pada domain Teknologi Informasi.

7. JADUAL KEGIATAN

Waktu pelaksanaan penelitian disesuaikan dengan persyaratan yang ditetapkan oleh TPSDP. Tahap pelaksanaan kegiatan penelitian dirinci pada diagram berikut.



Gambar 8. Diagram Jadual Kegiatan Penelitian

8. TIM PENGUSUL

Ketua Peneliti Nama : Lintang Yuniar Banowosari, Skom., MSc. Tanggal Lahir : 3 Juni 1968Jabatan Struktural : Staf Pengajar Jabatan Fungsional : LektorJurusan : Sistem KomputerFakultas : Ilmu KomputerAlamat Kantor : Jl. Margonda Raya No.100 Depok 16424Telp Kantor : 021-78881112 ext 309/477Email : [email protected] Rumah : Perumahan Taman Puspa Kav.72 Pasir Gunung Selatan

Cimanggis Depok 16951

Anggota Peneliti 1Nama : Nurul Huda, Skom., MT.Tanggal Lahir : 21 Februari 1969Jabatan Struktural : Kepala Laboratorium Menengah Jabatan Fungsional : Asisten AhliJurusan : Sistem KomputerFakultas : Ilmu KomputerAlamat Kantor : Jl. Margonda Raya No.100 Depok 16424Telp Kantor : 021-78881112 ext 477Email : [email protected]



Alamat Rumah : Jl. Pancoran Barat VII No.34 Rt 8 Rw 6 Durentiga Jakarta Selatan

Anggota Peneliti 2Nama : Wahyu Kusuma Raharja, ST., MT.Tanggal Lahir : 12 April 1973Jabatan Struktural : Wakil Kepala Laboratorium MenengahJabatan Fungsional : Asisten AhliJurusan : Sistem InformasiFakultas : Ilmu KomputerAlamat Kantor : Jl. Akses UI Kelapa Dua Depok Telp Kantor : 021-8727541 ext 505Email : [email protected] Rumah : Puri Bojong Lestari Blok CR 12 Bojong Gede Bogor 16921

9. RANCANGAN BIAYA

Penelitian ini memerlukan dana sebesar Rp. 29.700.000,- dengan jumlah biaya setiap komponen sebagai berikut :

1.

Honor Peneliti Rp.

8.700.000,-

29.29 %

2.

Peralatan dan Bahan Rp.

14.870.000,-

50.00 %

3.

Survei dan Studi Pustaka

Rp.

1.840.000,-

6.19 %

4.

Laporan Rp.

2.030.000,-

6.84 %

5.

Seminar Rp.

2.260.000,-

7.61 %

Rincian biaya secara lengkap dijelaskan pada tabel berikut.

Tabel 2. Rincian Biaya Penelitian

No Uraian SatuanJumlah Satuan

Harga Satuan(Rupiah)

Jumlah Harga(Rupiah)

Sub-Total(Rupiah)

A Honor Peneliti1 Ketua Peneliti Bulan 12 275.000 3.300.0002 Anggota Peneliti 1 Bulan 12 225.000 2.700.0003 Anggota Peneliti 2 Bulan 12 225.000 2.700.000

8.700.000B Peralatan dan Bahan

4 Pengadaan Data Set 20 150.000 3.000.0005 Komputer Personal Set 1 4.500.000 4.500.0006 Sistem Pengenal

Ucapan Bahasa Inggris Acuan

Paket 1 2.500.000 2.500.000

7 Kartu Pengolah Sinyal Digital

Set 1 2.500.000 2.500.000

8 Mikrofon Pengenal Ucapan

Set 1 450.000 450.000

9 ATK Paket 1 250.000 250.00010 CDRom Kosong Keping 50 4.000 200.00011 Toner Printer Set 1 750.000 750.00012 Kertas Rim 9 30.000 270.00013 Transparansi Lembar 200 2.250 450.000

14.870.000C Survei dan Studi Pustaka14 Transportasi Trip 7 150.000 1.050.000



15 Komunikasi Paket 3 100.000 300.00016 Konsumsi Trip 7 70.000 490.000

1.840.000D Laporan17 Pengolahan Data Set 20 20.000 400.00018 Pencetakan Dokumen

SkripsiEks. 20 40.000 800.000

19 Pencetakan Slide Dokumen Skripsi

Eks. 60 3.000 180.000

20 Laporan Kemajuan Eks. 10 25.000 250.00021 Laporan Akhir Eks. 10 40.000 400.000

2.030.000E Seminar22 Sewa Komputer Unit 1 100.000 100.00023 Sewa Proyektor

KomputerUnit 1 300.000 300.000

24 Sewa Ruang Unit 1 400.000 400.00025 Konsumsi Orang 100 5.000 500.00026 Penggandaan

MakalahEks. 120 8.000 960.000

2.260.000

Jumlah Total 29.700.000

10. DAFTAR PUSTAKA

[1] Blade Kotelly, The Art and Business of Speech Recognition: Creating the Noble Voice, Addison Wesley, 2003.

[2] Asela Gunawardana, Alex Acero, Adapting Acoustic Models to New Domains and Conditions Using Untranscribed Data, [Ref. 2002].

[3] Diego Giuliani, Marcello Federico, Unsupervised Language and Acoustic Model Adaptation for Cross Domain Portability, [Ref. 2001].

[4] T. Schultz, A. Waibel, Experiments on Cross-Language Acoustic Modeling, [Ref. 2000].

[5] Tanja Schultz, Alex Waibel, Language Independent and Language Adaptive Acoustic Modeling for Speech Recognition, [Ref. 2000].

[6] J. Kohler, Multi-Lingual Phoneme Recognition Exploiting Acoustic–Phonetic Similarities of Sounds, Proceedings of the International Conference on Spoken Language Processing, Atlanta, 1996, pp. 2195–2198.

[7] Klaus Ruggenmann and Iryna Gurevych, Assigning Domains to Speech Recognition Hypotheses, 2004.

[8] S J Melnikoff, S F Quigley & M J Russell, Implementing a Simple Continuous Speech Recognition System on an FPGA, Proceedings of the 10 th Annual IEEE Symposium on Field-Programmable Custom Computing Machines (FCCM’02), 2002.

[9] M. Kumar, N. Rajput, A. Verma, A Large-Vocabulary Continuous Speech Recognition System for Hindi, IBM Journal. Resource & Development. Volume. 48 No. 5/6 September/November 2004.

[10] M. C. Yuen and P. Fung, Adapting English Phoneme Models for Chinese Speech Recognition, Proceedings of the International Conference on Spoken Language Processing, Sydney, Australia, 1998, pp. 80 – 82.

[11] MIT Lecture Notes : Introduction to Automatic Speech Recognition, Lecture #1, Session 2003.

[12] Stephen Cook, Speech Recognition HOWTO, Rev 2.0, April 2002.[13] Joe Tebelskis, Speech Recognition using Neural Networks, School of

Computer Science Carnegie Mellon University, May 1995.



[14] Doddington, G. Phonetically Sensitive Discriminants for Improved Speech Recognition. In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, 1989.

[15] Itakura, F. Minimum Prediction Residual Principle Applied to Speech Recognition. IEEE Trans. on Acoustics, Speech, and Signal Processing, 23(1):67-72, February 1975. Reprinted in Waibel and Lee 1990.

[16] Miyatake, M., Sawai, H., and Shikano, K. Integrated Training for Spotting Japanese Phonemes Using Large Phonemic Time-Delay Neural Networks. In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, 1990.

[17] Kimura, S. 100,000-Word Recognition Using Acoustic-Segment Networks. In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, 1990.

[18] Lee, K.F. Large Vocabulary Speaker-Independent Continuous Speech Recognition: The SPHINX System. PhD Thesis, Carnegie Mellon University. 1988.

[19] Ben Shneiderman, the Limits of Speech Recognition, Communication Of The ACM September 2000/Vol. 43, No. 9, 2000.


Documents

1lintang.staff.gunadarma.ac.id/Downloads/files/4313/... · Web viewADAPTASI SISTEM PENGENALAN UCAPAN BAHASA INGGRIS KE DALAM SISTEM PENGENALAN UCAPAN BAHASA INDONESIA BAKU MENGGUNAKAN