27

Click here to load reader

Forensic speaker identification

Embed Size (px)

Citation preview

Page 1: Forensic speaker identification

PROPOSAL TUGAS AKHIR

FORENSIC SPEAKER IDENTIFICATION (FSI) TERHADAP

PASANGAN KEMBAR BERDASARKAN KARAKTERISTIK

FORMAN

Oleh :

Mochammad Zamroni

NRP : 2404 100 044

Pembimbing :

PROGRAM STUDI S1 TEKNIK FISIKA

JURUSAN TEKNIK FISIKA

FAKULTAS TEKNOLOGI INDUSTRI

INSTITUT TEKNOLOGI SEPULUH NOPEMBER

2010

Page 2: Forensic speaker identification

LEMBAR PENGESAHANPROPOSAL TUGAS AKHIR

JURUSAN TEKNIK FISIKA FTI-ITS

Judul : FORENSIC SPEAKER IDENTIFICATION (FSI) PASANGAN KEMBAR

BERDASARKAN KARAKTERISTIK FORMAN

1. Bidang Studi : Rekayasa Akustik dan Fisika Bangunana. Nama : Mochammad Zamronib. NRP : 2404 100 018c. Jenis Kelamin : Laki-laki

2. Jangka Waktu : 6 bulan 3. Pembimbing : 4. Usulan Proposal ke : 1

PembimbingSurabaya, 28 Februari 2010

Mahasiswa

M och a mm a d Z a mroni NRP : 2404 100 044

Kepala Laboratorium

Rekayasa Akustik dan Fisika Bangunan

Page 3: Forensic speaker identification

I. Judul : FORENSIC SPEAKER IDENTIFICATION (FSI) PASANGAN

KEMBAR BERDASARKAN KARAKTERISTIK FORMAN

II. Bidang Minat : Rekayasa Akustik dan Fisika Bangunan

III. Mata Kuliah Pilihan Bidang Minat Yang Diambil :

Teknik Sistem Audio Bising Lingkungan

IV. Pembimbing :

V. Pendahuluan5.1 Latar Belakang

Beberapa tahun terakhir, instansi hukum dalam hal ini pengadilan menggunakan forensic speaker identification (FIS) penggunaan suara sebagai alat bukti dalam persidangan mulai digunakan disamping DNA, sidik jari, retina. forensic speaker identification (FIS) sebagai alat bukti biasanya melibatkan perbandingan satu atau beberapa sampel suara yang tidak dikenali dengan satu atau lebih sampel suara yang dikenal. Dalam beberapa kasus sampel suara biasanya direkam dari telepon rumah dan telepon seluler, dalam hal ini pengadilan ingin menentukan apakah dua sampel suara berasal dari orang yang sama atau tidak, dengan demikian dapat mengidentifikasi bahwa tersangka bersalah atau tidak.

Sinyal suara merupakan sinyal yang kompleks. Pada sinyal suara terdapat banyak parameter, mulai dari parameter yang bersifat subjektif seperti logat, dialek hingga parameter yang dapat diukur secara akustik seperti formant, pitch dan energi spektral. Pitch adalah nada dasar dari suara manusia, sedangkan formant menunjukkan karakter vocal tract dari sistem produksi suara manusia (mulai dari rongga dada-perut, membran diantara keduanya, pita suara, kerongkongan, anak tekak rongga mulut sampai gigi). Untuk setiap orang, karakter vocal tract nya berbeda-beda, sama halnya dengan sidik jari, DNA dan retina. Namun, sidik jari, DNA dan retina bersifat statis, sedangkan suara yang dihasilkan vocal tract bersifat dinamis, sehingga dapat dengan sengaja diubah, dapat pula berubah dengan tidak sengaja (misalnya dalam kondisi flu ataupun dalam kondisi tertekan secara emosional).

Pada pasangan kembar yang tinggal dalam lingkungan yang sama, memperoleh pendidikan yang sama cenderung memiliki kebutuhan sama dan perilaku serta kebiasaan yang sama pula. Pada sebagian orang sulit untuk membedakan pasangan kembar karena memiliki kemiripan wajah, begitu juga dengan suara mereka yang mirip. Ada dua metode yang bisa dipakai untuk menentukan jati diri pemilik suara di telepon: metode subyektif dan obyektif. Pada metode subyektif, penilaian dilakukan oleh sejumlah responden. Dalam hal ini, responden bertugas menilai kemiripan suara di telepon dengan suara pembanding. metode obyektif berbasiskan pada source filter model untuk memastikan suara di telepon itu adalah milik orang yang sama. Ini metode pemeriksaan suara yang menggabungkan hasil pengamatan atas produksi suara dan persepsinya. sebagaimana yang dilakukan pada studi ini.

Page 4: Forensic speaker identification

5.2 Permasalahan Bagaimana menentukan karakteristik suara responden. Bagaimana menentukan pemilik suara adalah orang yang sama

5.3 Batasan Masalah Pengambilan data dilakukan pada saat kondisi fisik dan emosional responden dalam

keadaan normal. Media bicara dan perekam adalah sama. Analisa terbatas hanya pada huruf vokal /a/, /i/, /u/, /e/, /o/. Analisis dilakukan dengan perangkat lunak Praat buatan periset linguistik Belanda.

5.4 Tujuan Tugas Akhir Menentukan karakteristik suara responden. Menentukan pemilik suara adalah orang yang sama.

5.5 Manfaat Tugas AkhirAdapun manfaat dilaksanakannya tugas akhir ini untuk memperoleh informasi

perbedaan suara pada pasangan kembar identik terutama pada huruf vokal /a/, /i/, /u/, /e/, /o/. serta untuk mendapatkan pemahaman forensic speaker identification.

VI. Tinjauan PustakaUntuk menunjang pelaksanaan tugas akhir ini telah dilakukan penelusuran sumber -

sumber wacana sehingga dapat menjadi rumusan permasalahan. Sumber-sumber wacana tersebut antara lain :

Jurnal penelitian dari Phil Rose. Yuko Kinoshita dan Tony Alderman pada tahun 2006 yang berjudul Realistic Extrinsic Forensic Speaker Discrimination with the Diphthong /aI/, yang berisi tentang analisa dan pembuktian perbedaan pembicara untuk penyelidikan dengan diptong /ai/.

Jurnal penelitian dari Timo Becker, Michael Jessen, Catalin Grigoras pada tahun 2008 yang berjudul Forensic Speaker Verification Using Formant Features and Gaussian Mixture Models, yang berisi tentang pembuktian pembicara untuk penyelidikan menggunakan formant dan Gaussian Mixture Models. A forensic phonetic investigation into the speech patterns of identical and non-identical twins

Jurnal penelitian dari Deborah Loakes pada tahun 2006 yang berjudul A forensic phonetic investigation into the speech patterns of identical and non-identical twins, yang berisi tentang penelitian pola pembicara pada pasangan kembar identik.

Tugas Akhir yang dilakukan oleh Budiman Putra Asma’ur Rohman pada tahun 2009 yang berjudul Perancangan Voice Biometric Security Pada Halaman Web Dengan Identifikasi Mel Frequency Cepstral Coefficient-Gaussian Mixture Model (Mfcc-Gmm) 14, yang berisi tentang pembuatan aplikasi security pada halaman web dengan menggunakan suara.

Page 5: Forensic speaker identification

VII. Teori Penunjang

a. Sinyal Suara

Suara adalah suatu sinyal yang sangat dipengaruhi oleh frekuensi dan merupakan bentuk sinyal diskrit yang dipengaruhi oleh waktu. Proses terjadinya suara secara sederhana adalah sebagai berikut, vocal tract yang berbentuk tabung resonansi dalam sistem speech production memiliki bagian utama pharynx, nasal cavity dan oral cavity. Bentuk pada vocal tract memiliki variasi berdasarkan soft plate (velum), tongues, lips dan jaw yang secara keseluruhan disebut sebagai articulators. Proses pembentukan dalam vocal tract menghasilkan bentuk wicara.

Untuk membuat suatu pengenalan suara manusia di perlukan pemahaman tentang proses terjadinya suara pada manusia, sebagai berikut; Udara mengalir dari paru-paru bergerak menuju trachea, sebuah tabung tersusun dari cincin cartilage, dan melalui larynx menuju vocal tract. Dalam hal ini larynx beraksi sebagai gate (pintu gerbang) antara lungs dan mouth (mulut). Ini tersusun atas epiglottis, vocal cords dan false vocal cords. Ketiganya menutup saat menelan makanan sehingga paru-paru tidak kemasukan dan membuka kembali saat mengambil nafas normal.

Gambar 7.1 Rongga mulut manusia

b. Formant

Forman didefinisikan oleh Fant sebagai puncak spektrum suara, Forman juga digunakan untuk mengartikan suatu akustik resonansi, dan, dalam ilmu akustik dan fonetik, sebuah resonansi vokal manusia. Hal ini sering digunakan sebagai alat ukur puncak amplitudo dalam spektrum frekuensi dari suara, Forman dapat diperoleh dengan menggunakan spectrogram atau spektrum analyzer. Forman dengan frekuensi terendah disebut f 1, kedua f 2, dan ketiga f 3. Paling sering dua forman pertama, f 1 dan f 2, cukup untuk disambiguate vokal. Kedua forman menentukan kualitas vokal dari segi buka / tutup dan depan / belakang dimensi (yang secara tradisional, walaupun tidak sepenuhnya akurat, telah dikaitkan dengan posisi lidah). Jadi forman pertama f 1 memiliki frekuensi yang lebih tinggi untuk vokal terbuka (seperti [a]) dan frekuensi yang lebih rendah untuk vokal yang dekat (seperti [i] atau [u]); dan forman kedua f 2 memiliki yang lebih tinggi frekuensi untuk vokal depan (seperti [i]) dan frekuensi yang lebih rendah untuk vokal belakang (seperti [u]). vokal akan hampir selalu memiliki empat atau lebih dapat dibedakan forman; kadang-kadang ada lebih dari enam. Namun, kedua forman pertama yang paling penting dalam menentukan kualitas vokal, dan hal ini sering ditampilkan dalam bentuk sebidang forman

Page 6: Forensic speaker identification

pertama melawan forman kedua, hal ini tidak cukup untuk menangkap beberapa aspek kualitas vokal, seperti sebagai pembulatan

c. Spectogram

Spectogram adalah gambaran yang menunjukkan spektrum dari sinyal terhadap waktu, spectogram digunakan untuk mengidentifikasi suara, speech processing, dan lain sebaginya. Format yang paling umum adalah grafik geometris dua dimensi: sumbu horizontal mewakili waktu, sumbu vertikal mewakili frekuensi; dimensi ketiga menunjukkan amplitudo frekuensi tertentu pada waktu tertentu diwakili oleh intensitas atau warna pada setiap titik di gambar.

Spectrogram of a male voice saying 'tatata'. Gambar 7.2 Spectrogram

d. Source filter model

Terdapat dua sumber akustik dalam suatu ucapan yakni, suatu ucapan dengan suara dan ucapan tanpa suara. Ucapan bersuara dihasilkan oleh modulasi aliran udara dari paru-paru yang menyebabkan getaran pada vocal fold. Ucapan tanpa suara sumber suaranya bukan getaran biasa, melainkan getaran yang disebabkan oleh aliran udara turbulen akibat penyempitan di saluran vokal.Ucapan tanpa suara ini disebut juga suara desah atau noise.Source filter model disini digunakan untuk penyaring frekuensi tertentu ataupun menguatkan serta melemahkan Rata-rata suara laki-laki memiliki frekuensi sumber sekitar 100Hz, suara perempuan dan anak-anak biasanya lebih tinggi di pitch: sekitar 200 Hz untuk suara wanita rata-rata, dan 200-300 Hz untuk anak-anak., berikut adalah model sederhana Source filter model, terdiri dari komponen sumber yang berasal dari pita suara yang kemudian menuju filter sehingga menghasilkan output ucapan yang telah disaring.

Spectrogram of a male voice saying 'tatata'. Gambar 7.3 Source filter model

e. Pengolahan Sinyal Digital

Pengolahan sinyal suara hingga diperoleh koefisien karakteristik suara manusia untuk sistem ini terdiri atas Sampling, Frame Blocking, Windowing, Discrette Fourier

Page 7: Forensic speaker identification

Transform (DFT), Filter Nonlinear Power Spectral Subtraction (SS), Mel Filter Bank dan Discrette Cosine Transform (DCT). Berikut adalah teori dasar dari proses tersebut.

SamplingSinyal suara merupakan sinyal yang tidak terbatas dalam domain waktu (infinite

time interval). Suara manusia akan menghasilkan sinyal analog yang terus kontinyu. Untuk melakukan ekstraksi koefisien karakteristik suara maka sinyal wicara harus dibentuk dalam potongan–potongan waktu yang terbatas (finite time interval). Karena itu sinyal yang ada dipotong–potong dalam slot interval waktu tertentu. Deret diskrit sampel x[n] diperoleh dari sinyal kontinu x(t) dengan hubungan sebagai berikut,

x [ n ]=x (nT ) (7.1)Dimana T adalah periode sampling dan 1/T=Fs merupakan frekuensi sampling

dalam satuan sampel/detik. Nilai n merupakan jumlah sampel. Berdasarkan pada teori sampling Nyquist, maka syarat dari frekuensi sampling adalah minimal dua kali frekuensi maksimal sinyal asli. Penentuan frekuensi sampling yang sesuai hukum Nyquist ini untuk mencegah adanya perubahan bentuk asli sinyal atau aliasing.

FrekuensiSampling≥2×FrekuensiSinyal (7.2)

Berikut adalah contoh sinyal sebelum dan sesudah sampling.

(a)

(b)Gambar 7.4 Sinyal (a) sebelum dan (b) setelah sampling

Frame BlockingFrame Blocking merupakan pembagian suara menjadi beberapa frame dan satu

frame terdiri dari beberapa sampel. Proses ini diperlukan untuk membentuk sinyal suara yang non stasioner menjadi sinyal suara yang quasi-stasioner sehingga dapat diubah dari domain waktu ke dalam domain frekuensi dengan Transformasi Fourier. Hal ini karena sinyal suara manusia menunjukkan karakteristik quasi-stasioner pada saat pada rentang waktu 20-40 milidetik. Sehingga pada rentang tersebut transformasi Fourier dapat dilakukan karena Transformasi Fourier tidak dapat melakukan pemrosesan apabila sinyal suara manusia berada dalam keadaan non stasioner.

Pengambilan jumlah sampel untuk tiap frame tergantung dari tiap berapa detik suara akan disampel dan berapa besar frekuensi samplingnya. Untuk mengakomodasi

Page 8: Forensic speaker identification

hilangnya data saat proses frame blocking digunakan overlapping sinyal untuk tiap frame. Pada umumnya overlapping berada pada rentang waktu 10-20 ms pada tiap frame.

Gambar 7.5 Proses frame blocking pada sinyal

WindowingSinyal suara yang dipotong-potong menjadi beberapa frame akan menyebabkan

efek diskotinuitas pada awal dan akhir sinyal. Hal ini akan menyebabkan kesalahan data pada proses Transformasi Fourier. Windowing diperlukan untuk mengurangi efek diskontinuitas dari potongan – potongan sinyal tersebut. Jika didefinisikan w(n) sebagai window dimana 0≤n≤N-1, N adalah jumlah sampel dalam tiap frame maka hasil proses windowing seperti pada persamaan berikut:

(7.3)Jenis windowing ada beberapa macam yaitu Hamming, Hanning, Bartlet,

Rectanguler dan Blackman. Persamaan windowing sebagai berikut : Window Hamming

(7.4)

Window Hanning

W hann={(1−cos (2 πn/( N−1))/20 ¿ 0≤n≤N−1

lainnya¿

(7.5)

Window Barlett

W Barl= { 2 n/ (N−1) 0≤n≤( N−1)/22−2 n/( N−1) ( N−1 )/2≤n≤N−1

0 lainnya (7.6)

Wiondow BlackmanW Black={0 . 42−0 .5 cos(2 πn/( N−1))+0 . 08cos(4 πn/ (N−1) )

0 ¿ 0≤n≤N−1lainnya

¿

(7.7)

Discrette Fourier Transform (DFT)Transformasi Fourier adalah suatu metode yang sangat efisien untuk menyelesaikan

transformasi fourier diskrit yang banyak dipakai untuk keperluan analisa sinyal seperti pemfilteran, analisa korelasi, dan analisa spektrum. Transformasi Fourier ini dilakukan untuk mentransformasikan sinyal dari domain waktu ke domain frekuensi. DFT adalah bentuk khusus dari persamaan integral fourier :

Page 9: Forensic speaker identification

(7.8)Dengan mengubah variable-variabel, waktu (t), frekuensi (ω) kedalam bentuk diskrit diperoleh transformasi Fourier diskrit (DFT) yang persamaannya adalah :

(7.9)DFT dilakukan dengan membagi N buah titik pada transformasi fourier diskrit

menjadi 2, masing-masing (N/2) titik transformasi. Proses memecah menjadi 2 bagian ini diteruskan dengan membagi (N/2) titik menjadi (N/4) dan seterusnya hingga diperoleh titik minimum. Pemakaian DFT ini karena untuk perhitungan komputasi yang lebih cepat dan

mampu mereduksi jumlah perkalian dariN2

menjadi NlogN iterasi.

Nonlinear Power Spectral SubtractionFilter Nonlinear Power Spectral Subtraction (SS) merupakan proses pemfilteran

noise sinyal dalam domain frekuensi. Filter ini terdiri atas dua tahap pemrosesan yaitu Voice Activity Detection (VAD) dan Spectral Subtracting.

a. Voice Activity Detection (VAD)Tujuan dari tahapan proses VAD ini adalah untuk menentukan frame

sinyal suara apakah berisi sinyal wicara (voiced), tidak ada sinyal wicara (unvoiced) atau tanpa suara/keadaan diam (silent). Frame voiced cenderung memiliki energi lebih besar dari pada frame unvoiced terlebih frame silent. Frame silent pada umumnya merupakan representasi dari noise latar belakang lingkungan suara. Proses VAD ini merupakan pondasi dasar dari algoritma Nonlinear Power Spectral Subtraction karena keakurasian VAD menentukan waktu kapan update noise dan besarnya filtering pada sinyal suara. Estimasi noise pada filter ini menggunakan hasil pada VAD untuk menentukan kapan untuk melakukan komputasi ulang nilai noise yang dijadikan sebagai referensi filter.

Inisialisasi noise referensi diasumsikan diambil dari sinyal suara dalam frame pertama yang hanya berisi noise. Nilai treshold dari VAD dihitung untuk menentukan suatu frame merupakan sinyal suara manusia atau noise. Faktor

komputasi ulang (update) yaitu dan dapat diatur secara “trial and error”. Namun berdasarkan penelitian sebelumnya [11] nilai optimal kedua faktor tersebut adalah 0.95.

Tahap pertama VAD adalah melakukan Transformasi Fourier (DFT atau FFT) untuk mengubah sinyal dalam frame dari domain waktu ke domain frekuensi.

(7.10)Selanjutnya spektrum, mean dan standar deviasi dari noise pada frame pertama k=1 diinisialisasi sebagai noise

No(ω )=Y ( ω,k ) (7.11)

μN=

1L∑ω=0

L−1

No( ω)(7.12)

Jika VAD=0 maka spektrum, mean dan standar deviasi untuk semua frame noise diperbaharui.

Page 10: Forensic speaker identification

(7.13)

μNo(k )=1L∑ω=0

L−1

No(ω )(7.14)

(7.15)

(7.16)Treshold selanjutnya diperbaharui jika frame tidak berisi sinyal wicara berdasarkan mean dan standar deviasi dari estimasi noise. Pengaturan treshold

dilakukan menggunakan perkalian gain α S dan αN yang dapat diatur secara eksperimental karena hingga saat ini tidak ada rumusan umum untuk menentukan kedua nilai tersebut.

TreshS=μNo+α S σ No (7.17)

(7.18)Keputusan VAD dapat menggunakan treshold wicara dimana jika energi

sinyal lebih dari dua kali standar deviasi di atas mean noise maka frame dikenali sebagai frame wicara. Jika energi sinyal kurang dari beberapa bagian dari standar deviasi maka frame dikenali sebagai noise. Jika baik wicara maupun noise tidak dikenali keduanya maka frame dianggap sama dengan kondisi frame sebelumnya.

b. Spectral Subtracting Ada beberapa metode/algoritma untuk melakukan filter Nonlinear Power

Spectral Subtraction ini. Namun pada penelitian ini menggunakan algoritma berdasarkan faktor oversubtraction dan spectral floor berdasarkan kalkulasi SNR posteriori. Persamaan umum dari metode ini adalah sebagai berikut,

|S( ω)|2={|Y ( ω)|2−α|D(ω )|2

β|D(ω )|2jika|Y ( ω)|2>|D( ω)|2

lainnya (7.19)

Dimana α adalah faktor oversubtraction untuk melakukan overestimate spektrum noise dan β adalah faktor spectral floor. Nilai dari faktor α merupakan fungsi dari estimasi posteriori signal-to-noise ratio (SNR) dan dirumuskan sebagai berikut,

α=α0−

320

SNR posterior -5 dB≤SNRposterior ≤ 20 dB

(7.20)Dimana SNR posteriori diperoleh malalui hubungan berikut,

SNR posteriori(ω )=|Y ( ω)|2

|D( ω)|2(7.21)

Dengan α 0

merupakan nilai yang diinginkan dari α pada saat sinyal dalam keadaan 0 dB SNR. Secara umum semakin besar nilai α maka noise sinyal akan tereduksi secara signifikan. Namun apabila nilai α yang terlalu besar akan merubah pola sinyal dengan nilai yang cukup besar. Sehingga nilai α harus ditentukan secara tepat agar dapat mengurangi noise secara optimal namun tetap

Page 11: Forensic speaker identification

menjaga bentuk pola sinyal asli. Untuk power subtraction, range optimal dari α 0

adalah antara 3 sampai dengan 6.

Sedangkan parameter spectral floor digunakan untuk mencegah adanya

eliminasi terhadap sinyal wicara di bawah batas terendah yaitu . Nilai parameter β paling optimal berada range 0.1 sampai dengan 0.001. Namun untuk level noise rendah dapat menggunakan nilai yang lebih kecil dari pada 0.01.

Mel Frequency Cepstrum Coefficient (MFCC)

Informasi penting pada sinyal suara manusia berada pada frekuensi tinggi. Informasi penting ini yang menentukan karakteristik suara manusia dan Mel scale digunakan untuk mengakomodasi karakteristik tersebut. Setiap nada suara manusia dengan

frekuensi aktual yang diukur dalam Hz nilai subjektif pitch dapat diukur dalam Mel scale. Mel scale merupakan ukuran atau skala persepsi manusia dari frekuensi suatu suara. Hubungan antara Mel scale dengan frekuensi tidak linear seluruhnya. Pada frekuensi di bawah 1 kHz hubungannya adalah linear tetapi untuk frekuensi lebih tinggi dari 1kHz hubungannya bersifat logaritmik. Hubungan ini berdasarkan berbagai penelitian tentang persepsi penangkapan suara oleh telinga manusia [5].

(7.22)

Hubungan di atas menunjukkan hubungan antara frekuensi aktual dengan frekuensi pada Mel scale. Pada implementasinya skala ini menggunakan Filter Bank dimana setiap nilai magnitude frekuensi difilter oleh deret filter segitiga. Dengan nilai frekuensi tengah yaitu frekuensi Mel, filter segitiga ini yang merepresentasikan proses Mel scaling pada sinyal.

Gambar 7.6. Konstruksi filter bank [6]

Hasil dari DFT pada proses pengolahan sebelumnya akan lebih informatif jika ditunjukkan dalam tiap band. Berdasarkan penelitian sebelumnya, pendengaran manusia tidak sensitif untuk semua frekuensi band. Sensitifitas tersebut berkurang pada frekuensi rendah dan meningkat pada frekuensi di atas 1000 Hz. MFCC menggunakan landasan ini sebagai ekstraksi koefisien identitas suara. Koefisien ini telah memberikan hasil paling baik hingga saat ini khususnya dalam aplikasi speaker recognition maupun speech recognition.

Mel Frequency Cepstral Coefficient (MFCC) didefinisikan sebagai Discrette Cosine Transform (DCT) dari amplitude sinyal dalam mel frequency. Sehingga untuk mendapatkan sinyal pada skala mel dilakukan filtering dengan frekuensi puncak adalah frekuensi mel.

Secara umum algoritma untuk menghitung MFCC adalah sebagai berikut,

Page 12: Forensic speaker identification

1. Komputasi sinyal dalam domain frekuensi dengan DFT

Y [ k ]=∑

n=0

N−1

y [n ]e− j2 π nk

N 0≤ k≤N(7.23)

2. Melewatkan magnitud dari spektrum sinyal X[k] melalui Mel Filter Bank. Hasil dari filtering magnitude spektrum ini adalah kumpulan M yang merupakan representasi dari energi tiap band dimana M merupakan jumlah filter pada filterbank.

3. Komputasi harga logaritmik dari energi dari tiap band output dari tiap filter. Proses logaritmik sinyal digunakan untuk mengadaptasikan sistem seperti telinga manusia, karena sinyal suara yang berada dibawah frekuensi 1 Khz (Low order) akan terdengar linear namun lebih dari 1 Khz (High Order) grafiknya akan menjadi logaritmis, untuk menyamakan persepsi itu maka digunakan proses logaritmis pada sinyal agar sinyal dapat di proses.

s[ m ]=ln [∑k=0

N−1

[Y [ k ] ]2 H m [ k ]] 0≤m≤M… (7.24)

4. Mengubah logaritma dari energi ke MFCC dengan Discrette Cosine Transform (DCT).

c [ n ]=∑

m=0

M−1

s[ m ]cos ( πn(m−0 .5)M )

..................... (7.25)

f. Gaussian Mixture Model (GMM)

Konsep dasar dari pemodelan dengan menggunakan Gaussian Mixture Model adalah Classifier, Klasifikasi Bayessian, Distribusi Gaussian Multivariate dan algoritma Expectation-Maximation (EM). Berikut adalah penjelasan dari ketiga konsep dasar tersebut.

ClassifierClassifier adalah salah satu algoritma dengan menggunakan feature atau ciri

sebagai input dan menerjemahkannya dengan berdasarkan informasi yang diberikan pada algoritma sebagai parameternya. Keluaran dari algoritma ini biasanya berupa label/kategori atau dapat juga suatu nilai numerik.

Kemampuan klasifikasi dalam classifier untuk tiap kasus dapat dikembangkan dengan menggunakan jenis yang sesuai. Kemampuan ini juga membutuhkan model atau struktur yang tepat dalam sebuah classifier, misalnya pada jaringan syaraf tiruan yaitu berupa jumlah neuron dan lapisan. Untuk classifier Bayesian, model distribusi probabilitas harus disesuaikan dengan kasus yang akan diklasifikasi. Sebuah classifier dapat memiliki banyak parameter yang harus disesuaikan dengan nilai yang diharapkan. Proses penyesuaian ini biasa disebut dengan pembelajaran atau pelatihan.

Kompleksitas dari sebuah classifier sangat mempengaruhi kemampuan dan fleksibilitas suatu proses identifikasi. Classifier yang sederhana memiliki nilai komputasional yang cukup kecil namun kemampuannya untuk mempelajari suatu data sangat rendah. Sedangkan classifier yang sangat kompleks akan dapat mempelajari suatu kasus dengan klasifikasi dengan akurasi yang tinggi bahkan sampai dengan 100%. Namun dengan akurasi yang sangat tinggi ini jika diberikan dengan kasus yang berbeda maka akan menghasilkan nilai dengan akurasi yang rendah. Karena itu data pengujian pada umumnya dibagi menjadi dua set yaitu data training dan data tes sehingga analisa performansi sistem akan lebih akurat.

Page 13: Forensic speaker identification

(a) (b)Gambar 7.7 Hasil classifier dengan kompleksitas yang tinggi (solid line) dapat melakukan

klasifikasi dengan sedikit error (a), Namun saat diberi kasus yang berbeda akan memberikan hasil yang sebaliknya. (b) [13]

Sebuah classifier dapat menggunakan banyak parameter untuk penyesuaian sistem dengan tugas yang diberikan. Proses penyesuaian ini biasa disebut dengan pembelajaran atau pelatihan. Dalam pembelajaran terawasi, data untuk pembelajaran sebelumnya telah diset dan ditentukan hasilnya atau biasa disebut dengan target pembelajaran. Sedangkan dalam pembelajaran tak terawasi, data pembelajaran tidak ditentukan targetnya tetapi pada waktu pelatihan ditujukan untuk mencari dan membentuk klasifikasi secara independen.

Klasifikasi BayesianClassifier Bayesian dalam menentukan keputusannya berdasarkan teori probabilitas

dan prinsip pemilihan nilai optimal. Jika diasumsikan sebuah klasifikasi membagi suatu vektor feature/ciri menjadi K kelas yang berbeda. Vektor ciri didefinisikan sebagai

dimana D adalah dimensi vektor. Probabilitas bahwa ciri x masuk pada

kelas ωk adalah P(ωk|k )

, dan pada umunya digunakan sebagai referensi dari probabilitas posteriori.

Probabilitas posteriori dapat dihitung berdasarkan Hukum Bayes dengan persamaan sebagai berikut,

(7.26)

dimana p( x|ωk ) adalah fungsi densitas peluang (pdf) dari kelas ωk dalam suatu ciri x dan P(ωk) adalah priori probability yaitu probabilitas awal dari kelas sebelum melakukan pemrosesan terhadap ciri atau biasa disebut probabilitas inisialisasi. Apabila priori probability ini belum diketahui maka dapat diestimasi berdasarkan ukuran dari data pembelajaran. Pembagi pada persamaan 2.27 didefinisikan sebagai berikut,

(7.27)Nilai ini digunakan sebagai faktor skala untuk menjamin bahwa jumlah dari probabilitas posteriori adalah sama dengan satu sesuai dengan hukum probabilitas.

Permasalahan dalam klasifikasi Bayesian adalah fungsi densitas peluang(pdf) dari p(x|ωk). Fungsi ini yang menentukan distribuasi ciri dalam suatu kelas atau dengan kata lain yang menentukan model kelas. Dalam aplikasi, pada umumnya tidak diketahui kecuali beberapa classifier tertentu.

Distribusi Normal Multivariate

Page 14: Forensic speaker identification

Fungsi densitas peluang (pdf) Gaussian adalah fungsi satu dimensi dengan bentuk menyerupai lonceng yang didefinisikan oleh dua parameter yaitu mean µ and varian σ atau kovarian Σ. Dalam dimensi D dapat dirumuskan sebagai berikut

(7.28)dimana µ adalah mean vektor dan Σ adalah matriks kovarian. Pada gambar di bawah adalah salah satu contoh fungsi densitas peluang Gaussian dimensi 2.

Gambar 7.8 Contoh permukaan fungsi densitas peluang Gaussian d-2 dengan µ = [0; 0] dan Σ = [1.56,−0.97;−0.97, 2.68] [13]

Gaussian Mixture ModelFinite Mixture Model dan metode estimasi parameternya dapat didekati dengan

menggunakan pdf apapun kecuali dengan menggunakan distribusi normal tunggal. Namun untuk implementasinya harus didefinisikan salah satu pdf yang paling sesuai untuk tiap kasus. Secara umum distribusi yang digunakan dapat distribusi apa saja tetapi distribusi normal multivariate atau distribusi Gaussian merupakan salah satu distribusi yang paling terkenal dan banyak dipakai untuk berbagai aplikasi statistik. Misalnya untuk analisis multivariate yang pada umumnya menggunakan asumsi memiliki distribusi normal, atau dalam model linear dari vektor error yang sering diasumsikan memiliki distribusi normal. Selain itu distribusi normal dapat digunakan untuk melakukan perbandingan kompleks yaitu dalam analisis variabel random yang saling berkaitan. Sehingga jika suatu kasus tidak diketahui jenis distribusinya maka model yang paling umum dan fleksibel yang paling sesuai untuk digunakan dan distribusi Gaussian merupakan salah satu dari distribusi tersebut dengan kehandalan yang sangat tinggi.

Gambar 7.9 Contoh permukaan Gaussian mixture PDF dimensi-2 dengan 3 komponen

Gaussian mixture model (GMM) adalah sebuah campuran (mixing) dari beberapa distribusi Gaussian atau jika dalam klasifikasi merupakan representasi dari adanya

Page 15: Forensic speaker identification

subkelas pada suatu kelas. Fungsi densitas peluangnya didefinisikan sebagai jumlah dari perkalian bobot dengan probabilitas gaussian.

(7.29)

dimana α c merupakan bobot dari komponen campuran c dimana 0 < αc < 1 untuk semua

komponen dan ∑c=1

C

α c. Sedangkan paramter distribusi,

(7.30)

merupakan definisi dari parameter Gaussian mixture probability density function. Berikut adalah contoh Gaussian Mixture Model,

Estimasi parameter Gaussian Mixture untuk satu kelas dapat dicari melalui pembelajaran tak terawasi dimana data sampel tanpa adanya target klasifikasi. Pada umunya algoritma clustering digunakan untuk melakukan identifikasi komponen secara eksak khusunya dalam melakukan inisialisasi model.

....Maximation LikelihoodDiasumsikan suatu set sampel feature X = {x1, . . . , xN} yang diambil dari

distribusi tunggal yang didefinisikan oleh pdf p(x; θ) dimana θ adalah parameter pdf. Maka fungsi likelihood dapat didefinisikan sebagai,

L( X ;θ )=∏n=1

N

p (xn ;θ )(7.31)

Dimana menunujukkan bahwa lekelihood dari data sampel feature X berdasarkan

parameter distribusi θ. Untuk mendapatkan nilai θ yang merupakan nilai maksimum likelihood

θ=arg maxθ

L( X ;θ )(7.32)

Pada umumnya nilai maksimum ini tidak digunakan secara langsung namun dengan mengkalkulasi nilai logaritmik likelihood nya.

L( X ;θ )=ln L( X ;θ )=∑n=1

N

ln p( xn ;θ )(7.33)

Persamaan di atas biasa disebut sebagai fungsi log-likelihood dimana secara analisis lebih mudah dimengerti dari pada secara langsung karena nilainya yang cukup kecil.

Berdasarkan p(x; θ) sangat dimungkinkan menemukan nilai maksimum secara analitik dengan mendefinisikan turunan fungsi log-likelihood sama dengan nol. Untuk pdf Gaussian solusi analitik dapat dicari berdasarkan parameter mean dan varian. Dalam implementasinya, untuk mencari nilai maksimum tersebut menggunakan metode iteratif misalnya algoritma Expectation-Maximation. Dalam proses maksimasi nilai loglikelihood ini seringkali menghasilkan hasil yang singular dan ini merupakan salah satu permasalahan dalam Gaussian Mixture Model.

Likelihood RatioMetode estimasi likelihood ratio yang digunakan dalam Forensic Speaker

Identification adalah membandingkan perbedaan antara sampel suara yang didapat dari

Page 16: Forensic speaker identification

hasil penyadapan telepon dengan hasil rekaman yang didapatkan secara langsung / wawancara. Likelihood ratio dinyatakan dalam persamaan :

(7.34)

Atau suatu probabilitas dimana Efsi adalah barang bukti berupa sampel, Hss adalah hipotesa bahwa sampel dari sampel suara yang didapat dari hasil penyadapan telepon dengan hasil rekaman yang didapatkan secara langsung / wawancara bersumber dari orang yang sama, Hds menyatakan hipotesa bahwa sampel dari sampel suara yang didapat dari hasil penyadapan telepon dengan hasil rekaman yang didapatkan secara langsung / wawancara bukan bersumber dari orang yang sama.

Pada saat melakukan perhitungan Likelihood ratio perlu juga diketahui referensi, latar belakang disamping rekaman telepon dan rekaman pada saat wawancara secara langsung. Ini dikarenakan Likelihood ratio adalah ratio dari similarity sampai dengan typicality. Ini akan mengukur seberapa besar persamaan antara kedua sampel, kemudian mengevaluasi kesamaan sampai ciri khasnya. Seberapa kemungkinan akan melakukan pengambilan sampel secara acak pada pembicara yang berbeda dari suatu populasi yang tidak berkaitan Perlu juga mengumpulkan kata-kata yang bisa dibandingkan dengan suara di telepon yang akan diperiksa. Basis pembandingnya adalah kutipan kata yang sama. Misalnya, kata Halo tidak akan masuk data penelitian jika hanya terucap sekali. Tapi, kalau misalnya terucap 10 kali, kata itu menjadi calon untuk pembanding..

Page 17: Forensic speaker identification

VIII. Metodologi Penelitian

Dalam penelitian ini, langkah-langkah yang dilakukan untuk mencapai tujuan

penelitian adalah sebagai berikut :

Page 18: Forensic speaker identification

IX. Jadwal Pelaksanaan

Kegiatan penelitian ini akan dilaksanakan dengan jadwal sebagai berikut

Tabel 2 Jadwal KegiatanNo KEGIATAN BULAN    1 2 3 4 5 6

1 Studi Literatur            

2 Pengambilan data            a.Rekaman telponb.Rekaman langsung            

 3 Menganalisa karekteristik akustik            

4 Identifikasi            

5 Menyimpulkan hasil analisa            

6 Penyusunan Laporan            

X. Daftar Pustaka

Nolan, F. (1983) The Phonetic Bases of Speaker Recognition. Cambridge: Cambridge University Press.

Nolan, F. and Oh, T. (1996) Identical twins, diferent voices. Forensic Linguistics 3(1): 39–49.Rose, P. (2002) Forensic Speaker Identifcation. London: Taylor and Francis.