Bagian III Neural Networks - wiragotama.github.io · Walaupun memiliki struktur seperti graf, operasi pada ANN paling ... nya menggunakan fungsi non-linear pada persamaan 11.5 dimana

Bagian III

Neural Networks

11

Artificial Neural Network

“If you want to makeinformation stick, it’s best tolearn it, go away from it for awhile, come back to it later,leave it behind again, and onceagain return to it - to engagewith it deeply across time. Ourmemories naturally degrade, buteach time you return to amemory, you reactivate its neuralnetwork and help to lock it in.”

Joshua Foer

Bab ini membahas salah satu algoritma machine learning yang sedangpopuler belakangan ini, yaitu artificial neural network. Pembahasan dimulaidari hal-hal sederhana sampai yang lebih kompleks. Bab ini lebih berfokuspada penggunaan artifical neural network untuk supervised learning.

11.1 Definisi

Masih ingatkah Anda materi pada bab-bab sebelumnya? Machine learn-ing sebenarnya meniru bagaimana proses manusia belajar. Pada bagian ini,peneliti ingin meniru proses belajar tersebut dengan mensimulasikan jaringansaraf biologis (neural network) [39, 40, 41, 42]. Kami yakin banyak yang sudahtidak asing dengan istilah ini, berhubung deep learning sedang populer danbanyak yang membicarakannya (dan digunakan sebagai trik pemasaran). Ar-tificial neural network adalah salah satu algoritma supervised learning yangpopuler dan bisa juga digunakan untuk semi-supervised atau unsupervisedlearning [40, 42, 43, 44, 45]. Walaupun tujuan awalnya adalah untuk men-simulasikan jaringan saraf biologis, jaringan tiruan ini sebenenarnya simulasi

128 11 Artificial Neural Network

yang terlalu disederhanakan, artinya simulasi yang dilakukan tidak mampumenggambarkan kompleksitas jaringan biologis manusia1.

Artificial Neural Network (selanjutnya disingkat ANN), menghasilkanmodel yang sulit dibaca dan dimengerti oleh manusia karena memiliki banyaklayer (multilayer perceptron) dan sifat non-linearity (fungsi aktivasi). Padabidang riset ini, ANN disebut agnostik–kita percaya, tetapi sulit membuk-tikan kenapa konfigurasi parameter yang dihasilkan training bisa benar. Kon-sep matematis ANN itu sendiri cukup solid, tetapi interpretability model ren-dah menyebabkan kita tidak dapat menganalisa proses inferensi yang terjadipada model ANN. Secara matematis, ANN ibarat sebuah graf. ANN memilikineuron/node (vertex ), dan sinapsis (edge). Topologi ANN akan dibahas lebihdetil subbab berikutnya. Sebagai gambaran, ANN berbentuk seperti Gam-bar 11.1. Walaupun memiliki struktur seperti graf, operasi pada ANN palingbaik dan mudah dijelaskan dalam notasi aljabar linear.

Gambar 11.1. Multilayer Perceptron

11.2 Single Perceptron

Bentuk terkecil (minimal) sebuah ANN adalah single perceptron yang hanyaterdiri dari sebuah neuron. Sebuah neuron diilustrasikan pada Gambar 11.2.Secara matematis, terdapat feature vector x yang menjadi input bagi neu-ron tersebut. Neuron akan memproses input x melalui perhitungan jumlahperkalian antara nilai input dan synapse weight, yang dilewatkan pada fungsinon-linear [46, 47, 4]. Pada training, yang dioptimasi adalah nilai synapse

1 Quora: why is Geoffrey Hinton suspicious of backpropagation and

wants AI to start over

https://www.quora.com/Why-is-Geoffrey-Hinton-suspicious-of-backpropagation-and-wants-AI-to-start-over

https://www.quora.com/Why-is-Geoffrey-Hinton-suspicious-of-backpropagation-and-wants-AI-to-start-over

11.2 Single Perceptron 129

weight (learning parameter). Selain itu, terdapat juga bias b sebagai kon-trol tambahan (ingat materi steepest gradient descent). Output dari neuronadalah hasil fungsi aktivasi dari perhitungan jumlah perkalian antara nilaiinput dan synapse weight . Ada beberapa macam fungsi aktivasi, misal stepfunction, sign function, rectifier dan sigmoid function. Untuk selan-jutnya, pada bab ini, fungsi aktivasi yang dimaksud adalah jenis sigmoidfunction. Silahkan eksplorasi sendiri untuk fungsi aktivasi lainnya. Salahsatu bentuk tipe sigmoid function diberikan pada persamaan 11.1. Biladi-plot menjadi grafik, fungsi ini memberikan bentuk seperti huruf S.

Gambar 11.2. Single Perceptron

σ(u) =1

1 + e−u(11.1)

Perhatikan kembali, Gambar 11.2 sesungguhnya adalah operasi aljabarlinear. Single perceptron dapat dituliskan kembali sebagai 11.2.

o = f(x ·w + b) (11.2)

dimana o adalah output dan f adalah fungsi non-linear yang dapat di-turunkan secara matematis (differentiable non-linear function – selanjut-nya disebut “fungsi non-linear” saja.). Bentuk ini tidak lain dan tidak bukanadalah persamaan model linear yang ditransformasi dengan fungsi non-linear.Secara filosofis, ANN bekerja mirip dengan model linear, yaitu mencari de-cision boudary. Apabila beberapa model non-linear ini digabungkan, makakemampuannya akan menjadi lebih hebat (subbab berikutnya).

Untuk melakukan pembelajaran single perceptron, training dilakukan meng-gunakan perceptron training rule . Prosesnya sebagai berikut [4, 46, 47]:

1. Inisiasi nilai synapse weights, bisa random ataupun dengan aturan ter-tentu. Untuk heuristik aturan inisiasi, ada baiknya membaca buku refer-ensi [1, 11].


2. Lewatkan input pada neuron, kemudian kita akan mendapatkan nilai out-put. Kegiatan ini disebut feedforward.

3. Nilai output (actual output) tersebut dibandingkan dengan desired output.4. Apabila nilai output sesuai dengan desired output, tidak perlu mengubah

apa-apa.5. Apabila nilai output tidak sesuai dengan desired output, hitung nilai er-

ror kemudian lakukan perubahan terhadap learning parameter (synapseweight).

6. Ulangi langkah-langkah ini sampai tidak ada perubahan nilai error, nilaierror kurang dari sama dengan suatu threshold (biasanya mendekati 0),atau sudah mengulangi proses latihan sebanyak T kali (threshold).

Error function diberikan pada persamaan 11.3 dan perubahan synapseweight diberikan pada persamaan 11.4, dimana y melambangkan desired out-put2, f(x,w) melambangkan actual output untuk x sebagai input. η disebutsebagai learning rate 3.

E(w) = (y − f(x,w))2

(11.3)

∆wi = η(y − o)xi (11.4)

Hasil akhir pembelajaran adalah konfigurasi synapse weight. Saat klasi-fikasi, kita melewatkan input baru pada jaringan yang telah dibangun, ke-mudian tinggal mengambil hasilnya. Pada contoh kali ini, seolah-olah sin-gle perceptron hanya dapat digunakan untuk melakukan binary classification(hanya ada dua kelas, nilai 0 dan 1). Untuk multi-label classification, kita da-pat menerapkan berbagai strategi. Metode paling umum adalah melewatkanoutput neurons pada fungsi softmax4, sehingga mendapatkan nilai distribusiprobabilitas untuk tiap kelas.

11.3 Permasalahan XOR

Sedikit sejarah, perceptron sebenarnya cukup populer sekitar tahun 1950-1960.Entah karena suatu sebab, perceptron menjadi tidak populer dan digantikanoleh model linear. Saat itu, belum ada algoritma yang bekerja dengan relatifbagus untuk melatih perceptron yang digabungkan (multilayer perceptron).Model linear mendapat popularitas hingga kira-kira dapat disebut sekitartahun 1990’an atau awal 2000’an. Berkat penemuan backpropagation sekitarawal 19805, multilayer perceptron menjadi semakin populer. Perlu dicatat,komunitas riset bisa jadi seperti cerita ini. Suatu teknik yang baru belum

2 Pada contoh ini, kebetulan jumlah neuron output hanyalah satu.3 Pada umumnya, kita tidak menggunakan satu data, tetapi batch-sized.4 Sudah dibahas pada model linear.5 http://people.idsia.ch/~juergen/who-invented-backpropagation.html

http://people.idsia.ch/~juergen/who-invented-backpropagation.html

11.3 Permasalahan XOR 131

tentu bisa segera diimplementasikan karena beberapa kendala (misal kendalakemampuan komputasi).

Pada bab-bab sebelumnya, kamu telah mempelajari model linear danmodel probabilistik. Kita ulangi kembali contoh data yang bersifat non-linearly separable, yaitu XOR yang operasinya didefinisikan sebagai:

• XOR(0, 0) = 0• XOR(1, 0) = 1• XOR(0, 1) = 1• XOR(1, 1) = 0

Ilustrasinya dapat dilihat pada Gambar 11.3. Jelas sekali, XOR ini adalahfungsi yang tidak dapat diselesaikan secara langsung oleh model linear.

Gambar 11.3. Permasalahan XOR

Seperti yang diceritakan pada bab model linear, solusi permasalahan iniadalah dengan melakukan transformasi data menjadi linearly-separable, misal-nya menggunakan fungsi non-linear pada persamaan 11.5 dimana (x, y) adalahabsis dan ordinat. Hasil transformasi menggunakan fungsi ini dapat dilihatpada Gambar 11.4. Jelas sekali, data menjadi linearly separable.

φ(x, y) = (x× y, x+ y) (11.5)

Sudah dijelaskan pada bab model linear, permasalahan yang ada tidaksesederhana ini (kebetulan ditransformasikan menjadi data dengan dimensiyang sama). Pada permasalahan praktis, kita harus mentransformasi datamenjadi dimensi lebih tinggi (dari 2D menjadi 3D). Berbeda dengan ide utamalinear model/kernel method tersebut, prinsip ANN adalah untuk mele-watkan data pada fungsi non-linear (non-linearities). Sekali lagi penulisingin tekankan, ANN secara filosofis adalah trainable non-linear mappingfunctions. ANN mampu mentransformasi data ke space/ruang konsep yangberbeda (bisa pada dimensi lebih tinggi atau lebih rendah), lalu mencari non-linear decision boundary dengan non-linear functions. Interaksi antar-fiturjuga dapat dimodelkan secara non-linear.

Perlu dicatat, pemodelan non-linear inilah yang membuat ANN menjadihebat. ANN mungkin secara luas didefinisikan mencakup perceptron tetapi


Gambar 11.4. XOR ditransformasi. Segiempat berwarna hijau sebenarnya melam-bangkan dua instans (yang setelah ditransformasi kebetulan berlokasi pada tempatyang sama)

secara praktis, ANN sebenarnya mengacu pada multilayer perceptrondan arsitektur lebih kompleks (dijelaskan pada subbab berikutnya). Padamasa ini, hampir tidak ada lagi yang menggunakan single perceptron. Untukbab-bab kedepan, ketika kami menyebut ANN maka yang diacu adalah multi-layer perceptron dan arsitektur lebih kompleks (single perceptron di-exclude).Hal ini disebabkan oleh single perceptron tidak dapat mempelajari XOR func-tion secara independen tanpa feature engineering, sementara multilayer per-ceptron bisa [48].

11.4 Multilayer Perceptron

Kamu sudah belajar training untuk single perceptron. Selanjutnya kita akanmempelajari multilayer perceptron (MLP) yang juga dikenal sebagai feed for-ward neural network . Kami tekankan sekali lagi, istilah “ANN” selan-jutnya mengacu pada MLP dan arsitektur lebih kompleks. Sepertiilustrasi pada Gambar 11.5, multilayer perceptron secara literal memiliki be-berapa layers. Pada lecture note ini, secara umum ada 3 layers: input, hid-den, dan output layer. Input layer menerima input (tanpa melakukan operasiapapun), kemudian nilai input (tanpa dilewatkan ke fungsi aktivasi) diberikanke hidden units. Pada hidden units, input diproses dan dilakukan perhitunganhasil fungsi aktivasi untuk tiap-tiap neuron, lalu hasilnya diberikan ke layerberikutnya. Hasil dari input layer akan diterima sebagai input bagi hiddenlayer. Begitupula seterusnya hidden layer akan mengirimkan hasilnya untukoutput layer. Kegiatan ini dinamakan feed forward [40, 4]. Hal serupa berlakuuntuk artificial neural network dengan lebih dari 3 layers. Parameter neurondapat dioptimisasi menggunakan metode gradient-based optimization (diba-has pada subabb berikutnya, ingat kembali bab 5). Perlu diperhatikan, MLPadalah gabungan dari banyak fungsi non-linear. Seperti yang disampaikanpada subbab sebelumnya, gabungan banyak fungsi non-linear ini lebih hebatdibanding single perceptron.

11.4 Multilayer Perceptron 133

Gambar 11.5. Multilayer Perceptron 2

oj = σ

(M∑k=1

xkwk,j + βj

)(11.6)

vi = σ

H∑j=1

ojuj,i + γi

= σ

H∑j=1

σ

(M∑k=1

xkwk,j + βj

)uj,i + γi

(11.7)

Perhatikan persamaan 11.6 dan 11.7 untuk menghitung output pada layeryang berbeda. u,w adalah learning parameters. β, γ melambangkan noise ataubias. M adalah banyaknya hidden units dan H adalah banyaknya output units.Persamaan 11.7 dapat disederhanakan penulisannya sebagai persamaan 11.8.Persamaan 11.8 terlihat relatif lebih “elegan”. Seperti yang disebutkan padasubbab sebelumnya, ANN dapat direpresentasikan dengan notasi operasi al-jabar.

v = σ(oU + γ) = σ((σ(xW + β))U + γ) (11.8)

Untuk melatih MLP, algoritma yang umumnya digunakan adalah back-propagation [49]. Arti kata backpropagation sulit untuk diterjemahkan kedalam bahasa Indonesia. Kita memperbaharui parameter (synapse weights)secara bertahap (dari output ke input layer, karena itu disebut backprop-agation) berdasarkan error/loss (output dibandingkan dengan desired out-put). Intinya adalah mengkoreksi synapse weight dari output layer ke hid-den layer, kemudian error tersebut dipropagasi ke layer sebelum-sebelumnya.Artinya, perubahan synapse weight pada suatu layer dipengaruhi oleh pe-rubahan synapse weight pada layer setelahnya6. Backpropagation tidak lain

6 Kata “setelah” mengacu layer yang menuju output layer, “sebelum” mengaculayer yang lebih dekat dengan input layer.


dan tidak bukan adalah metode gradient-based optimization yang diterapkanpada ANN.

Pertama-tama diberikan pasangan input (x) dan desired output (y) se-bagai training data. Untuk meminimalkan loss, algoritma backpropagationmenggunakan prinsip gradient descent (ingat kembali materi bab model lin-ear). Kamu akan memperlajari bagaimana cara menurunkan backpropagationmenggunakan teknik gradient descent, yaitu menghitung loss ANN pada Gam-bar 11.5 yang menggunakan fungsi aktivasi sigmoid. Untuk fungsi ak-tivasi lainnya, pembaca dapat mencoba menurunkan persamaan sendiri!

Ingat kembali chain rule pada perkuliahan diferensial

f(g(x))′

= f ′(g(x))g′(x). (11.9)

Ingat kembali error, untuk MLP diberikan oleh persamaan 11.3 (untuk satudata point), dimana I adalah banyaknya output neuron dan θ adalah kumpu-lan weight matrices (semua parameter pada MLP).

E(θ) =1

I

I∑i=1

(yi − vi)2 (11.10)

Mari kita lakukan proses penurunan untuk melatih MLP. Error/loss ditu-runkan terhadap tiap learning parameter.

Diferensial uj,i diberikan oleh turunan sigmoid function

δE(θ)

δuj,i= (yi − vi)

δviδuj,i

= (yi − vi)vi(1− vi)ojDiferensial wk,j diberikan oleh turunan sigmoid function

δE(θ)

δwk,j=

H∑i=1

(yi − vi)δviδwk,j

=

H∑i=1

(yi − vi)δviδoj

δojδwk,j

=

H∑i=1

(yi − vi)(vi(1− vi)uj,i)(oj(1− oj)xk)

Perhatikan, diferensial wk,j memiliki∑

sementara uj,i tidak ada. Hal ini dise-babkan karena uj,i hanya berkorespondensi dengan satu output neuron. Se-mentara wk,j berkorespondensi dengan banyak output neuron. Dengan katalain, nilai wk,j mempengaruhi hasil operasi yang terjadi pada banyak outputneuron, sehingga banyak neuron mempropagasi error kembali ke wk,j .

Metode penurunan serupa dapat juga digunakan untuk menentukan pe-rubahan β dan γ. Jadi proses backpropagation untuk kasus Gambar 11.5 dapat

11.5 Interpretability 135

diberikan seperti pada Gambar 11.6 dimana η adalah learning rate. Untuk ar-tificial neural network dengan lebih dari 3 layers, kita pun bisa menurunkanpersamaannya. Secara umum, proses melatih ANN (apapun variasi arsitek-turnya) mengikuti framework perceptron training rule (subbab 11.2).

Gambar 11.6. Proses latihan MLP menggunakan backpropagation

11.5 Interpretability

Interpretability ada dua macam yaitu model interpretability (i.e., apakahstruktur model pembelajaran mesin dapat dipahami) dan prediction inter-pretability (i.e., bagaimana memahami dan memverifikasi cara input dipetakanmenjadi output) [50]. Contoh teknik pembelajaran mesin yang mudah di-interpretasikan baik secara struktur dan prediksinya adalah decision tree(bab 6.2). Struktur decision tree berupa pohon keputusan mudah dimengertioleh manusia dan prediksi (keputusan) dapat dilacak (trace). Seperti yangsudah dijelaskan pada bagian pengantar, ANN (MLP) biasanya dianggap se-bagai metode black box atau susah untuk dinterpretasikan (terutama modelinterpretability-nya). Hal ini disebabkan oleh kedalaman (depth) yaitu memi-liki beberapa layer dan non-linearities. Suatu unit pada output layer dipen-garuhi oleh kombinasi (arbitrary combination) banyak parameter pada layerssebelumnya yang dilewatkan pada fungsi non-linear. Sulit untuk mengetahuibagaimana pengaruh bobot suatu unit pada suatu layer berpengaruh padaoutput layer, beserta bagaimana pengaruh kombinasi bobot. Berbeda denganmodel linear, kita tahu parameter (dan bobotnya) untuk setiap input. Salahsatu arah riset adalah mencari cara agar keputusan (karena struktur lebihsusah, setidaknya beranjak dari keputusan terlebih dahulu) yang dihasilkanoleh ANN dapat dijelaskan [51], salah satu contoh nyata adalah attention


mechanism [52, 53] (subbab 13.4.4) untuk prediction interpretability. Sur-vey tentang interpretability dapat dibaca pada paper oleh Doshi-Velez danKim [54].

Cara paling umum untuk menjelaskan keputusan pada ANN adalah meng-gunakan heat map. Sederhananya, kita lewatkan suatu data x pada ANN,kemudian kita lakukan feed-forward sekali (misal dari input ke hidden layerdengan parameter W). Kemudian, kita visualisasikan x ·W (ilustrasi padaGambar 11.7). Dengan ini, kita kurang lebih dapat mengetahui bagian inputmana yang berpengaruh terhadap keputusan di layer berikutnya.

Gambar 11.7. Contoh heat map (attention mechanism) pada mesin translasi.Warna lebih terang menandakan bobot lebih tinggi. Sebagai contoh, kata “menen-dang” berkorespondensi paling erat dengan kata “kicks”

11.6 Binary Classification

Salah satu strategi untuk binary classification adalah dengan menyediakanhanya satu output unit di jaringan. Kelas pertama direpresentasikan dengan−1, kelas kedua direpresentasikan dengan nilai 1 (setelah diaktivasi). Hal inidapat dicapai dengan fungsi non-linear seperti sign7. Apabila kita tertarikdengan probabilitas masuk ke dalam suatu kelas, kita dapat menggunakanfungsi seperti sigmoid8 atau tanh9.

11.7 Multi-label Classification

Multilayer perceptron dapat memiliki output unit berjumlah lebih dari satu.Seumpama kita mempunyai empat kelas, dengan demikian kita dapat merep-resentasikan keempat kelas tersebut empat output units. Kelas pertama di-representasikan dengan unit pertama, kelas kedua dengan unit kedua, dst.Untuk C kelas, kita dapat merepresentasikannya dengan C output units. Kitadapat merepresentasikan data harus dimasukkan ke kelas mana menggunakan

7 https://en.wikipedia.org/wiki/Sign_function8 https://en.wikipedia.org/wiki/Sigmoid_function9 https://en.wikipedia.org/wiki/Hyperbolic_function

https://en.wikipedia.org/wiki/Sign_function

https://en.wikipedia.org/wiki/Sigmoid_function

https://en.wikipedia.org/wiki/Hyperbolic_function

11.8 Deep Neural Network 137

sparse vector, yaitu bernilai 0 atau 1. Elemen ke-i bernilai 1 apabila data ma-suk ke kelas ci, sementara nilai elemen lainnya adalah 0 (ilurasi pada Gam-bar 11.8).Output ANN dilewatkan pada suatu fungsi softmax yang melam-bangkan probabilitas class-assignment ; i.e., kita ingin output agar semiripmungkin dengan sparse vector -desired output. Pada kasus ini, output dariANN adalah sebuah distribusi yang melambangkan input di-assign ke kelastertentu. Ingat kembali materi bab 5, cross entropy cocok digunakan sebagaiutility function ketika output berbentuk distribusi.

Gambar 11.8. Ilustrasi representasi desired output pada multi-label classification

Gambar 11.9. Deep Neural Network

11.8 Deep Neural Network

Deep Neural Network (DNN) adalah artificial neural network yang memilikibanyak layer. Pada umumnya, deep neural network memiliki lebih dari 3 layers


(input layer, N hidden layers, output layer), dengan kata lain adalah MLPdengan lebih banyak layer. Karena ada relatif banyak layer, disebutlah deep.Proses pembelajaran pada DNN disebut sebagai deep learning10 [9]. Jaringanneural network pada DNN disebut deep network.

Perhatikan Gambar 11.9 yang memiliki 4 layers. Cara menghitung finaloutput sama seperti MLP, diberikan pada persamaan 11.11 dimana β, γ, λadalah noise atau bias.

fi = σ

H2∑j=1

uj,iσ

(H1∑k=1

vk,jσ

(M∑m=1

xmwm,k + βk

)+ γj

)+ λi

(11.11)

Cara melatih deep neural network, salah satunya dapat menggunakan back-propagation. Seperti pada bagian sebelumnya, kita hanya perlu menurunkanrumusnya saja. Penurunan diserahkan pada pembaca sebagai latihan.Hasil proses penurunan dapat dilihat pada Gambar 11.10.

Gambar 11.10. Proses latihan DNN menggunakan backpropagation

Deep network terdiri dari banyak layer dan synapse weight, karenanyaestimasi parameter susah dilakukan. Arti filosofisnya adalah susah/lama un-tuk menentukan relasi antara input dan output. Walaupun deep learningsepertinya kompleks, tetapi entah kenapa dapat bekerja dengan baik untuk

10 Hanya istilah keren saja, tak ada arti spesial!

11.8 Deep Neural Network 139

permasalahan praktis [9]. Deep learning dapat menemukan relasi “tersem-bunyi” antara input dan output, yang tidak dapat diselesaikan menggunakanmultilayer perceptron (3 layers). Banyak orang percaya deep neural networklebih baik dibanding neural network yang lebar tapi sedikit layer, karenaterjadi lebih banyak transformasi. Maksud lebih banyak transformasi adalahkemampuan untuk merubah input menjadi suatu representasi (tiap hiddenlayer dapat dianggap sebagai salah satu bentuk representasi input) denganlangkah hierarchical. Seperti contoh permasalahan XOR, permasalahan non-linearly separable pun dapat diselesaikan apabila kita dapat mentransformasidata (representasi data) ke dalam bentuk linearly separable pada ruang yangberbeda. Keuntungan utama deep learning adalah mampu merubah data darinon-linearly separable menjadi linearly separable melalui serangkaian trans-formasi (hidden layers). Selain itu, deep learning juga mampu mencari de-cision boundary yang berbentuk non-linear, serta mengsimulasikan interaksinon-linear antar fitur.

Karena memiliki banyak parameter, proses latihan ANN pada umumnyalambat. Ada beberapa strategi untuk mempercepat pembelajaran menggu-nakan deep learning, misalnya: regularisasi, successive learning , dan peng-gunaan autoencoder [9]. Sebagai contoh, saya akan menceritakan successivelearning. Arti successive learning adalah jaringan yang dibangun secara berta-hap. Misal kita latih ANN dengan 3 layers, kemudian kita lanjutkan 3 lay-ers tersebut menjadi 4 layers, lalu kita latih lagi menjadi 5 layers, dst. Halini sesuai dengan [55], yaitu mulai dari hal kecil. Ilustrasinya dapat dilihatpada Gambar 11.11. Menggunakan deep learning harus hati-hati karena pem-belajaran cenderung divergen (artinya, minimum square error belum tentusemakin rendah seiring berjalannya waktu – swing relatif sering).

Gambar 11.11. Contoh successive learning


11.9 Tips

Pada contoh yang diberikan, error atau loss dihitung per tiap data point.Artinya begitu ada melewatkan suatu input, parameter langsung dioptimisasisesuai dengan loss. Pada umumnya, hal ini tidak baik untuk dilakukan karenaANN menjadi tidak stabil. Metode yang lebih baik digunakan adalah teknikminibatches. Yaitu mengoptimisasi parameter untuk beberapa buah inputs.Jadi, update parameter dilakukan per batch. Data mana saja yang dimasukkanke suatu batch dalam dipilih secara acak. Seperti yang mungkin kamu sadarisecara intuitif, urutan data yang disajikan saat training mempengaruhi kinerjaANN. Pengacakan ini menjadi penting agar ANN mampu mengeneralisasidengan baik. Kita dapat mengatur laju pembelajaran dengan menggunakanlearning rate. Selain menggunakan learning rate, kita juga dapat menggunakanmomentum (subbab 5.5).

Pada library/API deep learning, learning rate pada umumnya berubah-ubah sesuai dengan waktu. Selain itu, tidak ada nilai khusus (rule-of-thumb)untuk learning rate terbaik. Pada umumnya, kita inisiasi learning rate den-gan nilai {0.001, 0.01, 0.1, 1} [1]. Biasanya, kita menginisiasi proses latihandengan nilai learning rate cukup besar, kemudian mengecil seiring berjalan-nya waktu11. Kemudian, kita mencari konfigurasi parameter terbaik denganmetode grid-search12, yaitu dengan mencoba-coba parameter secara exhaus-tive (brute-force) kemudian memilih parameter yang memberikan kinerja ter-baik.

ANN sensitif terhadap inisialisasi parameter, dengan demikian banyakmetode inisialisasi parameter misalkan, nilai synapse weights diambil daridistribusi binomial (silahkan eksplorasi lebih lanjut). Dengan hal ini, kinerjaANN dengan arsitektur yang sama dapat berbeda ketika dilatih ulang dariawal. Untuk menghindari bias inisialisasi parameter, biasanya ANN dilatihbeberapa kali (umumnya 5, 10, atau 15 kali). Kinerja ANN yang dilaporkanadalah nilai kinerja rata-rata dan varians (variance). Kamu mungkin sudahmenyadari bahwa melatih ANN harus telaten, terutama dibanding model lin-ear. Untuk model linear, ia akan memberikan konfigurasi parameter yang samauntuk training data yang sama (kinerja pun sama). Tetapi, ANN dapat kon-figurasi parameter yang berbeda untuk training data yang sama (kinerja punberbeda). Pada model linear, kemungkinan besar variasi terjadi saat meng-ganti data. Pada ANN, variasi kinerja ada pada seluruh proses! Untuk mem-bandingkan dua arsitektur ANN pada suatu dataset, kita dapat menggunakantwo sample t-test unequal variance (arsitektur X lebih baik dari arsitektur Ysecara signifikan dengan nilai p < threshold).

Apabila kamu pikir dengan seksama, ANN sebenarnya melakukan trans-formasi non-linear terhadap input hingga menjadi output. Parameter diper-

11 Analogi: ngebut saat baru berangkat, kemudian memelan saat sudah dekat den-gan tujuan agar tidak kelewat

12 https://en.wikipedia.org/wiki/Hyperparameter_optimization

https://en.wikipedia.org/wiki/Hyperparameter_optimization

11.10 Regularization and Dropout 141

barahui agar transformasi non-linear input bisa menjadi semirip mungkin den-gan output yang diharapkan. Dengan hal ini, istilah “ANN” memiliki asosi-asi yang dekat dengan “transformasi non-linear”. Kami ingin kamu mengin-gat, ANN (apapun variasi arsitekturnya) adalah gabungan fungsi non-linear, dengan demikian ia mampu mengaproksimasi fungsi non-linear (deci-sion boundary dapat berupa fungsi non-linear).

Deep learning menjadi penting karena banyaknya transformasi (banyaknyahidden layers) lebih penting dibanding lebar jaringan. Seringkali (pada per-masalahan praktis), kita membutuhkan banyak transformasi agar input bisamenjadi output. Setiap transformasi (hidden layer) merepresentasikan inputmenjadi suatu representasi. Dengan kata lain, hidden layer satu dan hiddenlayer lainnya mempelajari bentuk representasi atau karakteristik input yangberbeda.

Curriculum learning juga adalah tips yang layak disebutkan (men-tion) [56]. Penulis tidak mengerti detilnya, sehingga pembaca diharapkanmembaca sendiri. Intinya adalah memutuskan apa yang harus ANN pelajariterlebih dahulu (mulai dari mempelajari hal mudah sebelum mempelajari halyang susah).

11.10 Regularization and Dropout

Seperti yang sudah dijelaskan pada model linear. Kita ingin model mengener-alisasi dengan baik (kinerja baik pada training data dan unseen examples).Kita dapat menambahkan fungsi regularisasi untuk mengontrol kompleksitasANN. Regularisasi pada ANN cukup straightforward seperti regularisasi padamodel linear (subbab 5.8). Kami yakin pembaca bisa mengeksplorasi sendiri.

Selain itu, agar ANN tidak “bergantung” pada satu atau beberapa synapseweights saja, kita dapat menggunakan dropout. Dropout berarti me-nol -kannilai synapse weights dengan nilai rate tertentu. Misalkan kita nol -kan nilai30% synapse weights (dropout rate= 0.3) secara random. Hal ini dapat dicapaidengan teknik masking, yaitu mengalikan synapse weights dengan suatu mask.

Ingat kembali ANN secara umum, persamaan 11.12 dimana W adalahsynapse weights, x adalah input (atau secara umum, dapat merepresentasikanhidden state pada suatu layer), b adalah bias dan f adalah fungsi aktivasi(non-linear). Kita buat suatu mask untuk synapse weights seperti pada per-samaan 11.13, dimana p adalah vektor dan pi = [0, 1] merepresentasikansynapse weight diikutsertakan atau tidak. r% (dropout rate) elemen vektorp bernilai 0. Biasanya p diambil dari bernoulli distribution [1]. Kemudian,saat feed forward, kita ganti synapse weights menggunakan mask sepertipada persamaan 11.14. Saat menghitung backpropagation, turunan fungsi jugamengikutsertakan mask (gradient di-mask). Kami sarankan untuk membacapaper oleh Srivastava et al. [57] tentang dropout pada ANN. Contoh imple-mentasi dropout dapat dilihat pada pranala berikut13.

13 https://gist.github.com/yusugomori/cf7bce19b8e16d57488a

https://gist.github.com/yusugomori/cf7bce19b8e16d57488a


o = f(x ·W + b) (11.12)

W′ = p ·W (11.13)

o = f(x ·W′ + b) (11.14)

Baik regularization maupun dropout sudah menjadi metode yang cukup“standar” dan diaplikasikan pada berbagai macam arsitektur (tidak terbataspada MLP saja).

11.11 Vanishing and Exploding Gradients

Pada beberapa kasus, nilai gradien (∆W - perubahan parameter) sangat ke-cil (mendekati nol - vanishing) atau sangat besar (explode). Vanishing gra-dient problem umum terjadi untuk ANN yang sangat dalam (deep), yaitumemiliki banyak layer. Hal ini juga terjadi pada arsitektur khusus, sepertirecurrent neural network saat diberikan input yang panjang [58]. Turunansuatu fungsi bernilai lebih kecil dari fungsi tersebut. Artinya nilai gradientpada input layer bernilai lebih kecil dari output layer. Apabila kita memilikibanyak layer, nilai gradient saat backpropagation mendekati nol ketika ditu-runkan kembali dalam banyak proses. Ilustrasi vanishing gradient diberikanpada Gambar 11.12 (analogikan dengan heat map). Saat melakukan backprop-agation, nilai gradien menjadi mendekati nol (warna semakin putih, delta nilaisemakin menghilang). Penanganan permasalahan ini masih merupakan topikriset tersendiri. Untuk saat ini, biasanya digunakan fungsi aktivasi long shortterm memory (LSTM) atau gated recurrent unit (GRU) untuk menanganinya.Selain nilai gradien, nilai synapse weights juga bisa sangat kecil atau sangatbesar. Hal ini juga tidak baik!

Gambar 11.12. Ilustrasi vanishing gradient problem

11.12 Rangkuman 143

11.12 Rangkuman

Ada beberapa hal yang perlu kamu ingat, pertama-tama jaringan neural net-work terdiri atas:

1. Input layer2. Hidden layer(s)3. Output layer

Setiap edge yang menghubungkan suatu node dengan node lainnya disebutsynapse weight. Pada saat melatih neural network kita mengestimasi nilaiyang “bagus” untuk synapse weights.

Kedua, hal tersulit saat menggunakan neural network adalah menentukantopologi. Kamu bisa menggunakan berbagai macam variasi topologi neu-ral network serta cara melatih untuk masing-masing topologi. Tetapi, suatutopologi tertentu lebih tepat untuk merepresentasikan permasalahan diband-ing topologi lainnya. Menentukan tipe topologi yang tepat membutuhkan pen-galaman.

Ketiga, proses training untuk neural network berlangsung lama. Secaraumum, perubahan nilai synapse weights mengikuti tahapan (stage) berikut [9]:

1. Earlier state. Pada tahap ini, struktur global (kasar) diestimasi.2. Medium state. Pada tahap ini, learning berubah dari tahapan global men-

jadi lokal (ingat steepest gradient descent).3. Last state. Pada tahap ini, struktur detail sudah selesai diestimasi. Hara-

pannya, model menjadi konvergen.

Neural network adalah salah satu learning machine yang dapat menemukanhidden structure atau pola data “implisit”. Secara umum, learning machinetipe ini sering menjadi overfitting/overtraining, yaitu model memiliki kinerjasangat baik pada training data, tapi buruk pada testing data/unseen example.Oleh sebab itu, menggunakan neural network harus hati-hati.

Keempat, neural network dapat digunakan untuk supervised, semi -supervised,maupun unsupervised learning. Hal ini membuat neural network cukup pop-uler belakangan ini karena fleksibilitas ini. Contoh penggunaan neural net-work untuk unsupervised learning akan dibahas pada bab 12. Semakin canggihkomputer, maka semakin cepat melakukan perhitungan, dan semakin cepatmelatih neural network. Hal ini adalah kemewahan yang tidak bisa dirasakan20-30 tahun lalu.

Soal Latihan

11.1. Turunan

(a) Turunkanlah perubahan noise/bias untuk training pada MLP.(b) Turunkanlah proses training deep neural network pada Gambar 11.10 ter-

masuk perubahan noise/bias.


11.2. Neural Network Training

(a) Sebutkan dan jelaskan cara lain untuk melatih artificial neural network(selain backpropagation) (bila ada)!

(b) Apa kelebihan dan kekurangan backpropagation?(c) Tuliskan persamaan MLP dengan menggunakan momentum! (kemudian

berikan juga backpropagation-nya)

11.3. Neural Network - Unsupervised LearningBagaimana cara menggunakan artificial neural network untuk unsupervisedlearning?

11.4. Regularization Technique

(a) Sebutkan dan jelaskan teknik regularization untuk neural network ! (dalambentuk formula)

(b) Mengapa kita perlu menggunakan teknik tersebut?

11.5. Softmax Function

(a) Apa itu softmax function?(b) Bagaimana cara menggunakan softmax function pada neural network?(c) Pada saat kapan kita menggunakan fungsi tersebut?(d) Apa kelebihan fungsi tersebut dibanding fungsi lainnya?

11.6. Transformasi atributPada bab 4, diberikan contoh klasifikasi dengan data dengan atribut nom-inal. Akan tetapi, secara alamiah neural network membutuhkan data den-gan atribut numerik untuk klasifikasi. Jelaskan konversi/strategi penangananatribut nominal pada neural network !

12

Autoencoder

“The goal is to turn data intoinformation, and informationinto insight.”

Carly Fiorina

Bab ini memuat materi yang relatif sulit (karena agak high level). Babini memuat materi autoencoder serta penerapannya pada pemrosesan ba-hasa alami (natural language processing - NLP). Berhubung aplikasiyang diceritakan adalah aplikasi pada NLP, kami akan memberi sedikit ma-teri (background knowledge) agar bisa mendapat gambaran tentang persoalanpada domain tersebut. Bagi yang tertarik belajar NLP, kami sarankan untukmembaca buku [59]. Teknik yang dibahas pada bab ini adalah representa-tion learning untuk melakukan pengurangan dimensi pada feature vector(dimensionality reduction), teknik ini biasanya digolongkan sebagai unsuper-vised learning. Artinya, representation learning adalah mengubah suatu rep-resentasi menjadi bentuk representasi lain yang ekuvalen, tetapi berdimensilebih rendah; sedemikian sehingga informasi yang terdapat pada representasiasli tidak hilang/terjaga. Ide dasar teknik ini bermula dari aljabar linear, yaitudekomposisi matriks.

12.1 Representation Learning

Pada bab model linear, kamu telah mempelajari ide untuk mentransformasidata menjadi dimensi lebih tinggi agar data tersebut menjadi linearly sep-arable. Pada bab ini, kamu mempelajari hal sebaliknya, yaitu mengurangidimensi. Curse of dimensionality dapat dipahami secara mendalam apabilakamu membaca buku [60]. Untuk melakukan klasifikasi maupun clustering,kita membutuhkan fitur. Fitur tersebut haruslah dapat membedakan satu in-stance dan instance lainnya. Seringkali, untuk membedakan instance satu dan

146 12 Autoencoder

instance lainnya, kita membutuhkan feature vector yang berdimensi relatif“besar”. Karena dimensi feature vector besar, kita butuh sumber daya kom-putasi yang besar juga (bab 9). Untuk itu, terdapat metode-metode featureselection1 untuk memilih fitur-fitur yang dianggap “representatif” diband-ing fitur lainnya. Sayangnya, bila kita menggunakan metode-metode featureselection ini, tidak jarang kita kelihangan informasi yang memuat karakteris-tik data. Dengan kata lain, ada karakteristik yang hilang saat menggunakanfeature selection.

Pertanyaan yang kita ingin jawab adalah apakah ada cara untuk merep-resentasikan data ke dalam bentuk yang membutuhkan memori lebih sedikittanpa adanya kehilangan informasi? Kita dapat memanfaatkan prinsip prin-cipal component analysis yang sudah kamu pelajari pada bab 9 untuk mere-duksi dimensi data (mengurangi dimensi input), pada saat yang bersamaan,menjaga karakteristik data. Representation learning adalah metode untukmelakukan kompresi feature vector menggunakan neural network2. Prosesmelakukan kompresi disebut encoding, hasil feature vector dalam bentukterkompres disebut coding, proses mengembalikan hasil kompresi ke ben-tuk awal disebut (atau secara lebih umum, proses menginterpretasikan cod-ing) decoding. Neural network yang mampu melakukan hal ini disebut en-coder [61, 62, 63, 64, 65]. Contoh representation learning paling sederhanakemungkinan besar adalah autoencoder yaitu neural network yang dapatmerepresentasikan data kemudian merekonstruksinya kembali. Ilustrasi au-toencoder dapat dilihat pada Gambar 12.1. Karena tujuan encoder untuk kom-presi, bentuk terkompresi haruslah memiliki dimensi lebih kecil dari dimensiinput. Neural network mampu melakukan “kompresi” dengan baik karena iamampu menemukan hidden structure dari data. Ukuran utility function atauperformance measure untuk autoencoder adalah mengukur loss. Idealnya, out-put harus sama dengan input, yaitu autoencoder dengan tingkat loss 0%.

Contoh klasik lainnya adalah N-gram language modelling , yaitu mem-prediksi kata yt diberikan suatu konteks (surrounding words) misal kata se-belumnya yt−1 (bigram). Apabila kita mempunyai vocabulary sebesar 40, 000berarti suatu bigram model membutuhkan memory sebesar 40, 0002 (kombi-natorial). Apabila kita ingin memprediksi kata diberikan history yang lebihpanjang (misal dua kata sebelumnya - trigram) maka kita membutuhkan mem-ory sebesar 40, 0003. Artinya, memory yang dibutuhkan berlipat secara ek-sponensial. Tetapi, terdapat strategi menggunakan neural network dimanaparameter yang dibutuhkan tidak berlipat secara eksponensial walau kita in-gin memodelkan konteks yang lebih besar [66].

1 http://scikit-learn.org/stable/modules/feature_selection.html2 Istilah representation learning pada umumnya mengacu dengan teknik menggu-

nakan neural network.

http://scikit-learn.org/stable/modules/feature_selection.html

12.2 Singular Value Decomposition 147

Gambar 12.1. Contoh autoencoder sederhana

12.2 Singular Value Decomposition

Sebelum masuk ke autoencoder secara matematis, penulis akan memberikansedikit overview tentang dekomposisi matriks. Seperti yang sudah dijelaskanpada bab-bab sebelumnya, dataset dimana setiap instans direpresentasikanoleh feature vector dapat disusun menjadi matriks X berukuran N × F , di-mana N adalah banyaknya instans3 dan F adalah dimensi fitur. Pada ma-chine learning, dekomposisi atau reduksi dimensi sangat penting dilakukanterutama ketika dataset berupa sparse matrix. Dekomposisi berkaitan eratdengan principal component analysis (PCA) yang sudah kamu pelajari. TeknikPCA (melalui eigendecomposition) mendekomposisi sebuah matriks X men-jadi tiga buah matriks, seperti diilustrasikan pada persamaan 12.1. MatriksA adalah kumpulan eigenvector dan λ adalah sebuah diaglonal matriks yangberisi nilai eigenvalue.

X = AλA−1 (12.1)

PCA membutuhkan matriks yang kamu ingin dekomposisi berbentu simetris.Sedangkan, teknik singular value decomposition (SVD) tidak. Dengan konsepyang mirip dengna PCA, matriks X dapat difaktorisasi menjadi tiga buah ma-triks menggunakan teknik SVD, dimana operasi ini berkaitan dengan mencarieigenvectors, diilustrasikan pada persamaan 12.2.

X = U V WT (12.2)

dimana U berukuran N ×N , V berukuran N ×F , dan W berukuran F ×F .Perlu diperhatikan, matriks V adalah sebuah diagonal matriks (elemennyaadalah nilai singular value dari X). U disebut left-singular vectors yang ter-susun atas eigenvector dari XXT . Sementara, W disebut right-singular vec-tors yang tersusun atas eigenvector dari XTX.

3 Banyaknya training data.

148 12 Autoencoder

Misalkan kita mempunyai sebuah matriks lain V berukuran K×K, yaitumodifikasi matriks V dengan mengganti sejumlah elemen diagonalnya menjadi0 (analogi seperti menghapus beberapa baris dan kolom yang dianggap kurangpenting). Sebagai contoh, perhatikan ilustrasi berikut!

V =

α1 0 0 0 00 α2 0 0 00 0 α3 0 00 0 0 α4 0

V =

α1 0 00 α2 00 0 α3

Kita juga dapat me-nol-kan sejumlah baris dan kolom pada matriks U dan

W menjadi U (N ×K) dan W (K ×F ). Apabila kita mengalikan semuanya,

kita akan mendapat matriks X yang disebut low rank approximation darimatriks asli X, seperti diilustrasikan pada persamaan 12.3.

X = U V W (12.3)

Suatu baris dari matriks E = U V dianggap sebagai aproksimasi barismatriks X berdimensi tinggi [1]. Artinya, menghitung dot-product Ei · Ej =

Xi·Xj . Artinya, operasi pada matriks aproksimasi (walaupun berdimensi lebihrendah), kurang lebih melambangkan operasi pada matriks asli. Konsep inimenjadi fundamental autoencoder yang akan dibahas pada subbab berikutnya.Matriks aproksimasi ini memanfaatkan sejumlah K arah paling berpengaruhpada data. Dengan analogi tersebut, sama seperti mentransformasi data kebentuk lain dimana data hasil transformasi memiliki varians yang tinggi (ingatkembali materi PCA).

12.3 Ide Dasar Autoencoder

Seperti yang sudah dijelaskan autoencoder adalah neural network yang mampumerekonstruksi input. Ide dasar autoencoder tidak jauh dari konsep dekom-posisi/dimentionality reduction menggunakan singular value decomposition.

Diberikan dataset X, kita ingin mensimulasikan pencarian matriks X yangmerupakan sebuah low rank approximation dari matriks asli. Arsitektur dasarautoencoder diberikan pada Gambar 12.1. Kita memberi input matriks Xpada autoencoder, kemudian ingin autoencoder tersebut menghasilkan matriksyang sama. Dengan kata lain, desired output sama dengan input. Apabila di-hubungkan dengan pembahasan ANN pada bab sebelumnya, error functionuntuk melatih autoencoder diberikan pada persamaan 12.4, dimana y adalahoutput dari jaringan dan Z adalah dimensi output, N adalah banyaknya in-stans dan xi adalah data ke-i (feature vector ke-i).

E(θ) =1

N

Z∑i=j

(xi[j] − yi[j]

)2(12.4)

12.3 Ide Dasar Autoencoder 149

Persamaan 12.4 dapat kita tulis kembali sebagai persamaan 12.5, dimana fmelambangkan fungsi aktivasi dan θ adalah ANN (kumpulan weight matri-ces)4.

E(θ) =1

N

Z∑j=1

(xi[j] − f(xi, θ)[j]

)2(12.5)

Seperti yang sudah dijelaskan sebelumnya, desired output sama dengan input.Tetapi seperti yang kamu ketahui, mencapai loss sebesar 0% adalah hal yangsusah. Dengan demikian, kamu dapat memahami secara intuitif bahwa au-toencoder melakukan aproksimasi terhadap data asli. Gambar 12.2 mengilus-trasikan hubungan antara autoencoder dan singular value decomposition5.Perhatikan, hidden layer/coding adalah E = U V. Dengan kata lain, kita

Gambar 12.2. Hubungan autoencoder dan singular value decomposition (analogi)

dapat melakukan operasi dot-product pada coding untuk merepresentasikandot-product pada data asli X. Ini adalah ide utama autoencoder, yaitu meng-aproksimasi/mengkompresi data asli menjadi bentuk lebih kecil coding. Ke-mudian, operasi pada bentuk coding merepresentasikan operasi pada datasebenarnya.

Autoencoder terdiri dari encoder (sebuah neural network) dan decoder(sebuah neural network). Encoder merubah input ke dalam bentuk dimensilebih kecil (dapat dianggap sebagai kompresi). Decoder berusaha merekon-struksi coding menjadi bentuk aslinya. Secara matematis, kita dapat menulisautoencoder sebagai persamaan 12.6, dimana dec melambangkan decoder, enc

4 Pada banyak literatur, kumpulan weight matrices ANN sering dilambangkan den-gan θ

5 Hanya sebuah analogi.

150 12 Autoencoder

melambangkan encoder dan x adalah input. Encoder diberikan pada per-samaan 12.7 yang berarti melewatkan input pada suatu layer di neural net-work untuk menghasilkan representasi x berdimensi rendah, disebut codingc. U dan α melambangkan weight matrix dan bias.

f(d, θ) = dec(enc(x)) (12.6)

c = enc(x) = g(x,U, α) = σ(x ·U + α) (12.7)

Representasi c ini kemudian dilewatkan lagi pada suatu layer untuk merekon-struksi kembali input, kita sebut sebagai decoder. Decoder diberikan pada per-samaan 12.8 dimana W dan β melambangkan weight matrix dan bias. Baikpada fungsi encoder dan decoder, σ melambangkan fungsi aktivasi.

f(d, θ) = dec(c) = h(c,W, β) = σ(c ·W + β) (12.8)

Pada contoh sederhana ini, encoder dan decoder diilustrasikan sebagai sebuahlayer. Kenyataannya, encoder dan decoder dapat diganti menggunakan sebuahneural network dengan arsitektur kompleks.

Sekarang kamu mungkin bertanya-tanya, bila autoencoder melakukanhal serupa seperti singular value decomposition, untuk apa kita menggu-nakan autoencoder? (mengapa tidak menggunakan aljabar saja?) Berbedadengan teknik SVD, teknik autoencoder dapat juga mempelajari fitur non-linear6. Pada penggunaan praktis, autoencoder adalah neural network yangcukup kompleks (memiliki banyak hidden layer). Dengan demikian, kita da-pat ”mengetahui” berbagai macam representasi atau transformasi data.Framework autoencoder yang disampaikan sebelumnya adalah frameworkdasar. Pada kenyataannya, masih banyak ide lainnya yang bekerja denganprinsip yang sama untuk mencari coding pada permasalahan khusus. Outputdari neural network juga bisa tidak sama input-nya, tetapi tergantung per-masalahan (kami akan memberikan contoh persoalan word embedding). Selainitu, autoencoder juga relatif fleksibel; dalam artian saat menambahkan databaru, kita hanya perlu memperbaharui parameter autoencoder saja. Kamisarankan untuk membaca paper [67, 68] perihal penjelasan lebih lengkap ten-tang perbedaan dan persamaan SVD dan autoencoder secara lebih matematis.

Apabila kamu hanya ingin mengerti konsep dasar representation learn-ing, kamu dapat berhenti membaca sampai subbab ini. Secara sederhanarepresentation learning adalah teknik untuk mengkompresi input ke dalamdimensi lebih rendah tanpa (diharapkan) ada kehilangan informasi. Operasivektor (dan lainnya) pada level coding merepresentasikan operasi pada ben-tuk aslinya. Untuk pembahasan autoencoder secara lebih matematis, kamudapat membaca pranala ini7. Apabila kamu ingin mengetahui lebih jauh con-toh penggunaan representation learning secara lebih praktis, silahkan lan-jutkan membaca materi subbab berikutnya. Buku ini akan memberikan contoh

6 Hal ini abstrak untuk dijelaskan karena membutuhkan pengalaman.7 https://jaan.io/what-is-variational-autoencoder-vae-tutorial/

https://jaan.io/what-is-variational-autoencoder-vae-tutorial/

12.4 Representing Context: Word Embedding 151

penggunaan representation learning pada bidang natural language processing(NLP).

12.4 Representing Context: Word Embedding

Pada domain NLP, kita ingin komputer mampu mengerti bahasa selayaknyamanusia mengerti bahasa. Misalkan komputer mampu mengetahui bahwa“meja” dan “kursi” memiliki hubungan yang erat. Hubungan seperti ini tidakdapat terlihat berdasarkan teks tertulis, tetapi kita dapat menyusun kamushubungan kata seperti WordNet8. WordNet memuat ontologi kata sepertihipernim, antonim, sinonim. Akan tetapi, hal seperti ini tentu sangat mele-lahkan, seumpama ada kata baru, kita harus memikirkan bagaimana hubun-gan kata tersebut terhadap seluruh kamus yang sudah dibuat. Pembuatankamus ini memerlukan kemampuan para ahli linguistik.

Oleh sebab itu, kita harus mencari cara lain untuk menemukan hubun-gan kata ini. Ide utama untuk menemukan hubungan antarkata adalah sta-tistical semantics hypothesis yang menyebutkan pola penggunaan katadapat digunakan untuk menemukan arti kata [69]. Contoh sederhana, katayang muncul pada “konteks” yang sama cenderung memiliki makna yangsama. Perhatikan “konteks” dalam artian NLP adalah kata-kata sekitar (sur-rounding words)9; contohnya kalimat ”budi menendang bola”, “konteks” dari“bola” adalah “budi menendang”. Kata “cabai” dan “permen” pada keduakalimat “budi suka cabai” dan “budi suka permen” memiliki kaitan makna,dalam artian keduanya muncul pada konteks yang sama. Sebagai manusia,kita tahu ada keterkaitan antara “cabai” dan “permen” karena keduanya bisadimakan.

Berdasarkan hipotesis tersebut, kita dapat mentransformasi kata menjadisebuah bentuk matematis dimana kata direpresentasikan oleh pola penggu-naannya [59]. Arti kata embedding adalah transformasi kata (beserta kon-teksnya) menjadi bentuk matematis (vektor). “Kedekatan hubungan makna”(semantic relationship) antarkata kita harapkan dapat tercermin pada op-erasi vektor. Salah satu metode sederhana untuk merepresentasikan kata seba-gai vektor adalah Vector Space Model . Konsep embedding dan autoencodersangatlah dekat, tapi kami ingin menakankan bahwa embedding adalah bentukrepresentasi konteks.

Semantic relationship dapat diartikan sebagai attributional ataurelational similarity . Attributional similarity berarti dua kata memilikiatribut/sifat yang sama, misalnya anjing dan serigala sama-sama berkaki em-pat, menggongong, serta mirip secara fisiologis. Relational similarity berartiderajat korespondensi, misalnya anjing : menggongong memiliki hubunganyang erat dengan kucing : mengeong.

8 https://wordnet.princeton.edu/9 Selain surrounding words, konteks dalam artian NLP dapat juga berupa kalimat,

paragraph, atau dokumen.

https://wordnet.princeton.edu/

152 12 Autoencoder

Dokumen 1 Dokumen 2 Dokumen 3 Dokumen 4 · · ·

King 1 0 0 0 · · ·Queen 0 1 0 1 · · ·Prince 1 0 1 0 · · ·Princess 0 1 0 1 · · ·· · ·

Tabel 12.1. Contoh 1-of-V encoding

12.4.1 Vector Space Model

Vector space model (VSM)10 adalah bentuk embedding yang relatif sudahcukup lama tapi masih digunakan sampai saat ini. Pada pemodelan ini, kitamembuat sebuah matriks dimana baris melambangkan kata, kolom melam-bangkan dokumen. Metode VSM ini selain mampu menangkap hubungan an-tarkata juga mampu menangkap hubungan antardokumen (to some degree).Asal muasalnya adalah statistical semantics hypothesis. Tiap sel pada matriksberisi nilai 1 atau 0. 1 apabila katai muncul di dokumeni dan 0 apabila tidak.Model ini disebut 1-of-V/1-hot encoding dimana V adalah ukuran kosakata. Ilustrasi dapat dilihat pada Tabel 12.1.

Akan tetapi, 1-of-V encoding tidak menyediakan banyak informasi untukkita. Dibanding sangat ekstrim saat mengisi sel dengan nilai 1 atau 0 saja, kitadapat mengisi sel dengan frekuensi kemunculan kata pada dokumen, disebutterm frequency (TF). Apabila suatu kata muncul pada banyak dokumen,kata tersebut relatif tidak terlalu ”penting” karena muncul dalam berbagaikonteks dan tidak mampu membedakan hubungan dokumen satu dan doku-men lainnya (inverse document frequency/IDF). Formula IDF diberikanpada persamaan 12.9. Tingkat kepentingan kata berbanding terbalik denganjumlah dokumen dimana kata tersebut dimuat. N adalah banyaknya doku-men, ‖dεD; tεd‖ adalah banyaknya dokumen dimana kata t muncul.

IDF (t,D) = log

(N

|dεD; tεd|

)(12.9)

Dengan menggunakan perhitungan TF-IDF yaitu TF ∗IDF untuk mengisisel pada matriks Tabel 12.1, kita memiliki lebih banyak informasi. TF-IDFsampai sekarang menjadi baseline pada information retrieval . Misalkankita ingin menghitung kedekatan hubungan antar dua dokumen, kita hitungcosine distance antara kedua dokumen tersebut (vektor suatu dokumendisusun oleh kolom pada matriks). Apabila kita ingin menghitung kedekatanhubungan antar dua kata, kita hitung cosine distance antara kedua kata terse-but dimana vektor suatu kata merupakan baris pada matriks. Tetapi sepertiintuisi yang mungkin kamu miliki, mengisi entry dengan nilai TF-IDF pun

10 Mohon bedakan dengan VSM (vector space model) dan SVM (support vectormachine)


akan menghasilkan sparse matrix.

Statistical semantics hypothesis diturunkan lagi menjadi empat macamhipotesis [69]:

1. Bag of words2. Distributional hypothesis3. Extended distributional hypothesis4. Latent relation hypothesis

Silakan pembaca mencari sumber tersendiri untuk mengerti keempat hipotesistersebut atau membaca paper Turney dan Pantel [69].

12.4.2 Sequential, Time Series dan Compositionality

Bahasa manusia memiliki dua macam karakteristik yaitu adalah data berben-tuk sequential data dan memenuhi sifat compositionality. Sequential dataadalah sifat data dimana suatu kemunculan datai dipengaruhi oleh data se-belumnya (datai−1, datai−2, ...). Perhatikan kedua kalimat berikut:

1. Budi melempar bola.2. Budi melempar gedung bertingkat.

Pada kedua kalimat tersebut, kalimat pertama lebih masuk akal karenabagaimana mungkin seseorang bisa melempar “gedung bertingkat”. Kepu-tusan kita dalam memilih kata berikutnya dipengaruhi oleh kata-kata se-belumnya, dalam hal ini “Budi melempar” setelah itu yang lebih masuk akaladalah “bola”. Contoh lain adalah data yang memiliki sifat time seriesyaitu gelombang laut, angin, dan cuaca. Kita ingin memprediksi data den-gan rekaman masa lalu, tapi kita tidak mengetahui masa depan. Kita mampumemprediksi cuaca berdasarkan rekaman parameter cuaca pada hari-hari se-belumnya. Ada yang berpendapat beda time series dan sequential (sekuen-sial) adalah diketahuinya sekuens kedepan secara penuh atau tidak. Penulistidak dapat menyebutkan time series dan sekuensial sama atau beda, silahkanpembaca menginterpretasikan secara bijaksana.

Data yang memenuhi sifat compositionality berarti memiliki strukturhirarkis. Struktur hirarkis ini menggambarkan bagaimana unit-unit lebih ke-cil berinteraksi sebagai satu kesatuan. Artinya, interpretasi/pemaknaan unityang lebih besar dipengaruhi oleh interpretasi/pemaknaan unit lebih kecil(subunit). Sebagai contoh, kalimat “saya tidak suka makan cabai hijau”. Unit”cabai” dan ”hijau” membentuk suatu frasa ”cabai hijau”. Mereka tidak bisadihilangkan sebagai satu kesatuan makna. Kemudian interaksi ini naik lagimenjadi kegiatan “makan cabai hijau” dengan keterangan “tidak suka”, bahwaada seseorang yang “tidak suka makan cabai hijau” yaitu “saya”. Pemecahankalimat menjadi struktur hirarkis berdasarkan syntactical role disebut con-stituent parsing, contoh lebih jelas pada Gambar 12.3. N adalah noun, D

154 12 Autoencoder

adalah determiner, NP adalah noun phrase, VP adalah verb phrase, dan Sadalah sentence. Selain bahasa manusia, gambar juga memiliki struktur hi-rarkis. Sebagai contoh, gambar rumah tersusun atas tembok, atap, jendela,dan pintu. Tembok, pintu, dan jendela membentuk bagian bawah rumah; laludigabung dengan atap sehingga membentuk satu kesatuan rumah.

Gambar 12.3. Contoh constituent tree11

12.4.3 Distributed Word Representation

Seperti yang disebutkan pada bagian sebelumnya, kita ingin hubungan kata(yang diinferensi dari konteksnya) dapat direpresentasikan sebagai operasivektor seperti pada ilustrasi Gambar 12.4. Kata “raja” memiliki sifat-sifatyang dilambangkan oleh suatu vektor (misal 90% aspek loyalitas, 80% ke-bijaksanaan, 90% aspek kebangsaan, dst), begitu pula dengan kata “pria”,“wanita”, dan “ratu”. Jika sifat-sifat yang dimiliki “raja” dihilangkan bagiansifat-sifat “pria”-nya, kemudian ditambahkan sifat-sifat “wanita” maka ideal-nya operasi ini menghasilkan vektor yang dekat kaitannya dengan “ratu”. Den-gan kata lain, raja yang tidak maskulin tetapi fenimin disebut ratu. Sepertiyang disebutkan sebelumnya, ini adalah tujuan utama embedding yaitu merep-resentasikan “makna” kata sebagai vektor sehingga kita dapat memanipulasibanyak hal berdasarkan operasi vektor. Hal ini mirip (tetapi tidak sama)dengan prinsip singular value decomposition dan autoencoder yang telah di-jelaskan sebelumnya.

Selain vector space model, apakah ada cara lain yang mampu merep-resentasikan kata dengan lebih baik? Salah satu kekurangan VSM adalahtidak memadukan sifat sekuensial pada konstruksi vektornya. Cara lebih baikditemukan oleh [43, 44] dengan ekstensi pada [65]. Idenya adalah menggu-nakan teknik representation learning dan prinsip statistical semantics hypoth-esis. Metode ini lebih dikenal dengan sebutan word2vec. Tujuan word2vec

11 source: Pinterest


Gambar 12.4. Contoh operasi vektor kata

masih sama, yaitu merepresentasikan kata sebagai vektor, sehingga kita dapatmelakukan operasi matematis terhadap kata. Encoder -nya berbentuk Conti-nous bag of words (CBOW) atau Skip Gram. Pada CBOW, kita mem-prediksi kata diberikan suatu “konteks”. Pada arsitektur ”Skip Gram” kitamemprediksi konteks, diberikan suatu kata. Ilustrasi dapat dilihat pada Gam-bar 12.5. Bagian projection layer pada Gambar 12.5 adalah coding layer. Kamiakan memberikan contoh CBOW secara lebih detil.

Gambar 12.5. CBOW vs Skip Gram [44]

Perhatikan Gambar 12.6. Diberikan sebuah konteks “si kucing duduk ...tiker”. Kita harus menebak apa kata pada “...” tersebut. Dengan menggu-nakan teknik autoencoder, output layer adalah distribusi probabilitas kataipada konteks tersebut. Kata yang menjadi jawaban adalah kata dengan proba-

156 12 Autoencoder

Gambar 12.6. CBOW

bilitas terbesar, misalkan pada kasus ini adalah “beralaskan”. Dengan arsitek-tur ini, prinsip sekuensial atau time series dan statistical semantics hypothesisterpenuhi (to a certain extent). Teknik ini adalah salah satu contoh penggu-naan neural network untuk unsupervised learning. Kita tidak perlu mengko-respondensikan kata dan output yang sesuai karena input vektor didapat daristatistik penggunaan kata. Agar lebih tahu kegunaan vektor kata, kamu da-pat mencoba kode dengan bahasa pemrograman Python 2.7 yang disediakanpenulis12. Buku ini telah menjelaskan ide konseptual word embedding padalevel abstrak. Apabila kamu tertarik untuk memahami detilnya secara matem-atis, kamu dapat membaca berbagai penelitian terkait13. Silahkan baca paperoleh Mikolov [43, 44] untuk detil implementasi word embedding.

12.4.4 Distributed Sentence Representation

Kita sudah dapat merepresentasikan kata menjadi vektor, selanjutnya kitaingin mengonversi unit lebih besar (kalimat) menjadi vektor. Salah satu carapaling mudah adalah menggunakan nilai rata-rata representasi word embed-ding untuk semua kata yang ada pada kalimat tersebut (average of its individ-ual word embeddings). Cara ini sering digunakan pada bidang NLP dan cukuppowerful, sebagai contoh pada paper oleh Putra dan Tokunaga [70]. Pada NLP,sering kali kalimat diubah terlebih dahulu menjadi vektor sebelum dilewatkanpada algoritma machine learning, misalnya untuk analisis sentimen (kalimatbersentimen positif atau negatif). Vektor ini yang nantinya menjadi featurevector bagi algoritma machine learning.

12 https://github.com/wiragotama/GloVe_Playground13 Beberapa orang berpendapat bahwa evil is in the detail.

https://github.com/wiragotama/GloVe_Playground


Kamu sudah tahu bagaimana cara mengonversi kata menjadi vektor, un-tuk mengonversi kalimat menjadi vektor cara sederhananya adalah merata-ratakan nilai vektor kata-kata pada kalimat tersebut. Tetapi dengan carasederhana ini, sifat sekuensial dan compositional pada kalimat tidak ter-penuhi. Sebagai contoh, kalimat “anjing menggigit Budi” dan “Budi meng-gigit anjing” akan direpresentasikan sebagai vektor yang sama karena terdiridari kata-kata yang sama. Dengan demikian, representasi kalimat sederhanadengan merata-ratakan vektor kata-katanya juga tidaklah sensitif terhadapurutan14. Selain itu, rata-rata tidak sensitif terhadap compositionality. Misalfrase “bukan sebuah pengalaman baik” tersusun atas frase “bukan” yang di-ikuti oleh “sebuah pengalaman baik”. Rata-rata tidak mengetahui bahwa“bukan” adalah sebuah modifier untuk sebuah frase dibelakangnya. Senti-men dapat berubah bergantung pada komposisi kata-katanya (contoh padaGambar 12.7).

Gambar 12.7. Contoh analisis sentimen (Stanford)15

Cara lainnya adalah meng-encode kalimat sebagai vektor menggunakanrecursive autoencoder. Recursive berarti suatu bagian adalah komposisi daribagian lainnya. Penggunaan recursive autoencoder sangat rasional berhubungdata memenuhi sifat compositionality yang direpresentasikan dengan baik olehtopologi recursive neural network. Selain itu, urutan susunan kata-kata jugatidak hilang. Untuk melatih recursive autoencoder, output dari suatu layeradalah rekonstruksi input, ilustrasi dapat dilihat pada Gambar 12.8. Padasetiap langkah recursive, hidden layer/coding layer berusaha men-decode ataumerekonstruksi kembali vektor input.

Lebih jauh, untuk sentimen analisis pada kata, kita dapat menambahkanoutput pada setiap hidden layer, yaitu sentimen unit gabungan, seperti pada

14 Karena ini recurrent neural network bagus untuk language modelling.15 http://nlp.stanford.edu:8080/sentiment/rntnDemo.html

http://nlp.stanford.edu:8080/sentiment/rntnDemo.html

158 12 Autoencoder

Gambar 12.8. Contoh recursive autoencoder

Gambar 12.9. Contoh recursive autoencoder dengan sentiment[62]

Gambar 12.9. Selain menggunakan recursive autoencoder, kamu juga dapatmenggunakan recurrent autoencoder. Kami silahkan pada pembaca untukmemahami recurrent autoencoder. Prinsipnya mirip dengan recursive autoen-coder.

Teknik yang disampaikan mampu mengonversi kalimat menjadi vektor,lalu bagaimana dengan paragraf, satu dokumen, atau satu frasa saja? Teknikumum untuk mengonversi teks menjadi vektor dapat dibaca pada [64] yanglebih dikenal dengan nama paragraph vector atau doc2vec.

12.5 Tips 159

12.5 Tips

Bab ini menyampaikan penggunaan neural network untuk melakukan kom-presi data (representation learning) dengan teknik unsupervised learning. Halyang lebih penting untuk dipahami bahwa ilmu machine learning tidak berdirisendiri. Walaupun kamu menguasai teknik machine learning tetapi tidakmengerti domain dimana teknik tersebut diaplikasikan, kamu tidak akan bisamembuat learning machine yang memuaskan. Contohnya, pemilihan fitur ma-chine learning pada teks (NLP) berbeda dengan gambar (visual processing).Mengerti machine learning tidak semata-mata membuat kita bisa menyele-saikan semua macam permasalahan. Tanpa pengetahuan tentang domain ap-likasi, kita bagaikan orang buta yang ingin menyetir sendiri!

Soal Latihan

12.1. LSI dan LDA

(a) Jelaskanlah Latent Semantic Indexing (LSI) dan Latent Dirichlet Alloca-tion (LDA)!

(b) Apa persamaan dan perbedaan antara LSI, LDA, dan autoencoder?

12.2. Variational AutoencoderJelaskan apa itu Variational autoencoder ! Deskripsikan perbedaannya denganautoencoder yang sudah dijelaskan pada bab ini?

13

Arsitektur Neural Network

As students cross the thresholdfrom outside to insider, they alsocross the threshold fromsuperficial learning motivated bygrades to deep learningmotivated by engagement withquestions. Their transformationentails an awakening–even,perhaps, a falling in love.

John C. Bean

Seperti yang sudah dijelaskan pada bab 12, data memiliki karakteristik(dari segi behaviour) misal sequential data, compositional data, dsb. Terda-pat arsitektur khusus artificial neural network (ANN) untuk menyelesaikanpersoalan pada tipe data tertentu. Pada bab ini, kami akan memberikan be-berapa contoh variasi arsitektur ANN yang cocok untuk tipe data tertentu.Penulis akan berusaha menjelaskan semaksimal mungkin ide-ide penting padamasing-masing arsitektur. Tujuan bab ini adalah memberikan pengetahuankonseptual (intuisi). Pembaca harus mengeksplorasi tutorial pemrogramanuntuk mampu mengimplementasikan arsitektur-arsitektur ini.

13.1 Convolutional Neural Network

Subbab ini akan memaparkan ide utama dari convolutional neural network(CNN) berdasarkan paper asli dari LeCun dan Bengio [71] (sekarang (2018)sudah ada banyak variasi). CNN memiliki banyak istilah dari bidang pemros-esan gambar (karena dicetuskan dari bidang tersebut), tetapi demi memper-mudah pemahaman intuisi CNN, diktat ini akan menggunakan istilah yanglebih umum juga.

162 13 Arsitektur Neural Network

Sekarang, mari kita memasuki cerita CNN dari segi pemrosesan gambar.Objek bisa saja dterlatak pada berbagai macam posisi seperti diilustrasikanoleh Gambar. 13.1. Selain tantangan variasi posisi objek, masih ada juga tan-tangan lain seperti rotasi objek dan perbedaan ukuran objek (scaling). Kitaingin mengenali (memproses) objek pada gambar pada berbagai macam po-sisi yang mungkin (translation invariance). Salah satu cara yang mungkinadalah dengan membuat suatu mesin pembelajaran (ANN) untuk regionaltertentu seperti pada Gambar. 13.2 (warna biru) kemudian meng-copy mesinpembelajaran untuk mampu mengenali objek pada regional-regional lainnya.Akan tetapi, kemungkinan besar ANN copy memiliki konfigurasi parameteryang sama dengan ANN awal. Hal tersebut disebabkan objek memiliki in-formasi prediktif (predictive information – feature vector) yang sama yangberguna untuk menganalisisnya. Dengan kata lain, objek yang sama (smiley)memiliki bentuk yang sama. ANN (MLP) bisa juga mempelajari prinsip trans-lation invariance, tetapi memerlukan jauh lebih banyak parameter dibandingCNN (subbab berikutnya secara lebih matematis) yang memang dibuat den-gan prinsip translation invariance (built-in).

Gambar 13.1. Motivasi convolutional neural network

Gambar 13.2. Motivasi convolutional neural network, solusi regional

13.1 Convolutional Neural Network 163

13.1.1 Convolution

Seperti yang sudah dijelaskan, motivasi CNN adalah untuk mampu menge-nali aspek yang informatif pada regional tertentu (lokal). Dibanding meng-copy mesin pembelajaran beberapa kali untuk mengenali objek pada banyakregional, ide lebih baik adalah untuk menggunakan sliding window . Setiapoperasi pada window1 bertujuan untuk mencari aspek lokal yang paling infor-matif. Ilustrasi diberikan oleh Gambar. 13.3. Warna biru merepresentasikansatu window, kemudian kotak ungu merepresentasikan aspek lokal paling in-formatif (disebut filter) yang dikenali oleh window. Dengan kata lain, kitamentransformasi suatu window menjadi suatu nilai numerik (filter). Kita jugadapat mentransformasi suatu window (regional) menjadi d nilai numerik (d-channels, setiap elemen berkorespondensi pada suatu filter). Window ini ke-mudian digeser-geser sebanyak T kali, sehingga akhirnya kita mendapatkanvektor dengan panjang d × T . Keseluruhan operasi ini disebut sebagai con-volution2.

Gambar 13.3. Sliding window

Agar kamu lebih mudah memahami prinsip ini, kami berikan contoh dalambentuk 1-D pada Gambar. 13.4. Warna biru merepresentasikan feature vector(regional) untuk suatu input (e.g., regional pada suatu gambar, kata padakalimat, dsb). Pada contoh ini, setiap 2 input ditransformasi menjadi vektorberdimensi 2 (2-channels); menghasilkan vektor berdimensi 4 (2 window ×2).

Gambar 13.4. 1D Convolution

1 Dikenal juga sebagai receptive field.2 Istilah convolution yang diterangkan pada konteks machine learning memiliki arti

yang berbeda pada bidang signal processing.


Pada contoh sebelumnya, kita menggunakan window selebar 2, satu win-dow mencakup 2 data; i.e., window1 = (x1, x2), window2 = (x2, x3), · · · .Untuk suatu input x. Kita juga dapat mempergunakan stride sebesar s,yaitu seberapa banyak data yang digeser untuk window baru. Contoh yangdiberikan memiliki stride sebesar satu. Apabila kita memiliki stride= 2, makakita menggeser sebanyak 2 data setiap langkah; i.e., window1 = (x1, x2), win-dow2 = (x3, x4), · · · .

Selain sliding window dan filter, convolutional layer juga mengadopsi prin-sip weight sharing. Artinya, synapse weights untuk suatu filter adalah samawalau filter tersebut dipergunakan untuk berbagai window. Sebagai ilustrasi,perhatikan Gambar. 13.5, warna yang sama pada synapse weights menun-jukkan synapse weights bersangkutan memiliki nilai (weight) yang sama.Tidak hanya pada filter hitam, hal serupa juga terjadi pada filter berwarnaoranye (i.e., filter berwarnya oranye juga memenuhi prinsip weight sharing).Walaupun memiliki konfigurasi bobot synapse weights yang sama, unit da-pat menghasilkan output yang berbeda untuk input yang berbeda. Konsepweight sharing ini sesuai dengan cerita sebelumnya bahwa konfigurasi param-eter untuk mengenali karakteristik informatif untuk satu objek bernilai samawalau pada lokasi yang berbeda. Dengan weight sharing, parameter neuralnetwork juga menjadi lebih sedikit dibanding menggunakan multilayer per-ceptron (feed-forward neural network).

Gambar 13.5. Konsep weight sharing

13.1.2 Pooling

Pada tahap convolution, kita merubah setiap k-sized window menjadi satuvektor berdimensi d (yang dapat disusun menjadi matriks D). Semua vek-tor yang dihasilkan pada tahap sebelumnya dikombinasikan (pooled) menjadisatu vektor c. Ide utamanya adalah mengekstrak informasi paling informatif(semacam meringkas). Ada beberapa teknik pooling, diantaranya: max pooling,average pooling, dan K-max pooling3; diilustrasikan pada Gambar. 13.6. Maxpooling mencari nilai maksimum untuk setiap dimensi vektor. Average pooling

3 Kami ingin pembaca mengeksplorasi sendiri dynamic pooling.

13.1 Convolutional Neural Network 165

mencari nilai rata-rata tiap dimensi. K-max pooling mencari K nilai terbesaruntuk setiap dimensinya (kemudian hasilnya digabungkan). Gabungan operasiconvolution dan pooling secara konseptual diilustrasikan pada Gambar. 13.7.

Gambar 13.6. Contoh pooling

Gambar 13.7. Convolution dan pooling

Setelah melewati berbagai operasi convolution dan pooling, kita akanmemiliki satu vektor yang kemudian dilewatkan pada multilayer perceptronuntuk melakukan sesuatu (tergantung permasalahan), misal klasifikasi gam-bar, klasifikasi sentimen, dsb (Ilustrasi pada Gambar. 13.8).


Gambar 13.8. Convolutional Neural Network4

13.1.3 Rangkuman

Kemampuan utama convolutional neural network (CNN) adalah arsitekturyang mampu mengenali informasi prediktif suatu objek (gambar, teks, poton-gan suara, dsb) walaupun objek tersebut dapat diposisikan dimana saja padainput. Kontribusi CNN adalah pada convolution dan pooling layer. Convolu-tion bekerja dengan prinsip sliding window dan weight sharing (mengurangikompleksitas perhitungan). Pooling layer berguna untuk merangkum infor-masi informatif yang dihasilkan oleh suatu convolution (mengurangi dimensi).Pada ujung akhir CNN, kita lewatkan satu vektor hasil beberapa operasiconvolution dan pooling pada multilayer perceptron (feed-forward neural net-work), dikenal juga sebagai fully connected layer , untuk melakukan suatupekerjaan (e.g., klasifikasi). Perhatikan, pada umumnya CNN tidak berdirisendiri, dalam artian CNN biasanya digunakan (dikombinasikan) untuk ar-sitektur yang lebih besar.

13.2 Recurrent Neural Network

Ide dasar recurrent neural network (RNN) adalah membuat topologi jaringanyang mampu merepresentasikan data sequential (sekuensial) atau time se-ries [72], misalkan data ramalan cuaca. Cuaca hari ini bergantung kuranglebih pada cuaca hari sebelumnya. Sebagai contoh apabila hari sebelumnyamendung, ada kemungkinan hari ini hujan5. Walau ada yang menganggapsifat data sekuensial dan time series berbeda, RNN berfokus sifat data di-mana instans waktu sebelumnya (t − 1) mempengaruhi instans pada waktuberikutnya (t). Intinya, mampu mengingat history.

Secara lebih umum, diberikan sebuah sekuens input x = (x1, · · · , xT ).Data xt (i.e., vektor, gambar, teks, suara) dipengaruhi oleh data sebelum-sebelumnya (history), ditulis sebagai P (xt | {x1, · · · , xt−1}). Kami harap

4 mathworks.com5 Mohon bertanya pada ahli meteorologi untuk kebenaran contoh ini. Contoh ini

semata-mata pengalaman pribadi penulis.

https://www.mathworks.com/content/mathworks/www/en/discovery/convolutional-neural-network/jcr:content/mainParsys/image_copy.adapt.full.high.jpg/1508999490138.jpg

13.2 Recurrent Neural Network 167

kamu ingat kembali materi markov assumption yang diberikan pada bab 8.Pada markov assumption, diasumsikan bahwa data xt (data point) hanyadipengaruhi oleh beberapa data sebelumnya saja (analogi: windowing).Setidaknya, asumsi ini memiliki dua masalah:

1. Menentukan window terbaik. Bagaimana cara menentukan banyaknyadata sebelumnya (secara optimal) yang mempengaruhi data sekarang.

2. Apabila kita menggunakan markov assumption, artinya kita mengganggapinformasi yang dimuat oleh data lama dapat direpresentasikan oleh datalebih baru (xt memuat informasi dari xt−J ; J adalah ukuran window).Penyederhanaan ini tidak jarang mengakibatkan informasi yang hilang.

RNN adalah salah satu bentuk arsitektur ANN untuk mengatasi masalahyang ada pada markov assumption. Ide utamanya adalah memorisasi6, kitaingin mengingat keseluruhan sekuens (dibanding markov assumption yangmengingat sekuens secara terbatas), implikasinya adalah RNN mampu menge-nali dependensi yang panjang (misal xt ternyata dependen terhadap x1). RNNpaling sederhana diilustrasikan pada Gambar. 13.9. Ide utamanya adalah ter-dapat pointer ke dirinya sendiri.

Gambar 13.9. Bentuk konseptual paling sederhana recurrent NN

Ilustrasi Gambar. 13.9 mungkin sedikit susah dipahami karena berben-tuk sangat konseptual. Bentuk lebih matematis diilustrasikan pada Gam-bar. 13.10 [72]. Perhitungan hidden state pada waktu ke-t bergantung padainput pada waktu ke-t (xt) dan hidden state pada waktu sebelumnya (ht−1).

Konsep ini sesuai dengan prinsip recurrent yaitu mengingat (memorisasi)kejadian sebelumnya. Kita dapat tulis kembali RNN sebagai persamaan 13.1.

ht = f(xt,ht−1, b) (13.1)

dimana f adalah fungsi aktivasi (non-linear, dapat diturunkan). Demi menyeder-hanakan penjelasan, penulis tidak mengikutsertakan bias (b) pada fungsi-fungsi berikutnya. Kami berharap pembaca selalu mengingat bahwa biasadalah parameter yang diikutsertakan pada fungsi artificial neural network.

6 Tidak merujuk hal yang sama dengan dynamic programming.


Gambar 13.10. Konsep Recurrent Neural Network

Gambar 13.11. Konsep feed forward pada RNN

Fungsi f dapat diganti dengan variasi neural network7, misal menggunakanlong short-term memory network (LSTM) [73]. Buku ini hanya akan menje-laskan konsep paling penting, silahkan eksplorasi sendiri variasi RNN.

Secara konseptual, persamaan 13.1 memiliki analogi dengan full markovchain. Artinya, hidden state pada saat ke-t bergantung pada semua hiddenstate dan input sebelumnya.

ht = f(xt,ht−1)

= f(xt, f(xt−1,ht−2))

= f(xt, f(xt−1, f({x1, · · · , xt−2}, {h1, · · · ,ht−3})))(13.2)

Training pada recurrent neural network dapat menggunakan metode back-propagation. Akan tetapi, metode tersebut kurang intuitif karena tidak mampumengakomodasi training yang bersifat sekuensial time series. Untuk itu, ter-dapat metode lain bernama backpropagation through time [74].

Sebagai contoh kita diberikan sebuah sekuens x dengan panjang T seba-gai input, dimana xt melambangkan input ke-i (data point dapat berupae.g., vektor, gambar, teks, atau apapun). Kita melakukan feed forward data

7 https://en.wikipedia.org/wiki/Recurrent_neural_network

https://en.wikipedia.org/wiki/Recurrent_neural_network

13.2 Recurrent Neural Network 169

tersebut ke RNN, diilustrasikan pada Gambar. 13.11. Perlu diingat, RNNmengadopsi prinsip parameter sharing (serupa dengan weight sharing padaCNN) dimana neuron yang sama diulang-ulang saat process feed forward.Setelah selesai proses feed forward, kita memperbaharui parameter (synapseweights) berdasarkan propagasi error (backpropagation). Pada backpropaga-tion biasa, kita perbaharui parameter sambil mempropagasi error dari hiddenstate ke hidden state sebelumnya. Teknik melatih RNN adalah backpropa-gation through time yang melakukan unfolding pada neural network. Kitamengupdate parameter, saat kita sudah mencapai hidden state paling awal.Hal ini diilustrasikan pada Gambar. 13.128. Gambar. 13.12 dapat diseder-hanakan menjadi bentuk lebih abstrak (konseptual) pada Gambar. 13.13.

Gambar 13.12. Konsep backpropagation through time [42]

Kita mempropagasi error dengan adanya efek dari next states of hid-den layer. Synapse weights diperbaharui secara large update. Synapse weighttidak diperbaharui per layer. Hal ini untuk merepresentasikan neural net-work yang mampu mengingat beberapa kejadian masa lampau dan keputu-san saat ini dipengaruhi oleh keputusan pada masa lampau juga (ingatan).Untuk mengerti proses ini secara praktikal (dapat menuliskannya sebagai pro-

8 Prinsip ini mirip dengan weight sharing.


Gambar 13.13. Konsep backpropagation through time [1]. Persegi berwarna merahumumnya melambangkan multi-layer perceptron

gram), penulis sarankan pembaca untuk melihat materi tentang computa-tion graph9 dan disertasi PhD oleh Mikolov [42].

Walaupun secara konseptual RNN dapat mengingat seluruh kejadian se-belumnya, hal tersebut sulit untuk dilakukan secara praktikal untuk sekuensyang panjang. Hal ini lebih dikenal dengan vanishing atau exploding gradientproblem [58, 75, 76]. Seperti yang sudah dijelaskan, ANN dan variasi arsitek-turnya dilatih menggunakan teknik stochastic gradient descent (gradient-basedoptimization). Artinya, kita mengandalkan propagasi error berdasarkan tu-runan. Untuk sekuens input yang panjang, tidak jarang nilai gradient menjadisangat kecil dekat dengan 0 (vanishing) atau sangat besar (exploding). Ketikapada satu hidden state tertentu, gradient pada saat itu mendekati 0, makanilai yang sama akan dipropagasikan pada langkah berikutnya (menjadi lebihkecil lagi). Hal serupa terjadi untuk nilai gradient yang besar.

Berdasarkan pemaparan ini, RNN adalah teknik untuk merubah suatusekuens input, dimana xt merepresentasikan data ke-t (e.g., vektor, gam-bar, teks) menjadi sebuah output vektor y. Vektor y dapat digunakan un-tuk permasalahan lebih lanjut (buku ini memberikan contoh sequence to se-quence pada subbab 13.4). Bentuk konseptual ini dapat dituangkan pada per-samaan 13.3. Biasanya, nilai y dilewatkan kembali ke sebuah multi-layer per-ceptron (MLP) dan fungsi softmax untuk melakukan klasifikasi akhir (finaloutput) dalam bentuk probabilitas, seperti pada persamaan 13.4.

y = RNN(x1, · · · , xN ) (13.3)

final output = softmax(MLP(y)) (13.4)

Perhatikan, arsitektur yang penulis deskripsikan pada subbab ini adalaharsitektur paling dasar. Untuk arsitektur state-of-the-art, kamu dapat mem-baca paper yang berkaitan.

9 https://www.coursera.org/learn/neural-networks-deep-learning/

lecture/4WdOY/computation-graph

https://www.coursera.org/learn/neural-networks-deep-learning/lecture/4WdOY/computation-graph

https://www.coursera.org/learn/neural-networks-deep-learning/lecture/4WdOY/computation-graph

13.3 Part-of-speech Tagging Revisited 171

13.3 Part-of-speech Tagging Revisited

Pada bab sebelumnya, kamu telah mempelajari konsep dasar recurrent neu-ral network. Selain digunakan untuk klasifikasi (i.e., hidden state terakhir di-gunakan sebagai input klasifikasi), RNN juga dapat digunakan untuk mem-prediksi sekuens seperti persoalan part-of-speech tagging (POS tagging) [77,78, 79]. Kami harap kamu masih ingat materi bab 8 yang membahas apa itupersoalan POS tagging.

Diberikan sebuah sekuens kata x = {x1, · · · , xT }, kita ingin mencarisekuens output y = {y1, · · · , yT } (sequence prediction); dimana yi adalah ke-las kata untuk xi. Perhatikan, panjang input dan output adalah sama. Ingatkembali bahwa pada persoalan POS tagging, kita ingin memprediksi suatukelas kata yang cocok yi dari kumpulan kemungkinan kelas kata C ketikadiberikan sebuah history seperti diilustrasikan oleh persamaan 13.5, dimanati melambangkan kandidat POS tag ke-i. Pada kasus ini, biasanya yang di-cari tahu setiap langkah (unfolding) adalah probabilitas untuk memilih suatukelas kata t ∈ C sebagai kelas kata yang cocok untuk di-assign sebagai yi.

Ilustrasi diberikan oleh Gambar. 13.14.

y1, · · · , yT = arg maxt1,··· ,tT ;ti∈C

p(t1, · · · , tT | x1, · · · , xT ) (13.5)

Gambar 13.14. POS tagging menggunakan RNN

Apabila kita melihat secara sederhana (markov assumption), hal ini tidaklain dan tidak bukan adalah melakukan klasifikasi untuk setiap instance padasekuens input (persamaan 13.6). Pada setiap time step, kita ingin meng-hasilkan output yang bersesuaian.

yi = arg maxti∈C

p(ti|xi) (13.6)

Akan tetapi, seperti yang sudah dibahas sebelum sebelumnya, markov as-sumption memiliki kelemahan. Kelemahan utama adalah tidak menggunakankeseluruhan history. Persoalan ini cocok untuk diselesaikan oleh RNN karenakemampuannya untuk mengingat seluruh sekuens (berbeda dengan hidden


markov model (HMM) yang menggunakan markov assumption). Secara teori-tis (dan juga praktis10), RNN lebih hebat dibanding HMM. Dengan ini, per-soalan POS tagging (full history) diilustrasikan oleh persamaan 13.7.

yi = arg maxti∈C

p(ti|x1, · · · , xT ) (13.7)

Pada bab sebelumnya, kamu diberikan contoh persoalan RNN untuk satuoutput ; i.e., diberikan sekuens input, output-nya hanyalah satu kelas yangmengkategorikan seluruh sekuens input. Untuk persoalan POS tagging, kitaharus sedikit memodifikasi RNN untuk menghasilkan output bagi setiap el-emen sekuens input. Hal ini dilakukan dengan cara melewatkan setiap hid-den layer pada RNN pada suatu jaringan (anggap sebuah MLP + softmax).Kita lakukan prediksi kelas kata untuk setiap elemen sekuens input, kemu-dian menghitung loss untuk masing-masing elemen. Seluruh loss dijumlahkanuntuk menghitung backpropagation pada RNN. Ilustrasi dapat dilihat padaGambar. 13.15. Tidak hanya untuk persoalan POS tagging, arsitektur ini da-pat juga digunakan pada persoalan sequence prediction lainnya seperti namedentity recognition11. Gambar. 13.15 mungkin agak sulit untuk dilihat, kamiberi bentuk lebih sederhananya (konseptual) pada Gambar. 13.16. Pada setiaplangkah, kita menentukan POS tag yang sesuai dan menghitung loss yang ke-mudian digabungkan. Backpropagation dilakukan dengan mempertimbangkankeseluruhan (jumlah) loss masing-masing prediksi.

Gambar 13.15. Sequence prediction menggunakan RNN

Berdasarkan arsitektur yang sudah dijelaskan sebelumnya, prediksi POStag ke-i bersifat independen dari POS tag lainnya. Padahal, POS tag lain-

10 Sejauh yang penulis ketahui. Tetapi hal ini bergantung juga pada variasi arsitek-tur.

11 https://en.wikipedia.org/wiki/Named-entity_recognition

https://en.wikipedia.org/wiki/Named-entity_recognition

13.3 Part-of-speech Tagging Revisited 173

Gambar 13.16. Sequence prediction menggunakan RNN (disederhakan) [1]. Persegiberwarna merah umumnya melambangkan multi-layer perceptron

nya memiliki pengaruh saat memutuskan POS tag ke-i (ingat kembali materibab 8); sebagai persamaan 13.8.

yi = arg maxti∈C

p(ti | y1, · · · , yi−1, x1, · · · , xi) (13.8)

Salah satu strategi untuk menangani hal tersebut adalah dengan mele-watkan POS tag pada sebuah RNN juga, seperti para persamaan 13.9 [1] (ilus-trasi pada Gambar. 13.17). Untuk mencari keseluruhan sekuens terbaik, kitadapat menggunakan teknik beam search (detil penggunaan dijelaskan padasubbab berikutnya). RNNx pada persamaan 13.9 juga lebih intuitif apabiladiganti menggunakan bidirectional RNN (dijelaskan pada subbab berikutnya).

p(ti | y1, · · · , yi−1, x1, · · · , xi) =

softmax(MLP([RNNx(x1, · · · , xi); RNNtag(t1, · · · , ti−1)]))(13.9)

Gambar 13.17. Sequence prediction menggunakan RNN (disederhakan). Persegimelambangkan RNN


13.4 Sequence to Sequence

Pertama-tama, kami ingin mendeskripsikan kerangka conditioned genera-tion . Pada kerangka ini, kita ingin memprediksi sebuah kelas yi berdasarkankelas yang sudah di-hasilkan sebelumnya (history yaitu y1, · · · , yi−1) dan se-buah conditioning context c (berupa vektor).

Arsitektur yang dibahas pada subbab ini adalah variasi RNN untuk per-masalahan sequence generation12. Diberikan sekuens input x = (x1, · · · , xT ).Kita ingin mencari sekuens output y = (y1, · · · , yM ). Pada subbab sebelum-nya, xi berkorespondensi langsung dengan yi; i.e., yi adalah kelas kata (kate-gori) untuk xi. Tetapi, pada permasalahan saat ini, xi tidak langsung berko-respondensi dengan yi. Setiap yi dikondisikan oleh seluruh sekuens input x(conditioning context dan history {y1, · · · , yi−1}. Dengan itu, M (panjangsekuens output) tidak mesti sama dengan T (panjang sekuens input). Per-masalahan ini masuk ke dalam kerangka conditioned generation dimana ke-seluruhan input x dapat direpresentasikan menjadi sebuah vektor c (coding).Vektor c ini menjadi variabel pengkondisi untuk menghasilkan output y.

Pasangan input-output dapat melambangkan teks bahasa X-teks bahasa Y(translasi), teks-ringkasan, kalimat-POS tags, dsb. Artinya ada sebuah inputdan kita ingin menghasilkan (generate/produce) sebuah output yang cocokuntuk input tersebut. Hal ini dapat dicapai dengan momodelkan pasanganinput-output P (y | x). Umumnya, kita mengasumsikan ada kumpulan pa-rameter θ yang mengontrol conditional probability, sehingga kita transformasiconditional probability menjadi P (y | x, θ). Conditional probability P (y | x, θ)dapat difaktorkan sebagai persamaan 13.10. Kami harap kamu mampu mem-bedakan persamaan 13.10 dan persamaan 13.5 (dan 13.8) dengan jeli. Sedikitperbedaan pada formula menyebabkan makna yang berbeda.

P (y | x, θ) =

M∏t=1

P (yt | {y1, . . . , yt−1},x, θ), (13.10)

Persamaan 13.10 dapat dimodelkan dengan encoder-decoder model yangterdiri dari dua buah RNN dimana satu RNN sebagai encoder, satu lagi se-bagai decoder. Ilustrasi encoder-decoder dapat dilihat pada Gambar. 13.18.Gabungan RNN encoder dan RNN decoder ini disebut sebagai bentuk se-quence to sequence . Warna biru merepresentasikan encoder dan warnamerah merepresentasikan decoder. “<EOS>” adalah suatu simbol spesial (un-tuk praktikalitas) yang menandakan bahwa sekuens input telah selesai dansaatnya berpindah ke decoder.

Sebuah encoder merepresentasikan sekuens input x menjadi satu vektorc13. Kemudian, decoder men-decode representasi c untuk menghasilkan (gen-erate) sebuah sekuens output y. Perhatikan, arsitektur kali ini berbeda den-gan arsitektur pada subbab 13.3. Encoder-decoder (neural network) bertin-

12 Umumnya untuk bidang pemrosesan bahasa alami.13 Ingat kembali bab 12 untuk mengerti kenapa hal ini sangat diperlukan.

13.4 Sequence to Sequence 175

Gambar 13.18. Konsep encoder -decoder [76]

dak sebagai kumpulan parameter θ yang mengatur conditional probability.Encoder-decoder juga dilatih menggunakan prinsip gradient-based optimiza-tion untuk tuning parameter yang mengkondisikan conditional probability [76].Dengan ini, persamaan 13.10 sudah didefinisikan sebagai neural network se-bagai persamaan 13.11. “enc” dan “dec” adalah fungsi encoder dan decoder,yaitu sekumpulan transformasi non-linear.

yt = dec({y1, · · · , yt−1}, enc(x), θ) (13.11)

Begitu model dilatih, encoder -decoder akan mencari output y terbaik untuksuatu input x, dillustrasikan pada persamaan 13.12. Masing-masing komponenencoder -decoder dibahas pada subbab-subbab berikutnya. Untuk abstraksiyang baik, penulis akan menggunakan notasi aljabar linear. Kami harap pem-baca sudah familiar dengan representasi neural network menggunakan notasialjabar linear seperti yang dibahas pada bab 11.

y = arg maxy

p(y | x, θ) (13.12)

13.4.1 Encoder

Seperti yang sudah dijelaskan, encoder mengubah sekuens input x menjadisatu vektor c. Suatu data point pada sekuens input xt (e.g., kata, gambar,suara, dsb) umumnya direpresentasikan sebagai feature vector et. Dengandemikian, encoder dapat direpresentasikan dengan persamaan 13.13

ht = f(ht−1, et)

= f(ht−1U + etW)(13.13)

dimana f adalah fungsi aktivasi non-linear; U dan W adalah matriks bobot(weight matrices–merepresentasikan synapse weights).

Representasi input c dihitung dengan persamaan 13.14, yaitu sebagaiweighted sum dari hidden states [52], dimana q adalah fungsi aktivasi non-linear. Secara lebih sederhana, kita boleh langsung menggunakan hT sebagaic [76].


c = q({h1, · · · ,hT }) (13.14)

Walaupun disebut sebagai representasi keseluruhan sekuens input, infor-masi awal pada input yang panjang dapat hilang. Artinya c lebih banyakmemuat informasi input ujung-ujung akhir. Salah satu strategi yang dapatdigunakan adalah dengan membalik (reversing) sekuens input. Sebagai con-toh, input x = (x1, · · · , xT ) dibalik menjadi (xT , · · · , x1) agar bagian awal(· · · , x2, x1) lebih dekat dengan decoder [76]. Informasi yang berada dekat den-gan decoder cenderung lebih diingat. Kami ingin pembaca mengingat bahwateknik ini pun tidaklah sempurna.

13.4.2 Decoder

Seperti yang sudah dijelaskan sebelumnya, encoder memproduksi sebuahvektor c yang merepresentasikan sekuens input. Decoder menggunakan rep-resentasi ini untuk memproduksi (generate) sebuah sekuens output y =(y1, · · · , yM ), disebut sebagai proses decoding . Mirip dengan encoder, kitamenggunakan RNN untuk menghasilkan output seperti diilustrasikan padapersamaan 13.15.

h′t = f(h′t−1, e′t−1, c)

= f(h′t−1H + e′t−1E + cC)(13.15)

dimana f merepresentasikan fungsi aktivasi non-linear; H, E, dan C merep-resentasikan weight matrices. Hidden state h′t melambangkan distribusi prob-abilitas suatu objek (e.g., POS tag, kelas kata yang berasal dari suatuhimpunan) untuk menjadi output yt. Umumnya, yt adalah dalam bentukfeature-vector e′t.

Dengan penjelasan ini, mungkin pembaca berpikir Gambar. 13.18 tidaklengkap. Kamu benar! Penulis sengaja memberikan gambar simplifikasi. Gam-bar lebih lengkap (dan lebih nyata) diilustrasikan pada Gambar. 13.19.

Kotak berwarna ungu dan hijau dapat disebut sebagai lookup matrix ataulookup table. Tugas mereka adalah mengubah input xt menjadi bentuk featurevector -nya (e.g., word embedding) dan mengubah e′t menjadi yt. Komponen“Beam Search” dijelaskan pada subbab berikutnya.

13.4.3 Beam Search

Kita ingin mencari sekuens output yang memaksimalkan nilai probabilitaspada persamaan 13.12. Artinya, kita ingin mencari output terbaik. Pada su-atu tahapan decoding, kita memiliki beberapa macam kandidat objek untukdijadikan output. Kita ingin mencari sekuens objek sedemikian sehingga prob-abilitas akhir sekuens objek tersebut bernilai terbesar sebagai output. Hal inidapat dilakukan dengan algoritma Beam Search14.

14 https://en.wikipedia.org/wiki/Beam_search

https://en.wikipedia.org/wiki/Beam_search


Gambar 13.19. Konsep encoder -decoder (full)

beamSearch(problemSet, ruleSet, memorySize)openMemory = new memory of size memorySizenodeList = problemSet.listOfNodesnode = root or initial search nodeadd node to OpenMemory;while(node is not a goal node)

delete node from openMemory;expand node and obtain its children, evaluate those children;if a child node is pruned according to a rule in ruleSet, delete it;place remaining, non-pruned children into openMemory;if memory is full and has no room for new nodes, remove the worst

node, determined by ruleSet, in openMemory;node = the least costly node in openMemory;

Gambar 13.20. Beam Search15

Secara sederhana, algoritma Beam Search mirip dengan algoritma Viterbiyang sudah dijelaskan pada bab 8, yaitu algoritma untuk mencari sekuensdengan probabilitas tertinggi. Perbedaannya terletak pada heuristic. Untukmenghemat memori komputer, algoritma Beam Search melakukan ekspansiterbatas. Artinya mencari hanya beberapa (B) kandidat objek sebagai sekuensberikutnya, dimana beberapa kandidat objek tersebut memiliki probabilitasP (yt | yt−1) terbesar. B disebut sebagai beam-width. Algoritma Beam Searchbekerja dengan prinsip yang mirip dengan best-first search (best-B search)yang sudah kamu pelajari di kuliah algoritma atau pengenalan kecerdasan

15 https://en.wikibooks.org/wiki/Artificial_Intelligence/Search/

Heuristic_search/Beam_search

https://en.wikibooks.org/wiki/Artificial_Intelligence/Search/Heuristic_search/Beam_search

https://en.wikibooks.org/wiki/Artificial_Intelligence/Search/Heuristic_search/Beam_search


buatan16. Pseudo-code Beam Search diberikan pada Gambar. 13.20 (directquotation).

13.4.4 Attention-based Mechanism

Seperti yang sudah dijelaskan sebelumnya, model encoder -decoder memilikimasalah saat diberikan sekuens yang panjang (vanishing atau exploding gra-dient problem). Kinerja model dibandingkan dengan panjang input kuranglebih dapat diilustrasikan pada Gambar. 13.21. Secara sederhana, kinerjamodel menurun seiring sekuens input bertambah panjang. Selain itu, rep-resentasi c yang dihasilkan encoder harus memuat informasi keseluruhan in-put walaupun sulit dilakukan. Ditambah lagi, decoder menggunakan repre-sentasinya c saja tanpa boleh melihat bagian-bagian khusus input saat de-coding. Hal ini tidak sesuai dengan cara kerja manusia, misalnya pada kasustranslasi bahasa. Ketika mentranslasi bahasa, manusia melihat bolak-balikbagian mana yang sudah ditranslasi dan bagian mana yang sekarang (di-fokuskan) untuk ditranslasi. Artinya, manusia berfokus pada suatu bagianinput untuk menghasilkan suatu translasi.

Gambar 13.21. Permasalahan input yang panjang

Sudah dijelaskan sebelumnya bahwa representasi sekuens input c adalahsebuah weighted sum. c yang sama digunakan sebagai input bagi decoder un-tuk menentukan semua output. Akan tetapi, untuk suatu tahapan decoding(untuk hidden state h′t tertentu), kita mungkin ingin model lebih berfokuspada bagian input tertentu daripada weighted sum yang sifatnya generik. Ideini adalah hal yang mendasari attention mechanism [52, 53]. Ide ini sangat

16 https://www.youtube.com/watch?v=j1H3jAAGlEA&t=2131s

https://www.youtube.com/watch?v=j1H3jAAGlEA&t=2131s


berguna pada banyak aplikasi pemrosesan bahasa alami. Attention mecha-nism dapat dikatakan sebagai suatu soft alignment antara input dan output.Mekanisme ini dapat membantu mengatasi permasalahan input yang panjang,seperti diilustrasikan pada Gambar. 13.22.

Gambar 13.22. Menggunakan vs. tidak menggunakan attention

Dengan menggunakan attention mechanism, kita dapat mentransformasipersamaan 13.15 pada decoder menjadi persamaan 13.16

h′t = f ′(h′t−1, e′t−1, c,kt) (13.16)

dimana kt merepresentasikan seberapa (how much) decoder harus mem-fokuskan diri ke hidden state tertentu pada encoder untuk menghasilkan out-put saat ke-t. kt dapat dihitung pada persamaan 13.17

kt =

T∑i=1

αt,ihi

αt,i =exp(hi · h′t−1)∑Tz=1 exp(hz · h′t−1)

(13.17)

dimana T merepresentasikan panjang input, hi adalah hidden state pada en-coder pada saat ke-i, h′t−1 adalah hidden state pada decoder saat ke t− 1.

Sejatinya kt adalah sebuah weighted sum. Berbeda dengan c yang berni-lai sama untuk setiap tahapan decoding, weight atau bobot (αt,i) masing-masing hidden state pada encoder berbeda-beda untuk tahapan decodingyang berbeda. Perhatikan Gambar. 13.23 sebagai ilustrasi (lagi-lagi, bentukencoder -decoder yang disederhanakan). Terdapat suatu bagian grafik yang


menunjukkan distribusi bobot pada bagian input representation dan atten-tion. Distribusi bobot pada weighted sum c adalah pembobotan yang bersifatgenerik, yaitu berguna untuk keseluruhan (rata-rata) kasus. Masing-masingattention (semacam layer semu) memiliki distribusi bobot yang berbeda padatiap tahapan decoding. Walaupun attention mechanism sekalipun tidak sem-purna, ide ini adalah salah satu penemuan yang sangat penting.

Gambar 13.23. Encoder -decoder with attention

Seperti yang dijelaskan pada bab 11 bahwa neural network susah untukdimengerti. Attention mechanism adalah salah satu cara untuk mengerti neu-ral network. Contoh yang mungkin lebih mudah dipahami diberikan padaGambar. 13.24 yang merupakan contoh kasus mesin translasi [52]. Attentionmechanism mampu mengetahui soft alignment, yaitu kata mana yang harusdifokuskan saat melakukan translasi bahasa (bagian input mana berbobotlebih tinggi). Dengan kata lain, attention mechanism memberi interpretasikata pada output berkorespondensi dengan kata pada input yang mana. Seba-gai informasi, menemukan cara untuk memahami (interpretasi) ANN adalahsalah satu tren riset masa kini [51].

13.4.5 Variasi Arsitektur Sequence to Sequence

Selain RNN, kita juga dapat menggunakan bidirectional RNN (BiRNN) un-tuk mengikutsertakan pengaruh baik hidden state sebelum (h1, · · · ,ht−1) dansetelah (ht+1, · · · ,hT ) untuk menghitung hidden state sekarang (ht) [80, 81,82]. BiRNN menganggap ht sebagai gabungan (concatenation) forward hid-den state h→t dan backward hidden state h←t , ditulis sebagai ht = h→t +h←t

17.

17 Perhatikan! + disini dapat diartikan sebagai penjumlahan atau konkatenasi


Gambar 13.24. Attention mechanism pada translasi bahasa [52]. Warna lebihterang merepresentasikan bobot (fokus/attention) lebih tinggi. Sebagai contoh, kata“menendang” berkorespondensi paling erat dengan kata “kicks”

Forward hidden state dihitung seperti RNN biasa yang sudah dijelaskan padasubbab encoder, yaitu h→t = f(h→t−1, et).. Backward hidden state dihitungdengan arah terbalik h←t = f(h←t+1, et). Ilustrasi encoder -decoder yang meng-gunakan BiRNN dapat dilihat pada Gambar. 13.25.

Gambar 13.25. Encoder -decoder dengan BiRNN

Selain variasi RNN menjadi BiRNN kita dapat menggunakan stacked RNNseperti pada Gambar. 13.26 dimana output pada RNN pertama bertindaksebagai input pada RNN kedua. Hidden states yang digunakan untuk meng-hasilkan representasi encoding adalah RNN pada tumpukan paling atas. Kitajuga dapat menggunakan variasi attention mechanism seperti neural check-list model [83] atau graph-based attention [84]. Selain yang disebutkan, masihbanyak variasi lain yang ada, silahkan eksplorasi lebih lanjut sendiri.


Gambar 13.26. Encoder -decoder dengan stacked RNN

13.4.6 Rangkuman

Sequence to sequence adalah salah satu bentuk conditioned generation. Artinya,menggunakan RNN untuk menghasilkan (generate) suatu sekuens output yangdikondisikan oleh variabel tertentu. Diktat ini memberikan contoh bagaimanamenghasilkan suatu sekuens output berdasarkan sekuens input (conditionedon a sequence of input). Selain input berupa sekuens, konsep ini juga dapatdiaplikasikan pada bentuk lainnya. Misalnya, menghasilkan caption saat inputyang diberikan adalah sebuah gambar [85]. Kita ubah encoder menjadi sebuahCNN (ingat kembali subbab 13.1) dan decoder berupa RNN [85]. GabunganCNN-RNN tersebut dilatih bersama menggunakan metode backpropagation.

Perhatikan, walaupun memiliki kemiripan dengan hidden markov model,sequence to sequence bukanlah generative model. Pada generative model, kitaingin memodelkan joint probability p(x, y) = p(y | x)p(x) (walaupun secaratidak langsung, misal menggunakan teori Bayes). Sequence to sequence adalahdiscriminative model walaupun output-nya berupa sekuens, ia tidak memod-elkan p(x) (berbeda dengan ( hidden markov model). Kita ingin memodelkanconditional probability p(y | x) secara langsung, seperti classifier lainnya (e.g.,logistic regression). Jadi yang dimodelkan antara generative dan discrimina-tive model adalah dua hal yang berbeda.

13.5 Arsitektur Lainnya

Selain arsitektur yang sudah dipaparkan, masih banyak arsitektur lain baikbersifat generik (dapat digunakan untuk berbagai karakteristik data) maupunspesifik (cocok untuk data dengan karakteristik tertentu atau permasalahan

13.6 Architecture Ablation 183

tertentu) sebagai contoh, Restricted Boltzman Machine18 dan Generative Ad-versarial Network (GAN)19. Saat buku ini ditulis, GAN dan adversarial train-ing sedang populer.

13.6 Architecture Ablation

Pada bab 9, kamu telah mempelajari feature ablation, yaitu memilih-milihelemen pada input (untuk dibuang), sehingga model memiliki kinerja opti-mal. Pada neural network, proses feature engineering mungkin tidak sepentingpada model-model yang sudah kamu pelajari sebelumnya (e.g., model linear)karena ia dapat memodelkan interaksi yang kompleks dari seluruh elemeninput. Pada neural network, masalah yang muncul adalah memilih arsitekturyang tepat, seperti menentukan jumlah hidden layers (dan berapa unit). Con-toh lain adalah memilih fungsi aktivasi yang cocok. Walaupun nueral networkmemberikan kita kemudahan dari segi pemilihan fitur, kita memiliki kesuli-tan dalam menentukan arsitektur. Terlebih lagi, alasan pemilih suatu jumlahunits pada suatu layer (e.g., 512 dibanding 256 units) mungkin tidak dapatdijustifikasi dengan sangat akurat. Pada feature ablation, kita dapat menjus-tifikasi alasan untuk menghilangkan suatu fitur. Pada neural network, kitasusah menjelaskan alasan pemilihan karena search space-nya jauh lebih besar.

Soal Latihan

13.1. POS tagging Pada subbab 13.3, disebutkan bahwa bidirectional re-current neural network lebih cocok untuk persoalan POS tagging. Jelaskanmengapa! (hint pada bab 8)

13.2. Eksplorasi Jelaskanlah pada teman-temanmu apa dan bagaimanaprinsip kerja:

(a) Restricted Boltzman Machine(b) Generative Adversarial Network

18 https://deeplearning4j.org/restrictedboltzmannmachine19 https://deeplearning4j.org/generative-adversarial-network

https://deeplearning4j.org/restrictedboltzmannmachine

https://deeplearning4j.org/generative-adversarial-network

Documents

Bagian III Neural Networks - wiragotama.github.io · Walaupun memiliki struktur seperti graf, operasi pada ANN paling ... nya menggunakan fungsi non-linear pada persamaan 11.5 dimana