Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
TESIS – SM 142501
APLIKASI METODE UPGMA UNTUK IDENTIFIKASI KEKERABATAN JENIS VIRUS DAN PENYEBARAN EPIDEMI EBOLA MELALUI PEMBENTUKAN POHON FILOGENETIK
TRI ANDRIANI NRP 1213 201 045
DOSEN PEMBIMBING Prof. Dr. MOHAMMAD ISA IRAWAN, M.T.
PROGRAM MAGISTER JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2016
TESIS – SM 142501
APPLICATION OF UPGMA METHOD FOR THE IDENTIFICATION TYPE VIRUS TYPE AND EBOLA EPIDEMIC SPREADING THROUGH ESTABLISHMENT PHYLOGENETIC TREES
TRI ANDRIANI NRP 1213 201 045
SUPERVISOR Prof. Dr. MOHAMMAD ISA IRAWAN, M.T.
MASTER’S DEGREE MATHEMATICS DEPARTMENT FACULTY OF MATHEMATICS AND NATURAL SCIENCES SEPULUH NOPEMBER INSTITUTE OF TECHNOLOGY SURABAYA 2016
ix
DAFTAR ISI
HALAMAN JUDUL
LEMBAR PENGESAHAN .................................................................................. i
ABSTRAK ............................................................................................................ iii
ABSTRACT .......................................................................................................... v
KATA PENGANTAR . ........................................................................................ vii
DAFTAR ISI ......................................................................................................... ix
DAFTAR TABEL ................................................................................................. xi
DAFTAR GAMBAR . .......................................................................................... xiii
BAB I PENDAHULUAN ..................................................................................... 1
1.1 Latar Belakang .......................................................................................... 4
1.2 Rumusan Masalah ..................................................................................... 4
1.3 Batasan Masalah........................................................................................ 4
1.4 Tujuan Penelitian ...................................................................................... 5
1.5 Manfaat Penelitian .................................................................................... 5
1.6 Kontribusi Hasil Penelitian ...................................................................... 5
BAB II KAJIAN PUSTAKA DAN DASAR TEORI ........................................... 7
2.1 Penelitian Terdahulu ................................................................................. 7
2.2 Penyakit Virus Ebola (EVD) ..................................................................... 8
2.3 Bioinformatika ......................................................................................... 10
2.4 Sekuens ..................................................................................................... 10
2.4.1. Sekuens Protein ............................................................................ 12
2.4.2. Sekuens DNA ............................................................................... 13
2.5 Alignment .................................................................................................. 14
2.5.1 Matriks Penalti ............................................................................. 15
2.5.2 Matriks Penskoran ........................................................................ 16
2.6 Algoritma Needleman Wunsch . ............................................................... 18
2.7 Multiple Alignment .................................................................................... 23
x
2.7.1 Metode Progressive ..................................................................... 24
2.8 Filogenetik Molekuler ............................................................................. 25
2.8.1. Pohon ............................................................................................ 25
2.8.2. Pohon Filogenetik (Phylogenetic tree) ........................................ 29
2.8.3. Metode-metode Pembentukan Pohon .......................................... 31
2.9 Metode Berbasis Jarak (Distance Based Method) .................................... 33
2.10 Metode UPGMA ................................................................................... 35
BAB III METODOLOGI PENELITIAN ............................................................. 41
3.1 Tahapan Penelitian ................................................................................... 41
3.1.1 Studi Literatur ............................................................................... 42
3.1.2 Pengambilan Data ......................................................................... 42
3.1.3 Pembuatan Program Pensejajaran ................................................ 42
3.1.4 Pembuatan Pohon Filogenetik Metode UPGMA ......................... 43
3.1.5 Hasil Pembentukan Pohon Filogenetik ........................................ 45
3.1.6 Analisis dan Pembahasan ............................................................. 45
BAB IV HASIL DAN PEMBAHASAN .............................................................. 47
4.1 Identifikasi Kekerabatan Jenis-jenis Virus Ebola ..................................... 47
4.1.1 Pengumpulan Data ....................................................................... 47
4.1.2 Pensejajaran Sekuens ................................................................... 50
4.1.3 Matriks Jarak .................................................................................. 60
4.1.4 Pohon Filogenetik Metode UPGMA untuk Identifikasi
Kekerabatan Jenis-jenis Virus Ebola ........................................... 67
4.2 Penyebaran Epidemi Virus Ebola ........................................................... 73
4.1.1 Data Epidemi ................................................................................ 73
4.1.2 Pohon Filogenetik untuk Penyebaran Epidemi Ebola .................. 74
4.3 Pembahasan ............................................................................................ 76
4.4 Validasi Pohon Filogenetik .................................................................... 80
BAB IV KESIMPULAN DAN SARAN .............................................................. 81
DAFTAR PUSTAKA .......................................................................................... 83
xi
DAFTAR TABEL
Tabel 2.1. Kasus Ebola di Afrika .......................................................................... 9
Tabel 2.2. Asam Amino dan Kode resmi .............................................................. 12
Tabel 2.3. Kode Standart Genetik ......................................................................... 13
Tabel 2.4. Tabel Dua Dimensi Sekuens ............................................................... 18
Tabel 4.1. Hasil Jarak Evolusi Pasangan Sekuens Data Uji ................................. 61
Tabel 4.2. Hasil Jarak Evolusi Pasangan Sekuens Protein .................................... 62
Tabel 4.3. Matriks Jarak Pasangan Sekuens Data Uji ........................................... 67
Tabel 4.4. Matriks Jarak Pasangan Sekuens Protein ............................................. 67
Tabel 4.5. Data sekuens DNA penyebaran virus ebola ......................................... 73
xv
DAFTAR LAMPIRAN
LAMPIRAN A: Sekuens Beberapa Jenis Virus Ebola ......................................... 85
LAMPIRAN B: Sekuens DNA Virus Ebola ......................................................... 87
LAMPIRAN C: Listing Program .......................................................................... 93
xiii
DAFTAR GAMBAR
Gambar 2.1 (a) Pohon berakar dan (b) Pohon tidak berakar ................................ 27
Gambar 2.2 Pohon berakar dengan empat spesies mamalia ................................ 28
Gambar 2.3 Pohon tidak .berakar dengan empat spesies mamalia ....................... 28
Gambar 2.4 Pohon dengan panjang pohon ........................................................... 29
Gambar 2.5 (a) Pohon Filogenetik berakar dan (b) Pohon Filogenetik tidak
Berakar ............................................................................................ 30
Gambar 2.6 Struktur dari Pohon Filogenetik berakar .......................................... 31
Gambar 2.7 Pohon filogenetik dibangun oleh Metode UPGMA ......................... 39
Gambar 3.1. Diagram Alir Penelitian ................................................................... 41
Gambar 3.2. Multiple Alignment oleh Metode Progressive ................................. 43
Gambar 3.3. Diagram Alir Proses Pensejajaran hingga Pohon Filogenetik ......... 44
Gambar 3.3. Diagram Alir Proses Pensejajaran hingga Pohon Filogenetik ......... 44
Gambar 4.1Pohon untk Proses Pensejajaran ........................................................ 58
Gambar 4.2 Pensejajaran sekuens matriks protein ................................................ 60
Gambar 4.3 Pohon Filogenetik Metode UPGMA data uji .................................... 71
Gambar 4.4 Pohon Filogenetik identifikasi kekerabatan jenis-jenis virus ebola
simulasi MATLAB ............................................................................. 72
Gambar 4.5 Hasil Pensejajaran sekuens DNA ...................................................... 74
Gambar 4.6 Pohon filogenetik Metode UPGMA untuk penyebaran
epidemi ebola .................................................................................... 75
Gambar 4.7 Peta Benua Afrika ............................................................................. 79
vii
KATA PENGANTAR
Segala puji syukur dan kemuliaan hanya kepada Tuhan atas segala limpahan
kasih karunia, sehingga penulis dapat menyelesaikan tesis yang berjudul “Aplikasi
Metode UPGMA untuk Identifikasi Kekerabatan Jenis Virus dan Penyebaran
Epidemi Ebola Melalui Pembentukan Pohon Filogenetik”
Tesis ini disusun sebagai salah satu prasyarat kelulusan Program Magister
Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut
Teknologi Sepuluh Nopember Surabaya. Penulis menyadari bahwa tulisan Tesis ini
masih ada kekurangan, sehingga kritik dan saran dari pembaca sangat penulis
harapkan untuk kedepannya.
Penyusunan Tesis ini tidak terlepas dari bantuan dan dukungan dari banyak
pihak. Oleh karena itu, penulis mengucapkan terima kasih kepada:
1. Prof. Ir. Joni Hermana, M.Sc.ES., Ph.D., selaku Rektor Institut Teknologi
Sepuluh Nopember (ITS) Surabaya yang telah memberikan fasilitas kepada
penulis selama menempuh pendidikan sehingga dapat menyelesaikan Tesis ini.
2. Direktorat Jenderal Pendidikan Tinggi (DIKTI) selaku penyandang dana yang
telah memberikan beasiswa BPPDN.
3. Prof. Dr. Ir. Adi Soeprijanto, M.T., selaku Direktur Program Pascasarjana ITS.
4. Dr. Imam Mukhlash, S.Si, M.T. selaku Ketua Jurusan Matematika ITS.
5. Dr. Subiono, MS., selaku Ketua Program Studi Pascasarjana Matematika ITS.
6. Prof. Dr. Mohammad Isa Irawan, M.T.,selaku dosen pembimbing yang telah
meluangkan waktu untuk memberikan arahan, nasehat, dan motivasi kepada
penulis sehingga dapat menyelesaikan Tesis ini dengan baik.
7. Dr. Drs. Haiyanto, M.Si., Dr. Budi Setiyono, S.Si., MT. dan Dr. Dwi Ratna
Sulistyaningrum, S.Si., MT. selaku dosen penguji yang telah memberikan
masukan kritik dan saran yang membantu penulis untuk memperbaiki tulisan
Tesis ini.
viii
8. Dr. Mahmud Yunus, M.Si selaku dosen wali yang selama ini sudah banyak
mendidik dan membantu selama penulis menempuh studi S2.
9. Seluruh dosen Jurusan Matematika, yang selama ini sudah banyak mendidik dan
membekali penulis dengan berbagai ilmu pengetahuan selama penulis mengikuti
proses perkuliahan dan seluruh staf dan karyawan Jurusan Matematika ITS yang
telah memberikan bantuan, kemudahan, dan kelancaran.
10. Ayah dan Ibu, kedua kakak dan adik tercinta serta seluruh keluarga atas
perhatian, doa dan segala dukungannya selama ini.
11. Teman-teman seperjuangan Program Magister Matematika ITS angkatan 2013
yang telah menemani, memotivasi, dan segala bantuannya.
12. Keluarga Besar Pascasarjana Matematika ITS dan semua pihak yang telah
membantu proses penulisan Tesis ini.
Penulis berharap semoga tulisan Tesis ini dapat bermanfaat untuk kemajuan dan
perkembangan ilmu pengetahuan, khususnya disiplin ilmu Komputasi dan dapat
memberikan kontribusi bagi kemajuan ITS.
Surabaya, Januari 2016
Penulis
iii
Aplikasi Metode UPGMA untuk Identifikasi Kekerabatan Jenis
Virus dan Penyebaran Epidemi Ebola Melalui Pembentukan Pohon
Filogenetik
Nama : Tri Andriani
NRP : 1213201045
Dosen Pembimbing : Prof. Dr. M. Isa Irawan, MT.
ABSTRAK
Penyakit ebola atau dalam bahasa medis Ebola Virus Disease (EVD) adalah penyakit
yang disebabkan oleh sejenis virus dari genus Ebolavirus (EBOV), famili Filoviridae.
Virus ebola diklasifikasikan ke dalam 5 jenis, yaitu Zaire ebolavirus (ZEBOV),
Sudan ebolavirus (SEBOV), Bundibugyo ebolavirus (BEBOV), Tai Forest ebolavirus
yang juga dikenal sebagai Cote d’Ivoire ebolavirus (CIEBOV), dan Reston
ebolavirus (REBOV). Identifikasi kekerabatan jenis virus ebola dan penyebarannya
dapat dilakukan dengan menggunakan pohon filogenetik. Pada penelitian ini, pohon
filogenetik dibangun dengan Metode UPGMA yang didalamnya terdapat Multiple
Alignment. Multiple Alignment menggunakan Metode Progressive yang didalamnya
terdapat pensejajaran berpasangan menggunakan Algoritma Needleman Wunsch.
Hasil pembentukan pohon fillogenetik disimpulkan bahwa hubungan kekerabatan
jenis virus ebola tidak dapat disimpulkan secara umum, sebab tergantung pada type
protein yang dibandingkan.. Misal pada type minor nucleoprotein jenis Zaire
ebolavirus dekat dengan Sudan ebolavirus. Pada type membrane associated protein
VP 24 jenis Zaire ebolavirus dekat dengan Bundibugyo ebolavirus. Berdasarkan
pohon filogenetik data DNA, jenis Tai Forest ebolavirus dekat dengan Bundibugyo
ebolavirus tetapi letak negara penyebaran epidemi ebola berjauhan. Jarak genetik
untuk jenis Bundibugyo ebolavirus dengan Tai Forest ebolavirus adalah 0.3725.
Jenis Tai Forest ebolavirus mirip dengan Bundibugyo ebolavirus tidak dipengaruhi
oleh kedekatan daerah penyebaran epidemi ebola.
Kata kunci: metode upgma, multiple alignment, pohon filogenetik, virus ebola.
v
Aplication of UPGMA Method for the Kinship Identification Type
Virus Types and Ebola Epidemic Spreading Through Establishment
of Phylogenetic Trees
Name : Tri Andriani
NRP : 1213201045
Supervisor : Prof. Dr. M. Isa Irawan, MT.
ABSTRACT
Ebola disease or in medical language Ebola Virus Disease (EVD) is a disease caused
by a virus of the genus Ebolavirus (EBOV), family Filoviridae. Ebola virus is
classified into five types, namely Zaire ebolavirus (ZEBOV) Sudan ebolavirus
(SEBOV), Bundibugyo ebolavirus (BEBOV), Tai Forest ebolavirus also known as
Cote d'Ivoire ebolavirus (CIEBOV), and Reston ebolavirus (REBOV). Identification
of kinship types of Ebola virus and its spread can be performed using phylogenetic
tree. In this study, the phylogenetic tree constructed by UPGMA method in which
there are Multiple Alignment. Progressive Multiple Alignment using a method in
which there are pairwise alignments using the Needleman Wunsch algorithm. Results
fillogenetik tree formation was concluded that kinship types of Ebola virus can not be
inferred in general, because depending on the type of protein compared .. Eg the
minor type nucleoprotein Zaire ebolavirus species close to Sudan ebolavirus. On the
type of membrane associated protein VP 24 types Zaire ebolavirus close to
Bundibugyo ebolavirus. Based on phylogenetic trees DNA data, the type of Tai
Forest ebolavirus close to Bundibugyo ebolavirus but the layout state ebola epidemic
spread far apart. Genetic distance for this type of Bundibugyo ebolavirus with Tai
Forest ebolavirus is 0.3725. Tai Forest ebolavirus type similar to Bundibugyo
ebolavirus not influenced by the proximity of ebola epidemic spreading area.
Keywords: upgma method, multiple alignment, phylogenetic tree, ebola virus.
1
BAB 1
PENDAHULUAN
Pada bagian ini diberikan ulasan mengenai hal-hal yang melatarbelakangi
usulan penelitian, rumusan masalah yang akan diselesaikan dalam penelitian,
batasan masalah, tujuan penelitian, dan manfaat penelitian.
1.1 Latar Belakang
Penyakit ebola atau dalam bahasa medis Ebola Virus Disease (EVD)
adalah penyakit yang disebabkan oleh sejenis virus dari genus Ebolavirus
(EBOV), dari keluarga Filoviridae. Ebola yang dikenal juga sebagai demam
berdarah ebola atau Ebola Haemorrhagic Fever (EHF) telah ada sebagai epidemi
menular sejak tahun 1976 di Afrika Tengah. Epidemi ialah mewabahnya penyakit
dalam daerah tertentu dengan jumlah yang melebihi batas jumlah normal atau
yang biasa. Virus ebola dapat ditularkan melalui kontak langsung oleh cairan
tubuh seperti darah, keringat, air liur, lendir, sperma, dan air mata dari pasien
EVD. Selain ditularkan manusia, EVD dapat menular melalui binatang seperti
gorila, simpanse, monyet, dan kelelawar buah. Masa inkubasi biasanya dimulai
dua hari hingga tiga minggu. Pada tahap awal, pasien EVD biasanya menunjukkan
gejala seperti demam, sakit tenggorokan, nyeri otot, sakit kepala dan tubuh lemah.
Gejala lanjut dari EVD adalah pendarahan serta menurunnya fungsi hati dan
ginjal. Menurut analisa sejarah wabah ebola, tingkat kematian dari pasien EVD
adalah 40% sampai 90%. Meskipun EVD dianggap ancaman potensial bagi
kesehatan masyarakat, sampai saat ini belum tersedia obat atau vaksin berlisensi
untuk penyakit ini (Li dkk, 2014).
Penyakit ebola (EVD) pertama kali ditemukan di Afrika, daerah selatan
Sudan dan Zaire pada tahun 1976 pada tubuh seekor monyet. Pada tanggal 23
Maret 2014, Organisasi Kesehatan Dunia (WHO) melaporkan wabah baru infeksi
virus Ebola (EBOV) yang dimulai pada bulan Desember 2013 di Republik Guinea
dan menyebar ke negara-negara Afrika Barat lainnya, yaitu Sierra Leone dan
Liberia. Sejak ditemukannya EVD pada tahun 1976 hingga 2014, dilaporkan
2
terdapat sebanyak 3.354 kasus dan 2.120 diantaranya meninggal. Jumlah kasus
yang dilaporkan di Guinea, Liberia dan Sierra Leone untuk periode Januari
sampai September 2014 adalah 1009 kasus dan 574 diantaranya meninggal
(Clercq, 2014).
Virus ebola diklasifikasikan ke dalam 5 jenis, yaitu Zaire ebolavirus
(ZEBOV), Sudan ebolavirus (SEBOV), Bundibugyo ebolavirus (BEBOV), Tai
Forest ebolavirus yang juga dikenal sebagai Cote d’Ivoire ebolavirus (CIEBOV),
dan Reston ebolavirus (REBOV). Reston ebolavirus (REBOV) adalah satu-
satunya virus yang tidak menyerang manusia, namun menyerang monyet
(Bovendo dkk, 2012). Untuk mengetahui seberapa mirip lima jenis virus ebola
yang ada, sangat perlu melakukan identifikasi kekerabatan kelima jenis virus
ebola tersebut. Selama ini belum ada penelitian mengenai kekerabatan jenis virus
ebola. Salah satu cara identifikasi kekerabatan adalah dengan membangun pohon
filogenetik.
Konstruksi pohon filogenetik baru-baru ini menjadi perhatian banyak
peneliti karena ketersediaan data biologis yang luas. Untuk mengkonstruksi pohon
filogenetik, terdapat beberapa metode yang dapat digunakan, yaitu Metode
Berbasis Jarak (misalnya, neighbor-joining dan unwight pair group method with
arithmetic average), Metode Berbasis Fitur (misalnya, maximum parsimony), dan
Metode Berbasis Probabilitas (misalnya, maximum likelihood) (Shen dkk, 2008).
Irawan dan Amiroch (2014) melakukan konstruksi pohon filogenetik
menggunakan Metode Berbasis Jarak untuk identifikasi host dan penyebaran
epidemi SARS. Dalam penelitiannya, Algoritma Neighbor Joining digunakan
untuk mengkonstruksi pohon filogenetik yang disimulasikan dalam Matlab. Input
untuk mengkonstruksi sebuah pohon filogenetik dengan Metode Berbasis Jarak
berupa matriks jarak. Matriks jarak diperoleh dari penyejajaran antar sequence
dengan menggunakan Metode Super Pairwise Alignment (SPA). Output dari
pensejajaran ini berupa jumlah perbedaan antar sequence yang menentukan jarak
genetiknya. Dari matriks jarak tersebut, jarak genetik diubah menjadi jarak
evolutioner menggunakan Model Jukes Cantor yang selanjutnya dibentuk pohon
filogenetik menggunakan Algoritma Neighbor Joining. Akan tetapi, algoritma
tersebut tidak disarankan untuk digunakan dalam mengkonstruksi pohon
3
filogenetik dari data sekuens yang similaritasnya sangat tinggi. Apabila Algoritma
Neighbor Joining tetap digunakan untuk membentuk pohon filogenetik dari data
sekuens yang similaritasnya sangat tinggi berakibat akan diperoleh beberapa
pohon yang berbeda. Dengan kata lain, pohon yang dihasilkan tidak stabil.
Dalam membangun pohon filogenetik menggunakan Metode UPGMA
langkah awal adalah mendapatkan multiple alignment (MA) dari multiple sekuens
yang diberikan. Hasil dari MA berupa suatu himpunan sekuens yang panjangnya
sama. MA dapat menunjukkan multiple sequence berada pada keluarga yang sama
atau tidak. Selain itu, MA dapat menunjukkan semua hubungan atau relasi antar
famili dari multiple sequence yang ada. Berdasarkan pembagian keluarga, dapat
ditentukan keadaan evolusi masing-masing sekuens dalam keluarga. Secara umum
digunakan pohon topologi untuk menggambarkan hubungan di antara multiple
sequence, pohon topologi tersebut selanjutnya dikenal dengan pohon filogenetik
(Shen dkk, 2008).
UPGMA (Unwight Pair Group Method with Arithmetic Average) atau
metode kelompok pasangan unweight dengan rataan aritmatika adalah metode
paling sederhana dari semua metode clustering yang digunakan untuk membangun
pohon filogenetik. Metode clustering yang paling intuitif digunakan untuk
membangun pohon filogenetik adalah metode UPGMA. Metode ini merakit dua
kelas terdekat untuk menjadi kelas yang baru, ke dalam sebuah cluster setiap
waktu sampai semua kelas dirakit menjadi satu kelas. UPGMA digunakan untuk
membangun pohon filogenetik dengan cara yang mirip dengan Metode sistem
clustering, perbedaan utamanya adalah formula yang digunakan untuk
menghitung jarak kelas (Shen dkk, 2008).
Dengan memanfaatkan clustering, Metode UPGMA digunakan untuk
membangun pohon filogenetik. Kelebihan Metode UPGMA adalah metode ini
paling sederhana dari semua metode clustering yang digunakan untuk membangun
pohon filogenetik. Metode ini membutuhkan kecepatan substitusi dari nukleotida
atau asam amino menjadi seragam dan tidak berubah melalui proses evolusi
secara keseluruhan. Dengan kata lain, hipotesis mengukur waktu molekuler
dipenuhi. Pada setiap node induk, panjang cabang dari node induk ke dua simpul
anak adalah sama (Shen dkk, 2008). Oleh karena itu, akan dilakukan penelitian
4
mengenai konstruksi filogenetik menggunakan Metode UPGMA untuk
identifikasi kekerabatan beberapa jenis virus ebola dan asal penyebaran epidemi
ebola menggunakan pohon filogenetik.
1.2 Rumusan Masalah
Berdasarkan uraian latar belakang yang ada, permasalahan yang akan
dibahas dalam penelitian ini adalah
1. Bagaimana membentuk pohon filogenetik epidemi ebola berdasarkan jenis
virus menggunakan Metode UPGMA?
2. Bagaimana identifikasi kekerabatan beberapa jenis virus ebola dan asal
penyebaran epidemi ebola menggunakan pohon filogenetik?
1.3 Batasan Masalah
Permasalahan yang akan dibahas dalam penelitian ini dibatasi sebagai
berikut:
1. Sekuens yang disejajarkan adalah sekuens protein lima jenis virus ebola
baik yang menyerang manusia maupun binatang, sekuens DNA host dan
individu lain yang terinfeksi berdasarkan data lokasi dan tanggal
pengambilan sample.
2. Data sekuens protein yang digunakan diambil dari database Uniprot
(www.uniprot.org).
3. Data sekuens DNA yang digunakan diambil dari database National Center
for Biotechnologi Information (www.ncbi.nlm.nih.gov).
4. Data sekuens DNA yang digunakan untuk penyebaran epidemi ebola di
negara-negara Afrika.
5. Pensejajaran sekuens menggunakan Metode Progressive dengan bantuan
MATLAB.
6. Pohon filogenetik disimulasikan menggunakan Metode UPGMA dengan
bantuan MATLAB.
5
1.4 Tujuan Penelitian
Dari perumusan masalah yang ada, maka tujuan dari penelitian ini adalah
1. Mendapatkan pohon filogenetik dengan menggunakan Metode UPGMA
dengan obyek virus ebola.
2. Mengetahui kekerabatan jenis virus dan asal penyebaran epidemi ebola
dengan menggunakan pohon filogenetik.
1.5 Manfaat Penelitian
Hasil penelitian ini diharapkan dapat memberikan manfaat sebagai
berikut:
1. Sebagai tambahan referensi untuk penelitian berikutnya mengenai proses
kontruksi pohon filogenetik dengan menggunakan Metode Berbasis Jarak,
yaitu Metode UPGMA.
2. Mengetahui penerapan pohon filogenetik untuk menyelesaikan masalah
dalam bidang kesehatan, terutama untuk mengetahui kekerabatan dan asal
penyebaran epidemi ebola.
3. Mengetahui tingkat kemiripan jenis-jenis virus ebola sehingga dapat
membantu peneliti bidang kesehatan dalam pembuatan vaksin.
1.6 Kontribusi Hasil Penelitian
Kontribusi hasil penelitian ini terhadap pengembangan ilmu adalah dapat
membantu peneliti dalam bidang kesehatan untuk mengambil tindakan lebih lanjut
setelah diketahui kekerabatan jenis virus dan penyebaran virus ebola.
7
BAB 2
KAJIAN PUSTAKA DAN DASAR TEORI
Pada bagian ini diberikan ulasan mengenai penelitian terdahulu dan teori-
teori yang diperlukan dalam proses penelitian. Penelitian terdahulu yang diulas
dalam bab ini adalah penelitian mengenai konstruksi pohon filogenetik yang
dilakukan Irawan dan Amiroch (2014). Adapun beberapa teori yang diberikan
meliputi penyakit virus ebola (EVD), sekuens, protein, DNA, pensejajaran
sekuens, multiple alignment, Metode Progressive, Algoritma Needleman Wunsch,
matriks penalti dan matriks penskoran, filogenetik molekuler, pohon, pohon
filogenetik, metode berbasis jarak dan Metode UPGMA.
2.1 Penelitian Terdahulu
Penelitian pertama berkaitan dengan identifikasi host dan penyebaran
epidemi SARS oleh Irawan dan Amiroch (2014). Irawan dan Amiroch melakukan
konstruksi pohon filogenetik menggunakan Metode Berbasis Jarak untuk
identifikasi host dan penyebaran SARS. Dalam penelitiannya, Algoritma
Neighbor Joining digunakan untuk mengkonstruksi pohon filogenetik yang
disimulasikan dalam Matlab. Input untuk mengkonstruksi sebuah pohon
filogenetik Metode Berbasis Jarak berupa matriks jarak. Matriks jarak diperoleh
dari pensejajaran antar sekuen dengan menggunakan Metode Super Pairwise
Alignment (SPA). Output dari penyejajaran ini berupa jumlah perbedaan antar
sekuens yang menentukan jarak genetiknya. Dari matriks jarak tersebut, jarak
genetik diubah menjadi jarak evolutioner menggunakan model Jukes Cantor yang
selanjutnya dibentuk pohon filogenetik menggunakan Algoritma Neighbor
Joining. Hasil penelitian menunjukkan, dengan menggunakan pohon filogenetik
dapat dibuktikan data sekuens protein berbagai binatang yang dicurigai sebagai
host dari SARS Coronavirus dan data sekuens DNA pasien yang terinfeksi SARS.
Dari hasil pembentukan pohon filogenetik diketahui epidemi berawal pada tanggal
16 Desember 2002 di Guangzhou China Selatan yang kemudian menyebar ke
Zhongshan. Titik kumpul epidemi di RS Guangzho seu dan hotel Metropole yang
8
selanjutnya menyebar ke Hanoi, Toronto, Singapura, Taiwan dan HongKong
sehingga kasus SARS menjadi wabah internasional. Penerapan pensejajaran super
pairwase alignment (SPA) berhasil diterapakan untuk mensejajarkan sequence
human SARS Coronavirus dengan coronavirus lain yang dibawa oleh binatang
(Irawan dkk, 2014).
2.2 Penyakit Virus Ebola (EVD)
Penyakit ebola atau dalam bahasa medis Ebola Virus Disease (EVD)
adalah penyakit yang disebabkan oleh sejenis virus dari genus Ebolavirus
(EBOV), famili Filoviridae. Ebola yang dikenal juga sebagai demam berdarah
ebola atau Ebola Haemorrhagic Fever (EHF) telah ada sebagai epidemi menular
sejak tahun 1976 di Afrika Tengah. Virus ebola diklasifikasikan ke dalam 5 jenis,
yaitu Zaire ebolavirus (ZEBOV), Sudan ebolavirus (SEBOV), Bundibugyo
ebolavirus (BEBOV), Tai Forest ebolavirus juga dikenal sebagai Cote d’Ivoire
ebolavirus (CIEBOV), dan Reston ebolavirus (REBOV). Reston ebolavirus
(REBOV) adalah satu-satunya virus yang tidak menyerang manusia, namun
menyerang monyet (Bovendo dkk, 2012). Selama ini belum ada penelitian
mengenai kekerabatan jenis-jenis virus ebola tersebut.
Penyakit ebola (EVD) pertama kali ditemukan di Afrika, daerah selatan
Sudan dan Zaire pada tubuh seekor monyet. Pada tanggal 23 Maret 2014,
Organisasi Kesehatan Dunia (WHO) melaporkan jumlah kasus EVD yang terjadi
di Afrika pada tahun 1976 hingga tahun 2014. Sejak ditemukannya EVD pada
tahun 1976 hingga tahun 2014, dilaporkan terdapat sebanyak 3.354 kasus dan
2.120 diantaranya meninggal. Jumlah kasus yang dilaporkan di Guinea, Liberia
dan Sierra Leone untuk periode Januari sampai September 2014 adalah 1009
kasus dan 574 diantaranya meninggal (Clercq, 2014). Adapun data kasus ebola
yang terjadi di Afrika tahun 1976 sampai 2014 disajikan pada tabel 2.1.
9
Tabel 2.1: Kasus ebola di Afrika
Tahun Negara Kota Kasus Meninggal Spesies
1976
1976
1977
1979
1994
1994
1995
1996
1996
1996
2000
2001
2001
2002
2003
2004
2007
2007
2008
2011
2012
2012
2012
2014
Republik Demokrat Kongo
Sudan Selatan
Republik Demokrat Kongo
Sudan Selatan
Gabon
Ivory Coast
Republik Demokrat Kongo
Gabon
Gabon
Afrika Selatan
Uganda
Gabon
Republik Demokrat Kongo
Republik Demokrat Kongo
Republik Demokrat Kongo
Sudan Selatan
Republik Demokrat Kongo
Uganda
Republik Demokrat Kongo
Uganda
Uganda
Republik Demokrat Kongo
Uganda
Guinea, Sierra Leone, Liberia,
Nigeria
Yambuku
Nzara
Tandala
Nzara
Mekouka
Tai Forest
Kikwit
Maybout
Booue
Johannes Burg
Gulu
Libreville
Not Specified
Mbomo
Mbomo
Yambio
Luebo
Bundibugyo
Luebo
Luwero District
Kibale District
Isiro Health Zone
Luwero District
Multiple
318
284
1
34
52
1
315
37
60
2
425
65
57
143
35
17
264
149
32
1
11
36
6
1009
280
151
1
22
31
0
250
21
45
1
224
53
43
128
29
7
187
37
15
1
4
13
3
574
EBOV
SUDV
EBOV
SUDV
EBOV
TAFV
EBOV
EBOV
EBOV
EBOV
EBOV
EBOV
EBOV
EBOV
EBOV
EBOV
EBOV
BDBV
EBOV
SUDV
SUDV
BDBV
SUDV
EBOV
Sumber: Clercq, E.D. (2014)
Secara umum virus ebola ada yang menyerang manusia dan menyerang
hewan primata (misalnya, monyet, gorila dan simpanse). Masa inkubasi biasanya
dimulai dua hari hingga tiga minggu setelah terjangkit virus. Pada tahap awal,
pasien EVD biasanya menunjukkan gejala seperti demam, sakit tenggorokan,
nyeri otot, sakit kepala dan tubuh lemah. Gejala lanjut dari EVD adalah muntah,
diare, pendarahan serta menurunnya fungsi hati dan ginjal. Menurut analisa
sejarah wabah ebola, tingkat kematian dari pasien EVD adalah 40% sampai 90%
(Li dkk, 2014).
10
Virus ebola mudah menyebar dengan cepat. Pertama kali infeksi dimulai
dari penularan hewan yang terinfeksi ke manusia. Dari situ nantinya manusia
meneruskan rantai penyakit ini ke manusia yang lain. Penyebaran virus ebola
antar manusia bisa melalui berbagai macam cara antara lain melalui makanan,
jarum suntik, berpegangan tangan, dan kontak langsung oleh cairan tubuh
penderita, seperti darah, keringat, air liur, lendir, sperma, dan air mata dari pasien
EVD atau melalui binatang yang rawan terinfeksi.
2.3 Bioinformatika
Bioinformatika (bioinformatics) telah dikembangkan dalam ruang, yang
telah diduduki oleh sejumlah disiplin ilmu terkait. Bioinformatika adalah ilmu
yang mempelajari penerapan teknik komputasi untuk mengelola dan menganalisis
informasi biologis. Bidang ini mencakup penerapan metode-metode matematika,
statistika dan informatika untuk memecahkan masalah-masalah biologis, terutama
dengan menggunakan sekuens DNA dan asam amino serta informasi yang
berkaitan dengannya. Contoh topik utama bidang ini meliputi basis data untuk
mengelola informasi biologis, pensejajaran sekuens (sequence alignment),
prediksi struktur untuk meramalkan bentuk struktur protein maupun struktur
sekunder RNA, analisis filogenetik, dan analisis ekspresi gen. Ini termasuk ilmu
kuantitatif seperti matematika dan biologi komputasi, biometri dan biostatistik,
ilmu komputer, sibernetika. Serta ilmu biologi seperti evolusi molekuler,
genomics dan proteomik, genetika dan biologi sel. Bioinformatika merupakan
perluasan langsung dari biologi, matematika dan komputasi ke dalam bidang baru
dalam data set yang besar (Polanski dkk, 2007).
2.4 Sekuens
Istilah sekuens biologis pada umumnya digunakan untuk menyatakan
sekuens DNA, sekuens RNA dan sekuens protein. Dalam pengertian biologi
molekuler, sekuens biologi terdiri dari banyak makromolekul, dimana semua
makromolekul memiliki fungsi-fungsi yang spesifik dalam kondisi tertentu.
Makromolekul tersebut dapat dibagi ke dalam sejumlah besa mikromolekul
dengan fungsi-fungsi tertentu. Pada umumnya sekuens DNA atau sekuens RNA
11
didasarkan pada empat nukleotida, sedangkan sekuens pada protein didasarkan
pada 20 asam amino. Jika diperhatikan nukleotida sekuens DNA atau asam amino
dalam protein adalah unit-unit dasar, maka sekuens biologi hanyalah kombinasi
dari unit-unit dasar (Shen dkk, 2008).
Banyak cara yang dapat dilakukan untuk merepresentasikan struktur dari
sekuens biologis. Cara yang paling sering digunakan adalah dengan mendeskripsikan
sekuens tersebut ke dalam bentuk struktur primer, sekunder dan tersier (struktur tiga
dimensi). Untuk sekuens protein, struktur primernya mendeskripsikan kombinasi
asam amino penyusun protein. Sedangkan untuk sekuens DNA/RNA, struktur
primernya mendeskripsikan komponen-komponen nukleotida. Struktur primer
sekuens biologi menentukan komponen nukleotida atau asam aminonya. Struktur
tersier atau 3D dari sekuens biologi menggambarkan susunan 3D (posisi koordinat)
dari atom konstituen dalam molekul. Struktur sekunder dari sekuens protein
menunjukkan struktur khusus dari masing-masing segmen protein, bisa berupa
struktur helix, untai atau struktur lainnya. Super struktur sekunder juga sering
digunakan untuk mendeskripsikan suatu keadaan antara struktur sekunder dan tesier,
yang terdiri dari sebagian besar kelompok molekul kompak (domain).
Menurut Shen (Shen dkk, 2008), digunakan deskripsi untuk sekuens
biologi sebagai berikut.
A = ( ) B = ( ) C = ( ) (2.3)
dengan huruf capital A, B dan C merepresentasikan sekuens,
merepresentasikan unit-unit dasar sekuens pada posisi ke- , yang elemen-
elemennya diperoleh dari himpunan * +. Pada persamaan (2.3),
adalah panjang sekuens A, B dan C. Jika A, B dan C merupakan
sekuens DNA/RNA maka dan * + atau * +. jika A, B
dan C merupakan sekuens protein maka dan
* +.
Multiple sequence (group sekuens) adalah kumpulan dari sekuens yang
dinotasikan sebagai
* + (2.4)
Untuk setiap merupakan sekuens terpisah yang didefinisikan pada dan
dinotasikan sebagai
12
( ) (2.5)
dengan adalah panjang sekuens dan adalah banyaknya sekuens pada
masing-masing kelompok.
Sekuens yang homolog adalah jika sekuens merupakan mutasi dari
sekuens dan keduanya memiliki makna yang sama secara biologi. Dalam
analisis sekuens, dapat diketahui bahwa sekuens merupakan mutasi dari
sekuens , namun tidak dapat diketahui apakah keduanya memiliki makna yang
sama secara biologi, sehingga kedua sekuens tersebut belum bisa dikatakan
homolog, namun hanya bisa dikatakan mirip (Shen dkk, 2008).
2.4.1 Sekuens Protein
Protein adalah salah satu bio-molekuler yang penting peranannya dalam
makluk hidup. Untuk sekuens protein, struktur primernya mendeskripsikan
kombinasi asam amino penyusun protein. Adapun kode huruf dan nama asam
amino dapat dilihat pada tabel 2.2.
Tabel 2.2. Asam Amino dan Kode resmi No 1 – Kode Huruf 3 – Kode Huruf Nama
1 A Ala Alanine
2 R Arg Arginine
3 N Asn Asparagine
4 D Asp Aspartic acid
5 C Cys Cyteine
6 Q Gln Glutamine
7 E Glu Glutamic
8 G Gly Glycine
9 H His Histidine
10 I Ile Isoleucine
11 L Leu Leucine
12 K Lys Lysine
13 M Met Methionine
14 F Phe Phenylalanine
15 P Pro Proline
16 S Ser Serine
17 T Thr Threonine
18 W Trp Tryptophan
19 Y Tyr Tyrosine
20 V Val Valine
Sumber : Claverie, J.M, Bioinformatics For Dummies, 2007.
13
2.4.2 Sekuens DNA
Asam deoksiribonukleat (deoxyribonucleid acid) atau disebut DNA
merupakan sebuah polimer yang terbentuk dari molekul kecil yang disebut
nukleotida dan berperan sebagai dasar hereditas. Informasi mengenai hereditas ini
digambarkan dalam sebuah sekuens DNA. Sekuens DNA adalah polimer linear
berdimensi satu yang disusun oleh empat nukleotida berbeda, yaitu Adenin (A),
Cytosin (C), Guanin (G) dan Tymin (T). Dengan kata lain sekuens DNA adalah
sekuens yang disusun oleh empat huruf A, C, T dan G selanjutnya empat sekuens
basa. Identifikasi sekuens DNA tersebut dapat memberikan informasi mengenai
perbedaan spesies yang satu dengan yang lainnya, walaupun mereka mempunyai
nukleotida yang sama (Hochreiter, 2008).
Kode genetik adalah kumpulan tiga nukleotida yang disebut kodon dan
setiap kombinasi tiga nukleotida menunjukkan asam amino, misalnya ATG
(Adenin-Timin-Guanin) adalah kode untuk metionin. Kode standar genetik
lainnya bisa dilihat pada tabel 2.3.
Tabel 2.3 Kode standart genetik
T C A G
T TTT
TTC
TTA
TTG
Phe (F)
Phe (F)
Leu (L)
Leu (L)
TCT
TCC
TCA
TCG
Ser (S)
Ser (S)
Ser (S)
Ser (S)
TAT
TAC
TAA
TAG
Tyr (Y)
Tyr (Y)
Stop (*)
Stop (*)
TGT
TGC
TGA
TGG
C (Cys)
C (Cys)
Stop (*)
Trp (W)
C CTT
CTC
CTA
CTG
Leu (L)
Leu (L)
Leu (L)
Leu (L)
CCT
CCC
CCA
CCG
Pro (P)
Pro (P)
Pro (P)
Pro (P)
CAT
CAC
CAA
CAG
His (H)
His (H)
Gln (Q)
Gln (Q)
GGT
CGC
CGA
CGG
Arg (R)
Arg (R)
Arg (R)
Arg (R)
A ATT
ATC
ATA
ATG
Ile (I)
Ile (I)
Ile (I)
Met (M)
ACT
ACC
ACA
ACG
Thr (T)
Thr (T)
Thr (T)
Thr (T)
AAT
AAC
AAA
AAG
Asn (N)
Asn (N)
Lys (K)
Lys (K)
AGT
AGC
AGA
AGG
Ser (S)
Ser (S)
Arg (R)
Arg (R)
G GTT
GTC
GTA
GTG
Val (V)
Val (V)
Val (V)
Val (V)
GCT
GCC
GCA
GCG
Ala (A)
Ala (A)
Ala (A)
Ala (A)
GAT
GAC
GAA
GAG
Asp (D)
Asp (D)
Glu (E)
Glu (E)
GGT
GGC
GGA
GGG
Gly (G)
Gly (G)
Gly (G)
Gly (G)
Sumber : Claverie, J.M, Bioinformatics For Dummies, 2007.
14
2.5 Alignment
Untuk mengkonfirmasi hubungan antar mutasi, pendekatan umum adalah
untuk membandingkan perbedaan dalam keluarga sekuens (family of sequences),
yang dapat dilihat sebagai operasi dalam aritmatika. Hal ini disebut sebagai
sequences alignment atau alignment. Pensejajaran sekuens atau sequence
alignment adalah proses penyusunan atau pengaturan dua atau lebih sekuens
sehingga persamaan sekuens-sekuens tersebut tampak nyata. Kunci pensejajaran
sekuens adalah menentukan perpindahan mutasi. Jika dan adalah dua sekuens
yang didefinisikan pada persamaan 2.3. Penyisipan simbol ”–“ ke dalam dan
bertujuan untuk membentuk dua sekuens baru, yaitu dan . Selanjutnya
elemen-elemen dari dan menjadi range dari * +
* +, dengan adalah himpunan quaternary (himpunan yang terdiri dari
4 elemen) dan adalah himpunan yang terdiri dari 5 elemen.
Definisi 2. Sekuens adalah perluasan sekuens , dimana adalah sekuens
dengan penambahan gap yang diberi simbol “ – “.
Pensejajaran sekuens adalah sebuah alat penting dalam analisis posisi dan
tipe mutasi tersembunyi dalam sekuens biologi serta mengizinkan sebuah
komparasi yang tepat. Pensejajaran sekuens juga penting karena dapat
digunakan untuk penelitian penyakit genetik dan epidemi. Sebagai contoh,
adalah mungkin untuk menentukan asal, variasi, varians, difusi, dan
pengembangan epidemi dan kemudian menemukan virus dan bakteri yang
bertanggung jawab dan obat yang sesuai. Jadi pensejajaran sekuens sangat
penting dalam bidang bioinformatika dan biomedis karena berfungsi sebagai
prediktif kuat yang sangat baik. Dalam rangka untuk mendapatkan algoritma
level tinggi yang lebih baik, maka dibutuhkan teori-teori matematika (Shen dkk,
2008).
15
2.5.1 Matriks Penalti
Tujuan pensejajaran sekuens adalah untuk menemukan perluasan yang
diberikan oleh grup sehingga semua sekuens dalam memiliki tingkat
perbedaan yang lebih rendah atau tingkat kemiripan yang lebih tinggi. Dalam
bioinformatika, tingkat perbedaan biasanya diukur menggunakan matriks penalti
atau matriks penskoran. Matriks penalti dan matriks penskoran digunakan untuk
mengoptimalkan hasil pensejajaan (Shen dkk, 2008).
Matriks penalti menunjukkan tingkat perbedaan untuk tiap-tiap unit
molekul, seperti nukleotida atau asam amino, dalam sekuens biologi. Matriks
penalti dapat dinotasikan sebagai berikut :
( ))
Dalam bioinformatika, matriks penalti pada pensejajaran sekuens DNA
ditetapkan oleh matriks Hamming. Didefinisikan matriks Hamming untuk
adalah
( ) {
2.1
Contoh 2.1. Misalkan diketahui sekuens-sekuens berikut:
( )
( )
( )
( )
( )
( )
Tentukan skor penalti minimum dari sekuens berpasangan tersebut !
Jawab :
Dapat disimpulkan bahwa B merupakan sekuens mutasi dari , dan masing-
masing dan atau dan
adalah perluasan sekuens dan . Dengan
menggunakan matriks Hamming yaitu:
( ) {
16
maka diperoleh
( ) (
)
Oleh karena itu, skor penalti (
) lebih kecil dari pada skor penalti ( ).
2.5.2 Matriks Penskoran
Matriks penskoran menggunakan matriks Blosum, yang disebut
“BLOSUM p” (BLOck Substitution Matrix). Matriks penskoran BLOSUM adalah
langsung berasal dari blok dengan kesamaan tertentu, yaitu kesamaan sekuens
yang berbeda tidak dihitung berdasarkan model asumsi yang mungkin salah. Data
ini didasarkan pada data base blok dimana sub sekuens yang sama dikelompokkan
ke dalam blok. Disini p mengacu pada identitas % dari blok misalnya blosum 62
berasal dari blok dengan identitas 62%. Matriks skor yang paling populer untuk
pensejajaran berpasangan adalah blosum 62 matriks (Hochreiter, 2008).
Adapun perhitungan matriks blosum dengan langkah-langkah sebagai
berikut:
1. Sekuens dengan paling tidak identitas berkumpul satu sama lain.
Setiap cluster menghasilkan sekuens frekuensi (frekuensi asam amino
relatif pada setiap posisi). Sekuens frekuensi mewakili semua sekuens satu
cluster dan sekuens yang sama, yaitu tidak ada frekuensi. Frekuensi akan
ditentukan kemudian.
2. Sekuens frekuensi sekarang dibandingkan dengan satu sama lain. Pasang
asam amino dan dihitung oleh yang mana asam amino dihitung
sesuai dengan frekuensi mereka. Jika dalam kolom ada asam amino
dan asam amino maka hitungan untuk kolom memberikan
{
(
)
(2.2)
dengan, (
)
(
), dimana faktor
menyumbang symetri dan
kurangi bahwa jumlah dari sekuens ke dirinya sendiri.
17
3. Hitung ∑ dan ∑
( )
, dimana adalah
panjang sekuens dan adalah nomor pada sekuens. Sekarang adalah
dinormalisasi untuk mendapatkan probabilitas
(2.3)
Akhirnya mulai dari untuk .
4. Yang probabilitas dari kejadian asam amino adalah
∑
(2.4)
Probabilitas tidak sedang bermutasi ditambah jumlah dari pobabilitas
mutasi. adalah dibagi dengan 2 karena mutasi dari ke dan ke
dihitung menggunakan langkah 2.
5. Rasio kemungkinan
dan
serta rasio log-odds.
{
(2.5)
Dayhoffm memperkenalkan Percent or Point Accepted Mutation (PAM)
matrices. PAM sesuai dengan unit evolusi misalnya 1 PAM = 1 poin mutasi atau
100 asam amino dan 250 PAM = 250 poin mutasi atau 100 asam amino. Oleh
karena itu unit evolusi adalah waktu bahwa rata-rata n% mutasi terjadi pada posisi
tertentu dan bertahan. Untuk PAM 250 1/5 asam amino tetap tidak berubah. PAM
n adalah diperoleh dari PAM 1 sampai n kali perkalian matrik (Durbin dkk, 2002).
Matriks PAM adalah matriks Markov dan memiliki bentuk
[
] (2.6)
dengan dan ∑
18
2.6 Algoritma Needleman Wunsch
Algoritma Needleman Wunsch merupakan algoritma global alignment
untuk sekuens yang berpasangan. Langkah-langkah dalam menjalankan Algoritma
Needleman Wunsch sebagai berikut:
1. Menyusun dua sekuens dalam tabel dua dimensi.
Jika diberikan sekuens ( ) dan
( ) maka tabel dua dimensi dari sekuens tersebut terdapat
pada tabel 2.4, dengan ( ) diperoleh dari langkah selanjutnya.
Tabel 2.4 Tabel Dua Dimensi Sekuens
...
( ) ( ) ( ) ... ( )
( ) ( ) ( ) ... ( )
( ) ( ) ( ) ... ( )
... ... ... ... ... ...
( ) ( ) ( ) ... ( )
2. Menghitung elemen ( ) dari tabel dua dimensi
Masing-masing elemen ( ) yang terdapat pada Tabel Dua
Dimensi yaitu, ( ) yang ada di sisi kiri atas, ( ) yang
ada di sisi kiri dan ( ) yang ada di atas. Langkah awal yakni
menentukan skor ( ) dan skor ( ). Skor penalti pada virtual symbol
dengan elemen ( ) dapat dihitung menggunakan rumus sebagai
berikut:
( ) * ( ) ( ) ( ) ( ) +
3. Algoritma Traceback
Traceback berguna untuk menentukan backward pathway yang
selanjutnya akan digunakan untuk menentukan letak penambahan simbol
virtual “–“. Metode Backward untuk mencari lintasan dan untuk mencari
DNA yang optimum. Nilai akhir ( ) adalah skor maksimum dari
pensejajaran sekuens ( ) dan ( ) menjadi titik awal dan ( )
menjadi titik akhir untuk Metode Backward.
19
Kemungkinan lintasan :
1. Jika ( ) ( ) s( )
maka diagonal : ( ) ( )
2. Jika ( ) ( ) s( )
Cek nilai di samping dan di atas, pilih nilai terbesar.
(i) Atas : ( ) ( )
Maka ( ) ( )
(ii) Samping ( ) ( )
Maka ( ) ( )
Adapun penulisan hasil dari pensejajaran dengan cara sebagai berikut:
1. Jika alur mundurnya dimulai dari ke sudut kiri atas maka notasikan
pasangan dari asam nukleat .
2. Jika alur mundunya horizontal, maka sisipkan virtual symbol pada sekuens
vertikal dan notasikan sebagai ( ).
3. Jika alur mundurnya vertikal, maka sisipkan virtual symbol pada sekuens
horizontal dan notasikan ( ).
Contoh 2.2 Misalkan diketahui sekuens-sekuens berikut:
{
Diketahui: ( ) {
dan
Jawab:
t t g a
0
-8 -16 -24 -32
t -8
5 -3 -11 -19
g -16
-3 2 2 -6
a -24
-11 -6 -1 7
a -32
-19 -14 -9 4
g -40
-27 -22 -9 -4
Hasil pensejajaran:
{
20
Berikut perhitungan untuk mengisi baris dan kolom pada tabel di atas
( )
( )
( )
( )
( )
( )
( )
( ) { ( ) ( ) ( ) ( ) }
( ) * ( ) ( ) ( ) ( )
* +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* +
* +
21
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* +
* +
( ) * ( ) ( ) ( ) ( )
* +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
22
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
Berikut perhitungan untuk mencari lintasan menggunakan Metode Backward.
( ) ( ) ( )
( )
Cek nilai di samping dan di atas. Pilih nilai paling besar, terdapat
maka ( ) ( )
( ) ( ) ( )
maka ( ) ( )
( ) ( ) ( )
( )
maka ( ) ( )
( ) ( ) ( )
( )
maka ( ) ( )
( ) ( ) ( )
maka ( ) ( )
Algoritma Nedleman Wunsch merupakan metode yang digunakan untuk
mendapatkan sekuens berpasangan menjadi sejajar atau diperoleh panjang sama.
Yang mana didalam algoritma itu terdapat perhitungan dalam entri baris dan
kolom yang terdapat pada tabel dua dimensi. Jika terdapat nilai yang sama dalam
baris dan kolom, misal pada contoh 2.2 pada ( ) dan ( ) diperoleh nilai
yaitu 2, maka lihat aturan algoritma traceback. Pada ( ) dalam menentukan
lintasan dengan perhitungan sebagai berikut.
23
( ) ( ) ( )
( )
Maka arah lintasannya diagonal, sehingga dipilih ( ).
Jika dalam perhitungan untuk entri baris dan kolom terdapat skor yang
sama, pilih salah satu nilai yang maksimal. Sebagai gambaran perhitungan pada
contoh 2.2 dapat dilihat untuk entri ( ) dihitung sebagai berikut
( ) * ( ) ( ) ( ) +
* +
* +
2.7 Multiple Alignment
Multiple alignment (MA), yaitu pensejajaran beberapa sekuens sekaligus.
MA adalah kunci utama dalam bidang bioinformatika. Contohnya, untuk
mempelajari evolusi biologis, para peneliti menganalisa perubahan stuktur
berdasarkan MA khusus sekuens DNA atau protein. Untuk mempelajari genome
virus, MA juga digunakan untuk mendapatkan proses evolusi dari virus spesifik.
Biasanya untuk sebuah MA melibatkan ratusan sekuens yang mana tedapat
ratusan juta panjang pasangan basa. Diberikan multiple sekuens untuk
mendapatkan MA, pertama kali harus dikonstruksi sebuah algoritma dengan
terlebih dahulu memformulasi prinsip-prinsip komputasi (Shen dkk, 2008).
Hasil dari MA berupa suatu himpunan sekuens yang panjangnya sama.
MA dapat menunjukkan multiple sequence berada pada keluarga yang sama atau
tidak. Selain itu, MA dapat menunjukkan semua hubungan atau relasi antar famili
dari multiple sequence yang ada. Berdasarkan pembagian keluarga, dapat
ditentukan keadaan evolusi masing-masing sekuens dalam keluarga. Secara umum
digunakan pohon topologi untuk menggambarkan hubungan di antara multiple
sequence, pohon topologi tersebut selanjutnya dikenal dengan pohon filogenetik
(Shen dkk, 2008).
24
Studi tentang MA berkembang kedua arah. Yang pertama membahas
kompleksitas komputasi untuk solusi dengan pinalti minimum, yang mana banyak
publikasi mempertimbangkan pada masalah yang sangat sulit. Karena itu, adalah
sulit untuk mencapai MA dengan penalti minimum secara teori. Masalah MA
menjadi masalah dari kompleksitas komputasi (Shen dkk, 2008).
Sebagai contoh MA, dengan menggunakan tiga sekuens yang disejajarkan
yaitu = VIVALASVEGAS, = VIVADAVIS dan = VIVADALLAS. MA
dari tiga sekuens tersebut ditunjukkan oleh yang terlihat seperti berikut.
Ketika dilakukan untuk sekuens terkait, MA dapat membantu para peneliti
mengidentifikasi domain dan daerah lainnya yang menarik. Selain itu bisa dengan
mudah beradaptasi definisi pensejajaran berpasangan (pairwise alignment) untuk
menutupi kasus ini (Cristianini dkk, 2006). Masalah MA dipecahkan dengan
menggunakan beberapa metode yang berbeda , seperti classical, progressive, dan
iterative algorithms.
2.7.1 Metode Progressive
Adanya hubungan timbal balik antara pensejajaran dan hubungan
filogenetik antar sekuens di dalamnya memunculkan ide bahwa suatu pensejajaran
yang baik dapat dibuat berdasarkan hubungan filogenetiknya dalam bentuk sebuah
pohon. Namun demikian, hasil pensejajaran sekaligus juga pohon filogenetik dari
suatu sekuens yang belum disejajarkan merupakan hal yang rumit. Pendekatannya
adalah dengan menghasilkan suatu alignment sementara lalu membuat pohon dari
pensejajaran sementara tersebut, kemudian mengoptimasi pensejajaran tersebut
berdasarkan informasi kekerabatan antar sekuens yang terdapat dalam pohon
(Naznin dkk, 2012).
Metode progressive menghasilkan Multiple Alignment dari sejumlah
pensejajaran secara berpasangan (Pairwase Alignment). Metode Progressive
membentuk pensejajaran dengan menambahkan satu sekuens pada saat itu
25
menurut skor untuk berpasangan mereka, sehingga biasanya sekuens yang
mensejajarkan terbaik ditambahkan ke pelurusan pertama (Mojbak dkk, 2010).
Langkah-langkah pensejajaran sekuens menggunakan Metode Progressive
sebagai berikut.
1. Melakukan pensejajaran berpasangan untuk setiap pasang sekuens.
2. Membentuk matriks jarak dari hasil pensejajaran dari setiap pasang
sekuens. Entri dalam matriks jarak adalah beda hasil pensejajaran
pasangan sekuens.
3. Membangun pohon filogentik dari pensejajaran dengan jarak evolusi.
4. Hasil pensejajaran diperoleh melalui pohon filogenetik yang telah
dikontruksi.
Metode Progressive menggunakan Metode Dinamic Programming untuk
membentuk pensejajaran sekuens secara keseluruhan dimulai dengan sekuens
paling terkait atau kelompok sekuens ke pensejajaran awal (Ulum dkk, 2013).
2.8 Filogenetik Molekuler
Filogenetik molekuler adalah ilmu yang mempelajari hubungan
evolusioner antara organisme, gen, atau protein, menggunakan kombinasi biologi
molekuler dan teknik statistik. Hubungan filogenetik biasanya digambarkan dalam
bentuk pohon biner. Struktur pohon menggambarkan kemungkinan hubungan
keturunan leluhur antara varian diketahui yang ada di masa lalu, dimana
leluhurnya masih mempunyai hubungan kekerabatan dengan varian sekarang atau
node eksternal (Polanski dkk, 2007).
2.8.1 Pohon
Sebagaimana dinyatakan pada sub bab 2.5, hubungan filogenetik dapat
direpresentasikan dalam bentuk pohon, biasanya diposisikan terbalik.
Pengamatan, biasanya dalam bentuk sekuens, hanya tersedia di bawah pohon.
Tugas molekuler filogenetik adalah untuk menemukan struktur (topologi) dari
pohon, dan panjang cabang, yang mewakili struktur keterkaitan dari sekuens yang
masih ada dan kedalaman waktu hubungan ini (Polanski dkk, 2007).
26
Sebuah pohon adalah sebuah grafik yang terdiri dari node dan cabang, di
mana dua node yang terhubung oleh jalan yang unik. Sebuah pohon biner adalah
pohon dengan cabang diarahkan, sehingga masing-masing node memiliki lebih
dari dua keturunan. Sebuah pohon filogenetik adalah pohon yang node dan cabang
memiliki interpretasi sebagai spesies atau sekuens molekul dan hubungan di
antara mereka (Polanski dkk, 2007).
Dalam pohon terdapat istilah-istilah yang digunakan, adapun penjelasan
mengenai istilah-istilah yang ada hubungannya dengan pohon sebagai berikut:
a. Node
Node dalam pohon filogenetik disebut unit taksonomi. biasanya unit
taksonomi diwakili oleh sekuens (DNA atau RNA, nukleotida atau asam amino).
Sekuens tersebut sesuai dengan spesies atau individu dalam populasi yang
baisanya diwakili oleh parameter yang menggambarkan individu, seperti panjang,
sudut, atau warna.
b. Cabang
Cabang di pohon filogenetik menunjukkan keturunan atau hubungan
keturunan antar node.
c. Node terminal.
Node terminal juga disebut node eksternal, daun, atau ujung pohon. Untuk
pohon filogenetik, nama-nama node terminal unit taksonomi adalah unit
taksonomi yang masih ada atau unit taksonomi operasional.
d. Akar
Akar adalah node asal atau nenek moyang dari semua node.
e. Pohon berakar atau pohon tidak berakar.
Pada Gambar. 2.1, disajikan contoh pohon berakar dibandingkan pohon
tidak berakar untuk set yang sama node yang masih ada A, B, C, D, E. Dalam
pohon berakar, arah jalur evolusi (waktu) selalu ditentukan. Dalam pohon tidak
berakar, node yang masih ada secara unik ditentukan tetapi ada banyak jalur
evolusi mungkin, tergantung pada lokasi dari akar.
27
(a) (b)
Gambar 2.1 (a) Pohon berakar dan (b) Pohon tidak berakar
f. Topologi
Topologi adalah pola percabangan pohon. Jumlah kemungkinan
topologi pada umumnya sangat besar. Jika jumlah Tus yang masih ada
adalah n, jumlah pohon tidak berakar berlabel berbeda adalah
( )
( ) (2.2)
dan jumlah pohon berakar berlabel berbeda adalah
( )
( ) (2.3)
Ekspresi di atas dapat diturunkan menggunakan prosedur iterasi dengan
menambahkan cabang pohon yang ada.
g. Panjang cabang
Panjang dari cabang menentukan matriks dari pohon. Pada pohon
filogenetik, panjang cabang diukur dalam satuan evolusi
waktu. Berlalunya waktu evolusi menghasilkan akumulasi perubahan
evolusioner. Karena itu, ketika menyimpulkan matriks dari pohon filogenetik,
jumlah dari evolusi berubah diantara spesies estimator dari panjang cabang.
Sebuah pohon berakar merupakan evolusi diarahkan dari nenek
moyang ke semua node terminal. Node internal lainnya dari
pohon merupakan nenek moyang kelompok tertentu dari Otus. Dengan
menghapus akar dari pohon berakar dan bergabung dengan dua cabang turun
dari akar menjadi cabang tunggal, satu memperoleh pohon tidak berakar.
Pohon tersebut dilakukan tidak mengandung informasi tentang arah evolusi
akar
A B C D E
A
B
C
D
E
28
dan menentukan hanya hubungan evolusi antara Otus. Gambar 2.2
menunjukkan pohon berakar dengan empat spesies mamalia dan gambar 2.3
menunjukkan pohon tidak berakar dengan empat spesies mamalia.
Gambar 2.2 Pohon berakar dengan empat spesies mamalia
Gambar 2.3 Pohon tidak berakar dengan empat spesies mamalia
Dua representasi yang diberikan untuk setiap pohon. Perhatikan bahwa
dua intern node dari pohon berakar mewakili masing-masing nenek moyang dari
kelompok {lumba-lumba, paus, babi} dan nenek moyang dari kelompok yang
lebih kecil {Lumba-lumba dan paus}. Pohon yang dijelaskan dalam gambar 2.2
dan gambar 2.3 disebut sebagai pohon filogenetik pohon. Setiap pohon filogenetik
yang daunnya diberi label oleh Otu tertentu, dikatakan untuk menghubungkan
Otu.
Panjang masing-masing cabang pohon adalah angka positif yang
merupakan tingkat keterkaitan antara spesies atau urutan yang sesuai ke kelenjar
di titik akhir dari cabang dan sering dihitung sebagai produk dari panjang interval
waktu yang secara historis memisahkan spesies atau urutan dan nilai tertentu dari
tingkat evolusi, yang mencoba untuk memperhitungkan fakta bahwa beberapa
Horse
Ping
Dolphin
Whale
Whale
Horse
Ping
Dolphin
𝑥
Pin
g
Root
Horse Dolphin Whale Ping
Root
Horse
Dolphin
Whale
29
spesies atau gen berevolusi lebih cepat dari pada yang lain. Pada gambar. 2.2
hanya memberikan pola percabangan yang benar, tidak ada panjang cabang.
Panjang cabang sering ditampilkan sebagai label di sebelah cabang yang sesuai.
Pohon yang terdapat panjang pohon dapat dilihat pada gambar 2.4.
Gambar 2.4. Pohon dengan panjang pohon
2.8.2 Pohon Filogenetik (Phylogenetic tree)
Pohon filogenetik atau pohon evolusi adalah grafik tanpa siklus atau
pohon yang menunjukkan hubungan evolusi di antara berbagai spesies biologi
berdasarkan kedekatan genetik berbagai spesies (Ruzgar dkk, 2011). Tujuan dari
filogeni adalah untuk merekonstruksi sejarah kehidupan dan menjelaskan
keanekaragaman makhluk hidup saat ini. Hal ini dapat direpresentasikan sebagai
pohon genealogis besar (pohon kehidupan). Prinsip yang mendasari filogeni
adalah mencoba untuk mengelompokkan makhluk hidup sesuai dengan tingkat
kemiripan. Dalam konteks ini, asumsikan bahwa dua spesies yang lebih serupa
(seperti manusia dan kera), semakin dekat kekerabatan mereka dengan nenek
moyang mereka. Filogenetik merupakan jenis khusus dari filogeni yang
bergantung pada perbandingan gen yang berasal dari beberapa spesies untuk
merekonstruksi pohon genealogis pada spesies ini dan mencari tahu siapa kerabat
terdekat misalnya dalam keluarga (Claverie dkk, 2007).
Untuk menggambarkan hubungan evolusi antara gen dan organisme
dalam suatu hubungan kekerabatan yang erat dengan menggunakan pohon
𝑥
𝑥6
𝑥
𝑥
𝑥
𝑥
2 2
2
1
3
5
5
3
30
filogenetik. Disebut pohon filogenetik karena bentuknya menyerupai struktur
pohon. Istilah yang digunakan pada pohon filogenetik merujuk ke berbagai bagian
dari pohon (misalnya akar, cabang, node dan daun). Node eksternal atau daun
merepresentasikan taxa atau disebut OTUs (Operational Taxonomic Units), istilah
tersebut juga mewakili berbagai jenis taxa yang sebanding. Sebagai contoh,
sebuah keluarga organisme, individu atau strain virus dari satu spesies atau dari
spesies yang berbeda. Node internal atau disebut HTU (Hipothetical Taxonomic
Units) menekankan bahwa mereka adalah leluhur hipotesis OTUs. Sebuah cluster
merupakan sekelompok taxa yang berbagi cabang yang sama memiliki asal
monofiletik (Lemey dkk, 2009).
akar
(a) (b)
Gambar 2.5 (a) Pohon filogenetik berakar dan (b) Pohon filogenetik tidak berakar
Pada gambar 2.5 kedua pohon memiliki topologi yang sama. Pada gambar
di atas, Taxa A, B dan C membentuk cluster, memiliki leluhur bersama H, karena
asalnya monofiletik. Sedangkan C, D dan E tidak membentuk cluster tanpa
memasukkan strain tambahan dan tidak berasal dari monofiletik disebut
paraphyletic. Percabangan pola disebut sebagai topologi pohon. Pada pohon
berakar yang ditunjukkan pada gambar 2.5 (a), sebagai node internal atau OTU
yaitu A, B, C, D, dan F. Sedangkan node internal atau HTU yaitu G, H, I, J dan K,
dengan K sebagai simpul akar. Panah menunjukkan arah evolusi (misal dari akar
K
J
H
G A
B
C
D I
F
A B
C
D
E
E
F
G
H
I
J
31
K ke node eksternal D). Pada pohon tidak berakar yang ditunjukkan pada gambar
2.5 (b) tidak memiliki simpul akar, hanya garis antara node cabang. Sebuah pohon
tidak berakar hanya memposisikan sekelompok individu tanpa menunjukkan arah
proses evolusi. Dalam sebuah pohon tidak berakar, tidak ada indikasi yang
mewakili nenek moyang dari semua OTU (Lemey dkk, 2009).
(a) (b)
Gambar 2.6 Struktur dari pohon Filogenetik berakar
Pada gambar 2.6 menunjukkan pohon yang sama seperti pada gambar 2.5
tetapi dalam bentuk yang berbeda. Pada gambar 2.6, kedua gambar memiliki
topologi yang identik. Cabang diinternal node dapat diputar tanpa merubah
topologi pohon (Lemey dkk, 2009).
2.8.3 Metode-metode Pembentukan Pohon
Pohon filogenetik dapat dibentuk atas dasar pendekatan yang sangat
berbeda, yang mungkin dibagi menjadi metode berorientasi data dan metode
berorientasi model. Contoh metode berorientasi data adalah metode berbasis jarak.
Metode jarak, pohon yang dibangun dengan menggabungkan sekuens dengan
jarak kecil di antara mereka. Contoh lain adalah Metode Maximum Parsimony,
dengan Metode Maximum Parsimony pohon yang dibentuk menjelaskan data
yang diamati menggunakan nilai terkecil. Tidak ada diasumsikan model evolusi
dalam Metode Jarak dan Metode Maximium Parsimony. Mungkin ini menjadi
alasan mengapa pendekatan berorientasi data lebih menarik bagi ahli biologi dan
biasanya dianggap "model-bebas" (Polanski dkk, 2007).
F
F A
A C
C
D
E
B
J
H
G
J
B
D
E
I
G
H
32
Pendekatan model antara lain, Metode Maximum Likelihood dan metode
berdasarkan Coalescent tersebut. Dalam Metode Maximum Likelihood, model
probabilistik evolusi diasumsikan dan cocok untuk sekuens data untuk
memaksimalkan kemungkinan semua pohon. Menghitung likelihood adalah
komputasi secara intensif, tetapi metode ini dapat dilakukan dengan beberapa
cara, termasuk evolusi di bawah tekanan selektif, yang mungkin membantu dalam
identifikasi protein aktif (Polanski dkk, 2007).
Menerapkan metode filogenetik untuk berbagai gen dari gen keluarga
untuk merekonstruksi sejarah keluarga dengan cara yang sama. Menurut Shen
(Shen dkk, 2008) metode-metode untuk membangun pohon filogenetik adalah
sebagai berikut:
1. Metode Berbasis Jarak
Setiap hasil alignment dapat digunakan untuk menghitung matriks
jarak antar sekuens. Bedasarkan pada matriks jarak, akan dapat dihasilkan
pohon filogenetik yang sesuai. Metode yang paling populer disebut
UPGMA (Unweighted Pair Group Method with Aritmatic) dan Neighbor-
Joining.
2. Metode Berbasis Fitur
Metode jenis ini menggunakan fitur (karakteristik) dari output
alignment untuk membangun pohon filogenetik. Metode berbasis fitur
yang digunakan dalam filogenetik adalah Metode Maximum Parsimony.
Penentuan pohon dengan tree length terkecil tidak dilakukan berdasarkan
matriks distance seperti pada ME. Perhitungan branch length dan tree
length pada metode MP didapatkan dari jumlah substitusi minimum antar
character state setiap situs pada sequence alignment.
3. Metode Berbasis Probabilitas
Penggunaan metode berbasis probabilitas ini untuk membangun
pohon filogenetik dimulai dengan membangun suatu model probabilitas
untuk mutasi sekuens, kemudian membangun pohon flogeetik didasarkan
pada output dan model probabilitas.
33
2.9 Metode Berbasis Jarak (Distance Based Methods)
Metode jarak adalah salah satu metode pembentukan pohon filogenetik
dari sekumpulan jarak antar setiap pasangan sekuens yang telah disejajarkan.
Sekumpulan jarak tersebut dituliskan dalam bentuk matriks yang disebut matriks
jarak (Isaev, 2007). Adapun bentuk matriks jarak dapat dilihat pada contoh 3.
Contoh 2.3 : Diberikan N = 5 dan diberikan matriks jarak sebagai beikut.
0 11 8 9 8
11 0 13 14 13
8 13 0 9 8
9 14 9 0 9
8 13 8 9 0
Pada contoh 2.3 menunjukkan matriks jarak dari lima sekuens (OTU)
dengan himpunan sekuens * +. Setiap elemen matriks tersebut
merepresentasikan jarak genetik antar sekuens yang terlibat. Misalnya, jarak
antara OTU dan adalah 8. Angka tersebut menyatakan perbedaan genetik
sekuens dan sebesar 8 satuan. Perbedaan tersebut terjadi karena proses
evolusi yang terjadi didalam struktur genetiknya. Angka-angka tersebut bisa
dikatakan sebagai waktu evolusi atau perbedaan banyaknya gen akibat evolusi.
Terdapat asumsi bahwa diberi matriks jarak berpasangan antara sekuens.
Misal adalah sebuah himpunan dan adalah sebuah fungsi,
dikatakan sebagai distance function atau fungsi jarak pada jika
( ) untuk setiap 2.5
( ) untuk 2.6
( ) ( ) untuk setiap 2.7
Memenuhi ketidaksamaan segitiga ( ) ( ) ( ) untuk setiap
2.8
Jika adalah distance function atau fungsi jarak pada , maka untuk
, bilangan ( ) disebut sebagai jarak antara dan . Setiap set M
dapat berubah menjadi matriks ruang jika diperkenalkan fungsi jarak dari M
34
dengan menetapkan ( ) untuk semua , dan ( )
untuk semua , tetapi fungsi jarak ini sangat tidak informatif.
Himpunan yang dipakai disini adalah himpunan berhingga
* + yang merupakan himpunan sekuens (OTU) yang akan dibentuk pohon
filogenetik-nya. Diasumsikan bahwa fungsi jarak terdefinisi di dan relevan
secara biologi, maksudnya adalah sesuai dengan informasi genetik yang ada pada
sekuens di . Sebagai contoh ( ) ( ) berarti OTU dan lebih
jauh hubungan evolusi atau kekerabatannya dibanding OTU dan . Untuk
menyederhanakan penulisan, ( ) ditulis sebagai dengan * +.
Berdasarkan fungsi jarak tersebut dapat diperoleh matriks jarak (distance matrix)
( ) dengan definisi formal sebagai berikut.
Definisi 3. Misalkan adalah suatu fungsi jarak, disebut sebagai matriks
jarak yang didefinisikan oleh
[
]
dengan dan n adalah jumlah OTU yang terlibat (Isaev, 2007).
Pengelompokan program menghasilkan sebuah pensejajaran dan pohon
dari set sekuens protein. Metode jarak bekerja pada jumlah perubahan diantara
masing-masing pasangan dalam kelompok untuk mengkonstruksi pohon
filogenetik dalam kelompok. Pasangan sekuens yang mempunyai jumlah
perubahan terkecil diantara mereka disebut neighbors. Dalam pohon filogenetik,
sekuens-sekuens ini menggunakan secara bersama-sama satu titik dan masing-
masing dihubungkan titik oleh sebuah cabang. Tujuan dari metode jarak adalah
untuk mengidentifikasi pohon pada posisi neighbors dengan benar, dan juga
mempunyai cabang yang menghasilkan data dengan jarak sedekat mungkin.
Langkah pertama dalam membentuk multiple sequence alignment adalah
35
penemuan neighbors terdekat diantara kelompok sekuens dengan metode jarak
(Feng dkk, 1996).
2.10 Metode UPGMA
Metode UPGMA (Unwight Pair Group Method with Arithmetic Average)
adalah metode untuk konstruksi pohon yang mengasumsikan rata-rata perubahan
sepanjang pohon adalah konstan dan jaraknya kira-kira ultrameric (ultrameric
biasanya diekspresikan sebagai molecular clock tree). Metode UPGMA dimulai
dengan kalkulasi panjang cabang diantara sekuen paling dekat yang saling
berhubungan, kemudian rata-rata jarak antara sekuens ini atau kelompok sekuens
dan sekuens berikutnya atau kelompok sekuens dan berlanjut sampai semua
sekuens yang termasuk dalam pohon. Akhirnya metode ini memprediksi posisi
root dari pohon (Shen dkk, 2008).
Metode UPGMA adalah metode paling sederhana dari semua metode
clustering yang digunakan untuk membentuk pohon filogenetik. Metode ini
membutuhkan kecepatan substitusi dari nukleotida atau asam amino menjadi
seragam dan tidak berubah melalui seluruh proses evolusi. Dengan kata lain,
memenuhi hipotesis mengukur waktu molekuler. Pada setiap node induk, panjang
cabang dari node induk ke dua simpul anak adalah sama (Isaev, 2007).
Metode UPGMA mengasumsikan sebuah molecular clock dan rooted tree.
Metode ini secara normal menghitung skor similaritas yang didefinisikan sebagai
jumlah total dari jumlah sekuens yang identik dan jumlah substitusi konservatif
dalam pensejajaran dua sekuens dengan gap yang diabaikan. Skor identitas antara
sekuens menunjukkan hanya identitas yang mungkin ditemukan dalam
pensejajaran. Untuk analisis filogenetik digunakan skor jarak antara dua sekuens.
Skor diantara dua sekuens adalah jumlah posisi yang tidak cocok (mismatch)
dalam pensejajaran atau jumlah posisi sekuen yang harus diubah untuk
menghasilkan sekuens yang lain. Gap mungkin diabaikan dalam kalkulasi atau
diberi perlakuan seperti substitusi. Ketika sebuah skoring atau matriks substitusi
digunakan, kalkulasi menjadi lebih komplek tetapi secara prinsip tetap sama (Shen
dkk, 2008).
36
Metode UPGMA merupakan salah satu algoritma yang klasik untuk
konstruksi pohon. Metode UPGMA mengelompokkan dua kelas baru, ke suatu
cluster tiap-tiap waktu, sampai semua kelas dikumpulkan ke dalam satu kelas.
Sebenarnya Metode UPGMA adalah sebuah metode clustering konstruktif
berdasarkan bergabung pasang cluster (Hochreiter, 2008). Metode UPGMA
bekerja dengan mengikuti langkah-langkah sebagai berikut.
1. Awalnya, setiap sekuens adalah cluster dengan satu elemen .
Ketinggian dari setiap cluster adalah 0. Masukkan semua ke dalam
daftar.
2. Pilih cluster pasangan ( ) dari daftar dengan jarak minimal dan
membuat cluster baru dengan bergabung dan . Menetapkan tinggi
dan jumlah elemen .
3. Menghitung jarak untuk cluster baru untuk cluster lainnya :
(2.9)
Rumus untuk memastikan bahwa adalah jarak rata-rata dari semua
elemen di dan .
4. Hapus dan dari daftar dan menambahkan ke dalam daftar. Jika daftar
berisi hanya satu elemen kemudian ulangi langkah 2.
Sebelum Metode UPGMA diterapkan untuk permasalahan dalam
identifikasi hubungan kekerabatan jenis-jenis virus ebola dan penyebarannya dan
diselesaikan secara komputasional, terlebih dahulu diberikan gambaran proses
langkah-langkah pembentukan pohon filogenetik dengan proses penyelesaian
secara manual dalam bentuk contoh sederhana 2.3.
Contoh 2.3. Diberikan lima sekuens DNA. Metode UPGMA bekerja
dengan mengikuti langkah-langkah sebagai berikut.
Awalnya, setiap sekuens adalah cluster dengan satu elemen .
Ketinggian dari setiap cluster adalah 0. Untuk satu set sekuens dari A sampai E
kita mendapatkan daftar berikut cluster dengan ukuran n masing-masing.
Untuk satu set sekuens dari A sampai E diperoleh daftar berikut cluster dengan
ukuran masing-masing.
( ) ({A}, {B}, {C}, {D}, {E})
37
( ) (1, 1, 1, 1, 1)
Mulai dengan jarak berpasangan yang diperoleh dari pensejajaran sebagai berikut.
A B C D E
A 0 0,012 0,043 0,038 0,095
B 0,012 0 0,042 0,033 0,092
( ) : C 0,043 0,042 0 0,037 0,097
D 0,038 0,033 0,037 0 0,093
E 0,095 0,092 0,097 0,093 0
Ulangi langkah-langkah berikut sampai daftar hanya berisi satu elemen:
1. Pilih cluster pasangan ( ) dari daftar dengan jarak minimal dan
membuat cluster baru dengan bergabung dan . Menetapkan tinggi
dan jumlah elemen .
2. Menghitung jarak untuk cluster baru untuk cluster lainnya :
Rumus memastikan bahwa adalah jarak rata-rata dari semua elemen
di dan .
3. Hapus dan dari daftar dan menambahkan ke dalam daftar.
Dalam contoh 2.3 jarak terkecil antara cluster {A} dan {B}. Kemudian cluster
{A} dan {B} digabung menjadi cluster baru {A, B} dengan dan
.
Diperoleh:
( ) ({A, B}, {C}, {D}, {E})
( ) (2, 1, 1, 1)
38
Jarak baru:
AB C D E
AB 0 0,0425 0,0355 0,0935
( ) : C 0,0425 0 0,037 0,097
D 0,0355 0,037 0 0,093
E 0,0935 0,097 0,093 0
Misalnya : Jarak antara cluster {A, B} dan {C} dihitung dengan menggunakan
.
Kemudian lihat lagi untuk jarak terkecil dan bergabung cluster {A, B} dan {D}
menjadi cluster {A, B, D} dengan ketinggian
.
Dipeoleh:
( ) ({A, B, D}, {C}, {E})
( ) (3, 1, 1)
Jarak baru:
ABD C E
( ) ABD 0 0,0406 0,093
C 0,0406 0 0,097
E 0,093 0,097 0
Misalnya: Jarak antara cluster {A, B, D} dan {C} dihitung dengan menggunakan
.
Sekarang jarak terkecil bergabung cluster {A, B, D} dan {C} menjadi cluster {A,
B, C, D} dengan ketinggian 6
.
Diperoleh:
( ) ({A, B, C, D}, {E})
( ) (3, 1, 1)
39
Jarak baru:
ABCD E
( ) ABCD 0 0,094
E 0,094 0
Misalnya: Jarak antara cluster {A, B, C, D} dan {E} dihitung dengan
menggunakan
.
Langkah selanjutnya mudah. Sisa cluster bergabung ke satu cluster besar dan
algoritma berakhir.
( ) ({A, B, C, D, E})
( ) (5)
.
Pohon filogenetik dibangun menggunakan rangka bergabung dan nilai-
nilai tinggi yang dihitung. Adapun pohon filogentik yang dibentuk menggunakan
langkah-langkah Metode UPGMA di atas dapat dilihat pada gambar 2.7.
Gambar 2.7. Pohon filogenetik dibangun oleh Metode UPGMA
B
E
C
D
A
0,12155
0,0587
0,057
0,1425525
41
Pembuatan program pensejajaran dengan Metode Progresif
BAB 3
METODA PENELITIAN
Pada bagian ini diuraikan beberapa tahapan penelitian yang akan
dilakukan serta alur tahapan-tahapan tersebut untuk mencapai tujuan penelitian.
3.1 Tahapan Penelitian
Secara umum, tahapan yang dilakukan dalam penelitian ini disampaikan
pada diagram alir penelitian seperti pada Gambar 3.1.
Studi literatur
- Protein
- DNA
- Virus ebola
- Model Affine Gap Penalty
- Algoritma Center Star Alignment
- Molekuler filogenetik
Pengambilan data dari WEB :
- Uniprot (www.uniprot.org)
- National Center for Biotechnologi Informatika (www.ncbi.nih.gov)
Pembuatan pohon filogenetik metode UPGMA secara manual
Pembuatan progam pohon filogenetik menggunakan Matlab
Hasil Pembentukan pohon filogenetik metode UPGMA
Analisis dan Pembahasan
Kesimpulan dan saran
Gambar 3.1 Diagram Alir Penelitian
42
Berdasarkan diagram alir pada Gambar 3.1, maka dijelaskan lebih rinci
sebagai berikut.
3.1.1 Studi Literatur
Pada tahap ini penulis mengumpulkan informasi, keterangan, dan teori
dalam jurnal dan buku yang berhubungan dengan penyakit virus ebola dan gejala-
gejala penyakit virus ebola, pohon filogenetik, multiple alignment, serta Metode
UPGMA yang akan digunakan dalam proses penelitian. Informasi diperoleh dari
penelitian-penelitian terdahulu yang telah dilakukan.
3.1.2 Pengambilan Data
Pada tahap ini dilakukan pengumpulan data-data yang mendukung
perancangan pohon filogenetik. Data-data yang dikumpulkan berupa data sekuens
protein beberapa jenis virus ebola yang diambil dari Uniprot (www.uniprot.org),
dan data DNA host maupun individu lain yangterinfeksi berdasarkan tanggal dan
tempat ditemukan diambil dari National Center for Biotechnology
Information(www.nlm.nih.ncbi.gov).
3.1.3 Pembuatan Progam Pensejajaran
Pada tahap ini dilakukan pensejajaran sekuens untuk mendapatkan matriks
jarak. Pensejajaran sekuens dibentuk menggunakan Metode Progresive yang
didalamnya terdapat pensejajaran sekuens berpasangan menggunakan Algoritma
Nedleman Wunsch. Software yang digunakan untuk mengimplementasikan
algoritma ini adalah Matlab 2012b. Pada penelitian ini pensejajaran dilakukan
menggunakan Metode Progresive yang didalamnya terdapat Algoritma Nedleman
Wunsch dengan bantuan fungsi yang terdapat di dalam Matlab. Untuk
mendapatkan beberapa sekuens dengan panjang yang sama. Berdasarkan output
MA tersebut akan digunakan untuk mendapatkan matriks jarak. Perangkat keras
yang digunakan adalah komputer dengan Processor Intel Pentium Core i3,
memory DDRAM 1GB, hardisk 500 GB. Sedangkan perangkat lunak yang
digunakan adalah Sistem Operasi Microsoft Windows 8, Notepad dan Bahasa
Pemrograman Matlab 2012b.
43
Adapun Multiple Alignment menggunakan Metode Progressive
disampaikan pada diagram alir (Ulum dkk, 2013) pada gambar 3.2 sebagai
berikut.
Gambar 3.2 Multiple Alignment oleh Metode Progresive
3.1.4 Pembuatan Pohon Filogenetik Metode UPGMA
Matriks jarak diperoleh berdasarkan hasil pensejajaran. Setelah
mendapatkan hasil pensejajaran himpunan sekuens dengan panjang sama, pada
tahap ini dilakukan penskoran menggunakan fungsi jarak Hamming. Kemudian
dihitung jarak evolusi untuk setiap pasangan sekuens berdasarkan hasil pasangan
homologi mereka sehingga menghasilkan matriks jarak. Setelah diperoleh matriks
jarak, langkah selanjutnya adalah perhitungan manual dengan metode berbasis
jarak, dalam penelitian ini menggunakan algoritma UPGMA. Kemudian
dilanjutkan dengan proses komputasi.
Adapun proses pembuatan pohon filogenetik disampaikan pada diagram
alir pada gambar 3.3.
Sekuens
DNA
Pairwase Alignment Distance Matrix
Sekuens Clustering Guide Tree
Progressive Alignment
44
Proses pensejajaran sekuens Metode Progressive
𝑆1 : A-AGTGCA
𝑆2 : ACCGTGCG
𝑆3 : AGTATC-G
𝑆4 : AATATCCA
𝑆5 : AGGATCCG
𝑆6 : A-AGTGCC
𝑆7 : AGTATC-C
Sekuens DNA:
1: AAGTGCA
2: ACCCGTGCG
3: AGTATCG
4: AATATCCA
5: AGGATCCG
6: AAGTGCC
7: AGTATCC
Pembentukan Matriks Jarak
1 2 3 4 5 6 7
1 0 0,5 0,714 0,375 0,375 0,142 0,714
2 0,5 0 0,625 0,75 0,755 0,625 0,875
3 0,714 0,625 0 0,375 0,25 0,625 0,42
4 0,375 0,75 0,375 0 0,375 0,5 0,25
5 0,375 0,755 0,25 0,375 0 0,5 0,25
6 0,142 0,625 0,625 0,5 0,5 0 0,714
7 0,714 0,875 0,42 0,25 0,25 0,714 0
Pembentukan pohon filogenetik Metode UPGMA
Gambar 3.3 Diagram Alir Proses Pensejajaran hingga Pohon Filogenetik
𝑆1
𝑆2
𝑆6
𝑆3
𝑆7
𝑆5
𝑆4
45
3.1.5 Hasil Pembentukan Pohon Filogenetik
Hasil pembentukan pohon filogenetik digunakan untuk identifikasi
hubungan kekerabatan jenis-jenis virus ebola. Kemudian pembuatan pogram
untuk simulasi hasil Identifikasi penyebaran virus ebola juga karena data yang
digunakan sangat besar sehingga tidak memungkinkan bila pohon filogenetik
dibentuk secara manual.
3.1.6 Analisis dan Pembahasan
Pada tahap ini, dilakukan analisis hasil pohon filogenetik untuk
mengetahui hubungan kekerabatan beberapa jenis virus ebola. Selanjutnya
dilakukan analisis mengenai hubungan kekerabatan jenis virus ebola terkait
dengan asal penyebaran epidemi ebola .
47
BAB 4
HASIL DAN PEMBAHASAN
Pada bagian ini diberikan penjelasan mengenai langkah-langkah
membangun pohon filogenetik dengan menggunakan Metode UPGMA. Setelah
itu, ditunjukkan implimentasi algoritma tersebut dalam bentuk program dan
dilakukan pengujian hasil implementasi terhadap suatu contoh sederhana.
Selanjutnya, program digunakan untuk menyelesaikan permasalahan identifikasi
kekerabatan jenis virus ebola dan penyebarannya.
4.1 Identifikasi Kekerabatan Jenis-jenis Virus Ebola
Ada lima jenis virus ebola diantaranya Zaire ebolavirus, Sudan ebolavirus,
Bundibugyo ebolavirus, Tai Forest ebolavirus dan Reston ebolavirus. Pada
penelitian ini dibentuk pohon filogenetik untuk mengetahui hubungan kekerabatan
antar jenis virus ebola satu dengan jenis virus ebola lainnya.
4.1.1 Pengumpulan data
Ada banyak sekuens protein ebola yang ada di Uniprot, namun dalam
penelitian ini digunakan 21 sekuens protein untuk tiap jenis virus ebola. Data
tersebut digunakan untuk mengidentifikasi hubungan kekerabatan jenis virus
ebola, masing-masing sekuens disejajarkan untuk dicari pola karakteristiknya.
Adapun data sekuens protein dari jenis-jenis virus ebola sebagai berikut :
1. Bundibugyo ebolavirus
Definition : Nucleoprotein
Kode Akses : B8XCM7
Panjang sekuens : 739aa
2. Zaire ebolavirus
Definition : Nucleoprotein
Kode Akses : P18272
Panjang sekuens : 739aa
48
3. Sudan ebolavirus
Definition : Nucleoprotein
Kode Akses : Q5XX08
Panjang sekuens : 738aa
4. Reston ebolavirus
Definition : Nucleoprotein
Kode Akses : Q8JPY1
Panjang sekuens : 739aa
5. Bundibugyo ebolavirus
Definition : Matrix protein VP40
Kode Akses : B8XCM9
Panjang sekuens : 326aa
6. Tai Forest ebolavirus
Definition : Matrix protein VP40
Kode Akses : B8XCN8
Panjang sekuens : 326aa
7. Sudan ebolavirus
Definition : Matrix protein VP40
Kode Akses : Q5XX06
Panjang sekuens : 326aa
8. Reston ebolavirus
Definition : Matrix protein VP40
Kode Akses : Q8JPX9
Panjang sekuens : 331aa
9. Zaire ebolavirus
Definition : Matrix protein VP40
Kode Akses : Q05128
Panjang sekuens : 326aa
10. Bundibugyo ebolavirus
Definition : Spike glycoprotein
Kode Akses : B8XCN0
Panjang sekuens : 676aa
49
11. Tai Forest ebolavirus
Definition : Spike glycoprotein
Kode Akses : B8XCN9
Panjang sekuens : 676aa
12. Sudan ebolavirus
Definition : Membrane-associated protein VP24
Kode Akses : Q5XX02
Panjang sekuens : 251aa
13. Reston ebolavirus
Definition : Membrane-associated protein VP24
Kode Akses : Q77DB4
Panjang sekuens : 251aa
14. Zaire ebolavirus
Definition : Membrane-associated protein VP24
Kode Akses : Q05322
Panjang sekuens : 251aa
15. Tai Forest ebolavirus
Definition : Membrane-associated protein VP24
Kode Akses : B8XCP3
Panjang sekuens : 250aa
16. Reston ebolavirus
Definition : Super small secreted glycoprotein
Kode Akses : P0C771
Panjang sekuens : 332aa
17. Sudan ebolavirus
Definition : Super small secreted glycoprotein
Kode Akses : P0C772
Panjang sekuens : 319aa
18. Zaire ebolavirus
Definition : Super small secreted glycoprotein
Kode Akses : Q9YMG2
Panjang sekuens : 298aa
50
19. Sudan ebolavirus
Definition : Minor nucleoprotein VP30
Kode Akses : Q5XX03
Panjang sekuens : 288aa
20. Reston ebolavirus
Definition : Minor nucleoprotein VP30
Kode Akses : Q8JPX6
Panjang sekuens : 287aa
21. Zaire ebolavirus
Definition : Minor nucleoprotein VP30
Kode Akses : Q77DJ5
Panjang sekuens : 288aa
4.1.2 Pensejajaran Sekuens
Pensejajaran dilakukan secara keseluruhan menggunakan Metode
Progressive. Sebelum diselesaikan secara komputasional, terlebih dahulu
diberikan gambaran proses penyelesaian secara manual dalam bentuk contoh
sederhana dalam membentuk pohon filogenetik. Adapun data yang digunakan
untuk contoh sebagai berikut.
Contoh 4.1. Diberikan tujuh sekuens DNA yaitu , , , , , dan
sebagai berikut
: AAGTGCA
: AAGTGCC
: AGTATCG
: AATATCCA
: AGGATCCG
: ACCCGTGCG
: AGTATCC
51
Proses pensejajaran sekuens menggunakan Metode Progressive. Adapun
langkah-langkah proses pensejajaran menggunakan Metode Progressive sebagai
berikut.
a. Melakukan pensejajaran berpasangan untuk setiap pasang sekuens.
Pensejajaran sekuens ini menggunakan program dinamik, yaitu
menggunakan algoritma Nedlemen Wunch.
Untuk mendapatkan hasil alignment dengan menggunakan algoritma
Needleman-Wunsch, dengan asumsi dan ( ) {
Perhitungan untuk Tabel Dua Dimensi
( )
( )
( )
( )
( )
( )
( )
( ) { ( ) ( ) ( ) ( ) }
( ) * ( ) ( ) ( ) ( )
* +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
52
( ) * ( ) ( ) ( ) ( ) +
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* +
* +
( ) * ( ) ( ) ( ) ( )
* +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
53
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
54
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
( ) * ( ) ( ) ( ) ( )
* +
* +
( ) * ( ) ( ) ( ) ( )
* +
* +
( ) * ( ) ( ) ( ) ( )
* +
* +
( ) * ( ) ( ) ( ) ( )
* ( ) +
* +
Berikut perhitungan untuk mencari lintasan menggunakan Metode Backward.
( ) ( ) ( )
( )
maka ( ) ( )
( ) ( ) ( )
maka ( ) ( )
55
( ) ( ) ( )
maka ( ) ( )
( ) ( ) ( )
maka ( ) ( )
( ) ( ) ( )
maka ( ) ( )
( ) ( ) ( )
maka ( ) ( )
( ) ( ) ( )
maka ( ) ( )
A A G T G C A
0 -7 -14 -21 -28 -35 -42 -49
A -7 5 -2 -9 -16 -23 -30 -37
A -14 -2 10 3 -4 -11 -18 -25
G -21 -9 3 15 8 1 -6 -13
T -28 -16 -4 8 20 13 6 -1
G -35 -23 -11 1 13 25 18 11
C -42 -30 -18 -6 6 18 30 23
C -49 -37 -25 -13 -1 11 23 27
Hasil pensejajaran dan
: AAGTGCA
: AAGTGCC
56
Menggunakan cara yang sama diperoleh pensejajaran untuk masing-
masing pasangan sekuens.
b. Membentuk matriks jarak dari hasil pensejajaran dari setiap pasang
sekuens. Entri dalam matriks jarak adalah jarak (beda) hasil pensejajaran
pasangan sekuens.
Sehingga diperoleh matriks jarak awal sebagai berikut
0 1 4 3 4 4 4
1 0 4 4 3 4 3
4 4 0 4 2 5 1
3 4 4 0 3 6 2
4 3 2 3 0 5 2
4 4 5 6 5 0 6
4 3 1 2 2 6 0
c. Konstruksi Pohon untuk beberapa Alignment
Dari tabel di atas dapat dilihat bahwa memiliki jarak terdekat dengan
maka dapat kita buat kontruksi dengan perhitungan 1/2 = 0,05.
0,05 0,05
Hasil pensejajaran dan
: AAGTGCA
: AAGTGCC
57
Modifikasi matriks adalah :
( , )
0 4 2 5 1 4,5
4 0 3 6 2 4,5
2 3 0 5 2 3,5
5 6 5 0 6 4,5
1 2 2 6 0 3,5
( , ) 4,5 4,5 3,5 4,5 3,5 0
Dengan cara yang sama lakukan perhitungan untuk mencari jarak sekuens
yang terdekat, dan hasilnya dipasangkan dengan .
Hasil pensejajaran dan
: AGTATCG
: AGTATCC
0,05 0,05
Modifikasi matriks adalah :
( , ) ( )
0 3 6 4,5 2,5
3 0 5 3,5 2,5
6 5 0 4,5 6,5
( , ) 4,5 3,5 4,5 0 3,5
( ) 2,5 2,5 6,5 3,5 0
58
AAGTGCA
AGTATC-G
AGTATC-C
AGGATCCG
AAGTGCA
Ulangi langkah-langkah pensejajaran tersebut hingga terbentuk pohon.
Maka, dengan menggabungkan semua pohon yang telah terbentuk, akan
dihasilkan pohon sebagaimana gambar 4.1.
Gambar 4.1. Pohon untuk Proses Pensejajaran
Sehingga dapat dikelompokkan hasil pensejajaran sekuens diperoleh sebagai
berikut.
: AAGTGCA G1
: AAGTGCC AAGTGCC
: AGTATCG G2
: AGTATCC AAGTGCC
: AGGATCCG & G2 G3
59
A-AGTGCA
A-AGTGCC
ACCGTGCG
AGTATC-G
AGTATC-C
AATATCCA
: ACCGTGCG & G1 G4
: AATATCCA & G2 G5
Hasil pensejajaran sekuens diperoleh sebagai berikut:
: A-AGTGCA
: ACCGTGCG
: AGTATC-G
: AATATCCA
: AGGATCCG
: A-AGTGCC
: AGTATC-C
Langkah awal sebelum melakukan pensejajaran adalah dengan mengambil
kode FASTA pada masing-masing sekuens untuk disimpan dalam Notepad. Untuk
sekuens semua sekuens disimpan dalam satu file sebagai data protein.txt.
Adapun perintah untuk melakukan pensejajaran sekuens sebagai berikut.
sekuen=handles.sekuen;
ma=multialign(sekuen,'verbose',true); showalignment(ma);
60
Adapun tampilan hasil pensejajaran sekuens matriks protein untuk
identifikasi hubungan kekerabatan untuk jenis-jenis virus ebola dapat dilihat pada
gambar 4.2.
Gambar 4.2 Pensejajaran sekuens matriks protein
4.1.3 Matriks Jarak
Berdasarkan hasil pensejajaran yang diperoleh untuk mendapatkan matriks
jarak. Matriks jarak diperoleh dengan cara menentukan beda (penalti) dan jarak
evolusi.
1. Menentukan matriks penalti.
Dalam data contoh 4.1 untuk sekuens {
Diperoleh hasil skor penalti untuk dan adalah 1.
2. Jarak evolusi
Perhitungan jarak ini menggunakan program dinamik, yaitu
Dalam data contoh 4.1 diperoleh hasil skor jarak evolusi untuk dan
adalah
61
Tabel 4.1 Hasil Jarak Evolusi Pasangan Sekuens Data Uji
No Pasangan Sekuens Panjang sekuens Beda (penalti) Jarak evolusi
1 sekuens dan 8 1 0,125
2 sekuens dan 8 6 0,75
3 sekuens dan 8 4 0,5
4 sekuens dan 8 5 0,625
5 sekuens dan 8 3 0,375
6 sekuens dan 8 6 0,75
7 sekuens dan 8 6 0,75
8 sekuens dan 8 5 0,625
9 sekuens dan 8 5 0,625
10 sekuens dan 8 3 0,375
11 sekuens dan 8 5 0,625
12 sekuens dan 8 3 0,375
12 sekuens dan 8 2 0,25
13 sekuens dan 8 5 0,625
14 sekuens dan 8 1 0,125
15 sekuens dan 8 3 0,375
16 sekuens dan 8 5 0,625
17 sekuens dan 8 3 0,375
18 sekuens dan 8 4 0,5
19 sekuens dan 8 3 0,375
20 sekuens dan 8 6 0,75
Adapun perintah untuk penskoran matriks dari hasil pensejajaran sebagai
berikut.
sekuen=handles.sekuen;
dist = seqpdist(sekuen,'ScoringMatrix',gonnet); data={''}; k=0; for i=1:length(sekuen) for j=i+1:length(sekuen) k=k+1; data(k,1)={sekuen(i).Header}; data(k,2)={sekuen(j).Header}; data(k,3)={dist(k)}; end end coln=[{'Sekuen A','Sekuen B','Skor'}];
set(handles.uitable1,'Data',data,'ColumnName',coln);
Adapun hasil jarak evolusi pasangan sekuens protein yang diperoleh dari
hasil pensejajaran sekuens menggunakan Metode Progressive dengan bantuan
Matlab secara ringkas dapat dilihat pada tabel 4.2.
62
Tabel 4.2. Hasil Jarak Evolusi Pasangan Sekuens Protein
No Pasangan Sekuens Kode Akses Jarak Evolusi
1 Sekuens A dan sekuens B B8XCM7 dan P18272 0,2933
2 Sekuens A dan sekuens C B8XCM7 dan Q5XX08 0,4084
3 Sekuens A dan sekuens D B8XCM7 dan Q8JPY1 0,3913
4 Sekuens A dan sekuens E B8XCM7 dan B8XCM9 1,9198
5 Sekuens A dan sekuens F B8XCM7 dan B8XCN8 1,9723
6 Sekuens A dan sekuens G B8XCM7 dan Q5XX06 2,0278
7 Sekuens A dan sekuens H B8XCM7 dan Q8JPX9 1,18701
8 Sekuens A dan sekuens I B8XCM7 dan Q05128 2,0278
9 Sekuens A dan sekuens J B8XCM7 dan B8XCN0 2,3539
10 Sekuens A dan sekuens K B8XCM7 dan B8XCN9 2,2787
11 Sekuens A dan sekuens L B8XCM7 dan Q5XX02 2,0628
12 Sekuens A dan sekuens M B8XCM7 dan Q77DB4 2,0393
13 Sekuens A dan sekuens N B8XCM7 dan Q05322 2,0393
14 Sekuens A dan sekuens O B8XCM7 dan B8XCP3 2,0747
15 Sekuens A dan sekuens P B8XCM7 dan P0C771 2,0052
16 Sekuens A dan sekuens Q B8XCM7 dan P0C772 2,0052
17 Sekuens A dan sekuens R B8XCM7 dan Q9YMG2 2,0052
18 Sekuens A dan sekuens S B8XCM7 dan Q5XX03 2,0393
19 Sekuens A dan sekuens T B8XCM7 dan Q8JPX6 2,0052
20 Sekuens A dan sekuens U B8XCM7 dan Q77DJ5 2,0991
21 Sekuens B dan sekuens C P18272 dan Q5XX08 0,4043
22 Sekuens B dan sekuens D P18272 dan Q8JPY1 0,3836
23 Sekuens B dan sekuens E P18272 dan B8XCM9 1,9616
24 Sekuens B dan sekuens F P18272 dan B8XCN8 2,0510
25 Sekuens B dan sekuens G P18272 danQ5XX06 2,0393
26 Sekuens B dan sekuens H P18272 dan Q8JPX9 2,0052
27 Sekuens B dan sekuens I P18272 dan Q05128 1,9831
28 Sekuens B dan sekuens J P18272 dan B8XCN0 2,2659
29 Sekuens B dan sekuens K P18272 dan B8XCN9 2,2888
30 Sekuens B dan sekuens L P18272 dan Q5XX02 2,7047
31 Sekuens B dan sekuens M P18272 dan Q77DB4 2,0510
32 Sekuens B dan sekuens N P18272 dan Q05322 2,0052
33 Sekuens B dan sekuens O P18272 dan B8XCP3 1,9405
34 Sekuens B dan sekuens P P18272 dan P0C771 2,0991
35 Sekuens B dan sekuens Q P18272 dan P0C772 2,1497
36 Sekuens B dan sekuens R P18272 dan Q9YMG2 2,0628
37 Sekuens B dan sekuens S P18272 dan Q5XX03 2,0510
38 Sekuens B dan sekuens T P18272 dan Q8JPX6 2,0052
39 Sekuens B dan sekuens U P18272 dan Q77DJ5 2,0510
40 Sekuens C dan sekuens D Q5XX08 dan Q8JPY1 2,4016
41 Sekuens C dan sekuens E Q5XX08 dan B8XCM91 1,9491
42 Sekuens C dan sekuens F B8XCN8 dan B8XCN8 1,9813
63
43 Sekuens C dan sekuens G Q5XX08 dan Q5XXC06 1,9491
44 Sekuens C dan sekuens H Q5XX08 dan Q8JPX9 1,9597
45 Sekuens C dan sekuens I Q5XX08 dan Q05128 1,9387
46 Sekuens C dan sekuens J Q5XX08 dan B8XCN0 2,0500
47 Sekuens C dan sekuens K Q5XX08 dan B8XCN9 1,9869
48 Sekuens C dan sekuens L Q5XX08 dan Q5XX02 1,9180
49 Sekuens C dan sekuens M Q5XX08 dan Q77DB4 2,0034
50 Sekuens C dan sekuens N Q5XX08 dan Q05322 2,0146
51 Sekuens C dan sekuens O Q5XX08 dan B8XCP3 2,0260
52 Sekuens C dan sekuens P Q5XX08 dan P0C771 1,8978
53 Sekuens C dan sekuens Q Q5XX08 dan P0C772 2,2291
54 Sekuens C dan sekuens R Q5XX08 dan Q9YMG2 1,9491
55 Sekuens C dan sekuens S Q5XX08 dan Q5XX03 2,0146
56 Sekuens C dan sekuens T Q5XX08 dan Q8JPX6 2,0034
57 Sekuens C dan sekuens U Q5XX08 dan Q77DJ5 2,1349
58 Sekuens D dan sekuens E Q8JPY1 dan B8XCM9 1,9616
59 Sekuens D dan sekuens F Q8JPY1 dan B8XCN8 2,0510
60 Sekuens D dan sekuens G Q8JPY1 dan Q5XX06 2,0165
61 Sekuens D dan sekuens H Q8JPY1 dan Q8JPX9 1,9097
62 Sekuens D dan sekuens I Q8JPY1 dan Q05128 1,9405
63 Sekuens D dan sekuens J Q8JPY1 dan B8XCN0 2,2329
64 Sekuens D dan sekuens K Q8JPY1 dan B8XCN9 2,2150
65 Sekuens D dan sekuens L Q8JPY1 dan Q5XX02 1,9510
66 Sekuens D dan sekuens M Q8JPY1 dan Q77DB4 2,0628
67 Sekuens D dan sekuens N Q8JPY1 dan Q05322 2,0510
68 Sekuens D dan sekuens O Q8JPY1 dan B8XCP3 2,0628
69 Sekuens D dan sekuens P Q8JPY1 dan P0C771 1,9405
70 Sekuens D dan sekuens Q Q8JPY1 dan P0C772 2,0806
71 Sekuens D dan sekuens R Q8JPY1 dan Q9YMG2 2,0278
72 Sekuens D dan sekuens S Q8JPY1 dan Q5XX03 1,9831
73 Sekuens D dan sekuens T Q8JPY1 dan Q8JPX6 2,0747
74 Sekuens D dan sekuens U Q8JPY1 dan Q77DJ5 2,1497
75 Sekuens E dan sekuens F Q8JPY1 dan B8XCN8 0,1174
76 Sekuens E dan sekuens G Q8JPY1 dan Q5XX06 0,2747
77 Sekuens E dan sekuens H Q8JPY1 dan Q8JPX9 0,2830
78 Sekuens E dan sekuens I Q8JPY1 dan Q05128 0,1820
79 Sekuens E dan sekuens J Q8JPY1 dan B8XCN0 1,8860
80 Sekuens E dan sekuens K Q8JPY1 dan B8XCN9 1,9764
81 Sekuens E dan sekuens L Q8JPY1 dan Q5XX02 2,1358
82 Sekuens E dan sekuens M Q8JPY1 dan Q77DB4 2,2598
83 Sekuens E dan sekuens N Q8JPY1 dan Q05322 2,1653
84 Sekuens E dan sekuens O Q8JPY1 dan B8XCP3 2,1358
85 Sekuens E dan sekuens P Q8JPY1 dan P0C771 3,4214
86 Sekuens E dan sekuens Q Q8JPY1 dan P0C772 2,5175
87 Sekuens E dan sekuens R Q8JPY1 dan Q9YMG2 2,2735
64
88 Sekuens E dan sekuens S Q8JPY1 dan Q5XX03 2,2598
89 Sekuens E dan sekuens T Q8JPY1 dan Q8JPX6 2,0006
90 Sekuens E dan sekuens U Q8JPY1 dan Q77DJ5 2,1402
91 Sekuens F dan sekuens G B8XCN8 dan Q5XX06 0,2716
92 Sekuens F dan sekuens H B8XCN8 dan Q8JPX9 0,2668
93 Sekuens F dan sekuens I B8XCN8 dan Q05128 0,2008
94 Sekuens F dan sekuens J B8XCN8 dan B8XCN0 1,8753
95 Sekuens F dan sekuens K B8XCN8 dan B8XCN9 1,9883
96 Sekuens F dan sekuens L B8XCN8 dan Q5XX02 2,0794
97 Sekuens F dan sekuens M B8XCN8 dan Q77DB4 2,1072
98 Sekuens F dan sekuens N B8XCN8 dan Q05322 1,9084
99 Sekuens F dan sekuens O B8XCN8 dan B8XCP3 1,8823
100 Sekuens F dan sekuens P B8XCN8 dan P0C771 2,6169
101 Sekuens F dan sekuens Q B8XCN8 dan P0C772 2,5076
102 Sekuens F dan sekuens R B8XCN8 dan Q9YMG2 2,3471
103 Sekuens F dan sekuens S B8XCN8 dan Q5XX03 2,2935
104 Sekuens F dan sekuens T B8XCN8 dan Q9JPX6 2,0794
105 Sekuens F dan sekuens U B8XCN8 dan Q77DJ5 2,1653
106 Sekuens G dan sekuens H Q5XX06 dan Q8JPX9 0,2431
107 Sekuens G dan sekuens I Q5XX06 dan Q05128 0,2778
108 Sekuens G dan sekuens J Q5XX06 dan B8XCN0 1,9646
109 Sekuens G dan sekuens K Q5XX06 dan B9XCN9 1,9646
110 Sekuens G dan sekuens L Q5XX06 dan Q5XX02 1,8823
111 Sekuens G dan sekuens M Q5XX06 dan Q77DB4 2,2272
112 Sekuens G dan sekuens N Q5XX06 dan Q05322 2,0794
113 Sekuens G dan sekuens O Q5XX06 danB8XCP3 2,1358
114 Sekuens G dan sekuens P Q5XX06 dan P07C771 2,7212
115 Sekuens G dan sekuens Q Q5XX06 dan P07C22 2,5610
116 Sekuens G dan sekuens R Q5XX06 dan Q9YMG2 2,2735
117 Sekuens G dan sekuens S Q5XX06 dan Q55XX03 2,0609
118 Sekuens G dan sekuens T Q5XX06 dan Q8JPX6 2,1653
119 Sekuens G dan sekuens U Q5XX06 dan Q77DJ5 2,0346
120 Sekuens H dan sekuens I Q8JPX9 dan Q05128 0,3035
121 Sekuens H dan sekuens J Q8JPX9 dan B8XCN0 1,9883
122 Sekuens H dan sekuens K Q8JPX9 dan B8XCN9 1,9764
123 Sekuens H dan sekuens L Q8JPX9 dan Q5XX02 2,0736
124 Sekuens H dan sekuens M Q8JPX9 dan Q77DB4 2,0736
125 Sekuens H dan sekuens N Q8JPX9 dan Q05322 1,8375
126 Sekuens H dan sekuens O Q8JPX9 dan B8XCP3 1,8803
127 Sekuens H dan sekuens P Q8JPX9 dan P0C771 2,4261
128 Sekuens H dan sekuens Q Q8JPX9 dan P0C772 2,4906
129 Sekuens H dan sekuens R Q8JPX9 dan Q9YMG2 2,2871
130 Sekuens H dan sekuens S Q8JPX9 dan Q5XX03 2,0471
131 Sekuens H dan sekuens T Q8JPX9 dan Q8JPX6 2,1917
132 Sekuens H dan sekuens U Q8JPX9 dan Q77DJ5 2,2825
65
133 Sekuens I dan sekuens J Q05128 dan B8XCN0 1,9883
134 Sekuens I dan sekuens K Q05128 dan B8XCN9 2,0126
135 Sekuens I dan sekuens L Q05128 dan Q5XX02 2,0048
136 Sekuens I dan sekuens M Q05128 dan Q77DB4 2,0524
137 Sekuens I dan sekuens N Q05128 dan Q05322 2,0794
138 Sekuens I dan sekuens O Q05128 dan B8XCP3 1,9758
139 Sekuens I dan sekuens P Q05128 dan P0C771 2,3890
140 Sekuens I dan sekuens Q Q05128 dan P0C722 2,2489
141 Sekuens I dan sekuens R Q05128 dan Q9YMG2 2,3073
142 Sekuens I dan sekuens S Q05128 dan Q5XX03 2,2598
143 Sekuens I dan sekuens T Q05128 dan Q8JPX6 2,0794
144 Sekuens I dan sekuens U Q05128 dan Q77DJ5 2,1958
145 Sekuens J dan sekuens K B8XCN0 dan B8XCN9 0,3125
146 Sekuens J dan sekuens L B8XCN0 dan Q5XX02 2,0894
147 Sekuens J dan sekuens M B8XCN0 dan Q77DB4 2,0502
148 Sekuens J dan sekuens N B8XCN0 dan Q05322 2,1878
149 Sekuens J dan sekuens O B8XCN0 dan B8XCP3 2,1444
150 Sekuens J dan sekuens P B8XCN0 dan P0C771 1,1137
151 Sekuens J dan sekuens Q B8XCN0 dan P0C772 1,1916
152 Sekuens J dan sekuens R B8XCN0 dan Q9YMG2 1,0839
153 Sekuens J dan sekuens S B8XCN0 dan Q5XX03 2,0126
154 Sekuens J dan sekuens T B8XCN0 dan Q8JPX6 1,9764
155 Sekuens J dan sekuens U B8XCN0 dan Q77DJ5 2,0502
156 Sekuens K dan sekuens L B8XCN9 dan Q5XX02 2,1878
157 Sekuens K dan sekuens M B8XCN9 dan Q77DB4 2,0250
158 Sekuens K dan sekuens N B8XCN9 dan Q05322 2,0250
159 Sekuens K dan sekuens O B8XCN9 dan B8XCP3 2,0003
160 Sekuens K dan sekuens P B8XCN9 dan P0C771 1,0948
161 Sekuens K dan sekuens Q B8XCN9 dan POC772 1,1762
162 Sekuens K dan sekuens R B8XCN9 dan Q9YMG2 1,0747
163 Sekuens K dan sekuens S B8XCN9 dan Q5XX03 2,0375
164 Sekuens K dan sekuens T B8XCN9 dan Q55JPX6 1,9189
165 Sekuens K dan sekuens U B8XCN9 dan Q77DJ5 1,9530
166 Sekuens L dan sekuens M Q5XX02 dan Q77DB4 0,2861
167 Sekuens L dan sekuens N Q5XX02 dan Q05322 0,2969
168 Sekuens L dan sekuens O Q5XX02 dan B8XCP3 0,3301
169 Sekuens L dan sekuens P Q5XX02 dan P0C771 2,1050
170 Sekuens L dan sekuens Q Q5XX02 dan P0C722 2,3684
171 Sekuens L dan sekuens R Q5XX02 dan Q9YMG2 1,9878
172 Sekuens L dan sekuens S Q5XX02 dan Q5XX03 2,0554
173 Sekuens L dan sekuens T Q5XX02 dan Q8JPX6 2,1127
174 Sekuens L dan sekuens U Q5XX02 dan Q77DJ5 2,0860
175 Sekuens M dan sekuens N Q77DB4 dan Q05322 0,2086
176 Sekuens M dan sekuens O Q77DB4 dan B8XCP3 0,2700
177 Sekuens M dan sekuens P Q77DB4 dan P0C771 2,0005
66
178 Sekuens M dan sekuens Q Q77DB4 dan P0C772 2,2276
179 Sekuens M dan sekuens R Q77DB4 dan Q9YMG2 2,1029
180 Sekuens M dan sekuens S Q77DB4 dan Q5XX03 2,1792
181 Sekuens M dan sekuens T Q77DB4 dan Q8JPX6 2,1404
182 Sekuens M dan sekuens U Q77DB4 dan Q77DJ5 1,9644
183 Sekuens N dan sekuens O Q05322 dan B8XCP3 0,1323
184 Sekuens N dan sekuens P Q05322 dan P0C711 2,0005
185 Sekuens N dan sekuens Q Q05322 dan P0C772 2,3312
186 Sekuens N dan sekuens R Q05322 dan Q9YMG2 2,3456
187 Sekuens N dan sekuens S Q05322 dan Q5XX03 1,9737
188 Sekuens N dan sekuens T Q05322 dan Q8JPX6 1,9374
189 Sekuens N dan sekuens U Q05322 dan Q77DJ5 1,8900
190 Sekuens O dan sekuens P B8XCP3 dan P0C711 1,9064
191 Sekuens O dan sekuens Q B8XCP3 dan P0C772 2,3360
192 Sekuens O dan sekuens R B8XCP3 dan Q9YMG2 2,1387
193 Sekuens O dan sekuens S B8XCP3 dan Q5XX03 1,8650
194 Sekuens O dan sekuens T B8XCP3 dan Q8JPX6 1,9876
195 Sekuens O dan sekuens U B8XCP3 dan Q77DJ5 2,0210
196 Sekuens P dan sekuens Q P0C771 dan P0C772 0,3623
197 Sekuens P dan sekuens R P0C771 dan Q9YMG2 0,4549
198 Sekuens P dan sekuens S P0C771 dan Q5XX03 2,1917
199 Sekuens P dan sekuens T P0C771 dan Q8JPX6 2,4711
200 Sekuens P dan sekuens U P0C771 dan Q77DJ5 2,1619
201 Sekuens Q dan sekuens R P0C772 dan Q9YMG2 0,4770
202 Sekuens Q dan sekuens S P0C772 dan Q5XX03 2,3312
203 Sekuens Q dan sekuens T P0C772 dan Q8JPX6 2,6797
204 Sekuens Q dan sekuens U P0C772 dan Q77DJ5 2,4896
205 Sekuens R dan sekuens S Q9YMG2 dan Q5XX03 1,9069
206 Sekuens R dan sekuens T Q9YMG2 dan Q8JPX6 2,6298
207 Sekuens R dan sekuens U Q9YMG2 dan Q77DJ5 2,3712
208 Sekuens S dan sekuens T Q5XX03 dan Q77DJ5 0,4543
209 Sekuens S dan sekuens U Q5XX03 dan Q8JPX6 0,3687
210 Sekuens T dan sekuens U Q8JPX6 dan Q77DJ5 03790
Berdasarkan hasil perhitungan jarak evolusi tersebut, kemudian disusun
menjadi matriks jarak. Matriks jarak data uji dalam contoh 4.1 dapat dilihat pada
tabel 4.3 dan Matriks jarak pasangan sekuens protein pada tabel 4.4.
67
Tabel 4.3 Matriks Jarak Pasangan Sekuens Data Uji
A B C D E F G
A 0 0,125 0,75 0,5 0,625 0,375 0,75
B 0,125 0 0,75 0,625 0,625 0,375 0,625
C 0,75 0,75 0 0,375 0,25 0,625 0,125
D 0,5 0,625 0,375 0 0,375 0,625 0,375
E 0,625 0,625 0,25 0,375 0 0,5 0,375
F 0,375 0,375 0,625 0,625 0,5 0 0,75
G 0,75 0,625 0,125 0,375 0,375 0,75 0
Tabel 4.4 Matriks Jarak Pasangan Sekuens Protein
A B C D E F G ... U
A 0 0,2933 0,4084 0,3913 1,9198 1,9723 2,0278 2,0991
B 0,2933 0 0,4043 0,3836 0,9616 2,0510 2,0393 2,0510
C 0,4084 0,4043 0 2,4016 1,9491 1,9813 1,9491 2,1349
D 0,3913 0,3836 2,4016 0 1,9616 2,0510 2,0165 2,1497
E 1,9198 0,9616 1,9491 1,9616 0 0,1174 0,2747 2,1402
F 1,9723 2,0510 1,9813 2,0510 0,1174 0 0,2716 2,1653
G 2,0278 2,0393 1,9491 2,0165 0,2747 0,2716 0 2,0346
U 2,0991 2,0510 2,1349 2,1497 2,1402 2,1653 2,0346 0
4.1.4 Pohon Filogenetik Metode UPGMA untuk Identifikasi Kekerabatan
Jenis-jenis Virus Ebola
Matriks jarak yang terbentuk merupakan inputan yang digunakan untuk
proses pembentukan pohon filogenetik. Berdasarkan Matriks Jarak pada tabel,
Metode UPGMA bekerja dengan mengikuti langkah-langkah yang telah diuraikan
pada subbab 2.10. Matriks jarak yang terbentuk merupakan inputan yang
digunakan untuk proses pembentukan pohon filogenetik. Berdasarkan Matriks
Jarak pada tabel, Metode UPGMA bekerja dengan mengikuti langkah-langkah
yang telah diuraikan pada subbab 2.10.
68
Adapun proses pembentukan pohon filogenetik untuk data contoh 4.1
menggunakan metode UPGMA sebagai berikut :
Input: Matriks Jarak
Pada matriks jarak tersebut A, B, C, D, E dan F menunjukkan nama OTU yang
mewakili masing-masing sekuens.
Langkah 1. Awalnya, setiap sekuens adalah cluster dengan satu elemen
. Ketinggian dari setiap cluster adalah 0. Masukkan semua
ke dalam daftar.
Untuk satu set sekuens dari A sampai G kita mendapatkan daftar
berikut cluster dengan ukuran n masing-masing.
( ) ({A}, {B}, {C}, {D}, {E}, {F}, {G})
( ) (1, 1, 1, 1, 1,1,1)
A B C D E F G
A 0 0,125 0,75 0,5 0,625 0,375 0,75
B 0,125 0 0,75 0,625 0,625 0,375 0,625
C 0,75 0,75 0 0,375 0,25 0,625 0,125
( ) = D 0,5 0,625 0,375 0 0,375 0,625 0,375
E 0,625 0,625 0,25 0,375 0 0,5 0,375
F 0,375 0,375 0,625 0,625 0,5 0 0,75
G 0,75 0,625 0,125 0,375 0,375 0,75 0
Langkah 2. Pilih cluster pasangan ( ) dari daftar dengan jarak minimal dan
membuat cluster baru dengan bergabung dan . Menetapkan
tinggi dan jumlah elemen .
Dalam data contoh 4.1 jarak terkecil antara cluster {A} dan {B}.
Cluster {A} dan {B} digabung menjadi cluster baru {A,B}.
.
Diperoleh:
( ) ({A, B}, {C }, {D}, {E}, {F}, {G})
( ) (2, 1, 1, 1, 1, 1)
69
Langkah 3. Menghitung jarak untuk cluster baru dengan cluster lainnya :
Langkah 4. Hapus dan dari daftar dan menambahkan ke dalam daftar.
Didapatkan:
( ) ({A,B}, {C }, {D}, {E}, {F}, {G})
( ) (2,1, 1, 1, 1,1)
Diperoleh jarak baru
AB C D E F G
AB 0 0,4375 0,5625 0,625 0,375 0,6875
C 0,4375 0 0,375 0,25 0,625 0,125
( ) = D 0,5625 0,375 0 0,375 0,625 0,375
E 0,625 0,25 0,375 0 0,5 0,375
F 0,375 0,625 0,625 0,5 0 0,75
G 0,6875 0,125 0,375 0,375 0,75 0
Ulangi langkah-langkah berikut sampai daftar hanya berisi satu elemen.
Langkah 2. Kemudian lihat lagi untuk jarak terkecil dan oleh karena itu,
bergabung cluster {C} dan {G} menjadi cluster {C, G} dengan
ketinggian
.
70
Langkah 3. Menghitung jarak untuk cluster baru dengan cluster lainnya :
Langkah 4. Hapus dan dari daftar dan menambahkan ke dalam daftar.
Didapatkan:
( ) ({A,B}, {C,G}, {D}, {E}, {F})
( ) (2,2, 1, 1, 1)
Diperoleh jarak baru
AB CG D E F
AB 0 0,5625 0,5625 0,625 0,375
CG 0,4375 0 0,375 0,3125 0,625
( ) = D 0,5625 0,375 0 0,375 0,625
E 0,625 0,3125 0,375 0 0,5
F 0,375 0,6875 0,625 0,5 0
Pohon filogenetik dibangun menggunakan rangka bergabung dan nilai-
nilai tinggi yang dihitung. Adapun pohon filogentik untuk data uji contoh 4.1
yang dibentuk menggunakan langkah-langkah Metode UPGMA di atas dapat
dilihat pada gambar 4.3.
71
Gambar 4.3 Pohon filogenetik metode UPGMA data uji
Pohon filogenetik untuk identifikasi kekerabatan jenis-jenis virus ebola
menggunakan Metode UPGMA dengan bantuan Matlab. Adapun perintah untuk
menampilkan pohon filogenetik sebagai berikut.
tree = seqlinkage(dist,'UPGMA',sekuen); phytreeviewer(tree);
Adapun hasil pohon filogenetik menggunakan Metode UPGMA yang
didalamnya terdapat MA menggunakan Metode Progressive dan pensejajaran
sekuens berpasangan menggunakan Algoritma Needleman Wunsch dengan
bantuan matlab untuk identifikasi kekerabatan jenis-jenis virus ebola dapat dilihat
pada gambar 4.4.
A
B
F
C
G
E
D
0,0625
0,1875
72
Gambar 4.4 Pohon filogenetik identikasi kekerabatan jenis-jenis virus ebola
simulasi Matlab
73
4.2. Penyebaran Epidemi Virus Ebola
Dalam data base dan laporan Organisasi Kesehatan Dunia (WHO), sudah
terdapat banyak laporan tentang penyebaran kasus-kasus ebola. Dengan
menganalisa hubungan filogenetik antara sampel dari virus ebola yang
dikumpulkan dari tahun 1976 hingga pada tahun 2014, dapat direkontruksi sejarah
epidemi ebola dan memahami bagaimana jenis virus epidemi ebola memiliki
kemiripan dengan jenis virus lainnya memiliki hubungan dengan penyebaran virus
ebola.
4.2.1 Data Epidemi
Data yang digunakan untuk mengetahui penyebaran epidemi adalah
sekuens DNA dari strain virus ebola berdasarkan spesies, lokasi dan tahun yang
diketahui yang diambil dari www.ncbi.nlm.nih.gov. Data sekuens DNA yang
digunakan disajikan dalam tabel 4.5.
Tabel 4.5 Data sekuens DNA penyebaran virus ebola
No Nama Kode Bank Tahun Negara Kode
Sekuens
1 Zaire ebolavirus NC_002549.1 1976 Republik Demokrat Kongo 1
2 Zaire ebolavirus KM655246.1 1976 Republik Demokrat Kongo 2
3 Zaire ebolavirus KC242801.1 1976 Republik Demokrat Kongo 3
4 Sudan ebolavirus FJ968794.1 1976 Sudan 4
5 Zaire ebolavirus KC242791.1 1977 Republik Demokrat Kongo 5
6 Sudan ebolavirus KC242783.2 1979 Sudan 6
7 Zaire ebolavirus KC242792.1 1994 Gabon 7
8 Tai Forest ebolavirus NC_014372.1 1994 Ivory Coast 8
9 Zaire ebolavirus KR867676.1 1995 Republik Demokrat Kongo 9
10 Zaire ebolavirus KC242798.1 1996 Gabon 10
11 Zaire ebolavirus KC242797.1 1996 Gabon 11
12 Zaire ebolavirus KC242795.1 1996 Gabon 12
13 Zaire ebolavirus KC242794.1 1996 Gabon 13
14 Zaire ebolavirus KC242793.1 1996 Gabon 14
15 Sudan ebolavirus NC_006432.1 2000 Uganda 15
16 Zaire ebolavirus EF490231.1 2001 Gabon 16
17 Zaire ebolavirus KC242800.1 2002 Gabon 17
18 Zaire ebolavirus EF490230.1 2003 Gabon 18
19 Sudan ebolavirus EU338380.1 2004 Sudan 19
20 Bundibugyo ebolavirus NC_014373.1 2007 Uganda 20
21 Zaire ebolavirus KC242790.1 2007 Republik Demokrat Kongo 21
22 Sudan ebolavirus JN638998.1 2011 Uganda 22
23 Sudan ebolavirus KC545392.1 2012 Uganda 23
24 Zaire ebolavirus KT013259.3 2014 Guinea 24
25 Zaire ebolavirus KP271020.1 2014 Republik Demokrat Kongo 25
26 Zaire ebolavirus KP178538.1 2014 Liberia 26
27 Zaire ebolavirus KP178538.1 2014 Sierra Leone 27
74
4.2.2 Pohon Filogenetik untuk Penyebaran Epidemi Ebola
Pada penelitian ini pembentukan pohon filogenetik menggunakan Metode
UPGMA juga digunakan untuk identifikasi penyebaran epidemi ebola. Sehingga
langkah-langkah untuk pembentukan pohon filogenetik untuk identifikasi
penyebaran epidemi ebola sama dengan identifikasi hubungan kekerabatan jenis-
jenis virus ebola.
Adapun hasil pensejajaran sekuens DNA untuk penyebaran epidemi ebola
dapat dilihat pada gambar 4.5.
Gambar 4.5 Hasil Pensejajaran sekuens DNA
Adapun hasil pohon filogenetik dengan Metode UPGMA untuk
penyebaran epidemi ebola hasil simulasi dari Matlab dapat dilihat pada gambar
4.6.
75
Gambar 4.6 Pohon filogenetik Metode UPGMA untuk penyebaran epidemi ebola
76
4.3 Pembahasan
Berdasarkan pohon filogenetik yang telah dikonstruksi pada gambar 4.5
didapatkan hubungan kekerabatan jenis virus Ebola tidak dapat disimpulkan
secara umum, sebab tergantung pada type protein yang dibandingkan. Untuk
type-type protein tertentu jenis virusnya tidak lengkap. Misal pada type minor
nucleoprotein jenis Zaire ebolavirus dekat dengan Sudan ebolavirus dibandingkan
dengan Reston ebolavirus. Yang kedua, pada type membrane associated protein
VP 24 jenis Zaire ebolavirus lebih dekat dengan Tai Forest ebolavirus
dibandingkan Reston ebolavirus. Namun Zaire ebolavirus lebih dekat dengan
Reston ebolavirus dari pada Sudan ebolavirus. Yang ketiga, pada type
nucleoprotein Zaire ebolavirus dekat dengan Bundibugyo ebolavirus
dibandingkan dengan Reston ebolavirus dan Sudan ebolavirus. Yang keempat,
pada type Matrix protein VP 40 Zaire ebolavirus dekat dengan Bundibugyo
ebolavirus dan Tai Forest ebolavirus dibandingkan Sudan ebolavirus dan Reston
ebolavirus. Yang kelima , pada tipe Zaire ebolavirus dekat dengan Reston
ebolavirus dan Sudan ebolavirus. Sedangkan pada type Spike glycoprotein hanya
terdapat dua jenis virus yaitu Bundibugyo ebolavirus dan Tai Forest ebolavirus
sehingga dua virus itu memiliki kekerabatan. Lebih lanjut, Minor nucleoprotein
VP 30 kekerabatannya lebih dekat dengan Membrane-associated protein VP 24,
Nucleoprotein lebih dekat dengan Matrix VP 40. Super small secreted
glycoprotein lebih dekat dengan Spike glycoprotein.
Berdasarkan pohon filogenetik panyebaran virus ebola pada gambar 4.6,
untuk nukleotida yang sejenis ditemukan pada waktu yang berdekatan. Misalnya
jenis Zaire ebolavirus dengan type L Protein gene di Gabon pada tahun 2001
dekat dengan Zaire ebolavirus type L Protein gene di Gabon pada tahun tahun
2003. Yang kedua, Tai Forest ebolavirus ditemukan pada tahun tahun 1994
memiliki kekerabatan dengan Bundibugyo ebolavirus yang ditemukan pada tahun
2007 di Uganda. Yang ketiga, Zaire ebolavirus ditemukan pada tahun 1976 dan
tahun 1977 di Republik Demokrat Kongo. Zaire ebolavirus muncul kembali di
Republik Demokrat Kongo pada tahun 1995, tahun 2007 dan tahun 2014. Zaire
ebolavirus juga ditemukan pada tahun 1994 dan tahun 1996 di Gabon. Zaire
ebolavirus muncul kembali di Gabon pada tahun 2002. Zaire ebolavirus
77
ditemukan pada tahun 2002 di Gabon dekat dengan Zaire ebolavirus yang
ditemukan pada tahun 2007 di Republik Demokrat Kongo. Zaire ebolavirus
ditemukan pada tahun 1994 dan 1996 di Gabon dekat dengan Zaire ebolavirus
yang ditemukan pada tahun 1995 dan 2014 di Republik Demokrat Kongo. Yang
keempat, Sudan ebolavirus ditemukan pada tahun 2000 berdekatan dengan Sudan
ebolavirus di Nakisamata dan Sudan ebolavius yang ditemukan pada tahun 2012.
Sudan ebolavirus yang ditemukan di Boniface dekat dengan Sudan ebolavirus
yang ditemukan di Sudan pada tahun 1979 dan tahun 2004.
Virus Ebola pertama kali muncul di Zaire, yang sekarang bernama
Republik Demokrat Kongo, epidemi ebola sebagian besar menyebar di wilayah
negara-negara di Benua Afrika. Negara Republik Demokrat Kongo menjadi
perhatian dunia karena banyak penderita meninggal akibat serangan virus ebola.
Virus ebola sudah disolasi sejak tahun 1967 dari penderita-penderita di Jerman
dan Yugoslavia, yang kemudian ternyata terinfeksi dari monyet yang berasal dari
Uganda. Nama Ebola diambil dari nama sebuah sungai di Zaire asal virus tersebut
diisolasi pertama kali. Di Kongo Barat Laut 5000 ekor gorila mati akibat
terinfeksi virus Ebola, yang memusnahkan hampir separuh populasi hewan yang
terancam punah. Simpanse banyak yang mati akibat virus ebola. Para ahli
menyatakan bahwa virus Ebola yang sangat menular ini terutama tersebar melalui
kontak antar kelompok gorila dan simpanse, bahkan manusia juga bisa terinfeksi
oleh virus Ebola.
Virus jenis Sudan ebolavirus, Zaire ebolavirus, dan Tai Forest ebolavirus
berasal dari simpanse di Afrika sedangkan Reston ebolavirus dari Asia Tenggara.
Reston ebolavirus pertama kali ditemukan di laboratorium penelitian HIV/AIDS
di Virginia, Amerika Serikat pada kera berekor panjang (Macaca fascicularis)
yang diimpor dari Filipina. Virus ebola kemudian menjadi wabah di seluruh area
tersebut.
Pada setiap generasi, organisme mewarisi sifat-sifat yang dimiliki oleh
orang tuanya melalui gen. Gen terbuat dari DNA, yakni molekul panjang yang
membawa informasi. Informasi ini disimpan dalam urutan nukleotida dalam
DNA. Informasi ini disimpan dalam urutan nukleotida dalam DNA, sama seperti
urutan huruf-huruf dalam suatu kata yang membawa informasi. . Instruksi yang
78
terdapat pada DNA ini dapat berubah oleh karena mutasi. Pada setiap generasi,
organisme mewarisi sifat-sifat yang dimiliki oleh orang tuanya melalui gen.
Mutasi pada gen ini akan menghasilkan sifat baru pada keturunan suatu
organisme. Jika dua organisme berkerabat dekat, maka DNA nya sangat mirip.
Semakin pendek jarak ganetiknya, semakin mirip DNA nya (Campbell dkk, 2008).
Data DNA yang digunakan sebagai sampel dalam penelitian ini, setiap
sekuens disejajarkan dengan semua sekuens dan diperoleh jarak genetik dan
dibentuk pohon filogenetik. Dalam pohon filogenetik jika jarak genetiknya dekat
maka berada pada cabang yang sama, tetapi jika jarak genetiknya jauh maka
berada pada cabang yang berbeda. Jarak genetik untuk jenis Zaire ebolavirus
dengan Sudan ebolavirus adalah 0,4863, Zaire ebolavirus dengan Bundibugyo
ebolavirus adalah 0.4351, Zaire ebolavirus dengan Tai Forest ebolavirus adalah
0,4271. Jarak genetik untuk jenis Sudan ebolavirus dengan Bundibugyo
ebolavirus adalah 0.4945, Sudan ebolavirus dengan Tai Forest ebolavirus adalah
0.4900. Jarak genetik untuk jenis Bundibugyo ebolavirus dengan Tai Forest
ebolavirus adalah 0.3725. Jarak genetik yang pendek adalah antara Bundibugyo
ebolavirus dengan Tai Forest ebolavirus adalah 0.3725. Pada pohon filogenetik
yang dibentuk jenis Bundibugyo ebolavirus dengan Tai Forest ebolavirus dapat
dikatakan Bundibugyo ebolavirus dengan Tai Forest ebolavirus berada pada satu
cabang. Sehingga dapat dikatakan Bundibugyo ebolavirus dengan Tai Forest
ebolavirus berkerabat dekat.
Penyebaran epidemi ebola terjadi di beberapa negara di Afrika. Peta benua
Afrika digunakan untuk melihat kedekatan letak geografis antara negara-negara
yang terjangkit epidemi ebola dan kemudian disesuaikan dengan kedekatan jenis
virus berdasarkan hasil pembentukan pohon filogenetik. Adapun letak geografis
negara-negara di Afrika yang terkena epidemi ebola dapat dilihat pada gambar
4.7.
79
Gambar 4.7 Peta Benua Afrika
Keterangan:
A: Republik Demokrat Kongo
B: Sudan
C: Ivory Coast
D: Gabon
E: Uganda
F: Liberia
G: Siera Leone
H: Guinea
Pada gambar 4.7 tampak letak geografis penyebaran epidemi ebola pada
negara-negara di Afrika, negara yang terjangkit epidemi ebola ditandai dengan
huruf kapital. Setelah diketahui hubungan kekerabatan jenis virus ebola kemudian
B C
A
F E
D
G
H
80
disesuaikan dengan penyebaran virus ebola berdasarkan letak geografis. Diketahui
jenis virus yang sama menyerang negara-negara yang berdekatan. Misalnya jenis
Zaire ebolavirus menyebar di negara Republik Demokrat Kongo dan Gabon yang
secara geografis letaknya berdekatan, Zaire ebolavirus juga menyebar di negara
Liberia, Siera Leone dan Guinea yang secara geografis letaknya berdekatan. Jenis
Sudan ebolavirus menyebar di negara Sudan dan Uganda yang secara geografis
letaknya berdekatan. Jenis Tai Forest ebolavirus menyebar di negara Ivory Coast.
Jenis Bundibugyo ebolavirus menyebar di negara Sudan. Jenis Tai Forest
ebolavirus dan Bundibugyo ebolavirus berdasarkan pohon filogenetik terlihat
berdekatan tetapi secara geografis letak negara yang menjadi daerah penyebaran
epidemi ebola berjauhan. Sehingga dapat disimpulkan bahwa Tai Forest
ebolavirus mirip dengan Bundibugyo ebolavirus tidak dipengaruhi oleh kedekatan
daerah penyebaran epidemi Ebola .
4.4 Validasi Pohon Filogenetik
Pohon filogenetik yang dibentuk menggunakan Metode UPGMA terdapat
proses pensejajaran sekuens menggunakan Metode Progressive yang didalamnya
menggunakan Algoritma Nedleman Wunsch. Algoritma Nedleman Wunsch
merupakan metode yang dianggap optimal dalam pensejajaran sekuens secara
berpasangan, sehingga bisa dijamin jika dalam pembentukan pohon sudah tidak
diragukan lagi validitas pohon.
81
BAB V
KESIMPULAN DAN SARAN
Pada bab ini diberikan kesimpulan dari hasil pembangunan pohon
filogenetik menggunakan Metode UPGMA. Kesimpulan yang didapat
berdasarkan hasil uji coba yang dilakukan dalam bab IV.
1.1 Kesimpulan
Kesimpulan yang didapat dari uji coba pada bab IV adalah:
a. Pohon filogenetik epidemi ebola dapat dibentuk dengan menggunakan
Metode UPGMA yang didalamnya terdapat MA menggunakan
Metode Progressive.
b. Berdasarkan pohon filogenetik yang telah dikonstruksi didapatkan
hubungan kekerabatan jenis virus ebola tidak dapat disimpulkan
secara umum, sebab tergantung pada type protein yang dibandingkan.
Untuk type-type protein tertentu jenis virusnya tidak lengkap. Misal
pada type minor nucleoprotein jenis Zaire ebolavirus dekat dengan
sudan ebolavirus dibandingkan dengan reston ebolavirus. Yang kedua,
pada type membrane associated protein VP 24 jenis Zaire ebolavirus
lebih dekat dengan Tai Forest ebolavirus dibandingkan Reston
ebolavirus. Namun Zaire ebolavirus lebih dekat dengan Reston
ebolavirus daripada Sudan ebolavirus. Yang ketiga, pada type
nucleoprotein Zaire ebolavirus dekat dengan Bundibugyo ebolavirus
dibandingkan dengan Reston ebolavirus dan Sudan ebolavirus. Yang
keempat, pada type Matrix protein VP 40 Zaire ebolavirus dekat
dengan Bundibugyo ebolavirus dan Tai Forest ebolavirus
dibandingkan Sudan ebolavirus dan Reston ebolavirus. Yang kelima ,
pada type Zaire ebolavirus dekat dengan Reston ebolavirus dan Sudan
ebolavirus. Sedangkan pada type Spike glycoprotein hanya terdapat
dua jenis virus yaitu Bundibugyo ebolavirus dan Tai Forest ebolavirus
sehingga dua virus itu memiliki kekerabatan. Untuk nukleotida yang
sejenis ditemukan pada waktu yang berdekatan bila dibandingkan
82
dengan nukleotida yang jaraknya lebih jauh pada pohon filogenetik.
Misalnya jenis Reston ebolavirus ditemukan pada tahun 1992
memiliki kekerabatan dengan jenis Zaire ebolavirus yang ditemukan
pada tahun 2002 dan 2003. Zaire ebolavirus dengan type L Protein
gene di Gabon pada tahun 2001 dekat dengan Zaire ebolavirus type L
Protein gene di Gabon pada tahun tahun 2003. Jika dua organisme
berkerabat dekat, maka DNA nya sangat mirip. Semakin pendek jarak
ganetiknya, semakin mirip DNA nya. Berdasarkan data DNA yang
digunakan sebagai sampel dalam penelitian ini, diperoleh jarak
genetik yang pendek antara Bundibugyo ebolavirus dengan Tai Forest
ebolavirus. Jenis virus Tai Forest ebolavirus dan Bundibugyo
ebolavirus berdasarkan pohon filogenetik terlihat berdekatan tetapi
secara geografis negara yang menjadi daerah penyebaran epidemi
ebola letaknya jauh. Jenis Tai Forest ebolavirus mirip dengan
Bundibugyo ebolavirus tidak dipengaruhi kedekatan daerah
penyebaran epidemi ebola.
1.2 Saran
Pada tesis ini masih terdapat beberapa kekurangan untuk meningkatkan
pembentukan pohon filogenetik mengingat adanya keterbatasan waktu dan
hal lain. Beberapa saran dari penulis untuk pembaca dan peneliti adalah
sebagai berikut.
a. Dalam pensejajaran untuk bisa menggunakan algoritma
pensejajaran yang lain, perlu ada kajian lebih mendalam dari segi
metode yang digunakan.
b. Data yang besar dalam perhitungan sebaiknya menggunakan
program.
85
LAMPIRAN A
Sekuens Protein Beberapa Jenis Virus Ebola
A. Sekuens 1
>sp|Q05128|VP40_EBOZM Matrix protein VP40 OS=Zaire
ebolavirus (strain Mayinga-76) GN=VP40 PE=1 SV=1
MRRVILPTAPPEYMEAIYPVRSNSTIARGGNSNTGFLTPESVNGDTPSNPLRPIADDTID
HASHTPGSVSSAFILEAMVNVISGPKVLMKQIPIWLPLGVADQKTYSFDSTTAAIMLASY
TITHFGKATNPLVRVNRLGPGIPDHPLRLLRIGNQAFLQEFVLPPVQLPQYFTFDLTALK
LITQPLPAATWTDDTPTGSNGALRPGISFHPKLRPILLPNKSGKKGNSADLTSPEKIQAI
MTSLQDFKIVPIDPTKNIMGIEVPETLVHKLTGKKVTSKNGQPIIPVLLPKYIGLDPVAP
GDLTMVITQDCDTCHSPASLPAVIEK
B. Sekuens 2
>sp|Q5XX06|VP40_EBOSU Matrix protein VP40 OS=Sudan
ebolavirus (strain Uganda-00) GN=VP40 PE=1 SV=1
MRRVTVPTAPPAYADIGYPMSMLPIKSSRAVSGIQQKQEVLPGMDTPSNSMRPVADDNID
HTSHTPNGVASAFILEATVNVISGPKVLMKQIPIWLPLGIADQKTYSFDSTTAAIMLASY
TITHFGKANNPLVRVNRLGQGIPDHPLRLLRMGNQAFLQEFVLPPVQLPQYFTFDLTALK
LVTQPLPAATWTDETPSNLSGALRPGLSFHPKLRPVLLPGKTGKKGHVSDLTAPDKIQTI
VNLMQDFKIVPIDPAKSIIGIEVPELLVHKLTGKKMSQKNGQPIIPVLLPKYIGLDPISP
GDLTMVITPDYDDCHSPASCSYLSEK
C. Sekuens 3
>tr|B8XCM9|B8XCM9_9MONO Matrix protein VP40 OS=Bundibugyo
virus GN=VP40 PE=3 SV=1
MRRAILPTAPPEYIEAVYPMRTVSTSINSTASGPNFPAPDVMMSDTPSNSLRPIADDNID
HPSHTPTSVSSAFILEAMVNVISGPKVLMKQIPIWLPLGVADQKTYSFDSTTAAIMLASY
TITHFGKTSNPLVRINRLGPGIPDHPLRLLRIGNQAFLQEFVLPPVQLPQYFTFDLTALK
LITQPLPAATWTDDTPTGPTGILRPGISFHPKLRPILLPGKTGKRGSSSDLTSPDKIQAI
MNFLQDLKLVPIDPAKNIMGIEVPELLVHRLTGKKITTKNGQPIIPILLPKYIGMDPISQ
GDLTMVITQDCDTCHSPASLPPVSEK
D. Sekuens 4
>tr|B8XCN8|B8XCN8_9MONO Matrix protein VP40 OS=Tai Forest
ebolavirus GN=VP40 PE=3 SV=1
MRRIILPTAPPEYMEAVYPMRTMNSGADNTASGPNYTTTGVMTNDTPSNSLRPVADDNID
HPSHTPNSVASAFILEAMVNVISGPKVLMKQIPIWLPLGVSDQKTYSFDSTTAAIMLASY
TITHFGKTSNPLVRINRLGPGIPDHPLRLLRIGNQAFLQEFVLPPVQLPQYFTFDLTALK
LITQPLPAATWTDETPAVSTGTLRPGISFHPKLRPILLPGRAGKKGSNSDLTSPDKIQAI
MNFLQDLKIVPIDPTKNIMGIEVPELLVHRLTGKKTTTKNGQPIIPILLPKYIGLDPLSQ
GDLTMVITQDCDSCHSPASLPPVNEK
E. Sekuens 5
>sp|Q8JPX9|VP40_EBORR Matrix protein VP40 OS=Reston
ebolavirus (strain Reston-89) GN=VP40 PE=3 SV=1
MRRGVLPTAPPAYNDIAYPMSILPTRPSVIVNETKSDVLAVPGADVPSNSMRPVADDNID
86
HSSHTPSGVASAFILEATVNVISGTKVLMKQIPIWLPLGVADQKIYSFDSTTAAIMLASY
TVTHFGKISNPLVRVNRLGPGIPDHPLRLLRLGNQAFLQEFVLPPVQLPQYFTFDLTALK
LITQPLPAATWTDETPAGAVNALRPGLSLHPKLRPILLPGKTGKKGHASDLTSPDKIQTI
MNAIPDLKIVPIDPTKNIVGIEVPELLVQRLTGKKPQPKNGQPIIPVLLPKYVGLDPISP
GDLTMVITQDCDSCHSPASHPYHMDKQNSYQ
87
LAMPIRAN B
Sekuens DNA Virus Ebola
>gi|10313991|ref|NC_002549.1| Zaire ebolavirus isolate Ebola
virus/H.sapiens-tc/COD/1976/Yambuku-Mayinga, complete genome
CGGACACACAAAAAGAAAGAAGAATTTTTAGGATCTTTTGTGTGCGAATAACTATGAGGAAGATTA
ATAATTTTCCTCTCATTGAAATTTATATCGGAATTTAAATTGAAATTGTTACTGTAATCACACCTG
GTTTGTTTCAGAGCCACATCACAAAGATAGAGAACAACCTAGGTCTCCGAAGGGAGCAAGGGCATC
AGTGTGCTCAGTTGAAAATCCCTTGTCAACACCTAGGTCTTATCACATCACAAGTTCCACCTCAGA
CTCTGCAGGGTGATCCAACAACCTTAATAGAAACATTATTGTTAAAGGACAGCATTAGTTCACAGT
CAAACAAGCAAGATTGAGAATTAACCTTGGTTTTGAACTTGAACACTTAGGGGATTGAAGATTCAA
CAACCCTAAAGCTTGGGGTAAAACATTGGAAATAGTTAAAAGACAAATTGCTCGGAATCACAAAAT
TCCGAGTATGGATTCTCGTCCTCAGAAAATCTGGATGGCGCCGAGTCTCACTGAATCTGACATGGA
TTACCACAAGATCTTGACAGCAGGTCTGTCCGTTCAACAGGGGATTGTTCGGCAAAGAGTCATCCC
AGTGTATCAAGTAAACAATCTTGAAGAAATTTGCCAACTTATCATACAGGCCTTTGAAGCAGGTGT
TGATTTTCAAGAGAGTGCGGACAGTTTCCTTCTCATGCTTTGTCTTCATCATGCGTACCAGGGAGA
TTACAAACTTTTCTTGGAAAGTGGCGCAGTCAAGTATTTGGAAGGGCACGGGTTCCGTTTTGAAGT
CAAGAAGCGTGATGGAGTGAAGCGCCTTGAGGAATTGCTGCCAGCAGTATCTAGTGGAAAAAACAT
TAAGAGAACACTTGCTGCCATGCCGGAAGAGGAGACAACTGAAGCTAATGCCGGTCAGTTTCTCTC
CTTTGCAAGTCTATTCCTTCCGAAATTGGTAGTAGGAGAAAAGGCTTGCCTTGAGAAGGTTCAAAG
GCAAATTCAAGTACATGCAGAGCAAGGACTGATACAATATCCAACAGCTTGGCAATCAGTAGGACA
CATGATGGTGATTTTCCGTTTGATGCGAACAAATTTTCTGATCAAATTTCTCCTAATACACCAAGG
GATGCACATGGTTGCCGGGCATGATGCCAACGATGCTGTGATTTCAAATTCAGTGGCTCAAGCTCG
TTTTTCAGGCTTATTGATTGTCAAAACAGTACTTGATCATATCCTACAAAAGACAGAACGAGGAGT
TCGTCTCCATCCTCTTGCAAGGACCGCCAAGGTAAAAAATGAGGTGAACTCCTTTAAGGCTGCACT
CAGCTCCCTGGCCAAGCATGGAGAGTATGCTCCTTTCGCCCGACTTTTGAACCTTTCTGGAGTAAA
TAATCTTGAGCATGGTCTTTTCCCTCAACTATCGGCAATTGCACTCGGAGTCGCCACAGCACACGG
GAGTACCCTCGCAGGAGTAAATGTTGGAGAACAGTATCAACAACTCAGAGAGGCTGCCACTGAGGC
TGAGAAGCAACTCCAACAATATGCAGAGTCTCGCGAACTTGACCATCTTGGACTTGATGATCAGGA
AAAGAAAATTCTTATGAACTTCCATCAGAAAAAGAACGAAATCAGCTTCCAGCAAACAAACGCTAT
GGTAACTCTAAGAAAAGAGCGCCTGGCCAAGCTGACAGAAGCTATCACTGCTGCGTCACTGCCCAA
AACAAGTGGACATTACGATGATGATGACGACATTCCCTTTCCAGGACCCATCAATGATGACGACAA
TCCTGGCCATCAAGATGATGATCCGACTGACTCACAGGATACGACCATTCCCGATGTGGTGGTTGA
TCCCGATGATGGAAGCTACGGCGAATACCAGAGTTACTCGGAAAACGGCATGAATGCACCAGATGA
CTTGGTCCTATTCGATCTAGACGAGGACGACGAGGACACTAAGCCAGTGCCTAATAGATCGACCAA
GGGTGGACAACAGAAGAACAGTCAAAAGGGCCAGCATATAGAGGGCAGACAGACACAATCCAGGCC
AATTCAAAATGTCCCAGGCCCTCACAGAACAATCCACCACGCCAGTGCGCCACTCACGGACAATGA
CAGAAGAAATGAACCCTCCGGCTCAACCAGCCCTCGCATGCTGACACCAATTAACGAAGAGGCAGA
CCCACTGGACGATGCCGACGACGAGACGTCTAGCCTTCCGCCCTTGGAGTCAGATGATGAAGAGCA
GGACAGGGACGGAACTTCCAACCGCACACCCACTGTCGCCCCACCGGCTCCCGTATACAGAGATCA
CTCTGAAAAGAAAGAACTCCCGCAAGACGAGCAACAAGATCAGGACCACACTCAAGAGGCCAGGAA
CCAGGACAGTGACAACACCCAGTCAGAACACTCTTTTGAGGAGATGTATCGCCACATTCTAAGATC
ACAGGGGCCATTTGATGCTGTTTTGTATTATCATATGATGAAGGATGAGCCTGTAGTTTTCAGTAC
CAGTGATGGCAAAGAGTACACGTATCCAGACTCCCTTGAAGAGGAATATCCACCATGGCTCACTGA
AAAAGAGGCTATGAATGAAGAGAATAGATTTGTTACATTGGATGGTCAACAATTTTATTGGCCGGT
GATGAATCACAAGAATAAATTCATGGCAATCCTGCAACATCATCAGTGAATGAGCATGGAACAATG
GGATGATTCAACCGACAAATAGCTAACATTAAGTAGTCAAGGAACGAAAACAGGAAGAATTTTTGA
TGTCTAAGGTGTGAATTATTATCACAATAAAAGTGATTCTTATTTTTGAATTTAAAGCTAGCTTAT
88
TATTACTAGCCGTTTTTCAAAGTTCAATTTGAGTCTTAATGCAAATAGGCGTTAAGCCACAGTTAT
AGCCATAATTGTAACTCAATATTCTAACTAGCGATTTATCTAAATTAAATTACATTATGCTTTTAT
AACTTACCTACTAGCCTGCCCAACATTTACACGATCGTTTTATAATTAAGAAAAAACTAATGATGA
AGATTAAAACCTTCATCATCCTTACGTCAATTGAATTCTCTAGCACTCGAAGCTTATTGTCTTCAA
TGTAAAAGAAAAGCTGGTCTAACAAGATGACAACTAGAACAAAGGGCAGGGGCCATACTGCGGCCA
CGACTCAAAACGACAGAATGCCAGGCCCTGAGCTTTCGGGCTGGATCTCTGAGCAGCTAATGACCG
GAAGAATTCCTGTAAGCGACATCTTCTGTGATATTGAGAACAATCCAGGATTATGCTACGCATCCC
AAATGCAACAAACGAAGCCAAACCCGAAGACGCGCAACAGTCAAACCCAAACGGACCCAATTTGCA
ATCATAGTTTTGAGGAGGTAGTACAAACATTGGCTTCATTGGCTACTGTTGTGCAACAACAAACCA
TCGCATCAGAATCATTAGAACAACGCATTACGAGTCTTGAGAATGGTCTAAAGCCAGTTTATGATA
TGGCAAAAACAATCTCCTCATTGAACAGGGTTTGTGCTGAGATGGTTGCAAAATATGATCTTCTGG
TGATGACAACCGGTCGGGCAACAGCAACCGCTGCGGCAACTGAGGCTTATTGGGCCGAACATGGTC
AACCACCACCTGGACCATCACTTTATGAAGAAAGTGCGATTCGGGGTAAGATTGAATCTAGAGATG
AGACCGTCCCTCAAAGTGTTAGGGAGGCATTCAACAATCTAAACAGTACCACTTCACTAACTGAGG
AAAATTTTGGGAAACCTGACATTTCGGCAAAGGATTTGAGAAACATTATGTATGATCACTTGCCTG
GTTTTGGAACTGCTTTCCACCAATTAGTACAAGTGATTTGTAAATTGGGAAAAGATAGCAACTCAT
TGGACATCATTCATGCTGAGTTCCAGGCCAGCCTGGCTGAAGGAGACTCTCCTCAATGTGCCCTAA
TTCAAATTACAAAAAGAGTTCCAATCTTCCAAGATGCTGCTCCACCTGTCATCCACATCCGCTCTC
GAGGTGACATTCCCCGAGCTTGCCAGAAAAGCTTGCGTCCAGTCCCACCATCGCCCAAGATTGATC
GAGGTTGGGTATGTGTTTTTCAGCTTCAAGATGGTAAAACACTTGGACTCAAAATTTGAGCCAATC
TCCCTTCCCTCCGAAAGAGGCGAATAATAGCAGAGGCTTCAACTGCTGAACTATAGGGTACGTTAC
ATTAATGATACACTTGTGAGTATCAGCCCTGGATAATATAAGTCAATTAAACGACCAAGATAAAAT
TGTTCATATCTCGCTAGCAGCTTAAAATATAAATGTAATAGGAGCTATATCTCTGACAGTATTATA
ATCAATTGTTATTAAGTAACCCAAACCAAAAGTGATGAAGATTAAGAAAAACCTACCTCGGCTGAG
AGAGTGTTTTTTCATTAACCTTCATCTTGTAAACGTTGAGCAAAATTGTTAAAAATATGAGGCGGG
TTATATTGCCTACTGCTCCTCCTGAATATATGGAGGCCATATACCCTGTCAGGTCAAATTCAACAA
TTGCTAGAGGTGGCAACAGCAATACAGGCTTCCTGACACCGGAGTCAGTCAATGGGGACACTCCAT
CGAATCCACTCAGGCCAATTGCCGATGACACCATCGACCATGCCAGCCACACACCAGGCAGTGTGT
CATCAGCATTCATCCTTGAAGCTATGGTGAATGTCATATCGGGCCCCAAAGTGCTAATGAAGCAAA
TTCCAATTTGGCTTCCTCTAGGTGTCGCTGATCAAAAGACCTACAGCTTTGACTCAACTACGGCCG
CCATCATGCTTGCTTCATACACTATCACCCATTTCGGCAAGGCAACCAATCCACTTGTCAGAGTCA
ATCGGCTGGGTCCTGGAATCCCGGATCATCCCCTCAGGCTCCTGCGAATTGGAAACCAGGCTTTCC
TCCAGGAGTTCGTTCTTCCGCCAGTCCAACTACCCCAGTATTTCACCTTTGATTTGACAGCACTCA
AACTGATCACCCAACCACTGCCTGCTGCAACATGGACCGATGACACTCCAACAGGATCAAATGGAG
CGTTGCGTCCAGGAATTTCATTTCATCCAAAACTTCGCCCCATTCTTTTACCCAACAAAAGTGGGA
AGAAGGGGAACAGTGCCGATCTAACATCTCCGGAGAAAATCCAAGCAATAATGACTTCACTCCAGG
ACTTTAAGATCGTTCCAATTGATCCAACCAAAAATATCATGGGAATCGAAGTGCCAGAAACTCTGG
TCCACAAGCTGACCGGTAAGAAGGTGACTTCTAAAAATGGACAACCAATCATCCCTGTTCTTTTGC
CAAAGTACATTGGGTTGGACCCGGTGGCTCCAGGAGACCTCACCATGGTAATCACACAGGATTGTG
ACACGTGTCATTCTCCTGCAAGTCTTCCAGCTGTGATTGAGAAGTAATTGCAATAATTGACTCAGA
TCCAGTTTTATAGAATCTTCTCAGGGATAGTGATAACATCTATTTAGTAATCCGTCCATTAGAGGA
GACACTTTTAATTGATCAATATACTAAAGGTGCTTTACACCATTGTCTTTTTTCTCTCCTAAATGT
AGAACTTAACAAAAGACTCATAATATACTTGTTTTTAAAGGATTGATTGATGAAAGATCATAACTA
ATAACATTACAAATAATCCTACTATAATCAATACGGTGATTCAAATGTTAATCTTTCTCATTGCAC
ATACTTTTTGCCCTTATCCTCAAATTGCCTGCATGCTTACATCTGAGGATAGCCAGTGTGACTTGG
ATTGGAAATGTGGAGAAAAAATCGGGACCCATTTCTAGGTTGTTCACAATCCAAGTACAGACATTG
CCCTTCTAATTAAGAAAAAATCGGCGATGAAGATTAAGCCGACAGTGAGCGTAATCTTCATCTCTC
TTAGATTATTTGTTTTCCAGAGTAGGGGTCGTCAGGTCCTTTTCAATCGTGTAACCAAAATAAACT
CCACTAGAAGGATATTGTGGGGCAACAACACAATGGGCGTTACAGGAATATTGCAGTTACCTCGTG
ATCGATTCAAGAGGACATCATTCTTTCTTTGGGTAATTATCCTTTTCCAAAGAACATTTTCCATCC
89
CACTTGGAGTCATCCACAATAGCACATTACAGGTTAGTGATGTCGACAAACTAGTTTGTCGTGACA
AACTGTCATCCACAAATCAATTGAGATCAGTTGGACTGAATCTCGAAGGGAATGGAGTGGCAACTG
ACGTGCCATCTGCAACTAAAAGATGGGGCTTCAGGTCCGGTGTCCCACCAAAGGTGGTCAATTATG
AAGCTGGTGAATGGGCTGAAAACTGCTACAATCTTGAAATCAAAAAACCTGACGGGAGTGAGTGTC
TACCAGCAGCGCCAGACGGGATTCGGGGCTTCCCCCGGTGCCGGTATGTGCACAAAGTATCAGGAA
CGGGACCGTGTGCCGGAGACTTTGCCTTCCATAAAGAGGGTGCTTTCTTCCTGTATGATCGACTTG
CTTCCACAGTTATCTACCGAGGAACGACTTTCGCTGAAGGTGTCGTTGCATTTCTGATACTGCCCC
AAGCTAAGAAGGACTTCTTCAGCTCACACCCCTTGAGAGAGCCGGTCAATGCAACGGAGGACCCGT
CTAGTGGCTACTATTCTACCACAATTAGATATCAGGCTACCGGTTTTGGAACCAATGAGACAGAGT
ACTTGTTCGAGGTTGACAATTTGACCTACGTCCAACTTGAATCAAGATTCACACCACAGTTTCTGC
TCCAGCTGAATGAGACAATATATACAAGTGGGAAAAGGAGCAATACCACGGGAAAACTAATTTGGA
AGGTCAACCCCGAAATTGATACAACAATCGGGGAGTGGGCCTTCTGGGAAACTAAAAAAACCTCAC
TAGAAAAATTCGCAGTGAAGAGTTGTCTTTCACAGTTGTATCAAACGGAGCCAAAAACATCAGTGG
TCAGAGTCCGGCGCGAACTTCTTCCGACCCAGGGACCAACACAACAACTGAAGACCACAAAATCAT
GGCTTCAGAAAATTCCTCTGCAATGGTTCAAGTGCACAGTCAAGGAAGGGAAGCTGCAGTGTCGCA
TCTAACAACCCTTGCCACAATCTCCACGAGTCCCCAATCCCTCACAACCAAACCAGGTCCGGACAA
CAGCACCCATAATACACCCGTGTATAAACTTGACATCTCTGAGGCAACTCAAGTTGAACAACATCA
CCGCAGAACAGACAACGACAGCACAGCCTCCGACACTCCCTCTGCCACGACCGCAGCCGGACCCCC
AAAAGCAGAGAACACCAACACGAGCAAGAGCACTGACTTCCTGGACCCCGCCACCACAACAAGTCC
CCAAAACCACAGCGAGACCGCTGGCAACAACAACACTCATCACCAAGATACCGGAGAAGAGAGTGC
CAGCAGCGGGAAGCTAGGCTTAATTACCAATACTATTGCTGGAGTCGCAGGACTGATCACAGGCGG
GAGAAGAACTCGAAGAGAAGCAATTGTCAATGCTCAACCCAAATGCAACCCTAATTTACATTACTG
GACTACTCAGGATGAAGGTGCTGCAATCGGACTGGCCTGGATACCATATTTCGGGCCAGCAGCCGA
GGGAATTTACATAGAGGGGCTAATGCACAATCAAGATGGTTTAATCTGTGGGTTGAGACAGCTGGC
CAACGAGACGACTCAAGCTCTTCAACTGTTCCTGAGAGCCACAACTGAGCTACGCACCTTTTCAAT
CCTCAACCGTAAGGCAATTGATTTCTTGCTGCAGCGATGGGGCGGCACATGCCACATTCTGGGACC
GGACTGCTGTATCGAACCACATGATTGGACCAAGAACATAACAGACAAAATTGATCAGATTATTCA
TGATTTTGTTGATAAAACCCTTCCGGACCAGGGGGACAATGACAATTGGTGGACAGGATGGAGACA
ATGGATACCGGCAGGTATTGGAGTTACAGGCGTTATAATTGCAGTTATCGCTTTATTCTGTATATG
CAAATTTGTCTTTTAGTTTTTCTTCAGATTGCTTCATGGAAAAGCTCAGCCTCAAATCAATGAAAC
CAGGATTTAATTATATGGATTACTTGAATCTAAGATTACTTGACAAATGATAATATAATACACTGG
AGCTTTAAACATAGCCAATGTGATTCTAACTCCTTTAAACTCACAGTTAATCATAAACAAGGTTTG
ACATCAATCTAGTTATCTCTTTGAGAATGATAAACTTGATGAAGATTAAGAAAAAGGTAATCTTTC
GATTATCTTTAATCTTCATCCTTGATTCTACAATCATGACAGTTGTCTTTAGTGACAAGGGAAAGA
AGCCTTTTTATTAAGTTGTAATAATCAGATCTGCGAACCGGTAGAGTTTAGTTGCAACCTAACACA
CATAAAGCATTGGTCAAAAAGTCAATAGAAATTTAAACAGTGAGTGGAGACAACTTTTAAATGGAA
GCTTCATATGAGAGAGGACGCCCACGAGCTGCCAGACAGCATTCAAGGGATGGACACGACCACCAT
GTTCGAGCACGATCATCATCCAGAGAGAATTATCGAGGTGAGTACCGTCAATCAAGGAGCGCCTCA
CAAGTGCGCGTTCCTACTGTATTTCATAAGAAGAGAGTTGAACCATTAACAGTTCCTCCAGCACCT
AAAGACATATGTCCGACCTTGAAAAAAGGATTTTTGTGTGACAGTAGTTTTTGCAAAAAAGATCAC
CAGTTGGAGAGTTTAACTGATAGGGAATTACTCCTACTAATCGCCCGTAAGACTTGTGGATCAGTA
GAACAACAATTAAATATAACTGCACCCAAGGACTCGCGCTTAGCAAATCCAACGGCTGATGATTTC
CAGCAAGAGGAAGGTCCAAAAATTACCTTGTTGACACTGATCAAGACGGCAGAACACTGGGCGAGA
CAAGACATCAGAACCATAGAGGATTCAAAATTAAGAGCATTGTTGACTCTATGTGCTGTGATGACG
AGGAAATTCTCAAAATCCCAGCTGAGTCTTTTATGTGAGACACACCTAAGGCGCGAGGGGCTTGGG
CAAGATCAGGCAGAACCCGTTCTCGAAGTATATCAACGATTACACAGTGATAAAGGAGGCAGTTTT
GAAGCTGCACTATGGCAACAATGGGACCGACAATCCCTAATTATGTTTATCACTGCATTCTTGAAT
ATTGCTCTCCAGTTACCGTGTGAAAGTTCTGCTGTCGTTGTTTCAGGGTTAAGAACATTGGTTCCT
CAATCAGATAATGAGGAAGCTTCAACCAACCCGGGGACATGCTCATGGTCTGATGAGGGTACCCCT
TAATAAGGCTGACTAAAACACTATATAACCTTCTACTTGATCACAATACTCCGTATACCTATCATC
90
ATATATTTAATCAAGACGATATCCTTTAAAACTTATTCAGTACTATAATCACTCTCGTTTCAAATT
AATAAGATGTGCATGATTGCCCTAATATATGAAGAGGTATGATACAACCCTAACAGTGATCAAAGA
AAATCATAATCTCGTATCGCTCGTAATATAACCTGCCAAGCATACCTCTTGCACAAAGTGATTCTT
GTACACAAATAATGTTTTACTCTACAGGAGGTAGCAACGATCCATCCCATCAAAAAATAAGTATTT
CATGACTTACTAATGATCTCTTAAAATATTAAGAAAAACTGACGGAACATAAATTCTTTATGCTTC
AAGCTGTGGAGGAGGTGTTTGGTATTGGCTATTGTTATATTACAATCAATAACAAGCTTGTAAAAA
TATTGTTCTTGTTTCAAGAGGTAGATTGTGACCGGAAATGCTAAACTAATGATGAAGATTAATGCG
GAGGTCTGATAAGAATAAACCTTATTATTCAGATTAGGCCCCAAGAGGCATTCTTCATCTCCTTTT
AGCAAAGTACTATTTCAGGGTAGTCCAATTAGTGGCACGTCTTTTAGCTGTATATCAGTCGCCCCT
GAGATACGCCACAAAAGTGTCTCTAAGCTAAATTGGTCTGTACACATCCCATACATTGTATTAGGG
GCAATAATATCTAATTGAACTTAGCCGTTTAAAATTTAGTGCATAAATCTGGGCTAACACCACCAG
GTCAACTCCATTGGCTGAAAAGAAGCTTACCTACAACGAACATCACTTTGAGCGCCCTCACAATTA
AAAAATAGGAACGTCGTTCCAACAATCGAGCGCAAGGTTTCAAGGTTGAACTGAGAGTGTCTAGAC
AACAAAATATTGATACTCCAGACACCAAGCAAGACCTGAGAAAAAACCATGGCTAAAGCTACGGGA
CGATACAATCTAATATCGCCCAAAAAGGACCTGGAGAAAGGGGTTGTCTTAAGCGACCTCTGTAAC
TTCTTAGTTAGCCAAACTATTCAGGGGTGGAAGGTTTATTGGGCTGGTATTGAGTTTGATGTGACT
CACAAAGGAATGGCCCTATTGCATAGACTGAAAACTAATGACTTTGCCCCTGCATGGTCAATGACA
AGGAATCTCTTTCCTCATTTATTTCAAAATCCGAATTCCACAATTGAATCACCGCTGTGGGCATTG
AGAGTCATCCTTGCAGCAGGGATACAGGACCAGCTGATTGACCAGTCTTTGATTGAACCCTTAGCA
GGAGCCCTTGGTCTGATCTCTGATTGGCTGCTAACAACCAACACTAACCATTTCAACATGCGAACA
CAACGTGTCAAGGAACAATTGAGCCTAAAAATGCTGTCGTTGATTCGATCCAATATTCTCAAGTTT
ATTAACAAATTGGATGCTCTACATGTCGTGAACTACAACGGATTGTTGAGCAGTATTGAAATTGGA
ACTCAAAATCATACAATCATCATAACTCGAACTAACATGGGTTTTCTGGTGGAGCTCCAAGAACCC
GACAAATCGGCAATGAACCGCATGAAGCCTGGGCCGGCGAAATTTTCCCTCCTTCATGAGTCCACA
CTGAAAGCATTTACACAAGGATCCTCGACACGAATGCAAAGTTTGATTCTTGAATTTAATAGCTCT
CTTGCTATCTAACTAAGGTAGAATACTTCATATTGAGCTAACTCATATATGCTGACTCAATAGTTA
TCTTGACATCTCTGCTTTCATAATCAGATATATAAGCATAATAAATAAATACTCATATTTCTTGAT
AATTTGTTTAACCACAGATAAATCCTCACTGTAAGCCAGCTTCCAAGTTGACACCCTTACAAAAAC
CAGGACTCAGAATCCCTCAAACAAGAGATTCCAAGACAACATCATAGAATTGCTTTATTATATGAA
TAAGCATTTTATCACCAGAAATCCTATATACTAAATGGTTAATTGTAACTGAACCCGCAGGTCACA
TGTGTTAGGTTTCACAGATTCTATATATTACTAACTCTATACTCGTAATTAACATTAGATAAGTAG
ATTAAGAAAAAAGCCTGAGGAAGATTAAGAAAAACTGCTTATTGGGTCTTTCCGTGTTTTAGATGA
AGCAGTTGAAATTCTTCCTCTTGATATTAAATGGCTACACAACATACCCAATACCCAGACGCTAGG
TTATCATCACCAATTGTATTGGACCAATGTGACCTAGTCACTAGAGCTTGCGGGTTATATTCATCA
TACTCCCTTAATCCGCAACTACGCAACTGTAAACTCCCGAAACATATCTACCGTTTGAAATACGAT
GTAACTGTTACCAAGTTCTTGAGTGATGTACCAGTGGCGACATTGCCCATAGATTTCATAGTCCCA
GTTCTTCTCAAGGCACTGTCAGGCAATGGATTCTGTCCTGTTGAGCCGCGGTGCCAACAGTTCTTA
GATGAAATCATTAAGTACACAATGCAAGATGCTCTCTTCTTGAAATATTATCTCAAAAATGTGGGT
GCTCAAGAAGACTGTGTTGATGAACACTTTCAAGAGAAAATCTTATCTTCAATTCAGGGCAATGAA
TTTTTACATCAAATGTTTTTCTGGTATGATCTGGCTATTTTAACTCGAAGGGGTAGATTAAATCGA
GGAAACTCTAGATCAACATGGTTTGTTCATGATGATTTAATAGACATCTTAGGCTATGGGGACTAT
GTTTTTTGGAAGATCCCAATTTCAATGTTACCACTGAACACACAAGGAATCCCCCATGCTGCTATG
GACTGGTATCAGGCATCAGTATTCAAAGAAGCGGTTCAAGGGCATACACACATTGTTTCTGTTTCT
ACTGCCGACGTCTTGATAATGTGCAAAGATTTAATTACATGTCGATTCAACACAACTCTAATCTCA
AAAATAGCAGAGATTGAGGATCCAGTTTGTTCTGATTATCCCAATTTTAAGATTGTGTCTATGCTT
TACCAGAGCGGAGATTACTTACTCTCCATATTAGGGTCTGATGGGTATAAAATTATTAAGTTCCTC
GAACCATTGTGCTTGGCCAAAATTCAATTATGCTCAAAGTACACTGAGAGGAAGGGCCGATTCTTA
ACACAAATGCATTTAGCTGTAAATCACACCCTAGAAGAAATTACAGAAATGCGTGCACTAAAGCCT
TCACAGGCTCAAAAGATCCGTGAATTCCATAGAACATTGATAAGGCTGGAGATGACGCCACAACAA
CTTTGTGAGCTATTTTCCATTCAAAAACACTGGGGGCATCCTGTGCTACATAGTGAAACAGCAATC
91
CAAAAAGTTAAAAAACATGCTACGGTGCTAAAAGCATTACGCCCTATAGTGATTTTCGAGACATAC
TGTGTTTTTAAATATAGTATTGCCAAACATTATTTTGATAGTCAAGGATCTTGGTACAGTGTTACT
TCAGATAGGAATCTAACACCGGGTCTTAATTCTTATATCAAAAGAAATCAATTCCCTCCGTTGCCA
ATGATTAAAGAACTACTATGGGAATTTTACCACCTTGACCACCCTCCACTTTTCTCAACCAAAATT
ATTAGTGACTTAAGTATTTTTATAAAAGACAGAGCTACCGCAGTAGAAAGGACATGCTGGGATGCA
GTATTCGAGCCTAATGTTCTAGGATATAATCCACCTCACAAATTTAGTACTAAACGTGTACCGGAA
CAATTTTTAGAGCAAGAAAACTTTTCTATTGAGAATGTTCTTTCCTACGCACAAAAACTCGAGTAT
CTACTACCACAATATCGGAACTTTTCTTTCTCATTGAAAGAGAAAGAGTTGAATGTAGGTAGAACC
TTCGGAAAATTGCCTTATCCGACTCGCAATGTTCAAACACTTTGTGAAGCTCTGTTAGCTGATGGT
CTTGCTAAAGCATTTCCTAGCAATATGATGGTAGTTACGGAACGTGAGCAAAAAGAAAGCTTATTG
CATCAAGCATCATGGCACCACACAAGTGATGATTTTGGTGAACATGCCACAGTTAGAGGGAGTAGC
TTTGTAACTGATTTAGAGAAATACAATCTTGCATTTAGATATGAGTTTACAGCACCTTTTATAGAA
TATTGCAACCGTTGCTATGGTGTTAAGAATGTTTTTAATTGGATGCATTATACAATCCCACAGTGT
TATATGCATGTCAGTGATTATTATAATCCACCACATAACCTCACACTGGAGAATCGAGACAACCCC
CCCGAAGGGCCTAGTTCATACAGGGGTCATATGGGAGGGATTGAAGGACTGCAACAAAAACTCTGG
ACAAGTATTTCATGTGCTCAAATTTCTTTAGTTGAAATTAAGACTGGTTTTAAGTTACGCTCAGCT
GTGATGGGTGACAATCAGTGCATTACTGTTTTATCAGTCTTCCCCTTAGAGACTGACGCAGACGAG
CAGGAACAGAGCGCCGAAGACAATGCAGCGAGGGTGGCCGCCAGCCTAGCAAAAGTTACAAGTGCC
TGTGGAATCTTTTTAAAACCTGATGAAACATTTGTACATTCAGGTTTTATCTATTTTGGAAAAAAA
CAATATTTGAATGGGGTCCAATTGCCTCAGTCCCTTAAAACGGCTACAAGAATGGCACCATTGTCT
GATGCAATTTTTGATGATCTTCAAGGGACCCTGGCTAGTATAGGCACTGCTTTTGAGCGATCCATC
TCTGAGACACGACATATCTTTCCTTGCAGGATAACCGCAGCTTTCCATACGTTTTTTTCGGTGAGA
ATCTTGCAATATCATCATCTCGGGTTCAATAAAGGTTTTGACCTTGGACAGTTAACACTCGGCAAA
CCTCTGGATTTCGGAACAATATCATTGGCACTAGCGGTACCGCAGGTGCTTGGAGGGTTATCCTTC
TTGAATCCTGAGAAATGTTTCTACCGGAATCTAGGAGATCCAGTTACCTCAGGCTTATTCCAGTTA
AAAACTTATCTCCGAATGATTGAGATGGATGATTTATTCTTACCTTTAATTGCGAAGAACCCTGGG
AACTGCACTGCCATTGACTTTGTGCTAAATCCTAGCGGATTAAATGTCCCTGGGTCGCAAGACTTA
ACTTCATTTCTGCGCCAGATTGTACGCAGGACCATCACCCTAAGTGCGAAAAACAAACTTATTAAT
ACCTTATTTCATGCGTCAGCTGACTTCGAAGACGAAATGGTTTGTAAATGGCTATTATCATCAACT
CCTGTTATGAGTCGTTTTGCGGCCGATATCTTTTCACGCACGCCGAGCGGGAAGCGATTGCAAATT
CTAGGATACCTGGAAGGAACACGCACATTATTAGCCTCTAAGATCATCAACAATAATACAGAGACA
CCGGTTTTGGACAGACTGAGGAAAATAACATTGCAAAGGTGGAGCCTATGGTTTAGTTATCTTGAT
CATTGTGATAATATCCTGGCGGAGGCTTTAACCCAAATAACTTGCACAGTTGATTTAGCACAGATT
CTGAGGGAATATTCATGGGCTCATATTTTAGAGGGAAGACCTCTTATTGGAGCCACACTCCCATGT
ATGATTGAGCAATTCAAAGTGTTTTGGCTGAAACCCTACGAACAATGTCCGCAGTGTTCAAATGCA
AAGCAACCAGGTGGGAAACCATTCGTGTCAGTGGCAGTCAAGAAACATATTGTTAGTGCATGGCCG
AACGCATCCCGAATAAGCTGGACTATCGGGGATGGAATCCCATACATTGGATCAAGGACAGAAGAT
AAGATAGGACAACCTGCTATTAAACCAAAATGTCCTTCCGCAGCCTTAAGAGAGGCCATTGAATTG
GCGTCCCGTTTAACATGGGTAACTCAAGGCAGTTCGAACAGTGACTTGCTAATAAAACCATTTTTG
GAAGCACGAGTAAATTTAAGTGTTCAAGAAATACTTCAAATGACCCCTTCACATTACTCAGGAAAT
ATTGTTCACAGGTACAACGATCAATACAGTCCTCATTCTTTCATGGCCAATCGTATGAGTAATTCA
GCAACGCGATTGATTGTTTCTACAAACACTTTAGGTGAGTTTTCAGGAGGTGGCCAGTCTGCACGC
GACAGCAATATTATTTTCCAGAATGTTATAAATTATGCAGTTGCACTGTTCGATATTAAATTTAGA
AACACTGAGGCTACAGATATCCAATATAATCGTGCTCACCTTCATCTAACTAAGTGTTGCACCCGG
GAAGTACCAGCTCAGTATTTAACATACACATCTACATTGGATTTAGATTTAACAAGATACCGAGAA
AACGAATTGATTTATGACAGTAATCCTCTAAAAGGAGGACTCAATTGCAATATCTCATTCGATAAT
CCATTTTTCCAAGGTAAACGGCTGAACATTATAGAAGATGATCTTATTCGACTGCCTCACTTATCT
GGATGGGAGCTAGCCAAGACCATCATGCAATCAATTATTTCAGATAGCAACAATTCATCTACAGAC
CCAATTAGCAGTGGAGAAACAAGATCATTCACTACCCATTTCTTAACTTATCCCAAGATAGGACTT
CTGTACAGTTTTGGGGCCTTTGTAAGTTATTATCTTGGCAATACAATTCTTCGGACTAAGAAATTA
92
ACACTTGACAATTTTTTATATTACTTAACTACTCAAATTCATAATCTACCACATCGCTCATTGCGA
ATACTTAAGCCAACATTCAAACATGCAAGCGTTATGTCACGGTTAATGAGTATTGATCCTCATTTT
TCTATTTACATAGGCGGTGCTGCAGGTGACAGAGGACTCTCAGATGCGGCCAGGTTATTTTTGAGA
ACGTCCATTTCATCTTTTCTTACATTTGTAAAAGAATGGATAATTAATCGCGGAACAATTGTCCCT
TTATGGATAGTATATCCGCTAGAGGGTCAAAACCCAACACCTGTGAATAATTTTCTCTATCAGATC
GTAGAACTGCTGGTGCATGATTCATCAAGACAACAGGCTTTTAAAACTACCATAAGTGATCATGTA
CATCCTCACGACAATCTTGTTTACACATGTAAGAGTACAGCCAGCAATTTCTTCCATGCATCATTG
GCGTACTGGAGGAGCAGACACAGAAACAGCAACCGAAAATACTTGGCAAGAGACTCTTCAACTGGA
TCAAGCACAAACAACAGTGATGGTCATATTGAGAGAAGTCAAGAACAAACCACCAGAGATCCACAT
GATGGCACTGAACGGAATCTAGTCCTACAAATGAGCCATGAAATAAAAAGAACGACAATTCCACAA
GAAAACACGCACCAGGGTCCGTCGTTCCAGTCCTTTCTAAGTGACTCTGCTTGTGGTACAGCAAAT
CCAAAACTAAATTTCGATCGATCGAGACACAATGTGAAATTTCAGGATCATAACTCGGCATCCAAG
AGGGAAGGTCATCAAATAATCTCACACCGTCTAGTCCTACCTTTCTTTACATTATCTCAAGGGACA
CGCCAATTAACGTCATCCAATGAGTCACAAACCCAAGACGAGATATCAAAGTACTTACGGCAATTG
AGATCCGTCATTGATACCACAGTTTATTGTAGATTTACCGGTATAGTCTCGTCCATGCATTACAAA
CTTGATGAGGTCCTTTGGGAAATAGAGAGTTTCAAGTCGGCTGTGACGCTAGCAGAGGGAGAAGGT
GCTGGTGCCTTACTATTGATTCAGAAATACCAAGTTAAGACCTTATTTTTCAACACGCTAGCTACT
GAGTCCAGTATAGAGTCAGAAATAGTATCAGGAATGACTACTCCTAGGATGCTTCTACCTGTTATG
TCAAAATTCCATAATGACCAAATTGAGATTATTCTTAACAACTCAGCAAGCCAAATAACAGACATA
ACAAATCCTACTTGGTTTAAAGACCAAAGAGCAAGGCTACCTAAGCAAGTCGAGGTTATAACCATG
GATGCAGAGACAACAGAGAATATAAACAGATCGAAATTGTACGAAGCTGTATATAAATTGATCTTA
CACCATATTGATCCTAGCGTATTGAAAGCAGTGGTCCTTAAAGTCTTTCTAAGTGATACTGAGGGT
ATGTTATGGCTAAATGATAATTTAGCCCCGTTTTTTGCCACTGGTTATTTAATTAAGCCAATAACG
TCAAGTGCTAGATCTAGTGAGTGGTATCTTTGTCTGACGAACTTCTTATCAACTACACGTAAGATG
CCACACCAAAACCATCTCAGTTGTAAACAGGTAATACTTACGGCATTGCAACTGCAAATTCAACGA
AGCCCATACTGGCTAAGTCATTTAACTCAGTATGCTGACTGTGAGTTACATTTAAGTTATATCCGC
CTTGGTTTTCCATCATTAGAGAAAGTACTATACCACAGGTATAACCTCGTCGATTCAAAAAGAGGT
CCACTAGTCTCTATCACTCAGCACTTAGCACATCTTAGAGCAGAGATTCGAGAATTAACTAATGAT
TATAATCAACAGCGACAAAGTCGGACTCAAACATATCACTTTATTCGTACTGCAAAAGGACGAATC
ACAAAACTAGTCAATGATTATTTAAAATTCTTTCTTATTGTGCAAGCATTAAAACATAATGGGACA
TGGCAAGCTGAGTTTAAGAAATTACCAGAGTTGATTAGTGTGTGCAATAGGTTCTACCATATTAGA
GATTGCAATTGTGAAGAACGTTTCTTAGTTCAAACCTTATATTTACATAGAATGCAGGATTCTGAA
GTTAAGCTTATCGAAAGGCTGACAGGGCTTCTGAGTTTATTTCCGGATGGTCTCTACAGGTTTGAT
TGAATTACCGTGCATAGTATCCTGATACTTGCAAAGGTTGGTTATTAACATACAGATTATAAAAAA
CTCATAAATTGCTCTCATACATCATATTGATCTAATCTCAATAAACAACTATTTAAATAACGAAAG
GAGTCCCTATATTATATACTATATTTAGCCTCTCTCCCTGCGTGATAATCAAAAAATTCACAATGC
AGCATGTGTGACATATTACTGCCGCAATGAATTTAACGCAACATAATAAACTCTGCACTCTTTATA
ATTAAGCTTTAACGAAAGGTCTGGGCTCATATTGTTATTGATATAATAATGTTGTATCAATATCCT
GTCAGATGGAATAGTGTTTTGGTTGATAACACAACTTCTTAAAACAAAATTGATCTTTAAGATTAA
GTTTTTTATAATTATCATTACTTTAATTTGTCGTTTTAAAAACGGTGATAGCCTTAATCTTTGTGT
AAAATAAGAGATTAGGTGTAATAACCTTAACATTTTTGTCTAGTAAGCTACTATTTCATACAGAAT
GATAAAATTAAAAGAAAAGGCAGGACTGTAAAATCAGAAATACCTTCTTTACAATATAGCAGACTA
GATAATAATCTTCGTGTTAATGATAATTAAGACATTGACCACGCTCATCAGAAGGCTCGCCAGAAT
AAACGTTGCAAAAAGGATTCCTGGAAAAATGGTCGCACACAAAAATTTAAAAATAAATCTATTTCT
TCTTTTTTGTGTGTCCA
93
LAMPIRAN C
Listing Program
function varargout = GUI_Persejajaran_Multi(varargin) % GUI_PERSEJAJARAN_MULTI MATLAB code for
GUI_Persejajaran_Multi.fig % GUI_PERSEJAJARAN_MULTI, by itself, creates a new
GUI_PERSEJAJARAN_MULTI or raises the existing % singleton*. % % H = GUI_PERSEJAJARAN_MULTI returns the handle to a new
GUI_PERSEJAJARAN_MULTI or the handle to % the existing singleton*. % %
GUI_PERSEJAJARAN_MULTI('CALLBACK',hObject,eventData,handles,...)
calls the local % function named CALLBACK in GUI_PERSEJAJARAN_MULTI.M with
the given input arguments. % % GUI_PERSEJAJARAN_MULTI('Property','Value',...) creates a
new GUI_PERSEJAJARAN_MULTI or raises the % existing singleton*. Starting from the left, property
value pairs are % applied to the GUI before GUI_Persejajaran_Multi_OpeningFcn
gets called. An % unrecognized property name or invalid value makes property
application % stop. All inputs are passed to
GUI_Persejajaran_Multi_OpeningFcn via varargin. % % *See GUI Options on GUIDE's Tools menu. Choose "GUI allows
only one % instance to run (singleton)". % % See also: GUIDE, GUIDATA, GUIHANDLES
% Edit the above text to modify the response to help
GUI_Persejajaran_Multi
% Last Modified by GUIDE v2.5 08-Jan-2014 22:40:20
% Begin initialization code - DO NOT EDIT gui_Singleton = 1; gui_State = struct('gui_Name', mfilename, ... 'gui_Singleton', gui_Singleton, ... 'gui_OpeningFcn',
@GUI_Persejajaran_Multi_OpeningFcn, ... 'gui_OutputFcn',
@GUI_Persejajaran_Multi_OutputFcn, ... 'gui_LayoutFcn', [] , ... 'gui_Callback', []); if nargin && ischar(varargin{1}) gui_State.gui_Callback = str2func(varargin{1}); end
94
if nargout [varargout{1:nargout}] = gui_mainfcn(gui_State, varargin{:}); else gui_mainfcn(gui_State, varargin{:}); end % End initialization code - DO NOT EDIT
% --- Executes just before GUI_Persejajaran_Multi is made visible. function GUI_Persejajaran_Multi_OpeningFcn(hObject, eventdata,
handles, varargin) % This function has no output args, see OutputFcn. % hObject handle to figure % eventdata reserved - to be defined in a future version of
MATLAB % handles structure with handles and user data (see GUIDATA) % varargin command line arguments to GUI_Persejajaran_Multi (see
VARARGIN)
% Choose default command line output for GUI_Persejajaran_Multi handles.output = hObject;
% Update handles structure guidata(hObject, handles);
% UIWAIT makes GUI_Persejajaran_Multi wait for user response (see
UIRESUME) % uiwait(handles.figure1);
% --- Outputs from this function are returned to the command line. function varargout = GUI_Persejajaran_Multi_OutputFcn(hObject,
eventdata, handles) % varargout cell array for returning output args (see VARARGOUT); % hObject handle to figure % eventdata reserved - to be defined in a future version of
MATLAB % handles structure with handles and user data (see GUIDATA)
% Get default command line output from handles structure varargout{1} = handles.output;
function edit_data_Callback(hObject, eventdata, handles) % hObject handle to edit_data (see GCBO) % eventdata reserved - to be defined in a future version of
MATLAB % handles structure with handles and user data (see GUIDATA)
% Hints: get(hObject,'String') returns contents of edit_data as
text % str2double(get(hObject,'String')) returns contents of
edit_data as a double
95
% --- Executes during object creation, after setting all
properties. function edit_data_CreateFcn(hObject, eventdata, handles) % hObject handle to edit_data (see GCBO) % eventdata reserved - to be defined in a future version of
MATLAB % handles empty - handles not created until after all
CreateFcns called
% Hint: edit controls usually have a white background on Windows. % See ISPC and COMPUTER. if ispc && isequal(get(hObject,'BackgroundColor'),
get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor','white'); end
% --- Executes on button press in pushbutton1. function pushbutton1_Callback(hObject, eventdata, handles) [FileName,PathName] = uigetfile('*.txt','Ambil Data Format txt'); if FileName==0 return; end s=[PathName,FileName]; sekuen= fastaread(s);
kum={''}; hit=0; for i=1:length(sekuen) hit=hit+1; kum(hit,1)={sekuen(i).Header}; temp=sekuen(i).Sequence; panjang=1; p=110; while panjang<length(temp) hit=hit+1; if (length(temp)-panjang)<p kum(hit,1)={temp(panjang:length(temp))}; else kum(hit,1)={temp(panjang:panjang+p)}; end panjang=panjang+p+1; end end
set(handles.edit_data,'String',kum); handles.sekuen=sekuen; guidata(hObject, handles); % hObject handle to pushbutton1 (see GCBO) % eventdata reserved - to be defined in a future version of
MATLAB % handles structure with handles and user data (see GUIDATA)
% --- Executes on button press in pushbutton3.
96
function pushbutton3_Callback(hObject, eventdata, handles) sekuen=handles.sekuen; ma=multialign(sekuen,'verbose',true); showalignment(ma); seqalignviewer(ma); % hObject handle to pushbutton3 (see GCBO) % eventdata reserved - to be defined in a future version of
MATLAB % handles structure with handles and user data (see GUIDATA)
% --- Executes on button press in pushbutton5. function pushbutton5_Callback(hObject, eventdata, handles) sekuen=handles.sekuen; distances = seqpdist(sekuen,'ScoringMatrix',gonnet); tree = seqlinkage(distances,'UPGMA',sekuen); clc SeqsMultiAligned = multialign(sekuen, tree,'verbose',true) msgbox('Lihat Di Command Window'); % hObject handle to pushbutton5 (see GCBO) % eventdata reserved - to be defined in a future version of
MATLAB % handles structure with handles and user data (see GUIDATA)
% --- Executes on button press in pushbutton6. function pushbutton6_Callback(hObject, eventdata, handles) sekuen=handles.sekuen; % ma=multialign(sekuen,'verbose',true); dist = seqpdist(sekuen,'ScoringMatrix',gonnet); tree = seqlinkage(dist,'UPGMA',sekuen); phytreeviewer(tree); % seqalignviewer(ma); % hObject handle to pushbutton6 (see GCBO) % eventdata reserved - to be defined in a future version of
MATLAB % handles structure with handles and user data (see GUIDATA)
% --- Executes on button press in pushbutton7. function pushbutton7_Callback(hObject, eventdata, handles) sekuen=handles.sekuen; dist = seqpdist(sekuen,'ScoringMatrix',gonnet); data={''}; k=0; for i=1:length(sekuen) for j=i+1:length(sekuen) k=k+1; data(k,1)={sekuen(i).Header}; data(k,2)={sekuen(j).Header}; data(k,3)={dist(k)}; end end coln=[{'Sekuen A','Sekuen B','Skor'}];
set(handles.uitable1,'Data',data,'ColumnName',coln);
97
% hObject handle to pushbutton7 (see GCBO) % eventdata reserved - to be defined in a future version of
MATLAB % handles structure with handles and user data (see GUIDATA)
83
DAFTAR PUSTAKA
Agrawal, A dan Khaitan, S.K. (2008), New Heuristic for Multiple Sequence
Alignment. 978-1-4244-2030-8/08/$25.00. 2008 IEEE.
Bovendo,H.F; Mulangu,S dan Sullivan, N.J. (2012), Ebolavirus vaccines for
humans and apes. Available online at www.sciencedirect.com. Current
Opinion in Virology 2012, 2:324–329.
Campbell, N.A; Reece, J.B dan Mitchell. (2008), Biology. Erlangga. Jakarta.
Clercq, E.D. (2014). Ebola Virus (EBOV) Infection: Therapeutic Strategie. Rega
Institute for Medical Research. Belgium.
Claverie, J.M dan Notredame, C. (2007), Bioinformatics For Dummies. Wiley
Publishing, Inc. America.
Cristianini, N dan Hahn, M.W. (2006), Introduction to Computational Genomics.
Cambridge University Press. New York.
Dharmayanti, I. N.L.P. (2011), Filogenetika Molekuler: Metode Taksonomi
Organisme Berdasarkan Sejarah Evolusi. Balai Besar Penelitian
Veteriner. Bogor.
Durbin, R; Eddy, S; Krogh, A dan Mitchison, G. (2002), Biological Sequence
Analysis. Cambridge. University Press.
Feng, D.F. dan Doolittle, R.F. (1996). Progressive alignment of amino acid
sequences and construction of phylogenetic trees from them. Methods
Enzymol. Australian National University. Canbera. Springer.
Hochreiter, S. (2008), Bioinformatics I Sequence Analysis and Phylogenetics.
Institute of Bioinformatics. Australia.
Irawan, M.I. dan Amiroch, S. (2014), Construction Of Phylogenetic Tree Using
Neighbor Joining Algorithms To Identify The Host And The Spreading Of
Sars Epidemic. Journal of Theoretical and Applied Information
Technology, Vol 71, No. 3, January 2015.
84
Isaev, A. (2006). Introduction to Mathematical Methods in Bioinformatics.
Department of Mathematics. Australian National University. Australian.
Lemey; Salemi, M. dan Vandamme, A.M. (2009), The Phylogenetic Handbook.
Cambridge University Press. New York.
Li, H., Ying, T., Yu, F., Lu, L., dan Jiang, S. (2014), Development Of
Therapeutics For Treatment Of Ebola Virus Infection. Institute Pasteur.
Naznin, F; Sarker, R dan Essam, D. Progressive Alignment Method Using
Genetic Algorithm for Multiple Sequence Alignment . IEEE Transactions
on Evolutionary Computation, vol. 16, no. 5, October 2012
Mojbak, J and Pedersen, C.N.S. (2010), Exact Multiple Sequence Alignment using
Forward Dynamic Programming. Bioinformatics Research Center.
Aarhus University.
Polanski, A dan Kimmel, M. (2007), Bioinformatics. Springer Berlin Heidelberg.
New York.
Ruzgar, E., dan Erciyes, K. (2011), Clustering Based Distributed Phylogenetic
Tree Construction. Journal Expert Systems with Applications. Izmir
University. Turkey.
Shen, S.Y., dan Tuszynski. (2008), Theory and Mathematical for Bioinfomatic.
Biological and Medical Physics. Biomedical Engineering. Springer.
Ulum, B., Kusuma, W.A dan Prasetyo, J. (2013), Design of Potential Cellulase
Primer using Multiple Sequence Alignment Method. Journal Research on
Computing and Its Aplications, Vol. 7, No. 1, January 2013.
99
BIODATA PENULIS
Penulis bernama lengkap Tri Andriani, lahir di Kediri,
11 Juni 1987. Selama ini penulis telah menyelesaikan
pendidikan formalnya yaitu di SD YBPK Sambirejo
pada tahun 1993, SLTPN I PARE pada tahun 1999,
SMK YP 17 PARE pada tahun 2002 dan S1 Jurusan
Pendidikan Matematika di Universitas Wisnuwardhana
Malang pada tahun 2005. Penulis melanjutkan
pendidikan S2 Jurusan Matematika, Fakultas
Matematika dan Ilmu Pengetahuan Alam, Institut
Teknologi Sepuluh Nopember, Surabaya. Untuk kritik
dan saran dapat dihubungi melalui email