APLIKASI METODE UPGMA UNTUK IDENTIFIKASI …

TESIS – SM 142501

APLIKASI METODE UPGMA UNTUK IDENTIFIKASI KEKERABATAN JENIS VIRUS DAN PENYEBARAN EPIDEMI EBOLA MELALUI PEMBENTUKAN POHON FILOGENETIK

TRI ANDRIANI NRP 1213 201 045

DOSEN PEMBIMBING Prof. Dr. MOHAMMAD ISA IRAWAN, M.T.

PROGRAM MAGISTER JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2016

TESIS – SM 142501

APPLICATION OF UPGMA METHOD FOR THE IDENTIFICATION TYPE VIRUS TYPE AND EBOLA EPIDEMIC SPREADING THROUGH ESTABLISHMENT PHYLOGENETIC TREES

TRI ANDRIANI NRP 1213 201 045

SUPERVISOR Prof. Dr. MOHAMMAD ISA IRAWAN, M.T.

MASTER’S DEGREE MATHEMATICS DEPARTMENT FACULTY OF MATHEMATICS AND NATURAL SCIENCES SEPULUH NOPEMBER INSTITUTE OF TECHNOLOGY SURABAYA 2016

ix

DAFTAR ISI

HALAMAN JUDUL

LEMBAR PENGESAHAN .................................................................................. i

ABSTRAK ............................................................................................................ iii

ABSTRACT .......................................................................................................... v

KATA PENGANTAR . ........................................................................................ vii

DAFTAR ISI ......................................................................................................... ix

DAFTAR TABEL ................................................................................................. xi

DAFTAR GAMBAR . .......................................................................................... xiii

BAB I PENDAHULUAN ..................................................................................... 1

1.1 Latar Belakang .......................................................................................... 4

1.2 Rumusan Masalah ..................................................................................... 4

1.3 Batasan Masalah........................................................................................ 4

1.4 Tujuan Penelitian ...................................................................................... 5

1.5 Manfaat Penelitian .................................................................................... 5

1.6 Kontribusi Hasil Penelitian ...................................................................... 5

BAB II KAJIAN PUSTAKA DAN DASAR TEORI ........................................... 7

2.1 Penelitian Terdahulu ................................................................................. 7

2.2 Penyakit Virus Ebola (EVD) ..................................................................... 8

2.3 Bioinformatika ......................................................................................... 10

2.4 Sekuens ..................................................................................................... 10

2.4.1. Sekuens Protein ............................................................................ 12

2.4.2. Sekuens DNA ............................................................................... 13

2.5 Alignment .................................................................................................. 14

2.5.1 Matriks Penalti ............................................................................. 15

2.5.2 Matriks Penskoran ........................................................................ 16

2.6 Algoritma Needleman Wunsch . ............................................................... 18

2.7 Multiple Alignment .................................................................................... 23

x

2.7.1 Metode Progressive ..................................................................... 24

2.8 Filogenetik Molekuler ............................................................................. 25

2.8.1. Pohon ............................................................................................ 25

2.8.2. Pohon Filogenetik (Phylogenetic tree) ........................................ 29

2.8.3. Metode-metode Pembentukan Pohon .......................................... 31

2.9 Metode Berbasis Jarak (Distance Based Method) .................................... 33

2.10 Metode UPGMA ................................................................................... 35

BAB III METODOLOGI PENELITIAN ............................................................. 41

3.1 Tahapan Penelitian ................................................................................... 41

3.1.1 Studi Literatur ............................................................................... 42

3.1.2 Pengambilan Data ......................................................................... 42

3.1.3 Pembuatan Program Pensejajaran ................................................ 42

3.1.4 Pembuatan Pohon Filogenetik Metode UPGMA ......................... 43

3.1.5 Hasil Pembentukan Pohon Filogenetik ........................................ 45

3.1.6 Analisis dan Pembahasan ............................................................. 45

BAB IV HASIL DAN PEMBAHASAN .............................................................. 47

4.1 Identifikasi Kekerabatan Jenis-jenis Virus Ebola ..................................... 47

4.1.1 Pengumpulan Data ....................................................................... 47

4.1.2 Pensejajaran Sekuens ................................................................... 50

4.1.3 Matriks Jarak .................................................................................. 60

4.1.4 Pohon Filogenetik Metode UPGMA untuk Identifikasi

Kekerabatan Jenis-jenis Virus Ebola ........................................... 67

4.2 Penyebaran Epidemi Virus Ebola ........................................................... 73

4.1.1 Data Epidemi ................................................................................ 73

4.1.2 Pohon Filogenetik untuk Penyebaran Epidemi Ebola .................. 74

4.3 Pembahasan ............................................................................................ 76

4.4 Validasi Pohon Filogenetik .................................................................... 80

BAB IV KESIMPULAN DAN SARAN .............................................................. 81

DAFTAR PUSTAKA .......................................................................................... 83

xi

DAFTAR TABEL

Tabel 2.1. Kasus Ebola di Afrika .......................................................................... 9

Tabel 2.2. Asam Amino dan Kode resmi .............................................................. 12

Tabel 2.3. Kode Standart Genetik ......................................................................... 13

Tabel 2.4. Tabel Dua Dimensi Sekuens ............................................................... 18

Tabel 4.1. Hasil Jarak Evolusi Pasangan Sekuens Data Uji ................................. 61

Tabel 4.2. Hasil Jarak Evolusi Pasangan Sekuens Protein .................................... 62

Tabel 4.3. Matriks Jarak Pasangan Sekuens Data Uji ........................................... 67

Tabel 4.4. Matriks Jarak Pasangan Sekuens Protein ............................................. 67

Tabel 4.5. Data sekuens DNA penyebaran virus ebola ......................................... 73

xv

DAFTAR LAMPIRAN

LAMPIRAN A: Sekuens Beberapa Jenis Virus Ebola ......................................... 85

LAMPIRAN B: Sekuens DNA Virus Ebola ......................................................... 87

LAMPIRAN C: Listing Program .......................................................................... 93

xiii

DAFTAR GAMBAR

Gambar 2.1 (a) Pohon berakar dan (b) Pohon tidak berakar ................................ 27

Gambar 2.2 Pohon berakar dengan empat spesies mamalia ................................ 28

Gambar 2.3 Pohon tidak .berakar dengan empat spesies mamalia ....................... 28

Gambar 2.4 Pohon dengan panjang pohon ........................................................... 29

Gambar 2.5 (a) Pohon Filogenetik berakar dan (b) Pohon Filogenetik tidak

Berakar ............................................................................................ 30

Gambar 2.6 Struktur dari Pohon Filogenetik berakar .......................................... 31

Gambar 2.7 Pohon filogenetik dibangun oleh Metode UPGMA ......................... 39

Gambar 3.1. Diagram Alir Penelitian ................................................................... 41

Gambar 3.2. Multiple Alignment oleh Metode Progressive ................................. 43

Gambar 3.3. Diagram Alir Proses Pensejajaran hingga Pohon Filogenetik ......... 44

Gambar 3.3. Diagram Alir Proses Pensejajaran hingga Pohon Filogenetik ......... 44

Gambar 4.1Pohon untk Proses Pensejajaran ........................................................ 58

Gambar 4.2 Pensejajaran sekuens matriks protein ................................................ 60

Gambar 4.3 Pohon Filogenetik Metode UPGMA data uji .................................... 71

Gambar 4.4 Pohon Filogenetik identifikasi kekerabatan jenis-jenis virus ebola

simulasi MATLAB ............................................................................. 72

Gambar 4.5 Hasil Pensejajaran sekuens DNA ...................................................... 74

Gambar 4.6 Pohon filogenetik Metode UPGMA untuk penyebaran

epidemi ebola .................................................................................... 75

Gambar 4.7 Peta Benua Afrika ............................................................................. 79

vii

KATA PENGANTAR

Segala puji syukur dan kemuliaan hanya kepada Tuhan atas segala limpahan

kasih karunia, sehingga penulis dapat menyelesaikan tesis yang berjudul “Aplikasi

Metode UPGMA untuk Identifikasi Kekerabatan Jenis Virus dan Penyebaran

Epidemi Ebola Melalui Pembentukan Pohon Filogenetik”

Tesis ini disusun sebagai salah satu prasyarat kelulusan Program Magister

Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut

Teknologi Sepuluh Nopember Surabaya. Penulis menyadari bahwa tulisan Tesis ini

masih ada kekurangan, sehingga kritik dan saran dari pembaca sangat penulis

harapkan untuk kedepannya.

Penyusunan Tesis ini tidak terlepas dari bantuan dan dukungan dari banyak

pihak. Oleh karena itu, penulis mengucapkan terima kasih kepada:

1. Prof. Ir. Joni Hermana, M.Sc.ES., Ph.D., selaku Rektor Institut Teknologi

Sepuluh Nopember (ITS) Surabaya yang telah memberikan fasilitas kepada

penulis selama menempuh pendidikan sehingga dapat menyelesaikan Tesis ini.

2. Direktorat Jenderal Pendidikan Tinggi (DIKTI) selaku penyandang dana yang

telah memberikan beasiswa BPPDN.

3. Prof. Dr. Ir. Adi Soeprijanto, M.T., selaku Direktur Program Pascasarjana ITS.

4. Dr. Imam Mukhlash, S.Si, M.T. selaku Ketua Jurusan Matematika ITS.

5. Dr. Subiono, MS., selaku Ketua Program Studi Pascasarjana Matematika ITS.

6. Prof. Dr. Mohammad Isa Irawan, M.T.,selaku dosen pembimbing yang telah

meluangkan waktu untuk memberikan arahan, nasehat, dan motivasi kepada

penulis sehingga dapat menyelesaikan Tesis ini dengan baik.

7. Dr. Drs. Haiyanto, M.Si., Dr. Budi Setiyono, S.Si., MT. dan Dr. Dwi Ratna

Sulistyaningrum, S.Si., MT. selaku dosen penguji yang telah memberikan

masukan kritik dan saran yang membantu penulis untuk memperbaiki tulisan

Tesis ini.

viii

8. Dr. Mahmud Yunus, M.Si selaku dosen wali yang selama ini sudah banyak

mendidik dan membantu selama penulis menempuh studi S2.

9. Seluruh dosen Jurusan Matematika, yang selama ini sudah banyak mendidik dan

membekali penulis dengan berbagai ilmu pengetahuan selama penulis mengikuti

proses perkuliahan dan seluruh staf dan karyawan Jurusan Matematika ITS yang

telah memberikan bantuan, kemudahan, dan kelancaran.

10. Ayah dan Ibu, kedua kakak dan adik tercinta serta seluruh keluarga atas

perhatian, doa dan segala dukungannya selama ini.

11. Teman-teman seperjuangan Program Magister Matematika ITS angkatan 2013

yang telah menemani, memotivasi, dan segala bantuannya.

12. Keluarga Besar Pascasarjana Matematika ITS dan semua pihak yang telah

membantu proses penulisan Tesis ini.

Penulis berharap semoga tulisan Tesis ini dapat bermanfaat untuk kemajuan dan

perkembangan ilmu pengetahuan, khususnya disiplin ilmu Komputasi dan dapat

memberikan kontribusi bagi kemajuan ITS.

Surabaya, Januari 2016

Penulis

iii

Aplikasi Metode UPGMA untuk Identifikasi Kekerabatan Jenis

Virus dan Penyebaran Epidemi Ebola Melalui Pembentukan Pohon

Filogenetik

Nama : Tri Andriani

NRP : 1213201045

Dosen Pembimbing : Prof. Dr. M. Isa Irawan, MT.

ABSTRAK

Penyakit ebola atau dalam bahasa medis Ebola Virus Disease (EVD) adalah penyakit

yang disebabkan oleh sejenis virus dari genus Ebolavirus (EBOV), famili Filoviridae.

Virus ebola diklasifikasikan ke dalam 5 jenis, yaitu Zaire ebolavirus (ZEBOV),

Sudan ebolavirus (SEBOV), Bundibugyo ebolavirus (BEBOV), Tai Forest ebolavirus

yang juga dikenal sebagai Cote d’Ivoire ebolavirus (CIEBOV), dan Reston

ebolavirus (REBOV). Identifikasi kekerabatan jenis virus ebola dan penyebarannya

dapat dilakukan dengan menggunakan pohon filogenetik. Pada penelitian ini, pohon

filogenetik dibangun dengan Metode UPGMA yang didalamnya terdapat Multiple

Alignment. Multiple Alignment menggunakan Metode Progressive yang didalamnya

terdapat pensejajaran berpasangan menggunakan Algoritma Needleman Wunsch.

Hasil pembentukan pohon fillogenetik disimpulkan bahwa hubungan kekerabatan

jenis virus ebola tidak dapat disimpulkan secara umum, sebab tergantung pada type

protein yang dibandingkan.. Misal pada type minor nucleoprotein jenis Zaire

ebolavirus dekat dengan Sudan ebolavirus. Pada type membrane associated protein

VP 24 jenis Zaire ebolavirus dekat dengan Bundibugyo ebolavirus. Berdasarkan

pohon filogenetik data DNA, jenis Tai Forest ebolavirus dekat dengan Bundibugyo

ebolavirus tetapi letak negara penyebaran epidemi ebola berjauhan. Jarak genetik

untuk jenis Bundibugyo ebolavirus dengan Tai Forest ebolavirus adalah 0.3725.

Jenis Tai Forest ebolavirus mirip dengan Bundibugyo ebolavirus tidak dipengaruhi

oleh kedekatan daerah penyebaran epidemi ebola.

Kata kunci: metode upgma, multiple alignment, pohon filogenetik, virus ebola.

v

Aplication of UPGMA Method for the Kinship Identification Type

Virus Types and Ebola Epidemic Spreading Through Establishment

of Phylogenetic Trees

Name : Tri Andriani

NRP : 1213201045

Supervisor : Prof. Dr. M. Isa Irawan, MT.

ABSTRACT

Ebola disease or in medical language Ebola Virus Disease (EVD) is a disease caused

by a virus of the genus Ebolavirus (EBOV), family Filoviridae. Ebola virus is

classified into five types, namely Zaire ebolavirus (ZEBOV) Sudan ebolavirus

(SEBOV), Bundibugyo ebolavirus (BEBOV), Tai Forest ebolavirus also known as

Cote d'Ivoire ebolavirus (CIEBOV), and Reston ebolavirus (REBOV). Identification

of kinship types of Ebola virus and its spread can be performed using phylogenetic

tree. In this study, the phylogenetic tree constructed by UPGMA method in which

there are Multiple Alignment. Progressive Multiple Alignment using a method in

which there are pairwise alignments using the Needleman Wunsch algorithm. Results

fillogenetik tree formation was concluded that kinship types of Ebola virus can not be

inferred in general, because depending on the type of protein compared .. Eg the

minor type nucleoprotein Zaire ebolavirus species close to Sudan ebolavirus. On the

type of membrane associated protein VP 24 types Zaire ebolavirus close to

Bundibugyo ebolavirus. Based on phylogenetic trees DNA data, the type of Tai

Forest ebolavirus close to Bundibugyo ebolavirus but the layout state ebola epidemic

spread far apart. Genetic distance for this type of Bundibugyo ebolavirus with Tai

Forest ebolavirus is 0.3725. Tai Forest ebolavirus type similar to Bundibugyo

ebolavirus not influenced by the proximity of ebola epidemic spreading area.

Keywords: upgma method, multiple alignment, phylogenetic tree, ebola virus.

1

BAB 1

PENDAHULUAN

Pada bagian ini diberikan ulasan mengenai hal-hal yang melatarbelakangi

usulan penelitian, rumusan masalah yang akan diselesaikan dalam penelitian,

batasan masalah, tujuan penelitian, dan manfaat penelitian.

1.1 Latar Belakang

Penyakit ebola atau dalam bahasa medis Ebola Virus Disease (EVD)

adalah penyakit yang disebabkan oleh sejenis virus dari genus Ebolavirus

(EBOV), dari keluarga Filoviridae. Ebola yang dikenal juga sebagai demam

berdarah ebola atau Ebola Haemorrhagic Fever (EHF) telah ada sebagai epidemi

menular sejak tahun 1976 di Afrika Tengah. Epidemi ialah mewabahnya penyakit

dalam daerah tertentu dengan jumlah yang melebihi batas jumlah normal atau

yang biasa. Virus ebola dapat ditularkan melalui kontak langsung oleh cairan

tubuh seperti darah, keringat, air liur, lendir, sperma, dan air mata dari pasien

EVD. Selain ditularkan manusia, EVD dapat menular melalui binatang seperti

gorila, simpanse, monyet, dan kelelawar buah. Masa inkubasi biasanya dimulai

dua hari hingga tiga minggu. Pada tahap awal, pasien EVD biasanya menunjukkan

gejala seperti demam, sakit tenggorokan, nyeri otot, sakit kepala dan tubuh lemah.

Gejala lanjut dari EVD adalah pendarahan serta menurunnya fungsi hati dan

ginjal. Menurut analisa sejarah wabah ebola, tingkat kematian dari pasien EVD

adalah 40% sampai 90%. Meskipun EVD dianggap ancaman potensial bagi

kesehatan masyarakat, sampai saat ini belum tersedia obat atau vaksin berlisensi

untuk penyakit ini (Li dkk, 2014).

Penyakit ebola (EVD) pertama kali ditemukan di Afrika, daerah selatan

Sudan dan Zaire pada tahun 1976 pada tubuh seekor monyet. Pada tanggal 23

Maret 2014, Organisasi Kesehatan Dunia (WHO) melaporkan wabah baru infeksi

virus Ebola (EBOV) yang dimulai pada bulan Desember 2013 di Republik Guinea

dan menyebar ke negara-negara Afrika Barat lainnya, yaitu Sierra Leone dan

Liberia. Sejak ditemukannya EVD pada tahun 1976 hingga 2014, dilaporkan

2

terdapat sebanyak 3.354 kasus dan 2.120 diantaranya meninggal. Jumlah kasus

yang dilaporkan di Guinea, Liberia dan Sierra Leone untuk periode Januari

sampai September 2014 adalah 1009 kasus dan 574 diantaranya meninggal

(Clercq, 2014).

Virus ebola diklasifikasikan ke dalam 5 jenis, yaitu Zaire ebolavirus

(ZEBOV), Sudan ebolavirus (SEBOV), Bundibugyo ebolavirus (BEBOV), Tai

Forest ebolavirus yang juga dikenal sebagai Cote d’Ivoire ebolavirus (CIEBOV),

dan Reston ebolavirus (REBOV). Reston ebolavirus (REBOV) adalah satu-

satunya virus yang tidak menyerang manusia, namun menyerang monyet

(Bovendo dkk, 2012). Untuk mengetahui seberapa mirip lima jenis virus ebola

yang ada, sangat perlu melakukan identifikasi kekerabatan kelima jenis virus

ebola tersebut. Selama ini belum ada penelitian mengenai kekerabatan jenis virus

ebola. Salah satu cara identifikasi kekerabatan adalah dengan membangun pohon

filogenetik.

Konstruksi pohon filogenetik baru-baru ini menjadi perhatian banyak

peneliti karena ketersediaan data biologis yang luas. Untuk mengkonstruksi pohon

filogenetik, terdapat beberapa metode yang dapat digunakan, yaitu Metode

Berbasis Jarak (misalnya, neighbor-joining dan unwight pair group method with

arithmetic average), Metode Berbasis Fitur (misalnya, maximum parsimony), dan

Metode Berbasis Probabilitas (misalnya, maximum likelihood) (Shen dkk, 2008).

Irawan dan Amiroch (2014) melakukan konstruksi pohon filogenetik

menggunakan Metode Berbasis Jarak untuk identifikasi host dan penyebaran

epidemi SARS. Dalam penelitiannya, Algoritma Neighbor Joining digunakan

untuk mengkonstruksi pohon filogenetik yang disimulasikan dalam Matlab. Input

untuk mengkonstruksi sebuah pohon filogenetik dengan Metode Berbasis Jarak

berupa matriks jarak. Matriks jarak diperoleh dari penyejajaran antar sequence

dengan menggunakan Metode Super Pairwise Alignment (SPA). Output dari

pensejajaran ini berupa jumlah perbedaan antar sequence yang menentukan jarak

genetiknya. Dari matriks jarak tersebut, jarak genetik diubah menjadi jarak

evolutioner menggunakan Model Jukes Cantor yang selanjutnya dibentuk pohon

filogenetik menggunakan Algoritma Neighbor Joining. Akan tetapi, algoritma

tersebut tidak disarankan untuk digunakan dalam mengkonstruksi pohon

3

filogenetik dari data sekuens yang similaritasnya sangat tinggi. Apabila Algoritma

Neighbor Joining tetap digunakan untuk membentuk pohon filogenetik dari data

sekuens yang similaritasnya sangat tinggi berakibat akan diperoleh beberapa

pohon yang berbeda. Dengan kata lain, pohon yang dihasilkan tidak stabil.

Dalam membangun pohon filogenetik menggunakan Metode UPGMA

langkah awal adalah mendapatkan multiple alignment (MA) dari multiple sekuens

yang diberikan. Hasil dari MA berupa suatu himpunan sekuens yang panjangnya

sama. MA dapat menunjukkan multiple sequence berada pada keluarga yang sama

atau tidak. Selain itu, MA dapat menunjukkan semua hubungan atau relasi antar

famili dari multiple sequence yang ada. Berdasarkan pembagian keluarga, dapat

ditentukan keadaan evolusi masing-masing sekuens dalam keluarga. Secara umum

digunakan pohon topologi untuk menggambarkan hubungan di antara multiple

sequence, pohon topologi tersebut selanjutnya dikenal dengan pohon filogenetik

(Shen dkk, 2008).

UPGMA (Unwight Pair Group Method with Arithmetic Average) atau

metode kelompok pasangan unweight dengan rataan aritmatika adalah metode

paling sederhana dari semua metode clustering yang digunakan untuk membangun

pohon filogenetik. Metode clustering yang paling intuitif digunakan untuk

membangun pohon filogenetik adalah metode UPGMA. Metode ini merakit dua

kelas terdekat untuk menjadi kelas yang baru, ke dalam sebuah cluster setiap

waktu sampai semua kelas dirakit menjadi satu kelas. UPGMA digunakan untuk

membangun pohon filogenetik dengan cara yang mirip dengan Metode sistem

clustering, perbedaan utamanya adalah formula yang digunakan untuk

menghitung jarak kelas (Shen dkk, 2008).

Dengan memanfaatkan clustering, Metode UPGMA digunakan untuk

membangun pohon filogenetik. Kelebihan Metode UPGMA adalah metode ini

paling sederhana dari semua metode clustering yang digunakan untuk membangun

pohon filogenetik. Metode ini membutuhkan kecepatan substitusi dari nukleotida

atau asam amino menjadi seragam dan tidak berubah melalui proses evolusi

secara keseluruhan. Dengan kata lain, hipotesis mengukur waktu molekuler

dipenuhi. Pada setiap node induk, panjang cabang dari node induk ke dua simpul

anak adalah sama (Shen dkk, 2008). Oleh karena itu, akan dilakukan penelitian

4

mengenai konstruksi filogenetik menggunakan Metode UPGMA untuk

identifikasi kekerabatan beberapa jenis virus ebola dan asal penyebaran epidemi

ebola menggunakan pohon filogenetik.

1.2 Rumusan Masalah

Berdasarkan uraian latar belakang yang ada, permasalahan yang akan

dibahas dalam penelitian ini adalah

1. Bagaimana membentuk pohon filogenetik epidemi ebola berdasarkan jenis

virus menggunakan Metode UPGMA?

2. Bagaimana identifikasi kekerabatan beberapa jenis virus ebola dan asal

penyebaran epidemi ebola menggunakan pohon filogenetik?

1.3 Batasan Masalah

Permasalahan yang akan dibahas dalam penelitian ini dibatasi sebagai

berikut:

1. Sekuens yang disejajarkan adalah sekuens protein lima jenis virus ebola

baik yang menyerang manusia maupun binatang, sekuens DNA host dan

individu lain yang terinfeksi berdasarkan data lokasi dan tanggal

pengambilan sample.

2. Data sekuens protein yang digunakan diambil dari database Uniprot

(www.uniprot.org).

3. Data sekuens DNA yang digunakan diambil dari database National Center

for Biotechnologi Information (www.ncbi.nlm.nih.gov).

4. Data sekuens DNA yang digunakan untuk penyebaran epidemi ebola di

negara-negara Afrika.

5. Pensejajaran sekuens menggunakan Metode Progressive dengan bantuan

MATLAB.

6. Pohon filogenetik disimulasikan menggunakan Metode UPGMA dengan

bantuan MATLAB.

http://www.uniprot.org/

http://www.ncbi.nlm.nih.gov/

5

1.4 Tujuan Penelitian

Dari perumusan masalah yang ada, maka tujuan dari penelitian ini adalah

1. Mendapatkan pohon filogenetik dengan menggunakan Metode UPGMA

dengan obyek virus ebola.

2. Mengetahui kekerabatan jenis virus dan asal penyebaran epidemi ebola

dengan menggunakan pohon filogenetik.

1.5 Manfaat Penelitian

Hasil penelitian ini diharapkan dapat memberikan manfaat sebagai

berikut:

1. Sebagai tambahan referensi untuk penelitian berikutnya mengenai proses

kontruksi pohon filogenetik dengan menggunakan Metode Berbasis Jarak,

yaitu Metode UPGMA.

2. Mengetahui penerapan pohon filogenetik untuk menyelesaikan masalah

dalam bidang kesehatan, terutama untuk mengetahui kekerabatan dan asal

penyebaran epidemi ebola.

3. Mengetahui tingkat kemiripan jenis-jenis virus ebola sehingga dapat

membantu peneliti bidang kesehatan dalam pembuatan vaksin.

1.6 Kontribusi Hasil Penelitian

Kontribusi hasil penelitian ini terhadap pengembangan ilmu adalah dapat

membantu peneliti dalam bidang kesehatan untuk mengambil tindakan lebih lanjut

setelah diketahui kekerabatan jenis virus dan penyebaran virus ebola.

7

BAB 2

KAJIAN PUSTAKA DAN DASAR TEORI

Pada bagian ini diberikan ulasan mengenai penelitian terdahulu dan teori-

teori yang diperlukan dalam proses penelitian. Penelitian terdahulu yang diulas

dalam bab ini adalah penelitian mengenai konstruksi pohon filogenetik yang

dilakukan Irawan dan Amiroch (2014). Adapun beberapa teori yang diberikan

meliputi penyakit virus ebola (EVD), sekuens, protein, DNA, pensejajaran

sekuens, multiple alignment, Metode Progressive, Algoritma Needleman Wunsch,

matriks penalti dan matriks penskoran, filogenetik molekuler, pohon, pohon

filogenetik, metode berbasis jarak dan Metode UPGMA.

2.1 Penelitian Terdahulu

Penelitian pertama berkaitan dengan identifikasi host dan penyebaran

epidemi SARS oleh Irawan dan Amiroch (2014). Irawan dan Amiroch melakukan

konstruksi pohon filogenetik menggunakan Metode Berbasis Jarak untuk

identifikasi host dan penyebaran SARS. Dalam penelitiannya, Algoritma

Neighbor Joining digunakan untuk mengkonstruksi pohon filogenetik yang

disimulasikan dalam Matlab. Input untuk mengkonstruksi sebuah pohon

filogenetik Metode Berbasis Jarak berupa matriks jarak. Matriks jarak diperoleh

dari pensejajaran antar sekuen dengan menggunakan Metode Super Pairwise

Alignment (SPA). Output dari penyejajaran ini berupa jumlah perbedaan antar

sekuens yang menentukan jarak genetiknya. Dari matriks jarak tersebut, jarak

genetik diubah menjadi jarak evolutioner menggunakan model Jukes Cantor yang

selanjutnya dibentuk pohon filogenetik menggunakan Algoritma Neighbor

Joining. Hasil penelitian menunjukkan, dengan menggunakan pohon filogenetik

dapat dibuktikan data sekuens protein berbagai binatang yang dicurigai sebagai

host dari SARS Coronavirus dan data sekuens DNA pasien yang terinfeksi SARS.

Dari hasil pembentukan pohon filogenetik diketahui epidemi berawal pada tanggal

16 Desember 2002 di Guangzhou China Selatan yang kemudian menyebar ke

Zhongshan. Titik kumpul epidemi di RS Guangzho seu dan hotel Metropole yang

8

selanjutnya menyebar ke Hanoi, Toronto, Singapura, Taiwan dan HongKong

sehingga kasus SARS menjadi wabah internasional. Penerapan pensejajaran super

pairwase alignment (SPA) berhasil diterapakan untuk mensejajarkan sequence

human SARS Coronavirus dengan coronavirus lain yang dibawa oleh binatang

(Irawan dkk, 2014).

2.2 Penyakit Virus Ebola (EVD)

Penyakit ebola atau dalam bahasa medis Ebola Virus Disease (EVD)

adalah penyakit yang disebabkan oleh sejenis virus dari genus Ebolavirus

(EBOV), famili Filoviridae. Ebola yang dikenal juga sebagai demam berdarah

ebola atau Ebola Haemorrhagic Fever (EHF) telah ada sebagai epidemi menular

sejak tahun 1976 di Afrika Tengah. Virus ebola diklasifikasikan ke dalam 5 jenis,

yaitu Zaire ebolavirus (ZEBOV), Sudan ebolavirus (SEBOV), Bundibugyo

ebolavirus (BEBOV), Tai Forest ebolavirus juga dikenal sebagai Cote d’Ivoire

ebolavirus (CIEBOV), dan Reston ebolavirus (REBOV). Reston ebolavirus

(REBOV) adalah satu-satunya virus yang tidak menyerang manusia, namun

menyerang monyet (Bovendo dkk, 2012). Selama ini belum ada penelitian

mengenai kekerabatan jenis-jenis virus ebola tersebut.

Penyakit ebola (EVD) pertama kali ditemukan di Afrika, daerah selatan

Sudan dan Zaire pada tubuh seekor monyet. Pada tanggal 23 Maret 2014,

Organisasi Kesehatan Dunia (WHO) melaporkan jumlah kasus EVD yang terjadi

di Afrika pada tahun 1976 hingga tahun 2014. Sejak ditemukannya EVD pada

tahun 1976 hingga tahun 2014, dilaporkan terdapat sebanyak 3.354 kasus dan

2.120 diantaranya meninggal. Jumlah kasus yang dilaporkan di Guinea, Liberia

dan Sierra Leone untuk periode Januari sampai September 2014 adalah 1009

kasus dan 574 diantaranya meninggal (Clercq, 2014). Adapun data kasus ebola

yang terjadi di Afrika tahun 1976 sampai 2014 disajikan pada tabel 2.1.

9

Tabel 2.1: Kasus ebola di Afrika

Tahun Negara Kota Kasus Meninggal Spesies

1976

1976

1977

1979

1994

1994

1995

1996

1996

1996

2000

2001

2001

2002

2003

2004

2007

2007

2008

2011

2012

2012

2012

2014

Republik Demokrat Kongo

Sudan Selatan


Sudan Selatan

Gabon

Ivory Coast


Gabon

Gabon

Afrika Selatan

Uganda

Gabon




Sudan Selatan


Uganda


Uganda

Uganda


Uganda

Guinea, Sierra Leone, Liberia,

Nigeria

Yambuku

Nzara

Tandala

Nzara

Mekouka

Tai Forest

Kikwit

Maybout

Booue

Johannes Burg

Gulu

Libreville

Not Specified

Mbomo

Mbomo

Yambio

Luebo

Bundibugyo

Luebo

Luwero District

Kibale District

Isiro Health Zone

Luwero District

Multiple

318

284

1

34

52

1

315

37

60

2

425

65

57

143

35

17

264

149

32

1

11

36

6

1009

280

151

1

22

31

0

250

21

45

1

224

53

43

128

29

7

187

37

15

1

4

13

3

574

EBOV

SUDV

EBOV

SUDV

EBOV

TAFV

EBOV

EBOV

EBOV

EBOV

EBOV

EBOV

EBOV

EBOV

EBOV

EBOV

EBOV

BDBV

EBOV

SUDV

SUDV

BDBV

SUDV

EBOV

Sumber: Clercq, E.D. (2014)

Secara umum virus ebola ada yang menyerang manusia dan menyerang

hewan primata (misalnya, monyet, gorila dan simpanse). Masa inkubasi biasanya

dimulai dua hari hingga tiga minggu setelah terjangkit virus. Pada tahap awal,

pasien EVD biasanya menunjukkan gejala seperti demam, sakit tenggorokan,

nyeri otot, sakit kepala dan tubuh lemah. Gejala lanjut dari EVD adalah muntah,

diare, pendarahan serta menurunnya fungsi hati dan ginjal. Menurut analisa

sejarah wabah ebola, tingkat kematian dari pasien EVD adalah 40% sampai 90%

(Li dkk, 2014).

10

Virus ebola mudah menyebar dengan cepat. Pertama kali infeksi dimulai

dari penularan hewan yang terinfeksi ke manusia. Dari situ nantinya manusia

meneruskan rantai penyakit ini ke manusia yang lain. Penyebaran virus ebola

antar manusia bisa melalui berbagai macam cara antara lain melalui makanan,

jarum suntik, berpegangan tangan, dan kontak langsung oleh cairan tubuh

penderita, seperti darah, keringat, air liur, lendir, sperma, dan air mata dari pasien

EVD atau melalui binatang yang rawan terinfeksi.

2.3 Bioinformatika

Bioinformatika (bioinformatics) telah dikembangkan dalam ruang, yang

telah diduduki oleh sejumlah disiplin ilmu terkait. Bioinformatika adalah ilmu

yang mempelajari penerapan teknik komputasi untuk mengelola dan menganalisis

informasi biologis. Bidang ini mencakup penerapan metode-metode matematika,

statistika dan informatika untuk memecahkan masalah-masalah biologis, terutama

dengan menggunakan sekuens DNA dan asam amino serta informasi yang

berkaitan dengannya. Contoh topik utama bidang ini meliputi basis data untuk

mengelola informasi biologis, pensejajaran sekuens (sequence alignment),

prediksi struktur untuk meramalkan bentuk struktur protein maupun struktur

sekunder RNA, analisis filogenetik, dan analisis ekspresi gen. Ini termasuk ilmu

kuantitatif seperti matematika dan biologi komputasi, biometri dan biostatistik,

ilmu komputer, sibernetika. Serta ilmu biologi seperti evolusi molekuler,

genomics dan proteomik, genetika dan biologi sel. Bioinformatika merupakan

perluasan langsung dari biologi, matematika dan komputasi ke dalam bidang baru

dalam data set yang besar (Polanski dkk, 2007).

2.4 Sekuens

Istilah sekuens biologis pada umumnya digunakan untuk menyatakan

sekuens DNA, sekuens RNA dan sekuens protein. Dalam pengertian biologi

molekuler, sekuens biologi terdiri dari banyak makromolekul, dimana semua

makromolekul memiliki fungsi-fungsi yang spesifik dalam kondisi tertentu.

Makromolekul tersebut dapat dibagi ke dalam sejumlah besa mikromolekul

dengan fungsi-fungsi tertentu. Pada umumnya sekuens DNA atau sekuens RNA

11

didasarkan pada empat nukleotida, sedangkan sekuens pada protein didasarkan

pada 20 asam amino. Jika diperhatikan nukleotida sekuens DNA atau asam amino

dalam protein adalah unit-unit dasar, maka sekuens biologi hanyalah kombinasi

dari unit-unit dasar (Shen dkk, 2008).

Banyak cara yang dapat dilakukan untuk merepresentasikan struktur dari

sekuens biologis. Cara yang paling sering digunakan adalah dengan mendeskripsikan

sekuens tersebut ke dalam bentuk struktur primer, sekunder dan tersier (struktur tiga

dimensi). Untuk sekuens protein, struktur primernya mendeskripsikan kombinasi

asam amino penyusun protein. Sedangkan untuk sekuens DNA/RNA, struktur

primernya mendeskripsikan komponen-komponen nukleotida. Struktur primer

sekuens biologi menentukan komponen nukleotida atau asam aminonya. Struktur

tersier atau 3D dari sekuens biologi menggambarkan susunan 3D (posisi koordinat)

dari atom konstituen dalam molekul. Struktur sekunder dari sekuens protein

menunjukkan struktur khusus dari masing-masing segmen protein, bisa berupa

struktur helix, untai atau struktur lainnya. Super struktur sekunder juga sering

digunakan untuk mendeskripsikan suatu keadaan antara struktur sekunder dan tesier,

yang terdiri dari sebagian besar kelompok molekul kompak (domain).

Menurut Shen (Shen dkk, 2008), digunakan deskripsi untuk sekuens

biologi sebagai berikut.

A = ( ) B = ( ) C = ( ) (2.3)

dengan huruf capital A, B dan C merepresentasikan sekuens,

merepresentasikan unit-unit dasar sekuens pada posisi ke- , yang elemen-

elemennya diperoleh dari himpunan * +. Pada persamaan (2.3),

adalah panjang sekuens A, B dan C. Jika A, B dan C merupakan

sekuens DNA/RNA maka dan * + atau * +. jika A, B

dan C merupakan sekuens protein maka dan

* +.

Multiple sequence (group sekuens) adalah kumpulan dari sekuens yang

dinotasikan sebagai

* + (2.4)

Untuk setiap merupakan sekuens terpisah yang didefinisikan pada dan

dinotasikan sebagai

12

( ) (2.5)

dengan adalah panjang sekuens dan adalah banyaknya sekuens pada

masing-masing kelompok.

Sekuens yang homolog adalah jika sekuens merupakan mutasi dari

sekuens dan keduanya memiliki makna yang sama secara biologi. Dalam

analisis sekuens, dapat diketahui bahwa sekuens merupakan mutasi dari

sekuens , namun tidak dapat diketahui apakah keduanya memiliki makna yang

sama secara biologi, sehingga kedua sekuens tersebut belum bisa dikatakan

homolog, namun hanya bisa dikatakan mirip (Shen dkk, 2008).

2.4.1 Sekuens Protein

Protein adalah salah satu bio-molekuler yang penting peranannya dalam

makluk hidup. Untuk sekuens protein, struktur primernya mendeskripsikan

kombinasi asam amino penyusun protein. Adapun kode huruf dan nama asam

amino dapat dilihat pada tabel 2.2.

Tabel 2.2. Asam Amino dan Kode resmi No 1 – Kode Huruf 3 – Kode Huruf Nama

1 A Ala Alanine

2 R Arg Arginine

3 N Asn Asparagine

4 D Asp Aspartic acid

5 C Cys Cyteine

6 Q Gln Glutamine

7 E Glu Glutamic

8 G Gly Glycine

9 H His Histidine

10 I Ile Isoleucine

11 L Leu Leucine

12 K Lys Lysine

13 M Met Methionine

14 F Phe Phenylalanine

15 P Pro Proline

16 S Ser Serine

17 T Thr Threonine

18 W Trp Tryptophan

19 Y Tyr Tyrosine

20 V Val Valine

Sumber : Claverie, J.M, Bioinformatics For Dummies, 2007.

13

2.4.2 Sekuens DNA

Asam deoksiribonukleat (deoxyribonucleid acid) atau disebut DNA

merupakan sebuah polimer yang terbentuk dari molekul kecil yang disebut

nukleotida dan berperan sebagai dasar hereditas. Informasi mengenai hereditas ini

digambarkan dalam sebuah sekuens DNA. Sekuens DNA adalah polimer linear

berdimensi satu yang disusun oleh empat nukleotida berbeda, yaitu Adenin (A),

Cytosin (C), Guanin (G) dan Tymin (T). Dengan kata lain sekuens DNA adalah

sekuens yang disusun oleh empat huruf A, C, T dan G selanjutnya empat sekuens

basa. Identifikasi sekuens DNA tersebut dapat memberikan informasi mengenai

perbedaan spesies yang satu dengan yang lainnya, walaupun mereka mempunyai

nukleotida yang sama (Hochreiter, 2008).

Kode genetik adalah kumpulan tiga nukleotida yang disebut kodon dan

setiap kombinasi tiga nukleotida menunjukkan asam amino, misalnya ATG

(Adenin-Timin-Guanin) adalah kode untuk metionin. Kode standar genetik

lainnya bisa dilihat pada tabel 2.3.

Tabel 2.3 Kode standart genetik

T C A G

T TTT

TTC

TTA

TTG

Phe (F)

Phe (F)

Leu (L)

Leu (L)

TCT

TCC

TCA

TCG

Ser (S)

Ser (S)

Ser (S)

Ser (S)

TAT

TAC

TAA

TAG

Tyr (Y)

Tyr (Y)

Stop (*)

Stop (*)

TGT

TGC

TGA

TGG

C (Cys)

C (Cys)

Stop (*)

Trp (W)

C CTT

CTC

CTA

CTG

Leu (L)

Leu (L)

Leu (L)

Leu (L)

CCT

CCC

CCA

CCG

Pro (P)

Pro (P)

Pro (P)

Pro (P)

CAT

CAC

CAA

CAG

His (H)

His (H)

Gln (Q)

Gln (Q)

GGT

CGC

CGA

CGG

Arg (R)

Arg (R)

Arg (R)

Arg (R)

A ATT

ATC

ATA

ATG

Ile (I)

Ile (I)

Ile (I)

Met (M)

ACT

ACC

ACA

ACG

Thr (T)

Thr (T)

Thr (T)

Thr (T)

AAT

AAC

AAA

AAG

Asn (N)

Asn (N)

Lys (K)

Lys (K)

AGT

AGC

AGA

AGG

Ser (S)

Ser (S)

Arg (R)

Arg (R)

G GTT

GTC

GTA

GTG

Val (V)

Val (V)

Val (V)

Val (V)

GCT

GCC

GCA

GCG

Ala (A)

Ala (A)

Ala (A)

Ala (A)

GAT

GAC

GAA

GAG

Asp (D)

Asp (D)

Glu (E)

Glu (E)

GGT

GGC

GGA

GGG

Gly (G)

Gly (G)

Gly (G)

Gly (G)

Sumber : Claverie, J.M, Bioinformatics For Dummies, 2007.

14

2.5 Alignment

Untuk mengkonfirmasi hubungan antar mutasi, pendekatan umum adalah

untuk membandingkan perbedaan dalam keluarga sekuens (family of sequences),

yang dapat dilihat sebagai operasi dalam aritmatika. Hal ini disebut sebagai

sequences alignment atau alignment. Pensejajaran sekuens atau sequence

alignment adalah proses penyusunan atau pengaturan dua atau lebih sekuens

sehingga persamaan sekuens-sekuens tersebut tampak nyata. Kunci pensejajaran

sekuens adalah menentukan perpindahan mutasi. Jika dan adalah dua sekuens

yang didefinisikan pada persamaan 2.3. Penyisipan simbol ”–“ ke dalam dan

bertujuan untuk membentuk dua sekuens baru, yaitu dan . Selanjutnya

elemen-elemen dari dan menjadi range dari * +

* +, dengan adalah himpunan quaternary (himpunan yang terdiri dari

4 elemen) dan adalah himpunan yang terdiri dari 5 elemen.

Definisi 2. Sekuens adalah perluasan sekuens , dimana adalah sekuens

dengan penambahan gap yang diberi simbol “ – “.

Pensejajaran sekuens adalah sebuah alat penting dalam analisis posisi dan

tipe mutasi tersembunyi dalam sekuens biologi serta mengizinkan sebuah

komparasi yang tepat. Pensejajaran sekuens juga penting karena dapat

digunakan untuk penelitian penyakit genetik dan epidemi. Sebagai contoh,

adalah mungkin untuk menentukan asal, variasi, varians, difusi, dan

pengembangan epidemi dan kemudian menemukan virus dan bakteri yang

bertanggung jawab dan obat yang sesuai. Jadi pensejajaran sekuens sangat

penting dalam bidang bioinformatika dan biomedis karena berfungsi sebagai

prediktif kuat yang sangat baik. Dalam rangka untuk mendapatkan algoritma

level tinggi yang lebih baik, maka dibutuhkan teori-teori matematika (Shen dkk,

2008).

15

2.5.1 Matriks Penalti

Tujuan pensejajaran sekuens adalah untuk menemukan perluasan yang

diberikan oleh grup sehingga semua sekuens dalam memiliki tingkat

perbedaan yang lebih rendah atau tingkat kemiripan yang lebih tinggi. Dalam

bioinformatika, tingkat perbedaan biasanya diukur menggunakan matriks penalti

atau matriks penskoran. Matriks penalti dan matriks penskoran digunakan untuk

mengoptimalkan hasil pensejajaan (Shen dkk, 2008).

Matriks penalti menunjukkan tingkat perbedaan untuk tiap-tiap unit

molekul, seperti nukleotida atau asam amino, dalam sekuens biologi. Matriks

penalti dapat dinotasikan sebagai berikut :

( ))

Dalam bioinformatika, matriks penalti pada pensejajaran sekuens DNA

ditetapkan oleh matriks Hamming. Didefinisikan matriks Hamming untuk

adalah

( ) {

2.1

Contoh 2.1. Misalkan diketahui sekuens-sekuens berikut:

( )

( )

( )

( )

( )

( )

Tentukan skor penalti minimum dari sekuens berpasangan tersebut !

Jawab :

Dapat disimpulkan bahwa B merupakan sekuens mutasi dari , dan masing-

masing dan atau dan

adalah perluasan sekuens dan . Dengan

menggunakan matriks Hamming yaitu:

( ) {

16

maka diperoleh

( ) (

)

Oleh karena itu, skor penalti (

) lebih kecil dari pada skor penalti ( ).

2.5.2 Matriks Penskoran

Matriks penskoran menggunakan matriks Blosum, yang disebut

“BLOSUM p” (BLOck Substitution Matrix). Matriks penskoran BLOSUM adalah

langsung berasal dari blok dengan kesamaan tertentu, yaitu kesamaan sekuens

yang berbeda tidak dihitung berdasarkan model asumsi yang mungkin salah. Data

ini didasarkan pada data base blok dimana sub sekuens yang sama dikelompokkan

ke dalam blok. Disini p mengacu pada identitas % dari blok misalnya blosum 62

berasal dari blok dengan identitas 62%. Matriks skor yang paling populer untuk

pensejajaran berpasangan adalah blosum 62 matriks (Hochreiter, 2008).

Adapun perhitungan matriks blosum dengan langkah-langkah sebagai

berikut:

1. Sekuens dengan paling tidak identitas berkumpul satu sama lain.

Setiap cluster menghasilkan sekuens frekuensi (frekuensi asam amino

relatif pada setiap posisi). Sekuens frekuensi mewakili semua sekuens satu

cluster dan sekuens yang sama, yaitu tidak ada frekuensi. Frekuensi akan

ditentukan kemudian.

2. Sekuens frekuensi sekarang dibandingkan dengan satu sama lain. Pasang

asam amino dan dihitung oleh yang mana asam amino dihitung

sesuai dengan frekuensi mereka. Jika dalam kolom ada asam amino

dan asam amino maka hitungan untuk kolom memberikan

{

(

)

(2.2)

dengan, (

)

(

), dimana faktor

menyumbang symetri dan

kurangi bahwa jumlah dari sekuens ke dirinya sendiri.

17

3. Hitung ∑ dan ∑

( )

, dimana adalah

panjang sekuens dan adalah nomor pada sekuens. Sekarang adalah

dinormalisasi untuk mendapatkan probabilitas

(2.3)

Akhirnya mulai dari untuk .

4. Yang probabilitas dari kejadian asam amino adalah

∑

(2.4)

Probabilitas tidak sedang bermutasi ditambah jumlah dari pobabilitas

mutasi. adalah dibagi dengan 2 karena mutasi dari ke dan ke

dihitung menggunakan langkah 2.

5. Rasio kemungkinan

dan

serta rasio log-odds.

{

(2.5)

Dayhoffm memperkenalkan Percent or Point Accepted Mutation (PAM)

matrices. PAM sesuai dengan unit evolusi misalnya 1 PAM = 1 poin mutasi atau

100 asam amino dan 250 PAM = 250 poin mutasi atau 100 asam amino. Oleh

karena itu unit evolusi adalah waktu bahwa rata-rata n% mutasi terjadi pada posisi

tertentu dan bertahan. Untuk PAM 250 1/5 asam amino tetap tidak berubah. PAM

n adalah diperoleh dari PAM 1 sampai n kali perkalian matrik (Durbin dkk, 2002).

Matriks PAM adalah matriks Markov dan memiliki bentuk

[

] (2.6)

dengan dan ∑

18

2.6 Algoritma Needleman Wunsch

Algoritma Needleman Wunsch merupakan algoritma global alignment

untuk sekuens yang berpasangan. Langkah-langkah dalam menjalankan Algoritma

Needleman Wunsch sebagai berikut:

1. Menyusun dua sekuens dalam tabel dua dimensi.

Jika diberikan sekuens ( ) dan

( ) maka tabel dua dimensi dari sekuens tersebut terdapat

pada tabel 2.4, dengan ( ) diperoleh dari langkah selanjutnya.

Tabel 2.4 Tabel Dua Dimensi Sekuens

...

( ) ( ) ( ) ... ( )

( ) ( ) ( ) ... ( )

( ) ( ) ( ) ... ( )

... ... ... ... ... ...

( ) ( ) ( ) ... ( )

2. Menghitung elemen ( ) dari tabel dua dimensi

Masing-masing elemen ( ) yang terdapat pada Tabel Dua

Dimensi yaitu, ( ) yang ada di sisi kiri atas, ( ) yang

ada di sisi kiri dan ( ) yang ada di atas. Langkah awal yakni

menentukan skor ( ) dan skor ( ). Skor penalti pada virtual symbol

dengan elemen ( ) dapat dihitung menggunakan rumus sebagai

berikut:

( ) * ( ) ( ) ( ) ( ) +

3. Algoritma Traceback

Traceback berguna untuk menentukan backward pathway yang

selanjutnya akan digunakan untuk menentukan letak penambahan simbol

virtual “–“. Metode Backward untuk mencari lintasan dan untuk mencari

DNA yang optimum. Nilai akhir ( ) adalah skor maksimum dari

pensejajaran sekuens ( ) dan ( ) menjadi titik awal dan ( )

menjadi titik akhir untuk Metode Backward.

19

Kemungkinan lintasan :

1. Jika ( ) ( ) s( )

maka diagonal : ( ) ( )

2. Jika ( ) ( ) s( )

Cek nilai di samping dan di atas, pilih nilai terbesar.

(i) Atas : ( ) ( )

Maka ( ) ( )

(ii) Samping ( ) ( )

Maka ( ) ( )

Adapun penulisan hasil dari pensejajaran dengan cara sebagai berikut:

1. Jika alur mundurnya dimulai dari ke sudut kiri atas maka notasikan

pasangan dari asam nukleat .

2. Jika alur mundunya horizontal, maka sisipkan virtual symbol pada sekuens

vertikal dan notasikan sebagai ( ).

3. Jika alur mundurnya vertikal, maka sisipkan virtual symbol pada sekuens

horizontal dan notasikan ( ).

Contoh 2.2 Misalkan diketahui sekuens-sekuens berikut:

{

Diketahui: ( ) {

dan

Jawab:

t t g a

0

-8 -16 -24 -32

t -8

5 -3 -11 -19

g -16

-3 2 2 -6

a -24

-11 -6 -1 7

a -32

-19 -14 -9 4

g -40

-27 -22 -9 -4

Hasil pensejajaran:

{

20

Berikut perhitungan untuk mengisi baris dan kolom pada tabel di atas

( )

( )

( )

( )

( )

( )

( )

( ) { ( ) ( ) ( ) ( ) }

( ) * ( ) ( ) ( ) ( )

* +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* +

* +

21

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* +

* +

( ) * ( ) ( ) ( ) ( )

* +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

22

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

Berikut perhitungan untuk mencari lintasan menggunakan Metode Backward.

( ) ( ) ( )

( )

Cek nilai di samping dan di atas. Pilih nilai paling besar, terdapat

maka ( ) ( )

( ) ( ) ( )

maka ( ) ( )

( ) ( ) ( )

( )

maka ( ) ( )

( ) ( ) ( )

( )

maka ( ) ( )

( ) ( ) ( )

maka ( ) ( )

Algoritma Nedleman Wunsch merupakan metode yang digunakan untuk

mendapatkan sekuens berpasangan menjadi sejajar atau diperoleh panjang sama.

Yang mana didalam algoritma itu terdapat perhitungan dalam entri baris dan

kolom yang terdapat pada tabel dua dimensi. Jika terdapat nilai yang sama dalam

baris dan kolom, misal pada contoh 2.2 pada ( ) dan ( ) diperoleh nilai

yaitu 2, maka lihat aturan algoritma traceback. Pada ( ) dalam menentukan

lintasan dengan perhitungan sebagai berikut.

23

( ) ( ) ( )

( )

Maka arah lintasannya diagonal, sehingga dipilih ( ).

Jika dalam perhitungan untuk entri baris dan kolom terdapat skor yang

sama, pilih salah satu nilai yang maksimal. Sebagai gambaran perhitungan pada

contoh 2.2 dapat dilihat untuk entri ( ) dihitung sebagai berikut

( ) * ( ) ( ) ( ) +

* +

* +

2.7 Multiple Alignment

Multiple alignment (MA), yaitu pensejajaran beberapa sekuens sekaligus.

MA adalah kunci utama dalam bidang bioinformatika. Contohnya, untuk

mempelajari evolusi biologis, para peneliti menganalisa perubahan stuktur

berdasarkan MA khusus sekuens DNA atau protein. Untuk mempelajari genome

virus, MA juga digunakan untuk mendapatkan proses evolusi dari virus spesifik.

Biasanya untuk sebuah MA melibatkan ratusan sekuens yang mana tedapat

ratusan juta panjang pasangan basa. Diberikan multiple sekuens untuk

mendapatkan MA, pertama kali harus dikonstruksi sebuah algoritma dengan

terlebih dahulu memformulasi prinsip-prinsip komputasi (Shen dkk, 2008).

Hasil dari MA berupa suatu himpunan sekuens yang panjangnya sama.

MA dapat menunjukkan multiple sequence berada pada keluarga yang sama atau

tidak. Selain itu, MA dapat menunjukkan semua hubungan atau relasi antar famili

dari multiple sequence yang ada. Berdasarkan pembagian keluarga, dapat

ditentukan keadaan evolusi masing-masing sekuens dalam keluarga. Secara umum

digunakan pohon topologi untuk menggambarkan hubungan di antara multiple

sequence, pohon topologi tersebut selanjutnya dikenal dengan pohon filogenetik

(Shen dkk, 2008).

24

Studi tentang MA berkembang kedua arah. Yang pertama membahas

kompleksitas komputasi untuk solusi dengan pinalti minimum, yang mana banyak

publikasi mempertimbangkan pada masalah yang sangat sulit. Karena itu, adalah

sulit untuk mencapai MA dengan penalti minimum secara teori. Masalah MA

menjadi masalah dari kompleksitas komputasi (Shen dkk, 2008).

Sebagai contoh MA, dengan menggunakan tiga sekuens yang disejajarkan

yaitu = VIVALASVEGAS, = VIVADAVIS dan = VIVADALLAS. MA

dari tiga sekuens tersebut ditunjukkan oleh yang terlihat seperti berikut.

Ketika dilakukan untuk sekuens terkait, MA dapat membantu para peneliti

mengidentifikasi domain dan daerah lainnya yang menarik. Selain itu bisa dengan

mudah beradaptasi definisi pensejajaran berpasangan (pairwise alignment) untuk

menutupi kasus ini (Cristianini dkk, 2006). Masalah MA dipecahkan dengan

menggunakan beberapa metode yang berbeda , seperti classical, progressive, dan

iterative algorithms.

2.7.1 Metode Progressive

Adanya hubungan timbal balik antara pensejajaran dan hubungan

filogenetik antar sekuens di dalamnya memunculkan ide bahwa suatu pensejajaran

yang baik dapat dibuat berdasarkan hubungan filogenetiknya dalam bentuk sebuah

pohon. Namun demikian, hasil pensejajaran sekaligus juga pohon filogenetik dari

suatu sekuens yang belum disejajarkan merupakan hal yang rumit. Pendekatannya

adalah dengan menghasilkan suatu alignment sementara lalu membuat pohon dari

pensejajaran sementara tersebut, kemudian mengoptimasi pensejajaran tersebut

berdasarkan informasi kekerabatan antar sekuens yang terdapat dalam pohon

(Naznin dkk, 2012).

Metode progressive menghasilkan Multiple Alignment dari sejumlah

pensejajaran secara berpasangan (Pairwase Alignment). Metode Progressive

membentuk pensejajaran dengan menambahkan satu sekuens pada saat itu

25

menurut skor untuk berpasangan mereka, sehingga biasanya sekuens yang

mensejajarkan terbaik ditambahkan ke pelurusan pertama (Mojbak dkk, 2010).

Langkah-langkah pensejajaran sekuens menggunakan Metode Progressive

sebagai berikut.

1. Melakukan pensejajaran berpasangan untuk setiap pasang sekuens.

2. Membentuk matriks jarak dari hasil pensejajaran dari setiap pasang

sekuens. Entri dalam matriks jarak adalah beda hasil pensejajaran

pasangan sekuens.

3. Membangun pohon filogentik dari pensejajaran dengan jarak evolusi.

4. Hasil pensejajaran diperoleh melalui pohon filogenetik yang telah

dikontruksi.

Metode Progressive menggunakan Metode Dinamic Programming untuk

membentuk pensejajaran sekuens secara keseluruhan dimulai dengan sekuens

paling terkait atau kelompok sekuens ke pensejajaran awal (Ulum dkk, 2013).

2.8 Filogenetik Molekuler

Filogenetik molekuler adalah ilmu yang mempelajari hubungan

evolusioner antara organisme, gen, atau protein, menggunakan kombinasi biologi

molekuler dan teknik statistik. Hubungan filogenetik biasanya digambarkan dalam

bentuk pohon biner. Struktur pohon menggambarkan kemungkinan hubungan

keturunan leluhur antara varian diketahui yang ada di masa lalu, dimana

leluhurnya masih mempunyai hubungan kekerabatan dengan varian sekarang atau

node eksternal (Polanski dkk, 2007).

2.8.1 Pohon

Sebagaimana dinyatakan pada sub bab 2.5, hubungan filogenetik dapat

direpresentasikan dalam bentuk pohon, biasanya diposisikan terbalik.

Pengamatan, biasanya dalam bentuk sekuens, hanya tersedia di bawah pohon.

Tugas molekuler filogenetik adalah untuk menemukan struktur (topologi) dari

pohon, dan panjang cabang, yang mewakili struktur keterkaitan dari sekuens yang

masih ada dan kedalaman waktu hubungan ini (Polanski dkk, 2007).

26

Sebuah pohon adalah sebuah grafik yang terdiri dari node dan cabang, di

mana dua node yang terhubung oleh jalan yang unik. Sebuah pohon biner adalah

pohon dengan cabang diarahkan, sehingga masing-masing node memiliki lebih

dari dua keturunan. Sebuah pohon filogenetik adalah pohon yang node dan cabang

memiliki interpretasi sebagai spesies atau sekuens molekul dan hubungan di

antara mereka (Polanski dkk, 2007).

Dalam pohon terdapat istilah-istilah yang digunakan, adapun penjelasan

mengenai istilah-istilah yang ada hubungannya dengan pohon sebagai berikut:

a. Node

Node dalam pohon filogenetik disebut unit taksonomi. biasanya unit

taksonomi diwakili oleh sekuens (DNA atau RNA, nukleotida atau asam amino).

Sekuens tersebut sesuai dengan spesies atau individu dalam populasi yang

baisanya diwakili oleh parameter yang menggambarkan individu, seperti panjang,

sudut, atau warna.

b. Cabang

Cabang di pohon filogenetik menunjukkan keturunan atau hubungan

keturunan antar node.

c. Node terminal.

Node terminal juga disebut node eksternal, daun, atau ujung pohon. Untuk

pohon filogenetik, nama-nama node terminal unit taksonomi adalah unit

taksonomi yang masih ada atau unit taksonomi operasional.

d. Akar

Akar adalah node asal atau nenek moyang dari semua node.

e. Pohon berakar atau pohon tidak berakar.

Pada Gambar. 2.1, disajikan contoh pohon berakar dibandingkan pohon

tidak berakar untuk set yang sama node yang masih ada A, B, C, D, E. Dalam

pohon berakar, arah jalur evolusi (waktu) selalu ditentukan. Dalam pohon tidak

berakar, node yang masih ada secara unik ditentukan tetapi ada banyak jalur

evolusi mungkin, tergantung pada lokasi dari akar.

27

(a) (b)

Gambar 2.1 (a) Pohon berakar dan (b) Pohon tidak berakar

f. Topologi

Topologi adalah pola percabangan pohon. Jumlah kemungkinan

topologi pada umumnya sangat besar. Jika jumlah Tus yang masih ada

adalah n, jumlah pohon tidak berakar berlabel berbeda adalah

( )

( ) (2.2)

dan jumlah pohon berakar berlabel berbeda adalah

( )

( ) (2.3)

Ekspresi di atas dapat diturunkan menggunakan prosedur iterasi dengan

menambahkan cabang pohon yang ada.

g. Panjang cabang

Panjang dari cabang menentukan matriks dari pohon. Pada pohon

filogenetik, panjang cabang diukur dalam satuan evolusi

waktu. Berlalunya waktu evolusi menghasilkan akumulasi perubahan

evolusioner. Karena itu, ketika menyimpulkan matriks dari pohon filogenetik,

jumlah dari evolusi berubah diantara spesies estimator dari panjang cabang.

Sebuah pohon berakar merupakan evolusi diarahkan dari nenek

moyang ke semua node terminal. Node internal lainnya dari

pohon merupakan nenek moyang kelompok tertentu dari Otus. Dengan

menghapus akar dari pohon berakar dan bergabung dengan dua cabang turun

dari akar menjadi cabang tunggal, satu memperoleh pohon tidak berakar.

Pohon tersebut dilakukan tidak mengandung informasi tentang arah evolusi

akar

A B C D E

A

B

C

D

E

28

dan menentukan hanya hubungan evolusi antara Otus. Gambar 2.2

menunjukkan pohon berakar dengan empat spesies mamalia dan gambar 2.3

menunjukkan pohon tidak berakar dengan empat spesies mamalia.

Gambar 2.2 Pohon berakar dengan empat spesies mamalia

Gambar 2.3 Pohon tidak berakar dengan empat spesies mamalia

Dua representasi yang diberikan untuk setiap pohon. Perhatikan bahwa

dua intern node dari pohon berakar mewakili masing-masing nenek moyang dari

kelompok {lumba-lumba, paus, babi} dan nenek moyang dari kelompok yang

lebih kecil {Lumba-lumba dan paus}. Pohon yang dijelaskan dalam gambar 2.2

dan gambar 2.3 disebut sebagai pohon filogenetik pohon. Setiap pohon filogenetik

yang daunnya diberi label oleh Otu tertentu, dikatakan untuk menghubungkan

Otu.

Panjang masing-masing cabang pohon adalah angka positif yang

merupakan tingkat keterkaitan antara spesies atau urutan yang sesuai ke kelenjar

di titik akhir dari cabang dan sering dihitung sebagai produk dari panjang interval

waktu yang secara historis memisahkan spesies atau urutan dan nilai tertentu dari

tingkat evolusi, yang mencoba untuk memperhitungkan fakta bahwa beberapa

Horse

Ping

Dolphin

Whale

Whale

Horse

Ping

Dolphin

𝑥

Pin

g

Root

Horse Dolphin Whale Ping

Root

Horse

Dolphin

Whale

29

spesies atau gen berevolusi lebih cepat dari pada yang lain. Pada gambar. 2.2

hanya memberikan pola percabangan yang benar, tidak ada panjang cabang.

Panjang cabang sering ditampilkan sebagai label di sebelah cabang yang sesuai.

Pohon yang terdapat panjang pohon dapat dilihat pada gambar 2.4.

Gambar 2.4. Pohon dengan panjang pohon

2.8.2 Pohon Filogenetik (Phylogenetic tree)

Pohon filogenetik atau pohon evolusi adalah grafik tanpa siklus atau

pohon yang menunjukkan hubungan evolusi di antara berbagai spesies biologi

berdasarkan kedekatan genetik berbagai spesies (Ruzgar dkk, 2011). Tujuan dari

filogeni adalah untuk merekonstruksi sejarah kehidupan dan menjelaskan

keanekaragaman makhluk hidup saat ini. Hal ini dapat direpresentasikan sebagai

pohon genealogis besar (pohon kehidupan). Prinsip yang mendasari filogeni

adalah mencoba untuk mengelompokkan makhluk hidup sesuai dengan tingkat

kemiripan. Dalam konteks ini, asumsikan bahwa dua spesies yang lebih serupa

(seperti manusia dan kera), semakin dekat kekerabatan mereka dengan nenek

moyang mereka. Filogenetik merupakan jenis khusus dari filogeni yang

bergantung pada perbandingan gen yang berasal dari beberapa spesies untuk

merekonstruksi pohon genealogis pada spesies ini dan mencari tahu siapa kerabat

terdekat misalnya dalam keluarga (Claverie dkk, 2007).

Untuk menggambarkan hubungan evolusi antara gen dan organisme

dalam suatu hubungan kekerabatan yang erat dengan menggunakan pohon

𝑥

𝑥6

𝑥

𝑥

𝑥

𝑥

2 2

2

1

3

5

5

3

30

filogenetik. Disebut pohon filogenetik karena bentuknya menyerupai struktur

pohon. Istilah yang digunakan pada pohon filogenetik merujuk ke berbagai bagian

dari pohon (misalnya akar, cabang, node dan daun). Node eksternal atau daun

merepresentasikan taxa atau disebut OTUs (Operational Taxonomic Units), istilah

tersebut juga mewakili berbagai jenis taxa yang sebanding. Sebagai contoh,

sebuah keluarga organisme, individu atau strain virus dari satu spesies atau dari

spesies yang berbeda. Node internal atau disebut HTU (Hipothetical Taxonomic

Units) menekankan bahwa mereka adalah leluhur hipotesis OTUs. Sebuah cluster

merupakan sekelompok taxa yang berbagi cabang yang sama memiliki asal

monofiletik (Lemey dkk, 2009).

akar

(a) (b)

Gambar 2.5 (a) Pohon filogenetik berakar dan (b) Pohon filogenetik tidak berakar

Pada gambar 2.5 kedua pohon memiliki topologi yang sama. Pada gambar

di atas, Taxa A, B dan C membentuk cluster, memiliki leluhur bersama H, karena

asalnya monofiletik. Sedangkan C, D dan E tidak membentuk cluster tanpa

memasukkan strain tambahan dan tidak berasal dari monofiletik disebut

paraphyletic. Percabangan pola disebut sebagai topologi pohon. Pada pohon

berakar yang ditunjukkan pada gambar 2.5 (a), sebagai node internal atau OTU

yaitu A, B, C, D, dan F. Sedangkan node internal atau HTU yaitu G, H, I, J dan K,

dengan K sebagai simpul akar. Panah menunjukkan arah evolusi (misal dari akar

K

J

H

G A

B

C

D I

F

A B

C

D

E

E

F

G

H

I

J

31

K ke node eksternal D). Pada pohon tidak berakar yang ditunjukkan pada gambar

2.5 (b) tidak memiliki simpul akar, hanya garis antara node cabang. Sebuah pohon

tidak berakar hanya memposisikan sekelompok individu tanpa menunjukkan arah

proses evolusi. Dalam sebuah pohon tidak berakar, tidak ada indikasi yang

mewakili nenek moyang dari semua OTU (Lemey dkk, 2009).

(a) (b)

Gambar 2.6 Struktur dari pohon Filogenetik berakar

Pada gambar 2.6 menunjukkan pohon yang sama seperti pada gambar 2.5

tetapi dalam bentuk yang berbeda. Pada gambar 2.6, kedua gambar memiliki

topologi yang identik. Cabang diinternal node dapat diputar tanpa merubah

topologi pohon (Lemey dkk, 2009).

2.8.3 Metode-metode Pembentukan Pohon

Pohon filogenetik dapat dibentuk atas dasar pendekatan yang sangat

berbeda, yang mungkin dibagi menjadi metode berorientasi data dan metode

berorientasi model. Contoh metode berorientasi data adalah metode berbasis jarak.

Metode jarak, pohon yang dibangun dengan menggabungkan sekuens dengan

jarak kecil di antara mereka. Contoh lain adalah Metode Maximum Parsimony,

dengan Metode Maximum Parsimony pohon yang dibentuk menjelaskan data

yang diamati menggunakan nilai terkecil. Tidak ada diasumsikan model evolusi

dalam Metode Jarak dan Metode Maximium Parsimony. Mungkin ini menjadi

alasan mengapa pendekatan berorientasi data lebih menarik bagi ahli biologi dan

biasanya dianggap "model-bebas" (Polanski dkk, 2007).

F

F A

A C

C

D

E

B

J

H

G

J

B

D

E

I

G

H

32

Pendekatan model antara lain, Metode Maximum Likelihood dan metode

berdasarkan Coalescent tersebut. Dalam Metode Maximum Likelihood, model

probabilistik evolusi diasumsikan dan cocok untuk sekuens data untuk

memaksimalkan kemungkinan semua pohon. Menghitung likelihood adalah

komputasi secara intensif, tetapi metode ini dapat dilakukan dengan beberapa

cara, termasuk evolusi di bawah tekanan selektif, yang mungkin membantu dalam

identifikasi protein aktif (Polanski dkk, 2007).

Menerapkan metode filogenetik untuk berbagai gen dari gen keluarga

untuk merekonstruksi sejarah keluarga dengan cara yang sama. Menurut Shen

(Shen dkk, 2008) metode-metode untuk membangun pohon filogenetik adalah

sebagai berikut:

1. Metode Berbasis Jarak

Setiap hasil alignment dapat digunakan untuk menghitung matriks

jarak antar sekuens. Bedasarkan pada matriks jarak, akan dapat dihasilkan

pohon filogenetik yang sesuai. Metode yang paling populer disebut

UPGMA (Unweighted Pair Group Method with Aritmatic) dan Neighbor-

Joining.

2. Metode Berbasis Fitur

Metode jenis ini menggunakan fitur (karakteristik) dari output

alignment untuk membangun pohon filogenetik. Metode berbasis fitur

yang digunakan dalam filogenetik adalah Metode Maximum Parsimony.

Penentuan pohon dengan tree length terkecil tidak dilakukan berdasarkan

matriks distance seperti pada ME. Perhitungan branch length dan tree

length pada metode MP didapatkan dari jumlah substitusi minimum antar

character state setiap situs pada sequence alignment.

3. Metode Berbasis Probabilitas

Penggunaan metode berbasis probabilitas ini untuk membangun

pohon filogenetik dimulai dengan membangun suatu model probabilitas

untuk mutasi sekuens, kemudian membangun pohon flogeetik didasarkan

pada output dan model probabilitas.

33

2.9 Metode Berbasis Jarak (Distance Based Methods)

Metode jarak adalah salah satu metode pembentukan pohon filogenetik

dari sekumpulan jarak antar setiap pasangan sekuens yang telah disejajarkan.

Sekumpulan jarak tersebut dituliskan dalam bentuk matriks yang disebut matriks

jarak (Isaev, 2007). Adapun bentuk matriks jarak dapat dilihat pada contoh 3.

Contoh 2.3 : Diberikan N = 5 dan diberikan matriks jarak sebagai beikut.

0 11 8 9 8

11 0 13 14 13

8 13 0 9 8

9 14 9 0 9

8 13 8 9 0

Pada contoh 2.3 menunjukkan matriks jarak dari lima sekuens (OTU)

dengan himpunan sekuens * +. Setiap elemen matriks tersebut

merepresentasikan jarak genetik antar sekuens yang terlibat. Misalnya, jarak

antara OTU dan adalah 8. Angka tersebut menyatakan perbedaan genetik

sekuens dan sebesar 8 satuan. Perbedaan tersebut terjadi karena proses

evolusi yang terjadi didalam struktur genetiknya. Angka-angka tersebut bisa

dikatakan sebagai waktu evolusi atau perbedaan banyaknya gen akibat evolusi.

Terdapat asumsi bahwa diberi matriks jarak berpasangan antara sekuens.

Misal adalah sebuah himpunan dan adalah sebuah fungsi,

dikatakan sebagai distance function atau fungsi jarak pada jika

( ) untuk setiap 2.5

( ) untuk 2.6

( ) ( ) untuk setiap 2.7

Memenuhi ketidaksamaan segitiga ( ) ( ) ( ) untuk setiap

2.8

Jika adalah distance function atau fungsi jarak pada , maka untuk

, bilangan ( ) disebut sebagai jarak antara dan . Setiap set M

dapat berubah menjadi matriks ruang jika diperkenalkan fungsi jarak dari M

34

dengan menetapkan ( ) untuk semua , dan ( )

untuk semua , tetapi fungsi jarak ini sangat tidak informatif.

Himpunan yang dipakai disini adalah himpunan berhingga

* + yang merupakan himpunan sekuens (OTU) yang akan dibentuk pohon

filogenetik-nya. Diasumsikan bahwa fungsi jarak terdefinisi di dan relevan

secara biologi, maksudnya adalah sesuai dengan informasi genetik yang ada pada

sekuens di . Sebagai contoh ( ) ( ) berarti OTU dan lebih

jauh hubungan evolusi atau kekerabatannya dibanding OTU dan . Untuk

menyederhanakan penulisan, ( ) ditulis sebagai dengan * +.

Berdasarkan fungsi jarak tersebut dapat diperoleh matriks jarak (distance matrix)

( ) dengan definisi formal sebagai berikut.

Definisi 3. Misalkan adalah suatu fungsi jarak, disebut sebagai matriks

jarak yang didefinisikan oleh

[

]

dengan dan n adalah jumlah OTU yang terlibat (Isaev, 2007).

Pengelompokan program menghasilkan sebuah pensejajaran dan pohon

dari set sekuens protein. Metode jarak bekerja pada jumlah perubahan diantara

masing-masing pasangan dalam kelompok untuk mengkonstruksi pohon

filogenetik dalam kelompok. Pasangan sekuens yang mempunyai jumlah

perubahan terkecil diantara mereka disebut neighbors. Dalam pohon filogenetik,

sekuens-sekuens ini menggunakan secara bersama-sama satu titik dan masing-

masing dihubungkan titik oleh sebuah cabang. Tujuan dari metode jarak adalah

untuk mengidentifikasi pohon pada posisi neighbors dengan benar, dan juga

mempunyai cabang yang menghasilkan data dengan jarak sedekat mungkin.

Langkah pertama dalam membentuk multiple sequence alignment adalah

35

penemuan neighbors terdekat diantara kelompok sekuens dengan metode jarak

(Feng dkk, 1996).

2.10 Metode UPGMA

Metode UPGMA (Unwight Pair Group Method with Arithmetic Average)

adalah metode untuk konstruksi pohon yang mengasumsikan rata-rata perubahan

sepanjang pohon adalah konstan dan jaraknya kira-kira ultrameric (ultrameric

biasanya diekspresikan sebagai molecular clock tree). Metode UPGMA dimulai

dengan kalkulasi panjang cabang diantara sekuen paling dekat yang saling

berhubungan, kemudian rata-rata jarak antara sekuens ini atau kelompok sekuens

dan sekuens berikutnya atau kelompok sekuens dan berlanjut sampai semua

sekuens yang termasuk dalam pohon. Akhirnya metode ini memprediksi posisi

root dari pohon (Shen dkk, 2008).

Metode UPGMA adalah metode paling sederhana dari semua metode

clustering yang digunakan untuk membentuk pohon filogenetik. Metode ini

membutuhkan kecepatan substitusi dari nukleotida atau asam amino menjadi

seragam dan tidak berubah melalui seluruh proses evolusi. Dengan kata lain,

memenuhi hipotesis mengukur waktu molekuler. Pada setiap node induk, panjang

cabang dari node induk ke dua simpul anak adalah sama (Isaev, 2007).

Metode UPGMA mengasumsikan sebuah molecular clock dan rooted tree.

Metode ini secara normal menghitung skor similaritas yang didefinisikan sebagai

jumlah total dari jumlah sekuens yang identik dan jumlah substitusi konservatif

dalam pensejajaran dua sekuens dengan gap yang diabaikan. Skor identitas antara

sekuens menunjukkan hanya identitas yang mungkin ditemukan dalam

pensejajaran. Untuk analisis filogenetik digunakan skor jarak antara dua sekuens.

Skor diantara dua sekuens adalah jumlah posisi yang tidak cocok (mismatch)

dalam pensejajaran atau jumlah posisi sekuen yang harus diubah untuk

menghasilkan sekuens yang lain. Gap mungkin diabaikan dalam kalkulasi atau

diberi perlakuan seperti substitusi. Ketika sebuah skoring atau matriks substitusi

digunakan, kalkulasi menjadi lebih komplek tetapi secara prinsip tetap sama (Shen

dkk, 2008).

36

Metode UPGMA merupakan salah satu algoritma yang klasik untuk

konstruksi pohon. Metode UPGMA mengelompokkan dua kelas baru, ke suatu

cluster tiap-tiap waktu, sampai semua kelas dikumpulkan ke dalam satu kelas.

Sebenarnya Metode UPGMA adalah sebuah metode clustering konstruktif

berdasarkan bergabung pasang cluster (Hochreiter, 2008). Metode UPGMA

bekerja dengan mengikuti langkah-langkah sebagai berikut.

1. Awalnya, setiap sekuens adalah cluster dengan satu elemen .

Ketinggian dari setiap cluster adalah 0. Masukkan semua ke dalam

daftar.

2. Pilih cluster pasangan ( ) dari daftar dengan jarak minimal dan

membuat cluster baru dengan bergabung dan . Menetapkan tinggi

dan jumlah elemen .

3. Menghitung jarak untuk cluster baru untuk cluster lainnya :

(2.9)

Rumus untuk memastikan bahwa adalah jarak rata-rata dari semua

elemen di dan .

4. Hapus dan dari daftar dan menambahkan ke dalam daftar. Jika daftar

berisi hanya satu elemen kemudian ulangi langkah 2.

Sebelum Metode UPGMA diterapkan untuk permasalahan dalam

identifikasi hubungan kekerabatan jenis-jenis virus ebola dan penyebarannya dan

diselesaikan secara komputasional, terlebih dahulu diberikan gambaran proses

langkah-langkah pembentukan pohon filogenetik dengan proses penyelesaian

secara manual dalam bentuk contoh sederhana 2.3.

Contoh 2.3. Diberikan lima sekuens DNA. Metode UPGMA bekerja

dengan mengikuti langkah-langkah sebagai berikut.

Awalnya, setiap sekuens adalah cluster dengan satu elemen .

Ketinggian dari setiap cluster adalah 0. Untuk satu set sekuens dari A sampai E

kita mendapatkan daftar berikut cluster dengan ukuran n masing-masing.

Untuk satu set sekuens dari A sampai E diperoleh daftar berikut cluster dengan

ukuran masing-masing.

( ) ({A}, {B}, {C}, {D}, {E})

37

( ) (1, 1, 1, 1, 1)

Mulai dengan jarak berpasangan yang diperoleh dari pensejajaran sebagai berikut.

A B C D E

A 0 0,012 0,043 0,038 0,095

B 0,012 0 0,042 0,033 0,092

( ) : C 0,043 0,042 0 0,037 0,097

D 0,038 0,033 0,037 0 0,093

E 0,095 0,092 0,097 0,093 0

Ulangi langkah-langkah berikut sampai daftar hanya berisi satu elemen:

1. Pilih cluster pasangan ( ) dari daftar dengan jarak minimal dan

membuat cluster baru dengan bergabung dan . Menetapkan tinggi

dan jumlah elemen .

2. Menghitung jarak untuk cluster baru untuk cluster lainnya :

Rumus memastikan bahwa adalah jarak rata-rata dari semua elemen

di dan .

3. Hapus dan dari daftar dan menambahkan ke dalam daftar.

Dalam contoh 2.3 jarak terkecil antara cluster {A} dan {B}. Kemudian cluster

{A} dan {B} digabung menjadi cluster baru {A, B} dengan dan

.

Diperoleh:

( ) ({A, B}, {C}, {D}, {E})

( ) (2, 1, 1, 1)

38

Jarak baru:

AB C D E

AB 0 0,0425 0,0355 0,0935

( ) : C 0,0425 0 0,037 0,097

D 0,0355 0,037 0 0,093

E 0,0935 0,097 0,093 0

Misalnya : Jarak antara cluster {A, B} dan {C} dihitung dengan menggunakan

.

Kemudian lihat lagi untuk jarak terkecil dan bergabung cluster {A, B} dan {D}

menjadi cluster {A, B, D} dengan ketinggian

.

Dipeoleh:

( ) ({A, B, D}, {C}, {E})

( ) (3, 1, 1)

Jarak baru:

ABD C E

( ) ABD 0 0,0406 0,093

C 0,0406 0 0,097

E 0,093 0,097 0

Misalnya: Jarak antara cluster {A, B, D} dan {C} dihitung dengan menggunakan

.

Sekarang jarak terkecil bergabung cluster {A, B, D} dan {C} menjadi cluster {A,

B, C, D} dengan ketinggian 6

.

Diperoleh:

( ) ({A, B, C, D}, {E})

( ) (3, 1, 1)

39

Jarak baru:

ABCD E

( ) ABCD 0 0,094

E 0,094 0

Misalnya: Jarak antara cluster {A, B, C, D} dan {E} dihitung dengan

menggunakan

.

Langkah selanjutnya mudah. Sisa cluster bergabung ke satu cluster besar dan

algoritma berakhir.

( ) ({A, B, C, D, E})

( ) (5)

.

Pohon filogenetik dibangun menggunakan rangka bergabung dan nilai-

nilai tinggi yang dihitung. Adapun pohon filogentik yang dibentuk menggunakan

langkah-langkah Metode UPGMA di atas dapat dilihat pada gambar 2.7.

Gambar 2.7. Pohon filogenetik dibangun oleh Metode UPGMA

B

E

C

D

A

0,12155

0,0587

0,057

0,1425525

41

Pembuatan program pensejajaran dengan Metode Progresif

BAB 3

METODA PENELITIAN

Pada bagian ini diuraikan beberapa tahapan penelitian yang akan

dilakukan serta alur tahapan-tahapan tersebut untuk mencapai tujuan penelitian.

3.1 Tahapan Penelitian

Secara umum, tahapan yang dilakukan dalam penelitian ini disampaikan

pada diagram alir penelitian seperti pada Gambar 3.1.

Studi literatur

- Protein

- DNA

- Virus ebola

- Model Affine Gap Penalty

- Algoritma Center Star Alignment

- Molekuler filogenetik

Pengambilan data dari WEB :

- Uniprot (www.uniprot.org)

- National Center for Biotechnologi Informatika (www.ncbi.nih.gov)

Pembuatan pohon filogenetik metode UPGMA secara manual

Pembuatan progam pohon filogenetik menggunakan Matlab

Hasil Pembentukan pohon filogenetik metode UPGMA

Analisis dan Pembahasan

Kesimpulan dan saran

Gambar 3.1 Diagram Alir Penelitian

http://www.ncbi.nih.gov/

42

Berdasarkan diagram alir pada Gambar 3.1, maka dijelaskan lebih rinci

sebagai berikut.

3.1.1 Studi Literatur

Pada tahap ini penulis mengumpulkan informasi, keterangan, dan teori

dalam jurnal dan buku yang berhubungan dengan penyakit virus ebola dan gejala-

gejala penyakit virus ebola, pohon filogenetik, multiple alignment, serta Metode

UPGMA yang akan digunakan dalam proses penelitian. Informasi diperoleh dari

penelitian-penelitian terdahulu yang telah dilakukan.

3.1.2 Pengambilan Data

Pada tahap ini dilakukan pengumpulan data-data yang mendukung

perancangan pohon filogenetik. Data-data yang dikumpulkan berupa data sekuens

protein beberapa jenis virus ebola yang diambil dari Uniprot (www.uniprot.org),

dan data DNA host maupun individu lain yangterinfeksi berdasarkan tanggal dan

tempat ditemukan diambil dari National Center for Biotechnology

Information(www.nlm.nih.ncbi.gov).

3.1.3 Pembuatan Progam Pensejajaran

Pada tahap ini dilakukan pensejajaran sekuens untuk mendapatkan matriks

jarak. Pensejajaran sekuens dibentuk menggunakan Metode Progresive yang

didalamnya terdapat pensejajaran sekuens berpasangan menggunakan Algoritma

Nedleman Wunsch. Software yang digunakan untuk mengimplementasikan

algoritma ini adalah Matlab 2012b. Pada penelitian ini pensejajaran dilakukan

menggunakan Metode Progresive yang didalamnya terdapat Algoritma Nedleman

Wunsch dengan bantuan fungsi yang terdapat di dalam Matlab. Untuk

mendapatkan beberapa sekuens dengan panjang yang sama. Berdasarkan output

MA tersebut akan digunakan untuk mendapatkan matriks jarak. Perangkat keras

yang digunakan adalah komputer dengan Processor Intel Pentium Core i3,

memory DDRAM 1GB, hardisk 500 GB. Sedangkan perangkat lunak yang

digunakan adalah Sistem Operasi Microsoft Windows 8, Notepad dan Bahasa

Pemrograman Matlab 2012b.

http://www.uniprot.org/

http://www.nlm.nih.ncbi.gov/

43

Adapun Multiple Alignment menggunakan Metode Progressive

disampaikan pada diagram alir (Ulum dkk, 2013) pada gambar 3.2 sebagai

berikut.

Gambar 3.2 Multiple Alignment oleh Metode Progresive

3.1.4 Pembuatan Pohon Filogenetik Metode UPGMA

Matriks jarak diperoleh berdasarkan hasil pensejajaran. Setelah

mendapatkan hasil pensejajaran himpunan sekuens dengan panjang sama, pada

tahap ini dilakukan penskoran menggunakan fungsi jarak Hamming. Kemudian

dihitung jarak evolusi untuk setiap pasangan sekuens berdasarkan hasil pasangan

homologi mereka sehingga menghasilkan matriks jarak. Setelah diperoleh matriks

jarak, langkah selanjutnya adalah perhitungan manual dengan metode berbasis

jarak, dalam penelitian ini menggunakan algoritma UPGMA. Kemudian

dilanjutkan dengan proses komputasi.

Adapun proses pembuatan pohon filogenetik disampaikan pada diagram

alir pada gambar 3.3.

Sekuens

DNA

Pairwase Alignment Distance Matrix

Sekuens Clustering Guide Tree

Progressive Alignment

44

Proses pensejajaran sekuens Metode Progressive

𝑆1 : A-AGTGCA

𝑆2 : ACCGTGCG

𝑆3 : AGTATC-G

𝑆4 : AATATCCA

𝑆5 : AGGATCCG

𝑆6 : A-AGTGCC

𝑆7 : AGTATC-C

Sekuens DNA:

1: AAGTGCA

2: ACCCGTGCG

3: AGTATCG

4: AATATCCA

5: AGGATCCG

6: AAGTGCC

7: AGTATCC

Pembentukan Matriks Jarak

1 2 3 4 5 6 7

1 0 0,5 0,714 0,375 0,375 0,142 0,714

2 0,5 0 0,625 0,75 0,755 0,625 0,875

3 0,714 0,625 0 0,375 0,25 0,625 0,42

4 0,375 0,75 0,375 0 0,375 0,5 0,25

5 0,375 0,755 0,25 0,375 0 0,5 0,25

6 0,142 0,625 0,625 0,5 0,5 0 0,714

7 0,714 0,875 0,42 0,25 0,25 0,714 0

Pembentukan pohon filogenetik Metode UPGMA

Gambar 3.3 Diagram Alir Proses Pensejajaran hingga Pohon Filogenetik

𝑆1

𝑆2

𝑆6

𝑆3

𝑆7

𝑆5

𝑆4

45

3.1.5 Hasil Pembentukan Pohon Filogenetik

Hasil pembentukan pohon filogenetik digunakan untuk identifikasi

hubungan kekerabatan jenis-jenis virus ebola. Kemudian pembuatan pogram

untuk simulasi hasil Identifikasi penyebaran virus ebola juga karena data yang

digunakan sangat besar sehingga tidak memungkinkan bila pohon filogenetik

dibentuk secara manual.

3.1.6 Analisis dan Pembahasan

Pada tahap ini, dilakukan analisis hasil pohon filogenetik untuk

mengetahui hubungan kekerabatan beberapa jenis virus ebola. Selanjutnya

dilakukan analisis mengenai hubungan kekerabatan jenis virus ebola terkait

dengan asal penyebaran epidemi ebola .

47

BAB 4

HASIL DAN PEMBAHASAN

Pada bagian ini diberikan penjelasan mengenai langkah-langkah

membangun pohon filogenetik dengan menggunakan Metode UPGMA. Setelah

itu, ditunjukkan implimentasi algoritma tersebut dalam bentuk program dan

dilakukan pengujian hasil implementasi terhadap suatu contoh sederhana.

Selanjutnya, program digunakan untuk menyelesaikan permasalahan identifikasi

kekerabatan jenis virus ebola dan penyebarannya.

4.1 Identifikasi Kekerabatan Jenis-jenis Virus Ebola

Ada lima jenis virus ebola diantaranya Zaire ebolavirus, Sudan ebolavirus,

Bundibugyo ebolavirus, Tai Forest ebolavirus dan Reston ebolavirus. Pada

penelitian ini dibentuk pohon filogenetik untuk mengetahui hubungan kekerabatan

antar jenis virus ebola satu dengan jenis virus ebola lainnya.

4.1.1 Pengumpulan data

Ada banyak sekuens protein ebola yang ada di Uniprot, namun dalam

penelitian ini digunakan 21 sekuens protein untuk tiap jenis virus ebola. Data

tersebut digunakan untuk mengidentifikasi hubungan kekerabatan jenis virus

ebola, masing-masing sekuens disejajarkan untuk dicari pola karakteristiknya.

Adapun data sekuens protein dari jenis-jenis virus ebola sebagai berikut :

1. Bundibugyo ebolavirus

Definition : Nucleoprotein

Kode Akses : B8XCM7

Panjang sekuens : 739aa

2. Zaire ebolavirus


Kode Akses : P18272


48

3. Sudan ebolavirus


Kode Akses : Q5XX08


4. Reston ebolavirus


Kode Akses : Q8JPY1



Definition : Matrix protein VP40

Kode Akses : B8XCM9


6. Tai Forest ebolavirus


Kode Akses : B8XCN8


7. Sudan ebolavirus


Kode Akses : Q5XX06




Kode Akses : Q8JPX9


9. Zaire ebolavirus


Kode Akses : Q05128



Definition : Spike glycoprotein

Kode Akses : B8XCN0


49


Definition : Spike glycoprotein

Kode Akses : B8XCN9


12. Sudan ebolavirus

Definition : Membrane-associated protein VP24

Kode Akses : Q5XX02




Kode Akses : Q77DB4


14. Zaire ebolavirus


Kode Akses : Q05322




Kode Akses : B8XCP3



Definition : Super small secreted glycoprotein

Kode Akses : P0C771




Kode Akses : P0C772




Kode Akses : Q9YMG2


50


Definition : Minor nucleoprotein VP30

Kode Akses : Q5XX03




Kode Akses : Q8JPX6




Kode Akses : Q77DJ5


4.1.2 Pensejajaran Sekuens

Pensejajaran dilakukan secara keseluruhan menggunakan Metode

Progressive. Sebelum diselesaikan secara komputasional, terlebih dahulu

diberikan gambaran proses penyelesaian secara manual dalam bentuk contoh

sederhana dalam membentuk pohon filogenetik. Adapun data yang digunakan

untuk contoh sebagai berikut.

Contoh 4.1. Diberikan tujuh sekuens DNA yaitu , , , , , dan

sebagai berikut

: AAGTGCA

: AAGTGCC

: AGTATCG

: AATATCCA

: AGGATCCG

: ACCCGTGCG

: AGTATCC

51

Proses pensejajaran sekuens menggunakan Metode Progressive. Adapun

langkah-langkah proses pensejajaran menggunakan Metode Progressive sebagai

berikut.

a. Melakukan pensejajaran berpasangan untuk setiap pasang sekuens.

Pensejajaran sekuens ini menggunakan program dinamik, yaitu

menggunakan algoritma Nedlemen Wunch.

Untuk mendapatkan hasil alignment dengan menggunakan algoritma

Needleman-Wunsch, dengan asumsi dan ( ) {

Perhitungan untuk Tabel Dua Dimensi

( )

( )

( )

( )

( )

( )

( )

( ) { ( ) ( ) ( ) ( ) }

( ) * ( ) ( ) ( ) ( )

* +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

52

( ) * ( ) ( ) ( ) ( ) +

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* +

* +

( ) * ( ) ( ) ( ) ( )

* +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

53

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

54

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

( ) * ( ) ( ) ( ) ( )

* +

* +

( ) * ( ) ( ) ( ) ( )

* +

* +

( ) * ( ) ( ) ( ) ( )

* +

* +

( ) * ( ) ( ) ( ) ( )

* ( ) +

* +

Berikut perhitungan untuk mencari lintasan menggunakan Metode Backward.

( ) ( ) ( )

( )

maka ( ) ( )

( ) ( ) ( )

maka ( ) ( )

55

( ) ( ) ( )

maka ( ) ( )

( ) ( ) ( )

maka ( ) ( )

( ) ( ) ( )

maka ( ) ( )

( ) ( ) ( )

maka ( ) ( )

( ) ( ) ( )

maka ( ) ( )

A A G T G C A

0 -7 -14 -21 -28 -35 -42 -49

A -7 5 -2 -9 -16 -23 -30 -37

A -14 -2 10 3 -4 -11 -18 -25

G -21 -9 3 15 8 1 -6 -13

T -28 -16 -4 8 20 13 6 -1

G -35 -23 -11 1 13 25 18 11

C -42 -30 -18 -6 6 18 30 23

C -49 -37 -25 -13 -1 11 23 27

Hasil pensejajaran dan

: AAGTGCA

: AAGTGCC

56

Menggunakan cara yang sama diperoleh pensejajaran untuk masing-

masing pasangan sekuens.

b. Membentuk matriks jarak dari hasil pensejajaran dari setiap pasang

sekuens. Entri dalam matriks jarak adalah jarak (beda) hasil pensejajaran

pasangan sekuens.

Sehingga diperoleh matriks jarak awal sebagai berikut

0 1 4 3 4 4 4

1 0 4 4 3 4 3

4 4 0 4 2 5 1

3 4 4 0 3 6 2

4 3 2 3 0 5 2

4 4 5 6 5 0 6

4 3 1 2 2 6 0

c. Konstruksi Pohon untuk beberapa Alignment

Dari tabel di atas dapat dilihat bahwa memiliki jarak terdekat dengan

maka dapat kita buat kontruksi dengan perhitungan 1/2 = 0,05.

0,05 0,05


: AAGTGCA

: AAGTGCC

57

Modifikasi matriks adalah :

( , )

0 4 2 5 1 4,5

4 0 3 6 2 4,5

2 3 0 5 2 3,5

5 6 5 0 6 4,5

1 2 2 6 0 3,5

( , ) 4,5 4,5 3,5 4,5 3,5 0

Dengan cara yang sama lakukan perhitungan untuk mencari jarak sekuens

yang terdekat, dan hasilnya dipasangkan dengan .


: AGTATCG

: AGTATCC

0,05 0,05

Modifikasi matriks adalah :

( , ) ( )

0 3 6 4,5 2,5

3 0 5 3,5 2,5

6 5 0 4,5 6,5

( , ) 4,5 3,5 4,5 0 3,5

( ) 2,5 2,5 6,5 3,5 0

58

AAGTGCA

AGTATC-G

AGTATC-C

AGGATCCG

AAGTGCA

Ulangi langkah-langkah pensejajaran tersebut hingga terbentuk pohon.

Maka, dengan menggabungkan semua pohon yang telah terbentuk, akan

dihasilkan pohon sebagaimana gambar 4.1.

Gambar 4.1. Pohon untuk Proses Pensejajaran

Sehingga dapat dikelompokkan hasil pensejajaran sekuens diperoleh sebagai

berikut.

: AAGTGCA G1

: AAGTGCC AAGTGCC

: AGTATCG G2

: AGTATCC AAGTGCC

: AGGATCCG & G2 G3

59

A-AGTGCA

A-AGTGCC

ACCGTGCG

AGTATC-G

AGTATC-C

AATATCCA

: ACCGTGCG & G1 G4

: AATATCCA & G2 G5

Hasil pensejajaran sekuens diperoleh sebagai berikut:

: A-AGTGCA

: ACCGTGCG

: AGTATC-G

: AATATCCA

: AGGATCCG

: A-AGTGCC

: AGTATC-C

Langkah awal sebelum melakukan pensejajaran adalah dengan mengambil

kode FASTA pada masing-masing sekuens untuk disimpan dalam Notepad. Untuk

sekuens semua sekuens disimpan dalam satu file sebagai data protein.txt.

Adapun perintah untuk melakukan pensejajaran sekuens sebagai berikut.

sekuen=handles.sekuen;

ma=multialign(sekuen,'verbose',true); showalignment(ma);

60

Adapun tampilan hasil pensejajaran sekuens matriks protein untuk

identifikasi hubungan kekerabatan untuk jenis-jenis virus ebola dapat dilihat pada

gambar 4.2.

Gambar 4.2 Pensejajaran sekuens matriks protein

4.1.3 Matriks Jarak

Berdasarkan hasil pensejajaran yang diperoleh untuk mendapatkan matriks

jarak. Matriks jarak diperoleh dengan cara menentukan beda (penalti) dan jarak

evolusi.

1. Menentukan matriks penalti.

Dalam data contoh 4.1 untuk sekuens {

Diperoleh hasil skor penalti untuk dan adalah 1.

2. Jarak evolusi

Perhitungan jarak ini menggunakan program dinamik, yaitu

Dalam data contoh 4.1 diperoleh hasil skor jarak evolusi untuk dan

adalah

61

Tabel 4.1 Hasil Jarak Evolusi Pasangan Sekuens Data Uji

No Pasangan Sekuens Panjang sekuens Beda (penalti) Jarak evolusi

1 sekuens dan 8 1 0,125





















Adapun perintah untuk penskoran matriks dari hasil pensejajaran sebagai

berikut.

sekuen=handles.sekuen;

dist = seqpdist(sekuen,'ScoringMatrix',gonnet); data={''}; k=0; for i=1:length(sekuen) for j=i+1:length(sekuen) k=k+1; data(k,1)={sekuen(i).Header}; data(k,2)={sekuen(j).Header}; data(k,3)={dist(k)}; end end coln=[{'Sekuen A','Sekuen B','Skor'}];

set(handles.uitable1,'Data',data,'ColumnName',coln);

Adapun hasil jarak evolusi pasangan sekuens protein yang diperoleh dari

hasil pensejajaran sekuens menggunakan Metode Progressive dengan bantuan

Matlab secara ringkas dapat dilihat pada tabel 4.2.

62

Tabel 4.2. Hasil Jarak Evolusi Pasangan Sekuens Protein

No Pasangan Sekuens Kode Akses Jarak Evolusi

1 Sekuens A dan sekuens B B8XCM7 dan P18272 0,2933

2 Sekuens A dan sekuens C B8XCM7 dan Q5XX08 0,4084

3 Sekuens A dan sekuens D B8XCM7 dan Q8JPY1 0,3913

4 Sekuens A dan sekuens E B8XCM7 dan B8XCM9 1,9198

5 Sekuens A dan sekuens F B8XCM7 dan B8XCN8 1,9723

6 Sekuens A dan sekuens G B8XCM7 dan Q5XX06 2,0278

7 Sekuens A dan sekuens H B8XCM7 dan Q8JPX9 1,18701

8 Sekuens A dan sekuens I B8XCM7 dan Q05128 2,0278

9 Sekuens A dan sekuens J B8XCM7 dan B8XCN0 2,3539

10 Sekuens A dan sekuens K B8XCM7 dan B8XCN9 2,2787

11 Sekuens A dan sekuens L B8XCM7 dan Q5XX02 2,0628

12 Sekuens A dan sekuens M B8XCM7 dan Q77DB4 2,0393

13 Sekuens A dan sekuens N B8XCM7 dan Q05322 2,0393

14 Sekuens A dan sekuens O B8XCM7 dan B8XCP3 2,0747

15 Sekuens A dan sekuens P B8XCM7 dan P0C771 2,0052

16 Sekuens A dan sekuens Q B8XCM7 dan P0C772 2,0052

17 Sekuens A dan sekuens R B8XCM7 dan Q9YMG2 2,0052

18 Sekuens A dan sekuens S B8XCM7 dan Q5XX03 2,0393

19 Sekuens A dan sekuens T B8XCM7 dan Q8JPX6 2,0052

20 Sekuens A dan sekuens U B8XCM7 dan Q77DJ5 2,0991

21 Sekuens B dan sekuens C P18272 dan Q5XX08 0,4043

22 Sekuens B dan sekuens D P18272 dan Q8JPY1 0,3836

23 Sekuens B dan sekuens E P18272 dan B8XCM9 1,9616

24 Sekuens B dan sekuens F P18272 dan B8XCN8 2,0510

25 Sekuens B dan sekuens G P18272 danQ5XX06 2,0393

26 Sekuens B dan sekuens H P18272 dan Q8JPX9 2,0052

27 Sekuens B dan sekuens I P18272 dan Q05128 1,9831

28 Sekuens B dan sekuens J P18272 dan B8XCN0 2,2659

29 Sekuens B dan sekuens K P18272 dan B8XCN9 2,2888

30 Sekuens B dan sekuens L P18272 dan Q5XX02 2,7047

31 Sekuens B dan sekuens M P18272 dan Q77DB4 2,0510

32 Sekuens B dan sekuens N P18272 dan Q05322 2,0052

33 Sekuens B dan sekuens O P18272 dan B8XCP3 1,9405

34 Sekuens B dan sekuens P P18272 dan P0C771 2,0991

35 Sekuens B dan sekuens Q P18272 dan P0C772 2,1497

36 Sekuens B dan sekuens R P18272 dan Q9YMG2 2,0628

37 Sekuens B dan sekuens S P18272 dan Q5XX03 2,0510

38 Sekuens B dan sekuens T P18272 dan Q8JPX6 2,0052

39 Sekuens B dan sekuens U P18272 dan Q77DJ5 2,0510

40 Sekuens C dan sekuens D Q5XX08 dan Q8JPY1 2,4016

41 Sekuens C dan sekuens E Q5XX08 dan B8XCM91 1,9491

42 Sekuens C dan sekuens F B8XCN8 dan B8XCN8 1,9813

63

43 Sekuens C dan sekuens G Q5XX08 dan Q5XXC06 1,9491

44 Sekuens C dan sekuens H Q5XX08 dan Q8JPX9 1,9597

45 Sekuens C dan sekuens I Q5XX08 dan Q05128 1,9387

46 Sekuens C dan sekuens J Q5XX08 dan B8XCN0 2,0500

47 Sekuens C dan sekuens K Q5XX08 dan B8XCN9 1,9869

48 Sekuens C dan sekuens L Q5XX08 dan Q5XX02 1,9180

49 Sekuens C dan sekuens M Q5XX08 dan Q77DB4 2,0034

50 Sekuens C dan sekuens N Q5XX08 dan Q05322 2,0146

51 Sekuens C dan sekuens O Q5XX08 dan B8XCP3 2,0260

52 Sekuens C dan sekuens P Q5XX08 dan P0C771 1,8978

53 Sekuens C dan sekuens Q Q5XX08 dan P0C772 2,2291

54 Sekuens C dan sekuens R Q5XX08 dan Q9YMG2 1,9491

55 Sekuens C dan sekuens S Q5XX08 dan Q5XX03 2,0146

56 Sekuens C dan sekuens T Q5XX08 dan Q8JPX6 2,0034

57 Sekuens C dan sekuens U Q5XX08 dan Q77DJ5 2,1349

58 Sekuens D dan sekuens E Q8JPY1 dan B8XCM9 1,9616

59 Sekuens D dan sekuens F Q8JPY1 dan B8XCN8 2,0510

60 Sekuens D dan sekuens G Q8JPY1 dan Q5XX06 2,0165

61 Sekuens D dan sekuens H Q8JPY1 dan Q8JPX9 1,9097

62 Sekuens D dan sekuens I Q8JPY1 dan Q05128 1,9405

63 Sekuens D dan sekuens J Q8JPY1 dan B8XCN0 2,2329

64 Sekuens D dan sekuens K Q8JPY1 dan B8XCN9 2,2150

65 Sekuens D dan sekuens L Q8JPY1 dan Q5XX02 1,9510

66 Sekuens D dan sekuens M Q8JPY1 dan Q77DB4 2,0628

67 Sekuens D dan sekuens N Q8JPY1 dan Q05322 2,0510

68 Sekuens D dan sekuens O Q8JPY1 dan B8XCP3 2,0628

69 Sekuens D dan sekuens P Q8JPY1 dan P0C771 1,9405

70 Sekuens D dan sekuens Q Q8JPY1 dan P0C772 2,0806

71 Sekuens D dan sekuens R Q8JPY1 dan Q9YMG2 2,0278

72 Sekuens D dan sekuens S Q8JPY1 dan Q5XX03 1,9831

73 Sekuens D dan sekuens T Q8JPY1 dan Q8JPX6 2,0747

74 Sekuens D dan sekuens U Q8JPY1 dan Q77DJ5 2,1497

75 Sekuens E dan sekuens F Q8JPY1 dan B8XCN8 0,1174

76 Sekuens E dan sekuens G Q8JPY1 dan Q5XX06 0,2747

77 Sekuens E dan sekuens H Q8JPY1 dan Q8JPX9 0,2830

78 Sekuens E dan sekuens I Q8JPY1 dan Q05128 0,1820

79 Sekuens E dan sekuens J Q8JPY1 dan B8XCN0 1,8860

80 Sekuens E dan sekuens K Q8JPY1 dan B8XCN9 1,9764

81 Sekuens E dan sekuens L Q8JPY1 dan Q5XX02 2,1358

82 Sekuens E dan sekuens M Q8JPY1 dan Q77DB4 2,2598

83 Sekuens E dan sekuens N Q8JPY1 dan Q05322 2,1653

84 Sekuens E dan sekuens O Q8JPY1 dan B8XCP3 2,1358

85 Sekuens E dan sekuens P Q8JPY1 dan P0C771 3,4214

86 Sekuens E dan sekuens Q Q8JPY1 dan P0C772 2,5175

87 Sekuens E dan sekuens R Q8JPY1 dan Q9YMG2 2,2735

64

88 Sekuens E dan sekuens S Q8JPY1 dan Q5XX03 2,2598

89 Sekuens E dan sekuens T Q8JPY1 dan Q8JPX6 2,0006

90 Sekuens E dan sekuens U Q8JPY1 dan Q77DJ5 2,1402

91 Sekuens F dan sekuens G B8XCN8 dan Q5XX06 0,2716

92 Sekuens F dan sekuens H B8XCN8 dan Q8JPX9 0,2668

93 Sekuens F dan sekuens I B8XCN8 dan Q05128 0,2008

94 Sekuens F dan sekuens J B8XCN8 dan B8XCN0 1,8753

95 Sekuens F dan sekuens K B8XCN8 dan B8XCN9 1,9883

96 Sekuens F dan sekuens L B8XCN8 dan Q5XX02 2,0794

97 Sekuens F dan sekuens M B8XCN8 dan Q77DB4 2,1072

98 Sekuens F dan sekuens N B8XCN8 dan Q05322 1,9084

99 Sekuens F dan sekuens O B8XCN8 dan B8XCP3 1,8823

100 Sekuens F dan sekuens P B8XCN8 dan P0C771 2,6169

101 Sekuens F dan sekuens Q B8XCN8 dan P0C772 2,5076

102 Sekuens F dan sekuens R B8XCN8 dan Q9YMG2 2,3471

103 Sekuens F dan sekuens S B8XCN8 dan Q5XX03 2,2935

104 Sekuens F dan sekuens T B8XCN8 dan Q9JPX6 2,0794

105 Sekuens F dan sekuens U B8XCN8 dan Q77DJ5 2,1653

106 Sekuens G dan sekuens H Q5XX06 dan Q8JPX9 0,2431

107 Sekuens G dan sekuens I Q5XX06 dan Q05128 0,2778

108 Sekuens G dan sekuens J Q5XX06 dan B8XCN0 1,9646

109 Sekuens G dan sekuens K Q5XX06 dan B9XCN9 1,9646

110 Sekuens G dan sekuens L Q5XX06 dan Q5XX02 1,8823

111 Sekuens G dan sekuens M Q5XX06 dan Q77DB4 2,2272

112 Sekuens G dan sekuens N Q5XX06 dan Q05322 2,0794

113 Sekuens G dan sekuens O Q5XX06 danB8XCP3 2,1358

114 Sekuens G dan sekuens P Q5XX06 dan P07C771 2,7212

115 Sekuens G dan sekuens Q Q5XX06 dan P07C22 2,5610

116 Sekuens G dan sekuens R Q5XX06 dan Q9YMG2 2,2735

117 Sekuens G dan sekuens S Q5XX06 dan Q55XX03 2,0609

118 Sekuens G dan sekuens T Q5XX06 dan Q8JPX6 2,1653

119 Sekuens G dan sekuens U Q5XX06 dan Q77DJ5 2,0346

120 Sekuens H dan sekuens I Q8JPX9 dan Q05128 0,3035

121 Sekuens H dan sekuens J Q8JPX9 dan B8XCN0 1,9883

122 Sekuens H dan sekuens K Q8JPX9 dan B8XCN9 1,9764

123 Sekuens H dan sekuens L Q8JPX9 dan Q5XX02 2,0736

124 Sekuens H dan sekuens M Q8JPX9 dan Q77DB4 2,0736

125 Sekuens H dan sekuens N Q8JPX9 dan Q05322 1,8375

126 Sekuens H dan sekuens O Q8JPX9 dan B8XCP3 1,8803

127 Sekuens H dan sekuens P Q8JPX9 dan P0C771 2,4261

128 Sekuens H dan sekuens Q Q8JPX9 dan P0C772 2,4906

129 Sekuens H dan sekuens R Q8JPX9 dan Q9YMG2 2,2871

130 Sekuens H dan sekuens S Q8JPX9 dan Q5XX03 2,0471

131 Sekuens H dan sekuens T Q8JPX9 dan Q8JPX6 2,1917

132 Sekuens H dan sekuens U Q8JPX9 dan Q77DJ5 2,2825

65

133 Sekuens I dan sekuens J Q05128 dan B8XCN0 1,9883

134 Sekuens I dan sekuens K Q05128 dan B8XCN9 2,0126

135 Sekuens I dan sekuens L Q05128 dan Q5XX02 2,0048

136 Sekuens I dan sekuens M Q05128 dan Q77DB4 2,0524

137 Sekuens I dan sekuens N Q05128 dan Q05322 2,0794

138 Sekuens I dan sekuens O Q05128 dan B8XCP3 1,9758

139 Sekuens I dan sekuens P Q05128 dan P0C771 2,3890

140 Sekuens I dan sekuens Q Q05128 dan P0C722 2,2489

141 Sekuens I dan sekuens R Q05128 dan Q9YMG2 2,3073

142 Sekuens I dan sekuens S Q05128 dan Q5XX03 2,2598

143 Sekuens I dan sekuens T Q05128 dan Q8JPX6 2,0794

144 Sekuens I dan sekuens U Q05128 dan Q77DJ5 2,1958

145 Sekuens J dan sekuens K B8XCN0 dan B8XCN9 0,3125

146 Sekuens J dan sekuens L B8XCN0 dan Q5XX02 2,0894

147 Sekuens J dan sekuens M B8XCN0 dan Q77DB4 2,0502

148 Sekuens J dan sekuens N B8XCN0 dan Q05322 2,1878

149 Sekuens J dan sekuens O B8XCN0 dan B8XCP3 2,1444

150 Sekuens J dan sekuens P B8XCN0 dan P0C771 1,1137

151 Sekuens J dan sekuens Q B8XCN0 dan P0C772 1,1916

152 Sekuens J dan sekuens R B8XCN0 dan Q9YMG2 1,0839

153 Sekuens J dan sekuens S B8XCN0 dan Q5XX03 2,0126

154 Sekuens J dan sekuens T B8XCN0 dan Q8JPX6 1,9764

155 Sekuens J dan sekuens U B8XCN0 dan Q77DJ5 2,0502

156 Sekuens K dan sekuens L B8XCN9 dan Q5XX02 2,1878

157 Sekuens K dan sekuens M B8XCN9 dan Q77DB4 2,0250

158 Sekuens K dan sekuens N B8XCN9 dan Q05322 2,0250

159 Sekuens K dan sekuens O B8XCN9 dan B8XCP3 2,0003

160 Sekuens K dan sekuens P B8XCN9 dan P0C771 1,0948

161 Sekuens K dan sekuens Q B8XCN9 dan POC772 1,1762

162 Sekuens K dan sekuens R B8XCN9 dan Q9YMG2 1,0747

163 Sekuens K dan sekuens S B8XCN9 dan Q5XX03 2,0375

164 Sekuens K dan sekuens T B8XCN9 dan Q55JPX6 1,9189

165 Sekuens K dan sekuens U B8XCN9 dan Q77DJ5 1,9530

166 Sekuens L dan sekuens M Q5XX02 dan Q77DB4 0,2861

167 Sekuens L dan sekuens N Q5XX02 dan Q05322 0,2969

168 Sekuens L dan sekuens O Q5XX02 dan B8XCP3 0,3301

169 Sekuens L dan sekuens P Q5XX02 dan P0C771 2,1050

170 Sekuens L dan sekuens Q Q5XX02 dan P0C722 2,3684

171 Sekuens L dan sekuens R Q5XX02 dan Q9YMG2 1,9878

172 Sekuens L dan sekuens S Q5XX02 dan Q5XX03 2,0554

173 Sekuens L dan sekuens T Q5XX02 dan Q8JPX6 2,1127

174 Sekuens L dan sekuens U Q5XX02 dan Q77DJ5 2,0860

175 Sekuens M dan sekuens N Q77DB4 dan Q05322 0,2086

176 Sekuens M dan sekuens O Q77DB4 dan B8XCP3 0,2700

177 Sekuens M dan sekuens P Q77DB4 dan P0C771 2,0005

66

178 Sekuens M dan sekuens Q Q77DB4 dan P0C772 2,2276

179 Sekuens M dan sekuens R Q77DB4 dan Q9YMG2 2,1029

180 Sekuens M dan sekuens S Q77DB4 dan Q5XX03 2,1792

181 Sekuens M dan sekuens T Q77DB4 dan Q8JPX6 2,1404

182 Sekuens M dan sekuens U Q77DB4 dan Q77DJ5 1,9644

183 Sekuens N dan sekuens O Q05322 dan B8XCP3 0,1323

184 Sekuens N dan sekuens P Q05322 dan P0C711 2,0005

185 Sekuens N dan sekuens Q Q05322 dan P0C772 2,3312

186 Sekuens N dan sekuens R Q05322 dan Q9YMG2 2,3456

187 Sekuens N dan sekuens S Q05322 dan Q5XX03 1,9737

188 Sekuens N dan sekuens T Q05322 dan Q8JPX6 1,9374

189 Sekuens N dan sekuens U Q05322 dan Q77DJ5 1,8900

190 Sekuens O dan sekuens P B8XCP3 dan P0C711 1,9064

191 Sekuens O dan sekuens Q B8XCP3 dan P0C772 2,3360

192 Sekuens O dan sekuens R B8XCP3 dan Q9YMG2 2,1387

193 Sekuens O dan sekuens S B8XCP3 dan Q5XX03 1,8650

194 Sekuens O dan sekuens T B8XCP3 dan Q8JPX6 1,9876

195 Sekuens O dan sekuens U B8XCP3 dan Q77DJ5 2,0210

196 Sekuens P dan sekuens Q P0C771 dan P0C772 0,3623

197 Sekuens P dan sekuens R P0C771 dan Q9YMG2 0,4549

198 Sekuens P dan sekuens S P0C771 dan Q5XX03 2,1917

199 Sekuens P dan sekuens T P0C771 dan Q8JPX6 2,4711

200 Sekuens P dan sekuens U P0C771 dan Q77DJ5 2,1619

201 Sekuens Q dan sekuens R P0C772 dan Q9YMG2 0,4770

202 Sekuens Q dan sekuens S P0C772 dan Q5XX03 2,3312

203 Sekuens Q dan sekuens T P0C772 dan Q8JPX6 2,6797

204 Sekuens Q dan sekuens U P0C772 dan Q77DJ5 2,4896

205 Sekuens R dan sekuens S Q9YMG2 dan Q5XX03 1,9069

206 Sekuens R dan sekuens T Q9YMG2 dan Q8JPX6 2,6298

207 Sekuens R dan sekuens U Q9YMG2 dan Q77DJ5 2,3712

208 Sekuens S dan sekuens T Q5XX03 dan Q77DJ5 0,4543

209 Sekuens S dan sekuens U Q5XX03 dan Q8JPX6 0,3687

210 Sekuens T dan sekuens U Q8JPX6 dan Q77DJ5 03790

Berdasarkan hasil perhitungan jarak evolusi tersebut, kemudian disusun

menjadi matriks jarak. Matriks jarak data uji dalam contoh 4.1 dapat dilihat pada

tabel 4.3 dan Matriks jarak pasangan sekuens protein pada tabel 4.4.

67

Tabel 4.3 Matriks Jarak Pasangan Sekuens Data Uji

A B C D E F G

A 0 0,125 0,75 0,5 0,625 0,375 0,75

B 0,125 0 0,75 0,625 0,625 0,375 0,625

C 0,75 0,75 0 0,375 0,25 0,625 0,125

D 0,5 0,625 0,375 0 0,375 0,625 0,375

E 0,625 0,625 0,25 0,375 0 0,5 0,375

F 0,375 0,375 0,625 0,625 0,5 0 0,75

G 0,75 0,625 0,125 0,375 0,375 0,75 0

Tabel 4.4 Matriks Jarak Pasangan Sekuens Protein

A B C D E F G ... U

A 0 0,2933 0,4084 0,3913 1,9198 1,9723 2,0278 2,0991

B 0,2933 0 0,4043 0,3836 0,9616 2,0510 2,0393 2,0510

C 0,4084 0,4043 0 2,4016 1,9491 1,9813 1,9491 2,1349

D 0,3913 0,3836 2,4016 0 1,9616 2,0510 2,0165 2,1497

E 1,9198 0,9616 1,9491 1,9616 0 0,1174 0,2747 2,1402

F 1,9723 2,0510 1,9813 2,0510 0,1174 0 0,2716 2,1653

G 2,0278 2,0393 1,9491 2,0165 0,2747 0,2716 0 2,0346

U 2,0991 2,0510 2,1349 2,1497 2,1402 2,1653 2,0346 0

4.1.4 Pohon Filogenetik Metode UPGMA untuk Identifikasi Kekerabatan

Jenis-jenis Virus Ebola

Matriks jarak yang terbentuk merupakan inputan yang digunakan untuk

proses pembentukan pohon filogenetik. Berdasarkan Matriks Jarak pada tabel,

Metode UPGMA bekerja dengan mengikuti langkah-langkah yang telah diuraikan

pada subbab 2.10. Matriks jarak yang terbentuk merupakan inputan yang

digunakan untuk proses pembentukan pohon filogenetik. Berdasarkan Matriks

Jarak pada tabel, Metode UPGMA bekerja dengan mengikuti langkah-langkah

yang telah diuraikan pada subbab 2.10.

68

Adapun proses pembentukan pohon filogenetik untuk data contoh 4.1

menggunakan metode UPGMA sebagai berikut :

Input: Matriks Jarak

Pada matriks jarak tersebut A, B, C, D, E dan F menunjukkan nama OTU yang

mewakili masing-masing sekuens.

Langkah 1. Awalnya, setiap sekuens adalah cluster dengan satu elemen

. Ketinggian dari setiap cluster adalah 0. Masukkan semua

ke dalam daftar.

Untuk satu set sekuens dari A sampai G kita mendapatkan daftar

berikut cluster dengan ukuran n masing-masing.

( ) ({A}, {B}, {C}, {D}, {E}, {F}, {G})

( ) (1, 1, 1, 1, 1,1,1)

A B C D E F G

A 0 0,125 0,75 0,5 0,625 0,375 0,75

B 0,125 0 0,75 0,625 0,625 0,375 0,625

C 0,75 0,75 0 0,375 0,25 0,625 0,125

( ) = D 0,5 0,625 0,375 0 0,375 0,625 0,375

E 0,625 0,625 0,25 0,375 0 0,5 0,375

F 0,375 0,375 0,625 0,625 0,5 0 0,75

G 0,75 0,625 0,125 0,375 0,375 0,75 0

Langkah 2. Pilih cluster pasangan ( ) dari daftar dengan jarak minimal dan

membuat cluster baru dengan bergabung dan . Menetapkan

tinggi dan jumlah elemen .

Dalam data contoh 4.1 jarak terkecil antara cluster {A} dan {B}.

Cluster {A} dan {B} digabung menjadi cluster baru {A,B}.

.

Diperoleh:

( ) ({A, B}, {C }, {D}, {E}, {F}, {G})

( ) (2, 1, 1, 1, 1, 1)

69

Langkah 3. Menghitung jarak untuk cluster baru dengan cluster lainnya :

Langkah 4. Hapus dan dari daftar dan menambahkan ke dalam daftar.

Didapatkan:

( ) ({A,B}, {C }, {D}, {E}, {F}, {G})

( ) (2,1, 1, 1, 1,1)

Diperoleh jarak baru

AB C D E F G

AB 0 0,4375 0,5625 0,625 0,375 0,6875

C 0,4375 0 0,375 0,25 0,625 0,125

( ) = D 0,5625 0,375 0 0,375 0,625 0,375

E 0,625 0,25 0,375 0 0,5 0,375

F 0,375 0,625 0,625 0,5 0 0,75

G 0,6875 0,125 0,375 0,375 0,75 0

Ulangi langkah-langkah berikut sampai daftar hanya berisi satu elemen.

Langkah 2. Kemudian lihat lagi untuk jarak terkecil dan oleh karena itu,

bergabung cluster {C} dan {G} menjadi cluster {C, G} dengan

ketinggian

.

70

Langkah 3. Menghitung jarak untuk cluster baru dengan cluster lainnya :

Langkah 4. Hapus dan dari daftar dan menambahkan ke dalam daftar.

Didapatkan:

( ) ({A,B}, {C,G}, {D}, {E}, {F})

( ) (2,2, 1, 1, 1)

Diperoleh jarak baru

AB CG D E F

AB 0 0,5625 0,5625 0,625 0,375

CG 0,4375 0 0,375 0,3125 0,625

( ) = D 0,5625 0,375 0 0,375 0,625

E 0,625 0,3125 0,375 0 0,5

F 0,375 0,6875 0,625 0,5 0

Pohon filogenetik dibangun menggunakan rangka bergabung dan nilai-

nilai tinggi yang dihitung. Adapun pohon filogentik untuk data uji contoh 4.1

yang dibentuk menggunakan langkah-langkah Metode UPGMA di atas dapat

dilihat pada gambar 4.3.

71

Gambar 4.3 Pohon filogenetik metode UPGMA data uji

Pohon filogenetik untuk identifikasi kekerabatan jenis-jenis virus ebola

menggunakan Metode UPGMA dengan bantuan Matlab. Adapun perintah untuk

menampilkan pohon filogenetik sebagai berikut.

tree = seqlinkage(dist,'UPGMA',sekuen); phytreeviewer(tree);

Adapun hasil pohon filogenetik menggunakan Metode UPGMA yang

didalamnya terdapat MA menggunakan Metode Progressive dan pensejajaran

sekuens berpasangan menggunakan Algoritma Needleman Wunsch dengan

bantuan matlab untuk identifikasi kekerabatan jenis-jenis virus ebola dapat dilihat

pada gambar 4.4.

A

B

F

C

G

E

D

0,0625

0,1875

72

Gambar 4.4 Pohon filogenetik identikasi kekerabatan jenis-jenis virus ebola

simulasi Matlab

73

4.2. Penyebaran Epidemi Virus Ebola

Dalam data base dan laporan Organisasi Kesehatan Dunia (WHO), sudah

terdapat banyak laporan tentang penyebaran kasus-kasus ebola. Dengan

menganalisa hubungan filogenetik antara sampel dari virus ebola yang

dikumpulkan dari tahun 1976 hingga pada tahun 2014, dapat direkontruksi sejarah

epidemi ebola dan memahami bagaimana jenis virus epidemi ebola memiliki

kemiripan dengan jenis virus lainnya memiliki hubungan dengan penyebaran virus

ebola.

4.2.1 Data Epidemi

Data yang digunakan untuk mengetahui penyebaran epidemi adalah

sekuens DNA dari strain virus ebola berdasarkan spesies, lokasi dan tahun yang

diketahui yang diambil dari www.ncbi.nlm.nih.gov. Data sekuens DNA yang

digunakan disajikan dalam tabel 4.5.

Tabel 4.5 Data sekuens DNA penyebaran virus ebola

No Nama Kode Bank Tahun Negara Kode

Sekuens

1 Zaire ebolavirus NC_002549.1 1976 Republik Demokrat Kongo 1

2 Zaire ebolavirus KM655246.1 1976 Republik Demokrat Kongo 2

3 Zaire ebolavirus KC242801.1 1976 Republik Demokrat Kongo 3

4 Sudan ebolavirus FJ968794.1 1976 Sudan 4


6 Sudan ebolavirus KC242783.2 1979 Sudan 6

7 Zaire ebolavirus KC242792.1 1994 Gabon 7

8 Tai Forest ebolavirus NC_014372.1 1994 Ivory Coast 8

9 Zaire ebolavirus KR867676.1 1995 Republik Demokrat Kongo 9






15 Sudan ebolavirus NC_006432.1 2000 Uganda 15

16 Zaire ebolavirus EF490231.1 2001 Gabon 16


18 Zaire ebolavirus EF490230.1 2003 Gabon 18

19 Sudan ebolavirus EU338380.1 2004 Sudan 19

20 Bundibugyo ebolavirus NC_014373.1 2007 Uganda 20


22 Sudan ebolavirus JN638998.1 2011 Uganda 22

23 Sudan ebolavirus KC545392.1 2012 Uganda 23

24 Zaire ebolavirus KT013259.3 2014 Guinea 24

25 Zaire ebolavirus KP271020.1 2014 Republik Demokrat Kongo 25

26 Zaire ebolavirus KP178538.1 2014 Liberia 26

27 Zaire ebolavirus KP178538.1 2014 Sierra Leone 27

74

4.2.2 Pohon Filogenetik untuk Penyebaran Epidemi Ebola

Pada penelitian ini pembentukan pohon filogenetik menggunakan Metode

UPGMA juga digunakan untuk identifikasi penyebaran epidemi ebola. Sehingga

langkah-langkah untuk pembentukan pohon filogenetik untuk identifikasi

penyebaran epidemi ebola sama dengan identifikasi hubungan kekerabatan jenis-

jenis virus ebola.

Adapun hasil pensejajaran sekuens DNA untuk penyebaran epidemi ebola

dapat dilihat pada gambar 4.5.

Gambar 4.5 Hasil Pensejajaran sekuens DNA

Adapun hasil pohon filogenetik dengan Metode UPGMA untuk

penyebaran epidemi ebola hasil simulasi dari Matlab dapat dilihat pada gambar

4.6.

75

Gambar 4.6 Pohon filogenetik Metode UPGMA untuk penyebaran epidemi ebola

76

4.3 Pembahasan

Berdasarkan pohon filogenetik yang telah dikonstruksi pada gambar 4.5

didapatkan hubungan kekerabatan jenis virus Ebola tidak dapat disimpulkan

secara umum, sebab tergantung pada type protein yang dibandingkan. Untuk

type-type protein tertentu jenis virusnya tidak lengkap. Misal pada type minor

nucleoprotein jenis Zaire ebolavirus dekat dengan Sudan ebolavirus dibandingkan

dengan Reston ebolavirus. Yang kedua, pada type membrane associated protein

VP 24 jenis Zaire ebolavirus lebih dekat dengan Tai Forest ebolavirus

dibandingkan Reston ebolavirus. Namun Zaire ebolavirus lebih dekat dengan

Reston ebolavirus dari pada Sudan ebolavirus. Yang ketiga, pada type

nucleoprotein Zaire ebolavirus dekat dengan Bundibugyo ebolavirus

dibandingkan dengan Reston ebolavirus dan Sudan ebolavirus. Yang keempat,

pada type Matrix protein VP 40 Zaire ebolavirus dekat dengan Bundibugyo

ebolavirus dan Tai Forest ebolavirus dibandingkan Sudan ebolavirus dan Reston

ebolavirus. Yang kelima , pada tipe Zaire ebolavirus dekat dengan Reston

ebolavirus dan Sudan ebolavirus. Sedangkan pada type Spike glycoprotein hanya

terdapat dua jenis virus yaitu Bundibugyo ebolavirus dan Tai Forest ebolavirus

sehingga dua virus itu memiliki kekerabatan. Lebih lanjut, Minor nucleoprotein

VP 30 kekerabatannya lebih dekat dengan Membrane-associated protein VP 24,

Nucleoprotein lebih dekat dengan Matrix VP 40. Super small secreted

glycoprotein lebih dekat dengan Spike glycoprotein.

Berdasarkan pohon filogenetik panyebaran virus ebola pada gambar 4.6,

untuk nukleotida yang sejenis ditemukan pada waktu yang berdekatan. Misalnya

jenis Zaire ebolavirus dengan type L Protein gene di Gabon pada tahun 2001

dekat dengan Zaire ebolavirus type L Protein gene di Gabon pada tahun tahun

2003. Yang kedua, Tai Forest ebolavirus ditemukan pada tahun tahun 1994

memiliki kekerabatan dengan Bundibugyo ebolavirus yang ditemukan pada tahun

2007 di Uganda. Yang ketiga, Zaire ebolavirus ditemukan pada tahun 1976 dan

tahun 1977 di Republik Demokrat Kongo. Zaire ebolavirus muncul kembali di

Republik Demokrat Kongo pada tahun 1995, tahun 2007 dan tahun 2014. Zaire

ebolavirus juga ditemukan pada tahun 1994 dan tahun 1996 di Gabon. Zaire

ebolavirus muncul kembali di Gabon pada tahun 2002. Zaire ebolavirus

77

ditemukan pada tahun 2002 di Gabon dekat dengan Zaire ebolavirus yang

ditemukan pada tahun 2007 di Republik Demokrat Kongo. Zaire ebolavirus

ditemukan pada tahun 1994 dan 1996 di Gabon dekat dengan Zaire ebolavirus

yang ditemukan pada tahun 1995 dan 2014 di Republik Demokrat Kongo. Yang

keempat, Sudan ebolavirus ditemukan pada tahun 2000 berdekatan dengan Sudan

ebolavirus di Nakisamata dan Sudan ebolavius yang ditemukan pada tahun 2012.

Sudan ebolavirus yang ditemukan di Boniface dekat dengan Sudan ebolavirus

yang ditemukan di Sudan pada tahun 1979 dan tahun 2004.

Virus Ebola pertama kali muncul di Zaire, yang sekarang bernama

Republik Demokrat Kongo, epidemi ebola sebagian besar menyebar di wilayah

negara-negara di Benua Afrika. Negara Republik Demokrat Kongo menjadi

perhatian dunia karena banyak penderita meninggal akibat serangan virus ebola.

Virus ebola sudah disolasi sejak tahun 1967 dari penderita-penderita di Jerman

dan Yugoslavia, yang kemudian ternyata terinfeksi dari monyet yang berasal dari

Uganda. Nama Ebola diambil dari nama sebuah sungai di Zaire asal virus tersebut

diisolasi pertama kali. Di Kongo Barat Laut 5000 ekor gorila mati akibat

terinfeksi virus Ebola, yang memusnahkan hampir separuh populasi hewan yang

terancam punah. Simpanse banyak yang mati akibat virus ebola. Para ahli

menyatakan bahwa virus Ebola yang sangat menular ini terutama tersebar melalui

kontak antar kelompok gorila dan simpanse, bahkan manusia juga bisa terinfeksi

oleh virus Ebola.

Virus jenis Sudan ebolavirus, Zaire ebolavirus, dan Tai Forest ebolavirus

berasal dari simpanse di Afrika sedangkan Reston ebolavirus dari Asia Tenggara.

Reston ebolavirus pertama kali ditemukan di laboratorium penelitian HIV/AIDS

di Virginia, Amerika Serikat pada kera berekor panjang (Macaca fascicularis)

yang diimpor dari Filipina. Virus ebola kemudian menjadi wabah di seluruh area

tersebut.

Pada setiap generasi, organisme mewarisi sifat-sifat yang dimiliki oleh

orang tuanya melalui gen. Gen terbuat dari DNA, yakni molekul panjang yang

membawa informasi. Informasi ini disimpan dalam urutan nukleotida dalam

DNA. Informasi ini disimpan dalam urutan nukleotida dalam DNA, sama seperti

urutan huruf-huruf dalam suatu kata yang membawa informasi. . Instruksi yang

http://www.kerjanya.net/faq/3869-hiv-aids.html

http://www.kerjanya.net/faq/3869-hiv-aids.html

78

terdapat pada DNA ini dapat berubah oleh karena mutasi. Pada setiap generasi,

organisme mewarisi sifat-sifat yang dimiliki oleh orang tuanya melalui gen.

Mutasi pada gen ini akan menghasilkan sifat baru pada keturunan suatu

organisme. Jika dua organisme berkerabat dekat, maka DNA nya sangat mirip.

Semakin pendek jarak ganetiknya, semakin mirip DNA nya (Campbell dkk, 2008).

Data DNA yang digunakan sebagai sampel dalam penelitian ini, setiap

sekuens disejajarkan dengan semua sekuens dan diperoleh jarak genetik dan

dibentuk pohon filogenetik. Dalam pohon filogenetik jika jarak genetiknya dekat

maka berada pada cabang yang sama, tetapi jika jarak genetiknya jauh maka

berada pada cabang yang berbeda. Jarak genetik untuk jenis Zaire ebolavirus

dengan Sudan ebolavirus adalah 0,4863, Zaire ebolavirus dengan Bundibugyo

ebolavirus adalah 0.4351, Zaire ebolavirus dengan Tai Forest ebolavirus adalah

0,4271. Jarak genetik untuk jenis Sudan ebolavirus dengan Bundibugyo

ebolavirus adalah 0.4945, Sudan ebolavirus dengan Tai Forest ebolavirus adalah

0.4900. Jarak genetik untuk jenis Bundibugyo ebolavirus dengan Tai Forest

ebolavirus adalah 0.3725. Jarak genetik yang pendek adalah antara Bundibugyo

ebolavirus dengan Tai Forest ebolavirus adalah 0.3725. Pada pohon filogenetik

yang dibentuk jenis Bundibugyo ebolavirus dengan Tai Forest ebolavirus dapat

dikatakan Bundibugyo ebolavirus dengan Tai Forest ebolavirus berada pada satu

cabang. Sehingga dapat dikatakan Bundibugyo ebolavirus dengan Tai Forest

ebolavirus berkerabat dekat.

Penyebaran epidemi ebola terjadi di beberapa negara di Afrika. Peta benua

Afrika digunakan untuk melihat kedekatan letak geografis antara negara-negara

yang terjangkit epidemi ebola dan kemudian disesuaikan dengan kedekatan jenis

virus berdasarkan hasil pembentukan pohon filogenetik. Adapun letak geografis

negara-negara di Afrika yang terkena epidemi ebola dapat dilihat pada gambar

4.7.

79

Gambar 4.7 Peta Benua Afrika

Keterangan:

A: Republik Demokrat Kongo

B: Sudan

C: Ivory Coast

D: Gabon

E: Uganda

F: Liberia

G: Siera Leone

H: Guinea

Pada gambar 4.7 tampak letak geografis penyebaran epidemi ebola pada

negara-negara di Afrika, negara yang terjangkit epidemi ebola ditandai dengan

huruf kapital. Setelah diketahui hubungan kekerabatan jenis virus ebola kemudian

B C

A

F E

D

G

H

80

disesuaikan dengan penyebaran virus ebola berdasarkan letak geografis. Diketahui

jenis virus yang sama menyerang negara-negara yang berdekatan. Misalnya jenis

Zaire ebolavirus menyebar di negara Republik Demokrat Kongo dan Gabon yang

secara geografis letaknya berdekatan, Zaire ebolavirus juga menyebar di negara

Liberia, Siera Leone dan Guinea yang secara geografis letaknya berdekatan. Jenis

Sudan ebolavirus menyebar di negara Sudan dan Uganda yang secara geografis

letaknya berdekatan. Jenis Tai Forest ebolavirus menyebar di negara Ivory Coast.

Jenis Bundibugyo ebolavirus menyebar di negara Sudan. Jenis Tai Forest

ebolavirus dan Bundibugyo ebolavirus berdasarkan pohon filogenetik terlihat

berdekatan tetapi secara geografis letak negara yang menjadi daerah penyebaran

epidemi ebola berjauhan. Sehingga dapat disimpulkan bahwa Tai Forest

ebolavirus mirip dengan Bundibugyo ebolavirus tidak dipengaruhi oleh kedekatan

daerah penyebaran epidemi Ebola .

4.4 Validasi Pohon Filogenetik

Pohon filogenetik yang dibentuk menggunakan Metode UPGMA terdapat

proses pensejajaran sekuens menggunakan Metode Progressive yang didalamnya

menggunakan Algoritma Nedleman Wunsch. Algoritma Nedleman Wunsch

merupakan metode yang dianggap optimal dalam pensejajaran sekuens secara

berpasangan, sehingga bisa dijamin jika dalam pembentukan pohon sudah tidak

diragukan lagi validitas pohon.

81

BAB V

KESIMPULAN DAN SARAN

Pada bab ini diberikan kesimpulan dari hasil pembangunan pohon

filogenetik menggunakan Metode UPGMA. Kesimpulan yang didapat

berdasarkan hasil uji coba yang dilakukan dalam bab IV.

1.1 Kesimpulan

Kesimpulan yang didapat dari uji coba pada bab IV adalah:

a. Pohon filogenetik epidemi ebola dapat dibentuk dengan menggunakan

Metode UPGMA yang didalamnya terdapat MA menggunakan

Metode Progressive.

b. Berdasarkan pohon filogenetik yang telah dikonstruksi didapatkan

hubungan kekerabatan jenis virus ebola tidak dapat disimpulkan

secara umum, sebab tergantung pada type protein yang dibandingkan.

Untuk type-type protein tertentu jenis virusnya tidak lengkap. Misal

pada type minor nucleoprotein jenis Zaire ebolavirus dekat dengan

sudan ebolavirus dibandingkan dengan reston ebolavirus. Yang kedua,

pada type membrane associated protein VP 24 jenis Zaire ebolavirus

lebih dekat dengan Tai Forest ebolavirus dibandingkan Reston

ebolavirus. Namun Zaire ebolavirus lebih dekat dengan Reston

ebolavirus daripada Sudan ebolavirus. Yang ketiga, pada type

nucleoprotein Zaire ebolavirus dekat dengan Bundibugyo ebolavirus

dibandingkan dengan Reston ebolavirus dan Sudan ebolavirus. Yang

keempat, pada type Matrix protein VP 40 Zaire ebolavirus dekat

dengan Bundibugyo ebolavirus dan Tai Forest ebolavirus

dibandingkan Sudan ebolavirus dan Reston ebolavirus. Yang kelima ,

pada type Zaire ebolavirus dekat dengan Reston ebolavirus dan Sudan

ebolavirus. Sedangkan pada type Spike glycoprotein hanya terdapat

dua jenis virus yaitu Bundibugyo ebolavirus dan Tai Forest ebolavirus

sehingga dua virus itu memiliki kekerabatan. Untuk nukleotida yang

sejenis ditemukan pada waktu yang berdekatan bila dibandingkan

82

dengan nukleotida yang jaraknya lebih jauh pada pohon filogenetik.

Misalnya jenis Reston ebolavirus ditemukan pada tahun 1992

memiliki kekerabatan dengan jenis Zaire ebolavirus yang ditemukan

pada tahun 2002 dan 2003. Zaire ebolavirus dengan type L Protein

gene di Gabon pada tahun 2001 dekat dengan Zaire ebolavirus type L

Protein gene di Gabon pada tahun tahun 2003. Jika dua organisme

berkerabat dekat, maka DNA nya sangat mirip. Semakin pendek jarak

ganetiknya, semakin mirip DNA nya. Berdasarkan data DNA yang

digunakan sebagai sampel dalam penelitian ini, diperoleh jarak

genetik yang pendek antara Bundibugyo ebolavirus dengan Tai Forest

ebolavirus. Jenis virus Tai Forest ebolavirus dan Bundibugyo

ebolavirus berdasarkan pohon filogenetik terlihat berdekatan tetapi

secara geografis negara yang menjadi daerah penyebaran epidemi

ebola letaknya jauh. Jenis Tai Forest ebolavirus mirip dengan

Bundibugyo ebolavirus tidak dipengaruhi kedekatan daerah

penyebaran epidemi ebola.

1.2 Saran

Pada tesis ini masih terdapat beberapa kekurangan untuk meningkatkan

pembentukan pohon filogenetik mengingat adanya keterbatasan waktu dan

hal lain. Beberapa saran dari penulis untuk pembaca dan peneliti adalah

sebagai berikut.

a. Dalam pensejajaran untuk bisa menggunakan algoritma

pensejajaran yang lain, perlu ada kajian lebih mendalam dari segi

metode yang digunakan.

b. Data yang besar dalam perhitungan sebaiknya menggunakan

program.

85

LAMPIRAN A

Sekuens Protein Beberapa Jenis Virus Ebola

A. Sekuens 1

>sp|Q05128|VP40_EBOZM Matrix protein VP40 OS=Zaire

ebolavirus (strain Mayinga-76) GN=VP40 PE=1 SV=1

MRRVILPTAPPEYMEAIYPVRSNSTIARGGNSNTGFLTPESVNGDTPSNPLRPIADDTID

HASHTPGSVSSAFILEAMVNVISGPKVLMKQIPIWLPLGVADQKTYSFDSTTAAIMLASY

TITHFGKATNPLVRVNRLGPGIPDHPLRLLRIGNQAFLQEFVLPPVQLPQYFTFDLTALK

LITQPLPAATWTDDTPTGSNGALRPGISFHPKLRPILLPNKSGKKGNSADLTSPEKIQAI

MTSLQDFKIVPIDPTKNIMGIEVPETLVHKLTGKKVTSKNGQPIIPVLLPKYIGLDPVAP

GDLTMVITQDCDTCHSPASLPAVIEK

B. Sekuens 2

>sp|Q5XX06|VP40_EBOSU Matrix protein VP40 OS=Sudan

ebolavirus (strain Uganda-00) GN=VP40 PE=1 SV=1

MRRVTVPTAPPAYADIGYPMSMLPIKSSRAVSGIQQKQEVLPGMDTPSNSMRPVADDNID

HTSHTPNGVASAFILEATVNVISGPKVLMKQIPIWLPLGIADQKTYSFDSTTAAIMLASY

TITHFGKANNPLVRVNRLGQGIPDHPLRLLRMGNQAFLQEFVLPPVQLPQYFTFDLTALK

LVTQPLPAATWTDETPSNLSGALRPGLSFHPKLRPVLLPGKTGKKGHVSDLTAPDKIQTI

VNLMQDFKIVPIDPAKSIIGIEVPELLVHKLTGKKMSQKNGQPIIPVLLPKYIGLDPISP

GDLTMVITPDYDDCHSPASCSYLSEK

C. Sekuens 3

>tr|B8XCM9|B8XCM9_9MONO Matrix protein VP40 OS=Bundibugyo

virus GN=VP40 PE=3 SV=1

MRRAILPTAPPEYIEAVYPMRTVSTSINSTASGPNFPAPDVMMSDTPSNSLRPIADDNID

HPSHTPTSVSSAFILEAMVNVISGPKVLMKQIPIWLPLGVADQKTYSFDSTTAAIMLASY

TITHFGKTSNPLVRINRLGPGIPDHPLRLLRIGNQAFLQEFVLPPVQLPQYFTFDLTALK

LITQPLPAATWTDDTPTGPTGILRPGISFHPKLRPILLPGKTGKRGSSSDLTSPDKIQAI

MNFLQDLKLVPIDPAKNIMGIEVPELLVHRLTGKKITTKNGQPIIPILLPKYIGMDPISQ

GDLTMVITQDCDTCHSPASLPPVSEK

D. Sekuens 4

>tr|B8XCN8|B8XCN8_9MONO Matrix protein VP40 OS=Tai Forest

ebolavirus GN=VP40 PE=3 SV=1

MRRIILPTAPPEYMEAVYPMRTMNSGADNTASGPNYTTTGVMTNDTPSNSLRPVADDNID

HPSHTPNSVASAFILEAMVNVISGPKVLMKQIPIWLPLGVSDQKTYSFDSTTAAIMLASY

TITHFGKTSNPLVRINRLGPGIPDHPLRLLRIGNQAFLQEFVLPPVQLPQYFTFDLTALK

LITQPLPAATWTDETPAVSTGTLRPGISFHPKLRPILLPGRAGKKGSNSDLTSPDKIQAI

MNFLQDLKIVPIDPTKNIMGIEVPELLVHRLTGKKTTTKNGQPIIPILLPKYIGLDPLSQ

GDLTMVITQDCDSCHSPASLPPVNEK

E. Sekuens 5

>sp|Q8JPX9|VP40_EBORR Matrix protein VP40 OS=Reston

ebolavirus (strain Reston-89) GN=VP40 PE=3 SV=1

MRRGVLPTAPPAYNDIAYPMSILPTRPSVIVNETKSDVLAVPGADVPSNSMRPVADDNID

86

HSSHTPSGVASAFILEATVNVISGTKVLMKQIPIWLPLGVADQKIYSFDSTTAAIMLASY

TVTHFGKISNPLVRVNRLGPGIPDHPLRLLRLGNQAFLQEFVLPPVQLPQYFTFDLTALK

LITQPLPAATWTDETPAGAVNALRPGLSLHPKLRPILLPGKTGKKGHASDLTSPDKIQTI

MNAIPDLKIVPIDPTKNIVGIEVPELLVQRLTGKKPQPKNGQPIIPVLLPKYVGLDPISP

GDLTMVITQDCDSCHSPASHPYHMDKQNSYQ

87

LAMPIRAN B

Sekuens DNA Virus Ebola

>gi|10313991|ref|NC_002549.1| Zaire ebolavirus isolate Ebola

virus/H.sapiens-tc/COD/1976/Yambuku-Mayinga, complete genome

CGGACACACAAAAAGAAAGAAGAATTTTTAGGATCTTTTGTGTGCGAATAACTATGAGGAAGATTA

ATAATTTTCCTCTCATTGAAATTTATATCGGAATTTAAATTGAAATTGTTACTGTAATCACACCTG

GTTTGTTTCAGAGCCACATCACAAAGATAGAGAACAACCTAGGTCTCCGAAGGGAGCAAGGGCATC

AGTGTGCTCAGTTGAAAATCCCTTGTCAACACCTAGGTCTTATCACATCACAAGTTCCACCTCAGA

CTCTGCAGGGTGATCCAACAACCTTAATAGAAACATTATTGTTAAAGGACAGCATTAGTTCACAGT

CAAACAAGCAAGATTGAGAATTAACCTTGGTTTTGAACTTGAACACTTAGGGGATTGAAGATTCAA

CAACCCTAAAGCTTGGGGTAAAACATTGGAAATAGTTAAAAGACAAATTGCTCGGAATCACAAAAT

TCCGAGTATGGATTCTCGTCCTCAGAAAATCTGGATGGCGCCGAGTCTCACTGAATCTGACATGGA

TTACCACAAGATCTTGACAGCAGGTCTGTCCGTTCAACAGGGGATTGTTCGGCAAAGAGTCATCCC

AGTGTATCAAGTAAACAATCTTGAAGAAATTTGCCAACTTATCATACAGGCCTTTGAAGCAGGTGT

TGATTTTCAAGAGAGTGCGGACAGTTTCCTTCTCATGCTTTGTCTTCATCATGCGTACCAGGGAGA

TTACAAACTTTTCTTGGAAAGTGGCGCAGTCAAGTATTTGGAAGGGCACGGGTTCCGTTTTGAAGT

CAAGAAGCGTGATGGAGTGAAGCGCCTTGAGGAATTGCTGCCAGCAGTATCTAGTGGAAAAAACAT

TAAGAGAACACTTGCTGCCATGCCGGAAGAGGAGACAACTGAAGCTAATGCCGGTCAGTTTCTCTC

CTTTGCAAGTCTATTCCTTCCGAAATTGGTAGTAGGAGAAAAGGCTTGCCTTGAGAAGGTTCAAAG

GCAAATTCAAGTACATGCAGAGCAAGGACTGATACAATATCCAACAGCTTGGCAATCAGTAGGACA

CATGATGGTGATTTTCCGTTTGATGCGAACAAATTTTCTGATCAAATTTCTCCTAATACACCAAGG

GATGCACATGGTTGCCGGGCATGATGCCAACGATGCTGTGATTTCAAATTCAGTGGCTCAAGCTCG

TTTTTCAGGCTTATTGATTGTCAAAACAGTACTTGATCATATCCTACAAAAGACAGAACGAGGAGT

TCGTCTCCATCCTCTTGCAAGGACCGCCAAGGTAAAAAATGAGGTGAACTCCTTTAAGGCTGCACT

CAGCTCCCTGGCCAAGCATGGAGAGTATGCTCCTTTCGCCCGACTTTTGAACCTTTCTGGAGTAAA

TAATCTTGAGCATGGTCTTTTCCCTCAACTATCGGCAATTGCACTCGGAGTCGCCACAGCACACGG

GAGTACCCTCGCAGGAGTAAATGTTGGAGAACAGTATCAACAACTCAGAGAGGCTGCCACTGAGGC

TGAGAAGCAACTCCAACAATATGCAGAGTCTCGCGAACTTGACCATCTTGGACTTGATGATCAGGA

AAAGAAAATTCTTATGAACTTCCATCAGAAAAAGAACGAAATCAGCTTCCAGCAAACAAACGCTAT

GGTAACTCTAAGAAAAGAGCGCCTGGCCAAGCTGACAGAAGCTATCACTGCTGCGTCACTGCCCAA

AACAAGTGGACATTACGATGATGATGACGACATTCCCTTTCCAGGACCCATCAATGATGACGACAA

TCCTGGCCATCAAGATGATGATCCGACTGACTCACAGGATACGACCATTCCCGATGTGGTGGTTGA

TCCCGATGATGGAAGCTACGGCGAATACCAGAGTTACTCGGAAAACGGCATGAATGCACCAGATGA

CTTGGTCCTATTCGATCTAGACGAGGACGACGAGGACACTAAGCCAGTGCCTAATAGATCGACCAA

GGGTGGACAACAGAAGAACAGTCAAAAGGGCCAGCATATAGAGGGCAGACAGACACAATCCAGGCC

AATTCAAAATGTCCCAGGCCCTCACAGAACAATCCACCACGCCAGTGCGCCACTCACGGACAATGA

CAGAAGAAATGAACCCTCCGGCTCAACCAGCCCTCGCATGCTGACACCAATTAACGAAGAGGCAGA

CCCACTGGACGATGCCGACGACGAGACGTCTAGCCTTCCGCCCTTGGAGTCAGATGATGAAGAGCA

GGACAGGGACGGAACTTCCAACCGCACACCCACTGTCGCCCCACCGGCTCCCGTATACAGAGATCA

CTCTGAAAAGAAAGAACTCCCGCAAGACGAGCAACAAGATCAGGACCACACTCAAGAGGCCAGGAA

CCAGGACAGTGACAACACCCAGTCAGAACACTCTTTTGAGGAGATGTATCGCCACATTCTAAGATC

ACAGGGGCCATTTGATGCTGTTTTGTATTATCATATGATGAAGGATGAGCCTGTAGTTTTCAGTAC

CAGTGATGGCAAAGAGTACACGTATCCAGACTCCCTTGAAGAGGAATATCCACCATGGCTCACTGA

AAAAGAGGCTATGAATGAAGAGAATAGATTTGTTACATTGGATGGTCAACAATTTTATTGGCCGGT

GATGAATCACAAGAATAAATTCATGGCAATCCTGCAACATCATCAGTGAATGAGCATGGAACAATG

GGATGATTCAACCGACAAATAGCTAACATTAAGTAGTCAAGGAACGAAAACAGGAAGAATTTTTGA

TGTCTAAGGTGTGAATTATTATCACAATAAAAGTGATTCTTATTTTTGAATTTAAAGCTAGCTTAT

88

TATTACTAGCCGTTTTTCAAAGTTCAATTTGAGTCTTAATGCAAATAGGCGTTAAGCCACAGTTAT

AGCCATAATTGTAACTCAATATTCTAACTAGCGATTTATCTAAATTAAATTACATTATGCTTTTAT

AACTTACCTACTAGCCTGCCCAACATTTACACGATCGTTTTATAATTAAGAAAAAACTAATGATGA

AGATTAAAACCTTCATCATCCTTACGTCAATTGAATTCTCTAGCACTCGAAGCTTATTGTCTTCAA

TGTAAAAGAAAAGCTGGTCTAACAAGATGACAACTAGAACAAAGGGCAGGGGCCATACTGCGGCCA

CGACTCAAAACGACAGAATGCCAGGCCCTGAGCTTTCGGGCTGGATCTCTGAGCAGCTAATGACCG

GAAGAATTCCTGTAAGCGACATCTTCTGTGATATTGAGAACAATCCAGGATTATGCTACGCATCCC

AAATGCAACAAACGAAGCCAAACCCGAAGACGCGCAACAGTCAAACCCAAACGGACCCAATTTGCA

ATCATAGTTTTGAGGAGGTAGTACAAACATTGGCTTCATTGGCTACTGTTGTGCAACAACAAACCA

TCGCATCAGAATCATTAGAACAACGCATTACGAGTCTTGAGAATGGTCTAAAGCCAGTTTATGATA

TGGCAAAAACAATCTCCTCATTGAACAGGGTTTGTGCTGAGATGGTTGCAAAATATGATCTTCTGG

TGATGACAACCGGTCGGGCAACAGCAACCGCTGCGGCAACTGAGGCTTATTGGGCCGAACATGGTC

AACCACCACCTGGACCATCACTTTATGAAGAAAGTGCGATTCGGGGTAAGATTGAATCTAGAGATG

AGACCGTCCCTCAAAGTGTTAGGGAGGCATTCAACAATCTAAACAGTACCACTTCACTAACTGAGG

AAAATTTTGGGAAACCTGACATTTCGGCAAAGGATTTGAGAAACATTATGTATGATCACTTGCCTG

GTTTTGGAACTGCTTTCCACCAATTAGTACAAGTGATTTGTAAATTGGGAAAAGATAGCAACTCAT

TGGACATCATTCATGCTGAGTTCCAGGCCAGCCTGGCTGAAGGAGACTCTCCTCAATGTGCCCTAA

TTCAAATTACAAAAAGAGTTCCAATCTTCCAAGATGCTGCTCCACCTGTCATCCACATCCGCTCTC

GAGGTGACATTCCCCGAGCTTGCCAGAAAAGCTTGCGTCCAGTCCCACCATCGCCCAAGATTGATC

GAGGTTGGGTATGTGTTTTTCAGCTTCAAGATGGTAAAACACTTGGACTCAAAATTTGAGCCAATC

TCCCTTCCCTCCGAAAGAGGCGAATAATAGCAGAGGCTTCAACTGCTGAACTATAGGGTACGTTAC

ATTAATGATACACTTGTGAGTATCAGCCCTGGATAATATAAGTCAATTAAACGACCAAGATAAAAT

TGTTCATATCTCGCTAGCAGCTTAAAATATAAATGTAATAGGAGCTATATCTCTGACAGTATTATA

ATCAATTGTTATTAAGTAACCCAAACCAAAAGTGATGAAGATTAAGAAAAACCTACCTCGGCTGAG

AGAGTGTTTTTTCATTAACCTTCATCTTGTAAACGTTGAGCAAAATTGTTAAAAATATGAGGCGGG

TTATATTGCCTACTGCTCCTCCTGAATATATGGAGGCCATATACCCTGTCAGGTCAAATTCAACAA

TTGCTAGAGGTGGCAACAGCAATACAGGCTTCCTGACACCGGAGTCAGTCAATGGGGACACTCCAT

CGAATCCACTCAGGCCAATTGCCGATGACACCATCGACCATGCCAGCCACACACCAGGCAGTGTGT

CATCAGCATTCATCCTTGAAGCTATGGTGAATGTCATATCGGGCCCCAAAGTGCTAATGAAGCAAA

TTCCAATTTGGCTTCCTCTAGGTGTCGCTGATCAAAAGACCTACAGCTTTGACTCAACTACGGCCG

CCATCATGCTTGCTTCATACACTATCACCCATTTCGGCAAGGCAACCAATCCACTTGTCAGAGTCA

ATCGGCTGGGTCCTGGAATCCCGGATCATCCCCTCAGGCTCCTGCGAATTGGAAACCAGGCTTTCC

TCCAGGAGTTCGTTCTTCCGCCAGTCCAACTACCCCAGTATTTCACCTTTGATTTGACAGCACTCA

AACTGATCACCCAACCACTGCCTGCTGCAACATGGACCGATGACACTCCAACAGGATCAAATGGAG

CGTTGCGTCCAGGAATTTCATTTCATCCAAAACTTCGCCCCATTCTTTTACCCAACAAAAGTGGGA

AGAAGGGGAACAGTGCCGATCTAACATCTCCGGAGAAAATCCAAGCAATAATGACTTCACTCCAGG

ACTTTAAGATCGTTCCAATTGATCCAACCAAAAATATCATGGGAATCGAAGTGCCAGAAACTCTGG

TCCACAAGCTGACCGGTAAGAAGGTGACTTCTAAAAATGGACAACCAATCATCCCTGTTCTTTTGC

CAAAGTACATTGGGTTGGACCCGGTGGCTCCAGGAGACCTCACCATGGTAATCACACAGGATTGTG

ACACGTGTCATTCTCCTGCAAGTCTTCCAGCTGTGATTGAGAAGTAATTGCAATAATTGACTCAGA

TCCAGTTTTATAGAATCTTCTCAGGGATAGTGATAACATCTATTTAGTAATCCGTCCATTAGAGGA

GACACTTTTAATTGATCAATATACTAAAGGTGCTTTACACCATTGTCTTTTTTCTCTCCTAAATGT

AGAACTTAACAAAAGACTCATAATATACTTGTTTTTAAAGGATTGATTGATGAAAGATCATAACTA

ATAACATTACAAATAATCCTACTATAATCAATACGGTGATTCAAATGTTAATCTTTCTCATTGCAC

ATACTTTTTGCCCTTATCCTCAAATTGCCTGCATGCTTACATCTGAGGATAGCCAGTGTGACTTGG

ATTGGAAATGTGGAGAAAAAATCGGGACCCATTTCTAGGTTGTTCACAATCCAAGTACAGACATTG

CCCTTCTAATTAAGAAAAAATCGGCGATGAAGATTAAGCCGACAGTGAGCGTAATCTTCATCTCTC

TTAGATTATTTGTTTTCCAGAGTAGGGGTCGTCAGGTCCTTTTCAATCGTGTAACCAAAATAAACT

CCACTAGAAGGATATTGTGGGGCAACAACACAATGGGCGTTACAGGAATATTGCAGTTACCTCGTG

ATCGATTCAAGAGGACATCATTCTTTCTTTGGGTAATTATCCTTTTCCAAAGAACATTTTCCATCC

89

CACTTGGAGTCATCCACAATAGCACATTACAGGTTAGTGATGTCGACAAACTAGTTTGTCGTGACA

AACTGTCATCCACAAATCAATTGAGATCAGTTGGACTGAATCTCGAAGGGAATGGAGTGGCAACTG

ACGTGCCATCTGCAACTAAAAGATGGGGCTTCAGGTCCGGTGTCCCACCAAAGGTGGTCAATTATG

AAGCTGGTGAATGGGCTGAAAACTGCTACAATCTTGAAATCAAAAAACCTGACGGGAGTGAGTGTC

TACCAGCAGCGCCAGACGGGATTCGGGGCTTCCCCCGGTGCCGGTATGTGCACAAAGTATCAGGAA

CGGGACCGTGTGCCGGAGACTTTGCCTTCCATAAAGAGGGTGCTTTCTTCCTGTATGATCGACTTG

CTTCCACAGTTATCTACCGAGGAACGACTTTCGCTGAAGGTGTCGTTGCATTTCTGATACTGCCCC

AAGCTAAGAAGGACTTCTTCAGCTCACACCCCTTGAGAGAGCCGGTCAATGCAACGGAGGACCCGT

CTAGTGGCTACTATTCTACCACAATTAGATATCAGGCTACCGGTTTTGGAACCAATGAGACAGAGT

ACTTGTTCGAGGTTGACAATTTGACCTACGTCCAACTTGAATCAAGATTCACACCACAGTTTCTGC

TCCAGCTGAATGAGACAATATATACAAGTGGGAAAAGGAGCAATACCACGGGAAAACTAATTTGGA

AGGTCAACCCCGAAATTGATACAACAATCGGGGAGTGGGCCTTCTGGGAAACTAAAAAAACCTCAC

TAGAAAAATTCGCAGTGAAGAGTTGTCTTTCACAGTTGTATCAAACGGAGCCAAAAACATCAGTGG

TCAGAGTCCGGCGCGAACTTCTTCCGACCCAGGGACCAACACAACAACTGAAGACCACAAAATCAT

GGCTTCAGAAAATTCCTCTGCAATGGTTCAAGTGCACAGTCAAGGAAGGGAAGCTGCAGTGTCGCA

TCTAACAACCCTTGCCACAATCTCCACGAGTCCCCAATCCCTCACAACCAAACCAGGTCCGGACAA

CAGCACCCATAATACACCCGTGTATAAACTTGACATCTCTGAGGCAACTCAAGTTGAACAACATCA

CCGCAGAACAGACAACGACAGCACAGCCTCCGACACTCCCTCTGCCACGACCGCAGCCGGACCCCC

AAAAGCAGAGAACACCAACACGAGCAAGAGCACTGACTTCCTGGACCCCGCCACCACAACAAGTCC

CCAAAACCACAGCGAGACCGCTGGCAACAACAACACTCATCACCAAGATACCGGAGAAGAGAGTGC

CAGCAGCGGGAAGCTAGGCTTAATTACCAATACTATTGCTGGAGTCGCAGGACTGATCACAGGCGG

GAGAAGAACTCGAAGAGAAGCAATTGTCAATGCTCAACCCAAATGCAACCCTAATTTACATTACTG

GACTACTCAGGATGAAGGTGCTGCAATCGGACTGGCCTGGATACCATATTTCGGGCCAGCAGCCGA

GGGAATTTACATAGAGGGGCTAATGCACAATCAAGATGGTTTAATCTGTGGGTTGAGACAGCTGGC

CAACGAGACGACTCAAGCTCTTCAACTGTTCCTGAGAGCCACAACTGAGCTACGCACCTTTTCAAT

CCTCAACCGTAAGGCAATTGATTTCTTGCTGCAGCGATGGGGCGGCACATGCCACATTCTGGGACC

GGACTGCTGTATCGAACCACATGATTGGACCAAGAACATAACAGACAAAATTGATCAGATTATTCA

TGATTTTGTTGATAAAACCCTTCCGGACCAGGGGGACAATGACAATTGGTGGACAGGATGGAGACA

ATGGATACCGGCAGGTATTGGAGTTACAGGCGTTATAATTGCAGTTATCGCTTTATTCTGTATATG

CAAATTTGTCTTTTAGTTTTTCTTCAGATTGCTTCATGGAAAAGCTCAGCCTCAAATCAATGAAAC

CAGGATTTAATTATATGGATTACTTGAATCTAAGATTACTTGACAAATGATAATATAATACACTGG

AGCTTTAAACATAGCCAATGTGATTCTAACTCCTTTAAACTCACAGTTAATCATAAACAAGGTTTG

ACATCAATCTAGTTATCTCTTTGAGAATGATAAACTTGATGAAGATTAAGAAAAAGGTAATCTTTC

GATTATCTTTAATCTTCATCCTTGATTCTACAATCATGACAGTTGTCTTTAGTGACAAGGGAAAGA

AGCCTTTTTATTAAGTTGTAATAATCAGATCTGCGAACCGGTAGAGTTTAGTTGCAACCTAACACA

CATAAAGCATTGGTCAAAAAGTCAATAGAAATTTAAACAGTGAGTGGAGACAACTTTTAAATGGAA

GCTTCATATGAGAGAGGACGCCCACGAGCTGCCAGACAGCATTCAAGGGATGGACACGACCACCAT

GTTCGAGCACGATCATCATCCAGAGAGAATTATCGAGGTGAGTACCGTCAATCAAGGAGCGCCTCA

CAAGTGCGCGTTCCTACTGTATTTCATAAGAAGAGAGTTGAACCATTAACAGTTCCTCCAGCACCT

AAAGACATATGTCCGACCTTGAAAAAAGGATTTTTGTGTGACAGTAGTTTTTGCAAAAAAGATCAC

CAGTTGGAGAGTTTAACTGATAGGGAATTACTCCTACTAATCGCCCGTAAGACTTGTGGATCAGTA

GAACAACAATTAAATATAACTGCACCCAAGGACTCGCGCTTAGCAAATCCAACGGCTGATGATTTC

CAGCAAGAGGAAGGTCCAAAAATTACCTTGTTGACACTGATCAAGACGGCAGAACACTGGGCGAGA

CAAGACATCAGAACCATAGAGGATTCAAAATTAAGAGCATTGTTGACTCTATGTGCTGTGATGACG

AGGAAATTCTCAAAATCCCAGCTGAGTCTTTTATGTGAGACACACCTAAGGCGCGAGGGGCTTGGG

CAAGATCAGGCAGAACCCGTTCTCGAAGTATATCAACGATTACACAGTGATAAAGGAGGCAGTTTT

GAAGCTGCACTATGGCAACAATGGGACCGACAATCCCTAATTATGTTTATCACTGCATTCTTGAAT

ATTGCTCTCCAGTTACCGTGTGAAAGTTCTGCTGTCGTTGTTTCAGGGTTAAGAACATTGGTTCCT

CAATCAGATAATGAGGAAGCTTCAACCAACCCGGGGACATGCTCATGGTCTGATGAGGGTACCCCT

TAATAAGGCTGACTAAAACACTATATAACCTTCTACTTGATCACAATACTCCGTATACCTATCATC

90

ATATATTTAATCAAGACGATATCCTTTAAAACTTATTCAGTACTATAATCACTCTCGTTTCAAATT

AATAAGATGTGCATGATTGCCCTAATATATGAAGAGGTATGATACAACCCTAACAGTGATCAAAGA

AAATCATAATCTCGTATCGCTCGTAATATAACCTGCCAAGCATACCTCTTGCACAAAGTGATTCTT

GTACACAAATAATGTTTTACTCTACAGGAGGTAGCAACGATCCATCCCATCAAAAAATAAGTATTT

CATGACTTACTAATGATCTCTTAAAATATTAAGAAAAACTGACGGAACATAAATTCTTTATGCTTC

AAGCTGTGGAGGAGGTGTTTGGTATTGGCTATTGTTATATTACAATCAATAACAAGCTTGTAAAAA

TATTGTTCTTGTTTCAAGAGGTAGATTGTGACCGGAAATGCTAAACTAATGATGAAGATTAATGCG

GAGGTCTGATAAGAATAAACCTTATTATTCAGATTAGGCCCCAAGAGGCATTCTTCATCTCCTTTT

AGCAAAGTACTATTTCAGGGTAGTCCAATTAGTGGCACGTCTTTTAGCTGTATATCAGTCGCCCCT

GAGATACGCCACAAAAGTGTCTCTAAGCTAAATTGGTCTGTACACATCCCATACATTGTATTAGGG

GCAATAATATCTAATTGAACTTAGCCGTTTAAAATTTAGTGCATAAATCTGGGCTAACACCACCAG

GTCAACTCCATTGGCTGAAAAGAAGCTTACCTACAACGAACATCACTTTGAGCGCCCTCACAATTA

AAAAATAGGAACGTCGTTCCAACAATCGAGCGCAAGGTTTCAAGGTTGAACTGAGAGTGTCTAGAC

AACAAAATATTGATACTCCAGACACCAAGCAAGACCTGAGAAAAAACCATGGCTAAAGCTACGGGA

CGATACAATCTAATATCGCCCAAAAAGGACCTGGAGAAAGGGGTTGTCTTAAGCGACCTCTGTAAC

TTCTTAGTTAGCCAAACTATTCAGGGGTGGAAGGTTTATTGGGCTGGTATTGAGTTTGATGTGACT

CACAAAGGAATGGCCCTATTGCATAGACTGAAAACTAATGACTTTGCCCCTGCATGGTCAATGACA

AGGAATCTCTTTCCTCATTTATTTCAAAATCCGAATTCCACAATTGAATCACCGCTGTGGGCATTG

AGAGTCATCCTTGCAGCAGGGATACAGGACCAGCTGATTGACCAGTCTTTGATTGAACCCTTAGCA

GGAGCCCTTGGTCTGATCTCTGATTGGCTGCTAACAACCAACACTAACCATTTCAACATGCGAACA

CAACGTGTCAAGGAACAATTGAGCCTAAAAATGCTGTCGTTGATTCGATCCAATATTCTCAAGTTT

ATTAACAAATTGGATGCTCTACATGTCGTGAACTACAACGGATTGTTGAGCAGTATTGAAATTGGA

ACTCAAAATCATACAATCATCATAACTCGAACTAACATGGGTTTTCTGGTGGAGCTCCAAGAACCC

GACAAATCGGCAATGAACCGCATGAAGCCTGGGCCGGCGAAATTTTCCCTCCTTCATGAGTCCACA

CTGAAAGCATTTACACAAGGATCCTCGACACGAATGCAAAGTTTGATTCTTGAATTTAATAGCTCT

CTTGCTATCTAACTAAGGTAGAATACTTCATATTGAGCTAACTCATATATGCTGACTCAATAGTTA

TCTTGACATCTCTGCTTTCATAATCAGATATATAAGCATAATAAATAAATACTCATATTTCTTGAT

AATTTGTTTAACCACAGATAAATCCTCACTGTAAGCCAGCTTCCAAGTTGACACCCTTACAAAAAC

CAGGACTCAGAATCCCTCAAACAAGAGATTCCAAGACAACATCATAGAATTGCTTTATTATATGAA

TAAGCATTTTATCACCAGAAATCCTATATACTAAATGGTTAATTGTAACTGAACCCGCAGGTCACA

TGTGTTAGGTTTCACAGATTCTATATATTACTAACTCTATACTCGTAATTAACATTAGATAAGTAG

ATTAAGAAAAAAGCCTGAGGAAGATTAAGAAAAACTGCTTATTGGGTCTTTCCGTGTTTTAGATGA

AGCAGTTGAAATTCTTCCTCTTGATATTAAATGGCTACACAACATACCCAATACCCAGACGCTAGG

TTATCATCACCAATTGTATTGGACCAATGTGACCTAGTCACTAGAGCTTGCGGGTTATATTCATCA

TACTCCCTTAATCCGCAACTACGCAACTGTAAACTCCCGAAACATATCTACCGTTTGAAATACGAT

GTAACTGTTACCAAGTTCTTGAGTGATGTACCAGTGGCGACATTGCCCATAGATTTCATAGTCCCA

GTTCTTCTCAAGGCACTGTCAGGCAATGGATTCTGTCCTGTTGAGCCGCGGTGCCAACAGTTCTTA

GATGAAATCATTAAGTACACAATGCAAGATGCTCTCTTCTTGAAATATTATCTCAAAAATGTGGGT

GCTCAAGAAGACTGTGTTGATGAACACTTTCAAGAGAAAATCTTATCTTCAATTCAGGGCAATGAA

TTTTTACATCAAATGTTTTTCTGGTATGATCTGGCTATTTTAACTCGAAGGGGTAGATTAAATCGA

GGAAACTCTAGATCAACATGGTTTGTTCATGATGATTTAATAGACATCTTAGGCTATGGGGACTAT

GTTTTTTGGAAGATCCCAATTTCAATGTTACCACTGAACACACAAGGAATCCCCCATGCTGCTATG

GACTGGTATCAGGCATCAGTATTCAAAGAAGCGGTTCAAGGGCATACACACATTGTTTCTGTTTCT

ACTGCCGACGTCTTGATAATGTGCAAAGATTTAATTACATGTCGATTCAACACAACTCTAATCTCA

AAAATAGCAGAGATTGAGGATCCAGTTTGTTCTGATTATCCCAATTTTAAGATTGTGTCTATGCTT

TACCAGAGCGGAGATTACTTACTCTCCATATTAGGGTCTGATGGGTATAAAATTATTAAGTTCCTC

GAACCATTGTGCTTGGCCAAAATTCAATTATGCTCAAAGTACACTGAGAGGAAGGGCCGATTCTTA

ACACAAATGCATTTAGCTGTAAATCACACCCTAGAAGAAATTACAGAAATGCGTGCACTAAAGCCT

TCACAGGCTCAAAAGATCCGTGAATTCCATAGAACATTGATAAGGCTGGAGATGACGCCACAACAA

CTTTGTGAGCTATTTTCCATTCAAAAACACTGGGGGCATCCTGTGCTACATAGTGAAACAGCAATC

91

CAAAAAGTTAAAAAACATGCTACGGTGCTAAAAGCATTACGCCCTATAGTGATTTTCGAGACATAC

TGTGTTTTTAAATATAGTATTGCCAAACATTATTTTGATAGTCAAGGATCTTGGTACAGTGTTACT

TCAGATAGGAATCTAACACCGGGTCTTAATTCTTATATCAAAAGAAATCAATTCCCTCCGTTGCCA

ATGATTAAAGAACTACTATGGGAATTTTACCACCTTGACCACCCTCCACTTTTCTCAACCAAAATT

ATTAGTGACTTAAGTATTTTTATAAAAGACAGAGCTACCGCAGTAGAAAGGACATGCTGGGATGCA

GTATTCGAGCCTAATGTTCTAGGATATAATCCACCTCACAAATTTAGTACTAAACGTGTACCGGAA

CAATTTTTAGAGCAAGAAAACTTTTCTATTGAGAATGTTCTTTCCTACGCACAAAAACTCGAGTAT

CTACTACCACAATATCGGAACTTTTCTTTCTCATTGAAAGAGAAAGAGTTGAATGTAGGTAGAACC

TTCGGAAAATTGCCTTATCCGACTCGCAATGTTCAAACACTTTGTGAAGCTCTGTTAGCTGATGGT

CTTGCTAAAGCATTTCCTAGCAATATGATGGTAGTTACGGAACGTGAGCAAAAAGAAAGCTTATTG

CATCAAGCATCATGGCACCACACAAGTGATGATTTTGGTGAACATGCCACAGTTAGAGGGAGTAGC

TTTGTAACTGATTTAGAGAAATACAATCTTGCATTTAGATATGAGTTTACAGCACCTTTTATAGAA

TATTGCAACCGTTGCTATGGTGTTAAGAATGTTTTTAATTGGATGCATTATACAATCCCACAGTGT

TATATGCATGTCAGTGATTATTATAATCCACCACATAACCTCACACTGGAGAATCGAGACAACCCC

CCCGAAGGGCCTAGTTCATACAGGGGTCATATGGGAGGGATTGAAGGACTGCAACAAAAACTCTGG

ACAAGTATTTCATGTGCTCAAATTTCTTTAGTTGAAATTAAGACTGGTTTTAAGTTACGCTCAGCT

GTGATGGGTGACAATCAGTGCATTACTGTTTTATCAGTCTTCCCCTTAGAGACTGACGCAGACGAG

CAGGAACAGAGCGCCGAAGACAATGCAGCGAGGGTGGCCGCCAGCCTAGCAAAAGTTACAAGTGCC

TGTGGAATCTTTTTAAAACCTGATGAAACATTTGTACATTCAGGTTTTATCTATTTTGGAAAAAAA

CAATATTTGAATGGGGTCCAATTGCCTCAGTCCCTTAAAACGGCTACAAGAATGGCACCATTGTCT

GATGCAATTTTTGATGATCTTCAAGGGACCCTGGCTAGTATAGGCACTGCTTTTGAGCGATCCATC

TCTGAGACACGACATATCTTTCCTTGCAGGATAACCGCAGCTTTCCATACGTTTTTTTCGGTGAGA

ATCTTGCAATATCATCATCTCGGGTTCAATAAAGGTTTTGACCTTGGACAGTTAACACTCGGCAAA

CCTCTGGATTTCGGAACAATATCATTGGCACTAGCGGTACCGCAGGTGCTTGGAGGGTTATCCTTC

TTGAATCCTGAGAAATGTTTCTACCGGAATCTAGGAGATCCAGTTACCTCAGGCTTATTCCAGTTA

AAAACTTATCTCCGAATGATTGAGATGGATGATTTATTCTTACCTTTAATTGCGAAGAACCCTGGG

AACTGCACTGCCATTGACTTTGTGCTAAATCCTAGCGGATTAAATGTCCCTGGGTCGCAAGACTTA

ACTTCATTTCTGCGCCAGATTGTACGCAGGACCATCACCCTAAGTGCGAAAAACAAACTTATTAAT

ACCTTATTTCATGCGTCAGCTGACTTCGAAGACGAAATGGTTTGTAAATGGCTATTATCATCAACT

CCTGTTATGAGTCGTTTTGCGGCCGATATCTTTTCACGCACGCCGAGCGGGAAGCGATTGCAAATT

CTAGGATACCTGGAAGGAACACGCACATTATTAGCCTCTAAGATCATCAACAATAATACAGAGACA

CCGGTTTTGGACAGACTGAGGAAAATAACATTGCAAAGGTGGAGCCTATGGTTTAGTTATCTTGAT

CATTGTGATAATATCCTGGCGGAGGCTTTAACCCAAATAACTTGCACAGTTGATTTAGCACAGATT

CTGAGGGAATATTCATGGGCTCATATTTTAGAGGGAAGACCTCTTATTGGAGCCACACTCCCATGT

ATGATTGAGCAATTCAAAGTGTTTTGGCTGAAACCCTACGAACAATGTCCGCAGTGTTCAAATGCA

AAGCAACCAGGTGGGAAACCATTCGTGTCAGTGGCAGTCAAGAAACATATTGTTAGTGCATGGCCG

AACGCATCCCGAATAAGCTGGACTATCGGGGATGGAATCCCATACATTGGATCAAGGACAGAAGAT

AAGATAGGACAACCTGCTATTAAACCAAAATGTCCTTCCGCAGCCTTAAGAGAGGCCATTGAATTG

GCGTCCCGTTTAACATGGGTAACTCAAGGCAGTTCGAACAGTGACTTGCTAATAAAACCATTTTTG

GAAGCACGAGTAAATTTAAGTGTTCAAGAAATACTTCAAATGACCCCTTCACATTACTCAGGAAAT

ATTGTTCACAGGTACAACGATCAATACAGTCCTCATTCTTTCATGGCCAATCGTATGAGTAATTCA

GCAACGCGATTGATTGTTTCTACAAACACTTTAGGTGAGTTTTCAGGAGGTGGCCAGTCTGCACGC

GACAGCAATATTATTTTCCAGAATGTTATAAATTATGCAGTTGCACTGTTCGATATTAAATTTAGA

AACACTGAGGCTACAGATATCCAATATAATCGTGCTCACCTTCATCTAACTAAGTGTTGCACCCGG

GAAGTACCAGCTCAGTATTTAACATACACATCTACATTGGATTTAGATTTAACAAGATACCGAGAA

AACGAATTGATTTATGACAGTAATCCTCTAAAAGGAGGACTCAATTGCAATATCTCATTCGATAAT

CCATTTTTCCAAGGTAAACGGCTGAACATTATAGAAGATGATCTTATTCGACTGCCTCACTTATCT

GGATGGGAGCTAGCCAAGACCATCATGCAATCAATTATTTCAGATAGCAACAATTCATCTACAGAC

CCAATTAGCAGTGGAGAAACAAGATCATTCACTACCCATTTCTTAACTTATCCCAAGATAGGACTT

CTGTACAGTTTTGGGGCCTTTGTAAGTTATTATCTTGGCAATACAATTCTTCGGACTAAGAAATTA

92

ACACTTGACAATTTTTTATATTACTTAACTACTCAAATTCATAATCTACCACATCGCTCATTGCGA

ATACTTAAGCCAACATTCAAACATGCAAGCGTTATGTCACGGTTAATGAGTATTGATCCTCATTTT

TCTATTTACATAGGCGGTGCTGCAGGTGACAGAGGACTCTCAGATGCGGCCAGGTTATTTTTGAGA

ACGTCCATTTCATCTTTTCTTACATTTGTAAAAGAATGGATAATTAATCGCGGAACAATTGTCCCT

TTATGGATAGTATATCCGCTAGAGGGTCAAAACCCAACACCTGTGAATAATTTTCTCTATCAGATC

GTAGAACTGCTGGTGCATGATTCATCAAGACAACAGGCTTTTAAAACTACCATAAGTGATCATGTA

CATCCTCACGACAATCTTGTTTACACATGTAAGAGTACAGCCAGCAATTTCTTCCATGCATCATTG

GCGTACTGGAGGAGCAGACACAGAAACAGCAACCGAAAATACTTGGCAAGAGACTCTTCAACTGGA

TCAAGCACAAACAACAGTGATGGTCATATTGAGAGAAGTCAAGAACAAACCACCAGAGATCCACAT

GATGGCACTGAACGGAATCTAGTCCTACAAATGAGCCATGAAATAAAAAGAACGACAATTCCACAA

GAAAACACGCACCAGGGTCCGTCGTTCCAGTCCTTTCTAAGTGACTCTGCTTGTGGTACAGCAAAT

CCAAAACTAAATTTCGATCGATCGAGACACAATGTGAAATTTCAGGATCATAACTCGGCATCCAAG

AGGGAAGGTCATCAAATAATCTCACACCGTCTAGTCCTACCTTTCTTTACATTATCTCAAGGGACA

CGCCAATTAACGTCATCCAATGAGTCACAAACCCAAGACGAGATATCAAAGTACTTACGGCAATTG

AGATCCGTCATTGATACCACAGTTTATTGTAGATTTACCGGTATAGTCTCGTCCATGCATTACAAA

CTTGATGAGGTCCTTTGGGAAATAGAGAGTTTCAAGTCGGCTGTGACGCTAGCAGAGGGAGAAGGT

GCTGGTGCCTTACTATTGATTCAGAAATACCAAGTTAAGACCTTATTTTTCAACACGCTAGCTACT

GAGTCCAGTATAGAGTCAGAAATAGTATCAGGAATGACTACTCCTAGGATGCTTCTACCTGTTATG

TCAAAATTCCATAATGACCAAATTGAGATTATTCTTAACAACTCAGCAAGCCAAATAACAGACATA

ACAAATCCTACTTGGTTTAAAGACCAAAGAGCAAGGCTACCTAAGCAAGTCGAGGTTATAACCATG

GATGCAGAGACAACAGAGAATATAAACAGATCGAAATTGTACGAAGCTGTATATAAATTGATCTTA

CACCATATTGATCCTAGCGTATTGAAAGCAGTGGTCCTTAAAGTCTTTCTAAGTGATACTGAGGGT

ATGTTATGGCTAAATGATAATTTAGCCCCGTTTTTTGCCACTGGTTATTTAATTAAGCCAATAACG

TCAAGTGCTAGATCTAGTGAGTGGTATCTTTGTCTGACGAACTTCTTATCAACTACACGTAAGATG

CCACACCAAAACCATCTCAGTTGTAAACAGGTAATACTTACGGCATTGCAACTGCAAATTCAACGA

AGCCCATACTGGCTAAGTCATTTAACTCAGTATGCTGACTGTGAGTTACATTTAAGTTATATCCGC

CTTGGTTTTCCATCATTAGAGAAAGTACTATACCACAGGTATAACCTCGTCGATTCAAAAAGAGGT

CCACTAGTCTCTATCACTCAGCACTTAGCACATCTTAGAGCAGAGATTCGAGAATTAACTAATGAT

TATAATCAACAGCGACAAAGTCGGACTCAAACATATCACTTTATTCGTACTGCAAAAGGACGAATC

ACAAAACTAGTCAATGATTATTTAAAATTCTTTCTTATTGTGCAAGCATTAAAACATAATGGGACA

TGGCAAGCTGAGTTTAAGAAATTACCAGAGTTGATTAGTGTGTGCAATAGGTTCTACCATATTAGA

GATTGCAATTGTGAAGAACGTTTCTTAGTTCAAACCTTATATTTACATAGAATGCAGGATTCTGAA

GTTAAGCTTATCGAAAGGCTGACAGGGCTTCTGAGTTTATTTCCGGATGGTCTCTACAGGTTTGAT

TGAATTACCGTGCATAGTATCCTGATACTTGCAAAGGTTGGTTATTAACATACAGATTATAAAAAA

CTCATAAATTGCTCTCATACATCATATTGATCTAATCTCAATAAACAACTATTTAAATAACGAAAG

GAGTCCCTATATTATATACTATATTTAGCCTCTCTCCCTGCGTGATAATCAAAAAATTCACAATGC

AGCATGTGTGACATATTACTGCCGCAATGAATTTAACGCAACATAATAAACTCTGCACTCTTTATA

ATTAAGCTTTAACGAAAGGTCTGGGCTCATATTGTTATTGATATAATAATGTTGTATCAATATCCT

GTCAGATGGAATAGTGTTTTGGTTGATAACACAACTTCTTAAAACAAAATTGATCTTTAAGATTAA

GTTTTTTATAATTATCATTACTTTAATTTGTCGTTTTAAAAACGGTGATAGCCTTAATCTTTGTGT

AAAATAAGAGATTAGGTGTAATAACCTTAACATTTTTGTCTAGTAAGCTACTATTTCATACAGAAT

GATAAAATTAAAAGAAAAGGCAGGACTGTAAAATCAGAAATACCTTCTTTACAATATAGCAGACTA

GATAATAATCTTCGTGTTAATGATAATTAAGACATTGACCACGCTCATCAGAAGGCTCGCCAGAAT

AAACGTTGCAAAAAGGATTCCTGGAAAAATGGTCGCACACAAAAATTTAAAAATAAATCTATTTCT

TCTTTTTTGTGTGTCCA

93

LAMPIRAN C

Listing Program

function varargout = GUI_Persejajaran_Multi(varargin) % GUI_PERSEJAJARAN_MULTI MATLAB code for

GUI_Persejajaran_Multi.fig % GUI_PERSEJAJARAN_MULTI, by itself, creates a new

GUI_PERSEJAJARAN_MULTI or raises the existing % singleton*. % % H = GUI_PERSEJAJARAN_MULTI returns the handle to a new

GUI_PERSEJAJARAN_MULTI or the handle to % the existing singleton*. % %

GUI_PERSEJAJARAN_MULTI('CALLBACK',hObject,eventData,handles,...)

calls the local % function named CALLBACK in GUI_PERSEJAJARAN_MULTI.M with

the given input arguments. % % GUI_PERSEJAJARAN_MULTI('Property','Value',...) creates a

new GUI_PERSEJAJARAN_MULTI or raises the % existing singleton*. Starting from the left, property

value pairs are % applied to the GUI before GUI_Persejajaran_Multi_OpeningFcn

gets called. An % unrecognized property name or invalid value makes property

application % stop. All inputs are passed to

GUI_Persejajaran_Multi_OpeningFcn via varargin. % % *See GUI Options on GUIDE's Tools menu. Choose "GUI allows

only one % instance to run (singleton)". % % See also: GUIDE, GUIDATA, GUIHANDLES

% Edit the above text to modify the response to help

GUI_Persejajaran_Multi

% Last Modified by GUIDE v2.5 08-Jan-2014 22:40:20

% Begin initialization code - DO NOT EDIT gui_Singleton = 1; gui_State = struct('gui_Name', mfilename, ... 'gui_Singleton', gui_Singleton, ... 'gui_OpeningFcn',

@GUI_Persejajaran_Multi_OpeningFcn, ... 'gui_OutputFcn',

@GUI_Persejajaran_Multi_OutputFcn, ... 'gui_LayoutFcn', [] , ... 'gui_Callback', []); if nargin && ischar(varargin{1}) gui_State.gui_Callback = str2func(varargin{1}); end

94

if nargout [varargout{1:nargout}] = gui_mainfcn(gui_State, varargin{:}); else gui_mainfcn(gui_State, varargin{:}); end % End initialization code - DO NOT EDIT

% --- Executes just before GUI_Persejajaran_Multi is made visible. function GUI_Persejajaran_Multi_OpeningFcn(hObject, eventdata,

handles, varargin) % This function has no output args, see OutputFcn. % hObject handle to figure % eventdata reserved - to be defined in a future version of

MATLAB % handles structure with handles and user data (see GUIDATA) % varargin command line arguments to GUI_Persejajaran_Multi (see

VARARGIN)

% Choose default command line output for GUI_Persejajaran_Multi handles.output = hObject;

% Update handles structure guidata(hObject, handles);

% UIWAIT makes GUI_Persejajaran_Multi wait for user response (see

UIRESUME) % uiwait(handles.figure1);

% --- Outputs from this function are returned to the command line. function varargout = GUI_Persejajaran_Multi_OutputFcn(hObject,

eventdata, handles) % varargout cell array for returning output args (see VARARGOUT); % hObject handle to figure % eventdata reserved - to be defined in a future version of

MATLAB % handles structure with handles and user data (see GUIDATA)

% Get default command line output from handles structure varargout{1} = handles.output;

function edit_data_Callback(hObject, eventdata, handles) % hObject handle to edit_data (see GCBO) % eventdata reserved - to be defined in a future version of


% Hints: get(hObject,'String') returns contents of edit_data as

text % str2double(get(hObject,'String')) returns contents of

edit_data as a double

95

% --- Executes during object creation, after setting all

properties. function edit_data_CreateFcn(hObject, eventdata, handles) % hObject handle to edit_data (see GCBO) % eventdata reserved - to be defined in a future version of

MATLAB % handles empty - handles not created until after all

CreateFcns called

% Hint: edit controls usually have a white background on Windows. % See ISPC and COMPUTER. if ispc && isequal(get(hObject,'BackgroundColor'),

get(0,'defaultUicontrolBackgroundColor')) set(hObject,'BackgroundColor','white'); end

% --- Executes on button press in pushbutton1. function pushbutton1_Callback(hObject, eventdata, handles) [FileName,PathName] = uigetfile('*.txt','Ambil Data Format txt'); if FileName==0 return; end s=[PathName,FileName]; sekuen= fastaread(s);

kum={''}; hit=0; for i=1:length(sekuen) hit=hit+1; kum(hit,1)={sekuen(i).Header}; temp=sekuen(i).Sequence; panjang=1; p=110; while panjang<length(temp) hit=hit+1; if (length(temp)-panjang)<p kum(hit,1)={temp(panjang:length(temp))}; else kum(hit,1)={temp(panjang:panjang+p)}; end panjang=panjang+p+1; end end

set(handles.edit_data,'String',kum); handles.sekuen=sekuen; guidata(hObject, handles); % hObject handle to pushbutton1 (see GCBO) % eventdata reserved - to be defined in a future version of


% --- Executes on button press in pushbutton3.

96

function pushbutton3_Callback(hObject, eventdata, handles) sekuen=handles.sekuen; ma=multialign(sekuen,'verbose',true); showalignment(ma); seqalignviewer(ma); % hObject handle to pushbutton3 (see GCBO) % eventdata reserved - to be defined in a future version of


% --- Executes on button press in pushbutton5. function pushbutton5_Callback(hObject, eventdata, handles) sekuen=handles.sekuen; distances = seqpdist(sekuen,'ScoringMatrix',gonnet); tree = seqlinkage(distances,'UPGMA',sekuen); clc SeqsMultiAligned = multialign(sekuen, tree,'verbose',true) msgbox('Lihat Di Command Window'); % hObject handle to pushbutton5 (see GCBO) % eventdata reserved - to be defined in a future version of


% --- Executes on button press in pushbutton6. function pushbutton6_Callback(hObject, eventdata, handles) sekuen=handles.sekuen; % ma=multialign(sekuen,'verbose',true); dist = seqpdist(sekuen,'ScoringMatrix',gonnet); tree = seqlinkage(dist,'UPGMA',sekuen); phytreeviewer(tree); % seqalignviewer(ma); % hObject handle to pushbutton6 (see GCBO) % eventdata reserved - to be defined in a future version of


% --- Executes on button press in pushbutton7. function pushbutton7_Callback(hObject, eventdata, handles) sekuen=handles.sekuen; dist = seqpdist(sekuen,'ScoringMatrix',gonnet); data={''}; k=0; for i=1:length(sekuen) for j=i+1:length(sekuen) k=k+1; data(k,1)={sekuen(i).Header}; data(k,2)={sekuen(j).Header}; data(k,3)={dist(k)}; end end coln=[{'Sekuen A','Sekuen B','Skor'}];

set(handles.uitable1,'Data',data,'ColumnName',coln);

97

% hObject handle to pushbutton7 (see GCBO) % eventdata reserved - to be defined in a future version of


83

DAFTAR PUSTAKA

Agrawal, A dan Khaitan, S.K. (2008), New Heuristic for Multiple Sequence

Alignment. 978-1-4244-2030-8/08/$25.00. 2008 IEEE.

Bovendo,H.F; Mulangu,S dan Sullivan, N.J. (2012), Ebolavirus vaccines for

humans and apes. Available online at www.sciencedirect.com. Current

Opinion in Virology 2012, 2:324–329.

Campbell, N.A; Reece, J.B dan Mitchell. (2008), Biology. Erlangga. Jakarta.

Clercq, E.D. (2014). Ebola Virus (EBOV) Infection: Therapeutic Strategie. Rega

Institute for Medical Research. Belgium.

Claverie, J.M dan Notredame, C. (2007), Bioinformatics For Dummies. Wiley

Publishing, Inc. America.

Cristianini, N dan Hahn, M.W. (2006), Introduction to Computational Genomics.

Cambridge University Press. New York.

Dharmayanti, I. N.L.P. (2011), Filogenetika Molekuler: Metode Taksonomi

Organisme Berdasarkan Sejarah Evolusi. Balai Besar Penelitian

Veteriner. Bogor.

Durbin, R; Eddy, S; Krogh, A dan Mitchison, G. (2002), Biological Sequence

Analysis. Cambridge. University Press.

Feng, D.F. dan Doolittle, R.F. (1996). Progressive alignment of amino acid

sequences and construction of phylogenetic trees from them. Methods

Enzymol. Australian National University. Canbera. Springer.

Hochreiter, S. (2008), Bioinformatics I Sequence Analysis and Phylogenetics.

Institute of Bioinformatics. Australia.

Irawan, M.I. dan Amiroch, S. (2014), Construction Of Phylogenetic Tree Using

Neighbor Joining Algorithms To Identify The Host And The Spreading Of

Sars Epidemic. Journal of Theoretical and Applied Information

Technology, Vol 71, No. 3, January 2015.

http://www.sciencedirect.com/

84

Isaev, A. (2006). Introduction to Mathematical Methods in Bioinformatics.

Department of Mathematics. Australian National University. Australian.

Lemey; Salemi, M. dan Vandamme, A.M. (2009), The Phylogenetic Handbook.

Cambridge University Press. New York.

Li, H., Ying, T., Yu, F., Lu, L., dan Jiang, S. (2014), Development Of

Therapeutics For Treatment Of Ebola Virus Infection. Institute Pasteur.

Naznin, F; Sarker, R dan Essam, D. Progressive Alignment Method Using

Genetic Algorithm for Multiple Sequence Alignment . IEEE Transactions

on Evolutionary Computation, vol. 16, no. 5, October 2012

Mojbak, J and Pedersen, C.N.S. (2010), Exact Multiple Sequence Alignment using

Forward Dynamic Programming. Bioinformatics Research Center.

Aarhus University.

Polanski, A dan Kimmel, M. (2007), Bioinformatics. Springer Berlin Heidelberg.

New York.

Ruzgar, E., dan Erciyes, K. (2011), Clustering Based Distributed Phylogenetic

Tree Construction. Journal Expert Systems with Applications. Izmir

University. Turkey.

Shen, S.Y., dan Tuszynski. (2008), Theory and Mathematical for Bioinfomatic.

Biological and Medical Physics. Biomedical Engineering. Springer.

Ulum, B., Kusuma, W.A dan Prasetyo, J. (2013), Design of Potential Cellulase

Primer using Multiple Sequence Alignment Method. Journal Research on

Computing and Its Aplications, Vol. 7, No. 1, January 2013.

99

BIODATA PENULIS

Penulis bernama lengkap Tri Andriani, lahir di Kediri,

11 Juni 1987. Selama ini penulis telah menyelesaikan

pendidikan formalnya yaitu di SD YBPK Sambirejo

pada tahun 1993, SLTPN I PARE pada tahun 1999,

SMK YP 17 PARE pada tahun 2002 dan S1 Jurusan

Pendidikan Matematika di Universitas Wisnuwardhana

Malang pada tahun 2005. Penulis melanjutkan

pendidikan S2 Jurusan Matematika, Fakultas

Matematika dan Ilmu Pengetahuan Alam, Institut

Teknologi Sepuluh Nopember, Surabaya. Untuk kritik

dan saran dapat dihubungi melalui email

[email protected].

mailto:[email protected]

Documents

APLIKASI METODE UPGMA UNTUK IDENTIFIKASI …