Upload
dimas-joko
View
231
Download
4
Embed Size (px)
Citation preview
8/17/2019 Text Pre Processing
1/52
Text Pre-Processing
A Complete View
8/17/2019 Text Pre Processing
2/52
Latar Belakang
8/17/2019 Text Pre Processing
3/52
Latar Belakang
• Dokumen-dokumen yang adakebanyakan tidak memiliki strukturyang pasti sehingga informasi didalamnya tidak bisa diekstrak secaralangsung
8/17/2019 Text Pre Processing
4/52
Latar Belakang
• Tidak semua kata mencerminkanmakna/isi yang terkandung dalamsebuah dokumen.
8/17/2019 Text Pre Processing
5/52
Latar Belakang
• Preprocessing diperlukan untukmemilih kata yang akan digunakansebagai indeks
• ndeks ini adalah kata-kata yangmewakili dokumen yang nantinyadigunakan untuk membuat
pemodelan untuk nformation!etrie"al maupun aplikasi teks mininglain.
8/17/2019 Text Pre Processing
6/52
Latar Belakang
• De#nisi Pemrosesan Teks $Te%tPreprocessing& adalah suatu prosespengubahan bentuk data yang belum
terstruktur men'adi data yangterstruktur sesuai dengankebutuhan( untuk proses mining
yang lebih lan'ut $sentiment analysis(peringkasan( clustering dokumen(etc.&.
8/17/2019 Text Pre Processing
7/52
Singkatnya
• Preprocessing adalah )erubahteks men'adi term inde%
• Tujuan* menghasilkan sebuah setterm inde% yang bisa mewakilidokumen
8/17/2019 Text Pre Processing
8/52
Bird View
8/17/2019 Text Pre Processing
9/52
+angkah , * Parsing
• Tulisan dalam sebuah dokumen bisa 'adi terdiri dari berbagai macambahasa( character sets( dan format
• ering 'uga( dalam satu dokumenyang sama berisi tulisan daribeberapa ahasa. )isal( sebuah
email berbahasa ndonesia denganlampiran PD0 berbahasa nggris.
8/17/2019 Text Pre Processing
10/52
+angkah , * Parsing
• Parsing Dokumen berurusan denganpengenalan dan 1pemecahan2struktur dokumen men'adi
komponen-komponen terpisah. Padalangkah preprocessing ini( kitamenentukan mana yang di'adikan
satu unit dokumen
8/17/2019 Text Pre Processing
11/52
tep , * Parsing
• Contoh( email dengan 3 lampiranbisa dipisah men'adi 4 dokumen * ,dokumen yang merepresentasikan isi
$body& dari email dan 3 dokumendari masing-masing lampiran
8/17/2019 Text Pre Processing
12/52
tep , * Parsing
• Contoh lain( buku dengan ,55halaman bisa dipisah men'adi ,55dokumen masing-masing halaman
men'adi , dokumen
8/17/2019 Text Pre Processing
13/52
tep , * Parsing
• Contoh lain( satu tweet bisa di'adikansebagai , dokumen. egitu 'ugadengan sebuah koemntar pada
forum atau re"iew produk.
8/17/2019 Text Pre Processing
14/52
tep 6 * +e%ical Analysis
• +ebih populer disebut +e%ing atauTokenization / Tokenisasi
8/17/2019 Text Pre Processing
15/52
tep 6 * +e%ical Analysis
• Tokenisasi adalah prosespemotongan string inputberdasarkan tiap kata penyusunnya.
• Pada prinsipnya proses ini adalahmemisahkan setiap kata yangmenyusun suatu dokumen.
8/17/2019 Text Pre Processing
16/52
tep 6 * +e%ical Analysis
• Pada proses ini dilakukanpenghilangan angka( tanda baca dan karakter selain huruf alfabet(
karena karakter-karakter tersebutdianggap sebagai pemisah kata$delimiter& dan tidak memiliki
pengaruh terhadap pemrosesanteks.
8/17/2019 Text Pre Processing
17/52
tep 6 * +e%ical Analysis
• Contoh *
8/17/2019 Text Pre Processing
18/52
tep 6 * +e%ical Analysis
• Pada tahapan ini 'uga dilakukanproses case folding( dimanasemua huruf diubah men'adi huruf
kecil.
8/17/2019 Text Pre Processing
19/52
tep 6 * +e%ical Analysis
• Pada tahapan ini 'uga Cleaning
• Cleaning adalah prosesmembersihkan dokumen darikomponen-komponen yang tidakmemiliki hubungan dengan informasiyang ada pada dokumen( contoh * – tag html
– link
– script
8/17/2019 Text Pre Processing
20/52
Tokens Types and Ter!s
• Te%t* 1apakah culo dan boyo bermainbola di depan rumah boyo72
8/17/2019 Text Pre Processing
21/52
Tokens Types and Ter!s
• Te%t* 1apakah culo dan boyo bermainbola di depan rumah boyo72
• Token adalah kata-kata yangdipisah-pisah dari teks aslinya tanpamempertimbangkan adanyaduplikasi
• 8 Tokennya* 1culo2( 1dan2( 1boyo2(1bermain2( 1bola2( 1di2( 1depan2(1rumah2( 1boyo2
8/17/2019 Text Pre Processing
22/52
Tokens Types and Ter!s
• Te%t* 1apakah culo dan boyo bermain boladi depan rumah boyo72
• 8 Tokennya* 1culo2( 1dan2( 1boyo2(
1bermain2( 1bola2( 1di2( 1depan2( 1rumah2(1boyo2
• Type adalah token yang memperhatikanadanya duplikasi kata. 9etika ada duplikasi
hanya dituliskan sekali sa'a.• 8 Type* 1culo2( 1dan2( 1boyo2( 1bermain2(
1bola2( 1di2( 1depan2( 1rumah2
8/17/2019 Text Pre Processing
23/52
Tokens Types and Ter!s
• Te%t* 1apakah culo dan boyo bermain bola didepan rumah boyo72
• Token * 1culo2( 1dan2( 1boyo2( 1bermain2(
1bola2( 1di2( 1depan2( 1rumah2( 1boyo2• Type * 1culo2( 1dan2( 1boyo2( 1bermain2(
1bola2( 1di2( 1depan2( 1rumah2
• Ter! adalah type yang sudah dinormalisasi
$dilakukan stemming( #ltering( dsb&• 8 Term * 1culo2( 1boyo2( 1main2( 1bola2(
1depan2( 1rumah2
8/17/2019 Text Pre Processing
24/52
Contoh :asil Tokenisasi
Te%t nput They are applied to the words in the te%t.
Token
they word
are in
applied the
to te%t
the
8/17/2019 Text Pre Processing
25/52
Contoh :asil Tokenisasi
•
1To2( 1The2( 1n2 merupakan kata-kata yang tidak penting nantinyabakal dibahas dalam #ltering
Te%t nput They are applied to the words in the te%t.
Token
they word
are in
applied the
to te%t
the
8/17/2019 Text Pre Processing
26/52
Contoh +ain
Te%t nput
8/17/2019 Text Pre Processing
27/52
tep 6 * topword !emo"al
• Disebut 'uga "iltering
• "iltering adalah tahap pengambilandari hasil token( yaitu kata-kata apasa'a yang akan digunakan untukmerepresentasikan dokumen.
8/17/2019 Text Pre Processing
28/52
topword !emo"al * The)ethods
• Algoritma stoplist
• Stoplist atau stopword adalahkata-kata yang tidak deskriptif#tidak penting$ yang dapatdibuang dengan pendekatan bag-of-words.
8/17/2019 Text Pre Processing
29/52
topword !emo"al * The)ethods
• Algoritma stoplist
• 9ita memiliki database kumpulankata-kata yang tidak deskriptif#tidak penting$ kemudian kalauhasil tokenisasi itu ada yangmerupakan kata tidak penting dalam
database tersebut( maka hasiltokenisasi itu dibuang
8/17/2019 Text Pre Processing
30/52
topword !emo"al * The)ethods
• Algoritma stoplist
• Contoh stopwords adalah =m( you(one( two( they dst.
%asil Token %asil "ilterthey -
are -
applied applied
to -
the -word word
in -
the -
texts texts
8/17/2019 Text Pre Processing
31/52
topword !emo"al * The)ethods
• Algoritma wordlist
• &ordlist adalah kata-kata yangdeskriptif # penting$ yang dapatdibuang dengan pendekatan bag-of-words.
8/17/2019 Text Pre Processing
32/52
topword !emo"al * The)ethods
• Algoritma wordlist
• 9ita memiliki database kumpulankata-kata yang deskriptif# penting$ kemudian kalau hasiltokenisasi itu ada yang merupakankata penting dalam database
tersebut( maka hasil tokenisasi itudisimpan
8/17/2019 Text Pre Processing
33/52
topword !emo"al * The)ethods
• Algoritma wordlist
• Contoh wordlist adalah applied(word( te%ts dst.
%asil Token %asil "ilterthey -
are -
applied applied
to -
the -word word
in -
the -
texts texts
8/17/2019 Text Pre Processing
34/52
>sing top ?ords or
8/17/2019 Text Pre Processing
35/52
tep @ * Phrase Detection
• +angkah ini bisa menangkapinformasi dalam teks melebihikemampuan dari metode bag-of-
word murni.
8/17/2019 Text Pre Processing
36/52
tep @ * Phrase Detection
• Pada langkah ini tidak hanyadilakukan tokenisasi per kata( namun
'uga mendeteksi adanya 6 kata atau
lebih yang men'adi frase.
8/17/2019 Text Pre Processing
37/52
tep @ * Phrase Detection
• Contoh( dari dokumen ini * “searchengines are the most visibleinformation retrieval applications”
• Terdapat dua buah frase “searchengines” dan “information retrieval”.
8/17/2019 Text Pre Processing
38/52
tep @ * Phrase Detection
• Phrase detection bisa dilakukandengan beberapa cara *menggunakan aturan $misal dengan
menganggap dua kata yang seringmuncul berurutan sebagai frase&(bisa dengan syntactic analysis( and
kombinasi keduanya.
8/17/2019 Text Pre Processing
39/52
tep @ * Phrase Detection
• )etode umum yang diguakan adalahpenggunaan thesauri untukmendeteksi adanya frase.
• Contoh * Pada thesauri tersebutterdapat daftar frase-fase dalamahasa tertentu( kemudia kita
bandingkan kata-kata dalam teksapakah mengandung frase-frasedalam thesauri tersebut atau tidak.
8/17/2019 Text Pre Processing
40/52
tep @ * Phrase Detection
• 9elemahanya( tahap ini butuhkomputasi yang cukup lama
• 9ebanyakan aplikasi teks miningatau ! tidak menggunakan PhraseDetection
• udah cukup dengan Token per 9ata
• Akan tetapi( sebenarnyapemanfaatan Phrase sebenarnyaakan bisa mengingkatkan akurasi
8/17/2019 Text Pre Processing
41/52
tep 3 * temming and
+emmatiation
%asil
Token%asil "ilter
they -are -
applied appliedto -
the -word word
in -
the -texts texts
8/17/2019 Text Pre Processing
42/52
tep 3 * temming and+emmatiation
• Ste!!ing adalah prosespengubahan bentuk kata men'adikata dasar atau tahap mencari
root kata dari tiap kata hasil#ltering. :asil 0ilter :asil
temming
applied apply
word word
te%ts te%t
8/17/2019 Text Pre Processing
43/52
tep 3 * temming and+emmatiation
• Dengan dilakukanya prosesstemming setiap kata berimbuhanakan berubah men'adi kata dasar(
dengan demikian dapat lebih!engopti!alkan proses teks!ining.
8/17/2019 Text Pre Processing
44/52
tep 3 * temming and
+emmatiation
• mplementasi proses ste!!ing sangat beragam ( tergantungdengan bahasa dari dokumen.
• eberapa metode untuk temming * – Porter temmer $Bnglish ndonesia&
– temming Ari#n-etiono $ndonesia&
– temming
8/17/2019 Text Pre Processing
45/52
tep 3 * temming and
+emmatiation
• Algorithmic* )embuat sebuahalgoritma yang mendeteksi imbuhan.
ika ada awalan atau akhiran yang
seperti imbuhan( maka akandibuang.
8/17/2019 Text Pre Processing
46/52
tep 3 * temming and
+emmatiation
• Algorithmic
• 9elebihan * relatif cepat
• 9ekurangan * beberapa algoritmasalah mendeteksi imbuhan( sehinggaada beberapa kata yang bukanimbuhan tapi dihilangkan
• Contoh * makan -E mak an dideteksisebagai akhiran sehingga dibuang.
8/17/2019 Text Pre Processing
47/52
+emmatiation
• temming berdasarkan kamus
• )enggunakan "ocabulary andmorphological analysis dari kata
untuk menghilangkan imbuhan dandikembalikan ke bentuk dasar darikata.
8/17/2019 Text Pre Processing
48/52
+emmatiation
• temming ini bagus untuk kata-kata yangmengalami perubahan tidak beraturan$english&
•
Contoh * 1see2 -E 1see2( 1saw2( atau1seen2
• ika ada kata 1see2( 1saw2( atau 1seen2(bisa dikembalikan ke bentuk aslinya yaitu
1see2F Dalam !( bagus untuk recall( namun 'elek
untuk akurasi
8/17/2019 Text Pre Processing
49/52
Algoritma Porter temming
•
Algoritma Porter temming ditemukanoleh )artin Porter pada tahun ,GH5.
• )ekanisme algoritma tersebut dalammencari kata dasar suatu kata
berimbuhan( yaitu dengan membuangimbuhan8imbuhan $atau lebih tepatnyaakhiran& pada kata8kata bahasa nggriskarena dalam bahasa nggris tidak
mengenal awalan.
8/17/2019 Text Pre Processing
50/52
Case tudy
• Perhatikan tabel dokumen berikut *
Tentukan hasil Tokenisasi( 0iltering dan temmingsetiap dokumen tersebut I
Dokumen 9e-i si Dokumen
,
pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidakhanya di fakultas. sehingga memudahkan mahasiswa yang ada di luar kota. pelaksanaanwisuda sebaiknya ter'adwal tidak tergantung pada kuota. sehingga lebih cepat mendapati'aah.
6
dalam setahun belakangan ini( pengaksesan 9! diganti ke A) $sebelumnyamenggunakan
8/17/2019 Text Pre Processing
51/52
Case tudy
• Penyelesaian *Dokume
n 9e-isi Dokumen Tokenisasi "iltering Ste!!ing
,
pembukaan daftar wisuda dan pelaksanaannya lebih baik d umumkan di web ub tidakhanya di fakultas. sehingga memudahkanmahasiswa yang ada di luar kota.pelaksanaan wisuda sebaiknya ter'adwaltidak tergantung pada kuota. sehingga lebihcepat mendapat i'aah.
pembukaan daftar wisuda danpelaksanaan nya lebih baik d umumkandi web ub tidak hanya di fakultassehingga memudahkan mahasiswayang ada di luar kota pelaksanaanwisuda sebaiknya ter'adwal tidaktergantung pada kuota sehingga lebihcepat mendapat i'aah
pembukaan daftar wisudapelaksanaan umumkan webub fakultas memudahkanmahasiswa kota pelaksanaanwisuda sebaiknya ter'adwaltergantung kuota cepat i'aah
buka daftar wisudalaksana umum web ubfakultas mudahmahasiswa kotalaksana wisuda baik 'adwal gantung kuotacepat i'aah
6
dalam setahun belakangan ini(
pengaksesan 9! diganti ke A)$sebelumnya menggunakan
8/17/2019 Text Pre Processing
52/52
+atihan ndi"idu $Today&
• Perhatikan dokumen-dokumen berikut *
• Tentukan hasil Tokenisasi( 0iltering dan temming setiap
Dokumen$Doc&
si$Content&
Doc ,elearning di PT9 diatas 'am M malam kok selalu gak bisadibuka ya7
Doc 6
ub tidak punya lahan parkir yang layak. Dan 'alanan
terlalu ramai karena di buka untuk umum. eperti 'alantol sa'a. rawi'aya oh brawi'aya
Doc @9elas Arsitektur dan Lrganisasi 9omputer penuh( apakahtidak dibuka kelas lagi. !ugi kalo saya bisa ngambil 639 tapi baru ,H 9 yg terpenuhi
Doc 3
nformasi tata cara daftar ulang bagi mahasiswa baruPT9 kurang 'elas. ehingga ketika tanggal terakhir
syarat penyerahan berkas daftar ulang( banyakmahasiswa baru yang tidak membawa salah satu syaratdaftar ulangnya.