22
Penelusuran Informasi Penelusuran Informasi Penelusuran Informasi Penelusuran Informasi Penelusuran Informasi Penelusuran Informasi Penelusuran Informasi Penelusuran Informasi (Search Engine Technology) (Search Engine Technology) (Search Engine Technology) (Search Engine Technology) (Search Engine Technology) (Search Engine Technology) (Search Engine Technology) (Search Engine Technology) Dr. Taufik Fuadi Abidin, M.Tech Dr. Taufik Fuadi Abidin, M.Tech Dr. Taufik Fuadi Abidin, M.Tech Dr. Taufik Fuadi Abidin, M.Tech Dr. Taufik Fuadi Abidin, M.Tech Dr. Taufik Fuadi Abidin, M.Tech Dr. Taufik Fuadi Abidin, M.Tech Dr. Taufik Fuadi Abidin, M.Tech http://www.informatika.unsyiah.ac.id/tfa

Penelusuran Informasi (Search Engine Technology) · Penelusuran Informasi (Search Engine Technology) Dr. Taufik Fuadi Abidin, M.Tech

Embed Size (px)

Citation preview

Penelusuran InformasiPenelusuran InformasiPenelusuran InformasiPenelusuran InformasiPenelusuran InformasiPenelusuran InformasiPenelusuran InformasiPenelusuran Informasi(Search Engine Technology)(Search Engine Technology)(Search Engine Technology)(Search Engine Technology)(Search Engine Technology)(Search Engine Technology)(Search Engine Technology)(Search Engine Technology)

Dr. Taufik Fuadi Abidin, M.TechDr. Taufik Fuadi Abidin, M.TechDr. Taufik Fuadi Abidin, M.TechDr. Taufik Fuadi Abidin, M.TechDr. Taufik Fuadi Abidin, M.TechDr. Taufik Fuadi Abidin, M.TechDr. Taufik Fuadi Abidin, M.TechDr. Taufik Fuadi Abidin, M.Techhttp://www.informatika.unsyiah.ac.id/tfa

World Wide Web (WWW)World Wide Web (WWW)World Wide Web (WWW)World Wide Web (WWW)World Wide Web (WWW)World Wide Web (WWW)World Wide Web (WWW)World Wide Web (WWW)

� WWW adalah:� Interkoneksi halaman web yang dapat diakses

melalui jaringan Internet � Inventor WWW adalah Tim Berners-Lee� Dokumen dibuat dalam format hypertexthypertexthypertexthypertext

Ukuran WWW?Ukuran WWW?Ukuran WWW?Ukuran WWW?Ukuran WWW?Ukuran WWW?Ukuran WWW?Ukuran WWW?

� Diprediksi berdasarkan pendekatan dengan melihat jumlah dokumen yang diindeks oleh Search Engine

Ukuran Indeks GoogleUkuran Indeks Google

Ukuran Indeks BingUkuran Indeks Bing

Ukuran Indeks Yahoo!Ukuran Indeks Yahoo!

Jumlah Pengguna InternetJumlah Pengguna Internet

BrowserBrowser

URL pada BrowserURL pada Browser

Client Client –– Server : Request Server : Request -- ResponseResponse

www.google.comwww.yahoo.comwww.ask.comwww.bing.com

Search Engine: Mesin Penelusuran Search Engine: Mesin Penelusuran

InformasiInformasi

Search Engine CycleSearch Engine Cycle

Komponen Search EngineKomponen Search EngineKomponen Search EngineKomponen Search EngineKomponen Search EngineKomponen Search EngineKomponen Search EngineKomponen Search Engine Crawler

Indexer

Ranker

Crawler

Indexer

Ranker� Web Crawler/Spider/Webbot� Mengkopi halaman web secara periodik� Dimulai dengan beberapa URL (seeds)� Setiap hyperlink ditelusuri berdasarkan policy tertentu� Bekerja secara paralel (distributed)

� Indexer� Membangun struktur data indeks (inverted list)� Membutuhkan teknik kompresi (ukuran indeks besar)� Menyediakan mekanisme pengambilan data (data retrieval)

dengan cepat

� Ranker� Melakukan pemeringkatan secara generik (ranking algorithm)� Pagerank (Google)

� Terms Frequency

� Link Analysis� PageRank (Google)

A link analysis algorithm that assigns a weight to each page to measure the relative importance of the page within the set. It interprets a link from page A to page B as a vote, by page A, for page B (see The Anatomy of a Large-Scale Hypertextual Web Search Engine. Brin, S.; Page, L., 1998)

� ExpertRank (Ask.com)

Subject-Specific Popularity: analyzed links in context to rank a web page's importance within its specific subject. Ex. a web page about ‘basketball’ would rank higher if other web pages about ‘basketball' link to it

� User Behavior (Click analysis)

Algoritma RankingAlgoritma Ranking

� Set of pages: A, B, C, and D. Initial PR of each page 0.25� If B, C, D point to A then PR(A) = PR(B) + PR(C) + PR(D)

� But, if B also points to C, and D points to all A, B, and C, then the vote of each page is normalized by the number of outbound links of the page. Thus, vote of B is 0.125 for A and C

� The vote of D = 0.25/3 = 0.081 for A, B, and C

� PR(A) = PR(B)/OL(B) + PR(C)/OL(C) + PR(D)/OL(D) = 0.456

A

B

C

D

A

B

C

D

� Tulis Query Secara Benar� Tidak terlalu panjang (2-4 kata)� Mengandung kata-kata kunci (kata-kata penting)� Dapat berupa pertanyaan� Bila hasil yang ditampilkan kurang relevan, ubah query

� Gunakan Tambahan Parameter� filetype� site� tanda petik “ ” untuk mengapit kata kunci

Cara Mencari Informasi Cara Mencari Informasi

Hasil Menggunakan Parameter Hasil Menggunakan Parameter Hasil Menggunakan Parameter Hasil Menggunakan Parameter Hasil Menggunakan Parameter Hasil Menggunakan Parameter Hasil Menggunakan Parameter Hasil Menggunakan Parameter filetypefiletypefiletypefiletypefiletypefiletypefiletypefiletype

Hasil Menggunakan Parameter Hasil Menggunakan Parameter Hasil Menggunakan Parameter Hasil Menggunakan Parameter Hasil Menggunakan Parameter Hasil Menggunakan Parameter Hasil Menggunakan Parameter Hasil Menggunakan Parameter filetypefiletypefiletypefiletypefiletypefiletypefiletypefiletype

Query: what does computer science mean?Query: what does computer science mean?

Perbandingan Hasil PencarianPerbandingan Hasil Pencarian

Query: Who is barack obama?Query: Who is barack obama?Query: Who is barack obama?Query: Who is barack obama?

Perbandingan Hasil PencarianPerbandingan Hasil PencarianQuery: Log 10Query: Log 10Query: Log 10Query: Log 10

Perbandingan Hasil PencarianPerbandingan Hasil PencarianQuery: What is the distance between Query: What is the distance between Query: What is the distance between Query: What is the distance between …………