Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
1
知的情報処理2. Search Engines
櫻井彰人
慶應義塾大学理工学部
まずは、別の話から
山梨県に展開するスーパー「オギノ」
1996年にポイントカード制(オギノグリーンスタンプ
カード)を導入FSP(フリークエントショッパーズプログラム)である
1999年にデータ分析を開始。
顧客の購買履歴データを分析し、商品・サービスの品揃え、価格設定、セグメンテーションなどの見直しに活用
これは完全に蛇足
あるコンビニのある店における取り組み071003-「地方の食材をコンビニに」より.avi
コーチのマーケティング戦略071004-女性心理探るコーチの日本戦略.avi
復習
まずは、web検索ツール(webサーチエンジン)の復
習からはじめましょう
検索ツール
次のようなものがある(きりがない、、、)
検索エンジン search enginesディレクトリ search directoriesメタサーチ meta search engines画像検索 image search engines辞書 dictionaries類義語 thesauri百科事典 encyclopaedias地図 mapsニュース newsホテル・鉄道・航空機 reservationsグルメ、、、、
日本のサーチエンジン
2
日本のサーチエンジン 日本のサーチエンジン
2004/06/10現在 371リンクhttp://shikariki.com/link.html
主なサーチエンジン
GoogleAltaVistaYahooAllthewebMSNDogPile
All about JapnaAll the WebAltaVistaBIGLOBEサーチ
ExciteFresheyegooGoogleInfoseekLycosMSNYahoo
メタサーチ
(「メタ」は言葉の乱用だが)すっかり普通に
http://www1.neweb.ne.jp/wa/k-c/
ところで、サーチエンジンとは何か?
ディレクトリ型とクローラー型とがある
クローラーまたはスパイダーと呼ばれるプログラム(複数の、普通は、大量のサーバー上で動く)が
web 上を動き回って、サイトの索引をつくる
そのときには、web サイトのリンク情報を参考にする
ユーザは、キーワードを入力することにより、それにマッチした単語をもつサイトを見つけ出すことができる
すなわち、サーチエンジンは www をサーチするわけではない。予め作成してある索引(index)の上をサーチするのである。
従って、最新の情報が見つかるわけではないといいつつも、最近は非常に早くなっている。ご存じ?
並べ方:重要度 relevance 順なのだが
ページの “人気度 popularity” (DirectHitがもと)訪れる人が多いページ (一般に)クエリの結果、よく訪れるページ
リンクの “co-citation” (Googleがもと)他のサイトにリンクされているサイトはどれか?権威のある文献 “authoritative sources” をみつける、も
ともとは、文献学・社会学の考察に基づく
3
問題はないか?
皆さんは、どちらでしょうか?
結構うまく検索できて、あまり不満はない
いや~、結構不満あるよ。検索がしにくい
いくつかある不満点のうち代表的(と思われるもの)
ランキングが不適切
ランキングだけではないようだ
同じ綴りであっても意味が異なる場合、(目下の検索目的にとっては)重要ではないサイトが上位にきている
例えば、私は先日、Ruby で書いたElizaというプログラムを探したいと考え、Google で Ruby Eliza を2個のキーワードとして検索をした。100万件以上ヒットするのだが、どうも関係ないものばかりが並んでいる。さてどうしたものだろうかと思い悩んだ
提案
検索されたサイトを、内容ごとに類別し、内容ごとまたは分野ごとにまとめて提示してくれると探しやすい
同じ不便さを感じる人は多くいるに違いない!
このように、似たもの同士を仲間としてまとめ、そうでないものは別の仲間にすることを clustering とい
う。cluster とは(葡萄のような)房状のものをいう
新たな試み: 事例 vivisimo
http://vivisimo.com/
Vivisimo (2006)
Vivisimo Clusty
4
Mooter
http://www.mooter.co.jp/
Mooter
Mooter(2006)
http://www.mooter.com/
Mooter(2006)
Mooter(2006) Grokker
http://www.grokker.com/
5
Grokker(2006)
http://www.grokker.com/
Grokker (2005)
http://www.grokker.com/
Grokker Grokker (2005)
Grokker Grokker(2006)
6
Grokker (2005) Grokker (2005)
Websom
http://websom.hut.fi/websom/milliondemo/html/root.html
基本技術: クラスタリング
Clustering or cluster analysis とは?何を
n 個の対象物
しばしば、ベクトルで表現
実際には、何を「ベクトル」にとるかが難しい
どういう情報をもとに対象物2個の間の距離
類似していれば近く、差異が大きければ遠い
ベクトル表現したときは、どういう距離を用いるか
どうやって??
当日レポート
実際にクラスタリングを用いた検索エンジンを使い、その評価を行う。
検索するキーワードを3個(相互関係なし)決める
(各自独自に)。そして、各キーワードにつきVivisimo と Clusty の結果を比べる
さらに、Mooter および Grokker も比較対象とする
何が違うか。参考: いずれもメタ検索である。