知的情報処理 2. Search Engines - Keio University2. Search Engines 櫻井彰人慶應義塾大学理工学部まずは、別の話から山梨県に展開するスーパー「オギノ」

1

知的情報処理2. Search Engines

櫻井彰人

慶應義塾大学理工学部

まずは、別の話から

山梨県に展開するスーパー「オギノ」

1996年にポイントカード制（オギノグリーンスタンプ

カード）を導入FSP（フリークエントショッパーズプログラム）である

1999年にデータ分析を開始。

顧客の購買履歴データを分析し、商品・サービスの品揃え、価格設定、セグメンテーションなどの見直しに活用

これは完全に蛇足

あるコンビニのある店における取り組み071003-「地方の食材をコンビニに」より.avi

コーチのマーケティング戦略071004-女性心理探るコーチの日本戦略.avi

復習

まずは、web検索ツール（webサーチエンジン）の復

習からはじめましょう

検索ツール

次のようなものがある（きりがない、、、）

検索エンジン search enginesディレクトリ search directoriesメタサーチ meta search engines画像検索 image search engines辞書 dictionaries類義語 thesauri百科事典 encyclopaedias地図 mapsニュース newsホテル・鉄道・航空機 reservationsグルメ、、、、

日本のサーチエンジン

2

日本のサーチエンジン日本のサーチエンジン

2004/06/10現在 371リンクhttp://shikariki.com/link.html

主なサーチエンジン

GoogleAltaVistaYahooAllthewebMSNDogPile

All about JapnaAll the WebAltaVistaBIGLOBEサーチ

ExciteFresheyegooGoogleInfoseekLycosMSNYahoo

メタサーチ

（「メタ」は言葉の乱用だが）すっかり普通に

http://www1.neweb.ne.jp/wa/k-c/

ところで、サーチエンジンとは何か?

ディレクトリ型とクローラー型とがある

クローラーまたはスパイダーと呼ばれるプログラム（複数の、普通は、大量のサーバー上で動く）が

web 上を動き回って、サイトの索引をつくる

そのときには、web サイトのリンク情報を参考にする

ユーザは、キーワードを入力することにより、それにマッチした単語をもつサイトを見つけ出すことができる

すなわち、サーチエンジンは www をサーチするわけではない。予め作成してある索引（index）の上をサーチするのである。

従って、最新の情報が見つかるわけではないといいつつも、最近は非常に早くなっている。ご存じ？

並べ方：重要度 relevance 順なのだが

ページの “人気度 popularity” (DirectHitがもと)訪れる人が多いページ (一般に)クエリの結果、よく訪れるページ

リンクの “co-citation” (Googleがもと)他のサイトにリンクされているサイトはどれか?権威のある文献 “authoritative sources” をみつける、も

ともとは、文献学・社会学の考察に基づく

3

問題はないか？

皆さんは、どちらでしょうか？

結構うまく検索できて、あまり不満はない

いや～、結構不満あるよ。検索がしにくい

いくつかある不満点のうち代表的（と思われるもの）

ランキングが不適切

ランキングだけではないようだ

同じ綴りであっても意味が異なる場合、（目下の検索目的にとっては）重要ではないサイトが上位にきている

例えば、私は先日、Ruby で書いたElizaというプログラムを探したいと考え、Google で Ruby Eliza を２個のキーワードとして検索をした。100万件以上ヒットするのだが、どうも関係ないものばかりが並んでいる。さてどうしたものだろうかと思い悩んだ

提案

検索されたサイトを、内容ごとに類別し、内容ごとまたは分野ごとにまとめて提示してくれると探しやすい

同じ不便さを感じる人は多くいるに違いない！

このように、似たもの同士を仲間としてまとめ、そうでないものは別の仲間にすることを clustering とい

う。cluster とは（葡萄のような）房状のものをいう

新たな試み：事例 vivisimo

http://vivisimo.com/

Vivisimo (2006)

Vivisimo Clusty

4

Mooter

http://www.mooter.co.jp/

Mooter

Mooter(2006)

http://www.mooter.com/

Mooter(2006)

Mooter(2006) Grokker

http://www.grokker.com/

5

Grokker(2006)


Grokker (2005)


Grokker Grokker (2005)

Grokker Grokker(2006)

6

Grokker (2005) Grokker (2005)

Websom

http://websom.hut.fi/websom/milliondemo/html/root.html

基本技術：クラスタリング

Clustering or cluster analysis とは？何を

n 個の対象物

しばしば、ベクトルで表現

実際には、何を「ベクトル」にとるかが難しい

どういう情報をもとに対象物2個の間の距離

類似していれば近く、差異が大きければ遠い

ベクトル表現したときは、どういう距離を用いるか

どうやって??

当日レポート

実際にクラスタリングを用いた検索エンジンを使い、その評価を行う。

検索するキーワードを3個（相互関係なし）決める

（各自独自に）。そして、各キーワードにつきVivisimo と Clusty の結果を比べる

さらに、Mooter および Grokker も比較対象とする

何が違うか。参考: いずれもメタ検索である。

Documents

知的情報処理 2. Search Engines - Keio University2. Search Engines 櫻井彰人 慶應義塾大学理工学部 まずは、別の話から 山梨県に展開するスーパー「オギノ」

知的情報処理 2. Search Engines - Keio University2. Search Engines 櫻井彰人慶應義塾大学理工学部まずは、別の話から山梨県に展開するスーパー「オギノ」