Upload
porsche-neppl
View
103
Download
0
Embed Size (px)
Citation preview
03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.
1
Architektur Moderner
Internet Applikationen
22.-24.4.2004 TU Wien/Ausseninstitut
Search Engines und Directories
DI Christian Donnercd (at) donners.com
03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.
2
DefinitionDefinition
Suchmaschinen oder, auf Neudeutsch, Search Engines, erfüllen zwei unterschiedliche Aufgaben:
Ermöglichen Surfern das Auffinden Ihrer Seiten im WebErmöglichen Besuchern Ihrer Webseiten das Auffinden bestimmter Informationen
Verwendete Technologie ist ähnlich siehe AltaVista, sowohl ein Produkt als auch ein Webdienst
Es gibt Überschneidungen in der Anwendung z.B. Google kann verwendet werden, um die Suchfunktionen einer Website zu implementieren (siehe www.austria-boston.org)
03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.
3
AgendaAgenda
Glossar
Grundlegende Funktionsweise
Search Engine Spamming
Maßnahmen zur Verbesserung des Rankings
Suchfunktion innerhalb einer Website
Directories
03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.
4
GlossarGlossar
Spider, (Ro)bot, CrawlerSuchmaschinen verwenden diese Agenten, um Websites automatisch zu durchforsten und zu indizieren
Search Index, SuchindexStichwortverzeichnis, das die Suchmaschine verwaltet
META TagHTML Syntax zur Angabe spezieller Zusatzinformationen für eine Webseite, z.B. Keywords oder Description
SEO Search Engine Optimizer, neuer Berufszweig
03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.
5
Grundlegende FunktionsweiseGrundlegende Funktionsweise
Eine Website wird von einem sog. Spider oder Bot indiziertein Prozess, den der Search Engine-Betreiber in regelmäßigen Abständen startet (z.B. monatlich bei Google)Spiders besuchen alle URLs, die bereits indiziert wurden
Ausgelaufene URLs werden gelöschtLinks werden verfolgt (bis zu einer gewissen Tiefe)
Neue Sites werden gefunden, weilEin bestehender Site darauf verweist (<A> ... Anchor link)Der Webmaster die URL bei der Search Engine zur Indizierung angemeldet hat
Textinhalte werden mit unterschiedlicher Gewichtung behandeltUrl, Page Title und Description haben hohes GewichtText von Anchor Links werden ebenfalls speziell behandeltNormaler Text geht ohne Gewichtung einKeywords werden kaum noch indiziertBestimmt nicht-HTML Dateiformate werden auch indiziert (PDF, DOC, PPT, ...)
03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.
6
Grundlegende Funktionsweise (2)Grundlegende Funktionsweise (2)
Vereinfacht gesprochen, zerlegt die Suchmaschine die Textinhalte in Suchbegriffe und legt diese mit der URL in ihrem Datenbestand ab
Intelligente Suchmaschinen beherrschen unterschiedliche Zeichensätze, Sprachen und Locales
Können Wortstämme erkennen und Abwandlungen finden
Oft werden mit dem Trefferwort auch Zeiger in das ursprüngliche Dokument gespeichert, z.B. um es in der Ergebnisanzeige hervorzuheben
Die Algorithmen zur Bewertung der Treffer zur Erzeugung einer Rangordnung werden selten publiziert
Google verrät z.B. nur, daß die Anzahl der externen Links auf eine Seite einfließtDer Google Page Rank wird von Google Toolbar, einem Browser Plugin, angezeigt
Robots.txt – optionale Textdatei enthält Directories, die nicht indiziert werden sollen
03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.
7
Search Engine SpammingSearch Engine Spamming
Ein relativ junges Problem, das sich rasch zu einer Plage für redliche Webmaster entwickelt hat
Soll für die Betreiber viele Hits und damit Anzeigeneinnahmen generieren Dabei werden „unlautere“ Methoden eingesetzt, die die Suchmaschinenbetreiber nicht tolerieren
„Affiliate Programme“CloakingDoorway SeitenRedirectsFrameset-KaskadenVersteckter Text
Die Methoden und auch die Tarnungen werden immer raffinierter
Oft hilft nur, sich selbst dieser Methoden zu bedienen, um die Oberhand zu behalten
03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.
8
Beispiel Spam Beispiel Spam – Suche – Suche „Wien Messe“ auf Google„Wien Messe“ auf Google
03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.
9
Verbesserung des eigenen RankingsVerbesserung des eigenen Rankings
Dynamische URLs sind problematischOft hilft nur eine statische Parallel-Site
Titel und Description-META Tag sinnvoll wählen
Directorynamen sinnvoll wählen (siehe Spamming)
Vermeiden von Flash und anderen HTML-fremden Inhalten
Plazierung von Texten mit Suchbegriffen
Sinnvolle Benennung von Anchor Links (<A>)
Links von anderen Seiten mit gutem Ranking
Listing in einem Directory (Looksmart, DMOZ, etc.)
03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.
10
Suche innerhalb einer WebsiteSuche innerhalb einer Website
Produkt oder ServiceVerwendung eines Produktes wie z.B. Verity, AltaVista, MS Search
Flexibel, aktuell, kosten- und/oder wartungsintensiv Verwendung eines Services wie z.B. Google
Starr, bis zu 1 Monat veraltet, kostengünstig, wartungsfrei
Spider oder dynamische Generierung der IndizesSpider durchsucht die Site autonom über HTTP Protokoll
Findet keine Metadaten, langsamIndizes direkt aus Datenbank oder Dateisystem generiert
Aufwendig, schnell, Metadaten können mitgelesen werdenKorrekte URL muß jeweils mitgeneriert werden, was mitunter nicht trivial ist (z.B. wenn ein Artikel über mehrere Navigationspfade erreichbar ist)
Aktuelle Produkte sind sehr komplex und haben eine Vielzahl von Features mit Namen wie Federated Search, Parametric Search etc. Dieses Thema alleine könnte 3 Vortragstage füllen.
03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.
11
Beispiel Parametrische SucheBeispiel Parametrische Suche
03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.
12
DirectoriesDirectories
Alternative zu Search EnginesAnbieter sind z.B. Yahoo, Looksmart, DMOZViele haben ein Pay-per-Click Modell
Webmaster kategorisiert die Site, basierend auf ein bestehendes Directory
Prinzip ist anders, Wirkung ist ähnlichLooksmart z.B. arbeitet mit MSN, AltaVista, ...Directory-Treffer werden vor den Suchmaschinen-Treffern gelistet (MSN)
03.02.2004 Internet Applikationen – Search EnginesCopyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten.
13
Vielen Dank für Ihre Aufmerksamkeit!