34

œbersicht: Open Source Webspider Heritrix - Christian Herta

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Übersicht: Open Source Webspider Heritrix

Dr. Christian Herta

June 14, 2009

1 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Einführung

Heritrix[1] ist ein veralteres englisches Wort für Erbin

Lizenz: LGPL (gnu lesser general public licence)

Ziel: allgemeines Framework zum Spidern mit austauschbareKomponenten

Standard-Komponenten enthalten

2 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Recap: Logische Schritte beim Spidern

Wähle eine URI aus der URI-Liste (frontier) aus

Hole (Fetch) die URI

Index

Füge die ausgewählten, extrahierten Link-URIs der URI-Listehinzu

Notiere, dass die URI verarbeitet wurde

3 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Recap: Logische Schritte beim Spidern

Wähle eine URI aus der URI-Liste (frontier) aus

Hole (Fetch) die URI

Index

Füge die ausgewählten, extrahierten Link-URIs der URI-Listehinzu

Notiere, dass die URI verarbeitet wurde

3 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Recap: Logische Schritte beim Spidern

Wähle eine URI aus der URI-Liste (frontier) aus

Hole (Fetch) die URI

Index

Füge die ausgewählten, extrahierten Link-URIs der URI-Listehinzu

Notiere, dass die URI verarbeitet wurde

3 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Recap: Logische Schritte beim Spidern

Wähle eine URI aus der URI-Liste (frontier) aus

Hole (Fetch) die URI

Index

Füge die ausgewählten, extrahierten Link-URIs der URI-Listehinzu

Notiere, dass die URI verarbeitet wurde

3 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Recap: Logische Schritte beim Spidern

Wähle eine URI aus der URI-Liste (frontier) aus

Hole (Fetch) die URI

Index

Füge die ausgewählten, extrahierten Link-URIs der URI-Listehinzu

Notiere, dass die URI verarbeitet wurde

3 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Recap: Logische Schritte beim Spidern

Wähle eine URI aus der URI-Liste (frontier) aus

Hole (Fetch) die URI

Index

Füge die ausgewählten, extrahierten Link-URIs der URI-Listehinzu

Notiere, dass die URI verarbeitet wurde

3 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Wichtigste Bestandteile

Scope: Seeds und Auswahl/Filter-Regeln zu den URIs

Processor Chains: URI- und Dokumentenverarbeitung, unterAnderem für:

Holen der IPs (DNS) und SeitenExtraktion der LinksFiltern und Normalisierung der URIs

Frontier

4 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Wichtigste Bestandteile

Scope: Seeds und Auswahl/Filter-Regeln zu den URIs

Processor Chains: URI- und Dokumentenverarbeitung, unterAnderem für:

Holen der IPs (DNS) und SeitenExtraktion der LinksFiltern und Normalisierung der URIs

Frontier

4 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Wichtigste Bestandteile

Scope: Seeds und Auswahl/Filter-Regeln zu den URIs

Processor Chains: URI- und Dokumentenverarbeitung, unterAnderem für:

Holen der IPs (DNS) und Seiten

Extraktion der LinksFiltern und Normalisierung der URIs

Frontier

4 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Wichtigste Bestandteile

Scope: Seeds und Auswahl/Filter-Regeln zu den URIs

Processor Chains: URI- und Dokumentenverarbeitung, unterAnderem für:

Holen der IPs (DNS) und SeitenExtraktion der Links

Filtern und Normalisierung der URIs

Frontier

4 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Wichtigste Bestandteile

Scope: Seeds und Auswahl/Filter-Regeln zu den URIs

Processor Chains: URI- und Dokumentenverarbeitung, unterAnderem für:

Holen der IPs (DNS) und SeitenExtraktion der LinksFiltern und Normalisierung der URIs

Frontier

4 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Wichtigste Bestandteile

Scope: Seeds und Auswahl/Filter-Regeln zu den URIs

Processor Chains: URI- und Dokumentenverarbeitung, unterAnderem für:

Holen der IPs (DNS) und SeitenExtraktion der LinksFiltern und Normalisierung der URIs

Frontier

4 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Übersicht aus [1]

Web Administrative Console(Web-GUI zur Kon�guration)

CrawlOrder(Kon�gurations-Objekt - externeXML-Repräsentation)

Crawl-Controller: mit Referenzenzu allen Crawl-Komponenten

Scope: Initiale "Füttern" derFrontier und Filterregeln

5 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Übersicht aus [1]

Web Administrative Console(Web-GUI zur Kon�guration)

CrawlOrder(Kon�gurations-Objekt - externeXML-Repräsentation)

Crawl-Controller: mit Referenzenzu allen Crawl-Komponenten

Scope: Initiale "Füttern" derFrontier und Filterregeln

5 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Übersicht aus [1]

Web Administrative Console(Web-GUI zur Kon�guration)

CrawlOrder(Kon�gurations-Objekt - externeXML-Repräsentation)

Crawl-Controller: mit Referenzenzu allen Crawl-Komponenten

Scope: Initiale "Füttern" derFrontier und Filterregeln

5 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Übersicht aus [1]

Web Administrative Console(Web-GUI zur Kon�guration)

CrawlOrder(Kon�gurations-Objekt - externeXML-Repräsentation)

Crawl-Controller: mit Referenzenzu allen Crawl-Komponenten

Scope: Initiale "Füttern" derFrontier und Filterregeln

5 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Übersicht aus [1]

Web Administrative Console(Web-GUI zur Kon�guration)

CrawlOrder(Kon�gurations-Objekt - externeXML-Repräsentation)

Crawl-Controller: mit Referenzenzu allen Crawl-Komponenten

Scope: Initiale "Füttern" derFrontier und Filterregeln

5 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Threads

Multithreaded

Worker threads heiÿen: ToeThreads

Frage die Frontier nach der nächsten URIReiche die URI durch die Prozessoren durchReporte �nished() der URI

Gröÿenordung der ToeThreads ≈ 102

6 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Threads

Multithreaded

Worker threads heiÿen: ToeThreads

Frage die Frontier nach der nächsten URI

Reiche die URI durch die Prozessoren durchReporte �nished() der URI

Gröÿenordung der ToeThreads ≈ 102

6 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Threads

Multithreaded

Worker threads heiÿen: ToeThreads

Frage die Frontier nach der nächsten URIReiche die URI durch die Prozessoren durch

Reporte �nished() der URI

Gröÿenordung der ToeThreads ≈ 102

6 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Threads

Multithreaded

Worker threads heiÿen: ToeThreads

Frage die Frontier nach der nächsten URIReiche die URI durch die Prozessoren durchReporte �nished() der URI

Gröÿenordung der ToeThreads ≈ 102

6 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Threads

Multithreaded

Worker threads heiÿen: ToeThreads

Frage die Frontier nach der nächsten URIReiche die URI durch die Prozessoren durchReporte �nished() der URI

Gröÿenordung der ToeThreads ≈ 102

6 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

URIs und Server Repräsentation

Server-Cache hält Instanzen von CrawlServer-Instanzen. Diesespeichern Information über

IP Adressenrobots exclusion policies,reponsivenessper-host crawl Statistiken

CrawlURI-Instanz repräsentiert URI

Verhalten des Crawlers wird stark bestimmt durch dieverwendeten und kon�gurierten Prozesssoren

7 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Fünf Arten von Prozessor-Typen und Processor Chains

1 Prefetch Chain: vor jeglicherNetzwerk-Aktivität,z.B. Gewährleistung derBerücksichtigung der robots.txt(Fetch,Considering); delay, reorder or veto thesubsequent processing of a CrawlURIs

2 Fetch Chain: Netzwerk-Aktivität

3 Extract Chain: Extraktion von features ofinterest

4 Write Chain: Speichern des Crawl-Ergebniss(z.B. Content und URIs)

5 Postprocess Chain: URI-Filtern zurBerücksichtigung des Scopes, Füttern derFrontier

8 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Fünf Arten von Prozessor-Typen und Processor Chains

1 Prefetch Chain: vor jeglicherNetzwerk-Aktivität,z.B. Gewährleistung derBerücksichtigung der robots.txt(Fetch,Considering); delay, reorder or veto thesubsequent processing of a CrawlURIs

2 Fetch Chain: Netzwerk-Aktivität

3 Extract Chain: Extraktion von features ofinterest

4 Write Chain: Speichern des Crawl-Ergebniss(z.B. Content und URIs)

5 Postprocess Chain: URI-Filtern zurBerücksichtigung des Scopes, Füttern derFrontier

8 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Fünf Arten von Prozessor-Typen und Processor Chains

1 Prefetch Chain: vor jeglicherNetzwerk-Aktivität,z.B. Gewährleistung derBerücksichtigung der robots.txt(Fetch,Considering); delay, reorder or veto thesubsequent processing of a CrawlURIs

2 Fetch Chain: Netzwerk-Aktivität

3 Extract Chain: Extraktion von features ofinterest

4 Write Chain: Speichern des Crawl-Ergebniss(z.B. Content und URIs)

5 Postprocess Chain: URI-Filtern zurBerücksichtigung des Scopes, Füttern derFrontier

8 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Fünf Arten von Prozessor-Typen und Processor Chains

1 Prefetch Chain: vor jeglicherNetzwerk-Aktivität,z.B. Gewährleistung derBerücksichtigung der robots.txt(Fetch,Considering); delay, reorder or veto thesubsequent processing of a CrawlURIs

2 Fetch Chain: Netzwerk-Aktivität

3 Extract Chain: Extraktion von features ofinterest

4 Write Chain: Speichern des Crawl-Ergebniss(z.B. Content und URIs)

5 Postprocess Chain: URI-Filtern zurBerücksichtigung des Scopes, Füttern derFrontier

8 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Fünf Arten von Prozessor-Typen und Processor Chains

1 Prefetch Chain: vor jeglicherNetzwerk-Aktivität,z.B. Gewährleistung derBerücksichtigung der robots.txt(Fetch,Considering); delay, reorder or veto thesubsequent processing of a CrawlURIs

2 Fetch Chain: Netzwerk-Aktivität

3 Extract Chain: Extraktion von features ofinterest

4 Write Chain: Speichern des Crawl-Ergebniss(z.B. Content und URIs)

5 Postprocess Chain: URI-Filtern zurBerücksichtigung des Scopes, Füttern derFrontier

8 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Fünf Arten von Prozessor-Typen und Processor Chains

1 Prefetch Chain: vor jeglicherNetzwerk-Aktivität,z.B. Gewährleistung derBerücksichtigung der robots.txt(Fetch,Considering); delay, reorder or veto thesubsequent processing of a CrawlURIs

2 Fetch Chain: Netzwerk-Aktivität

3 Extract Chain: Extraktion von features ofinterest

4 Write Chain: Speichern des Crawl-Ergebniss(z.B. Content und URIs)

5 Postprocess Chain: URI-Filtern zurBerücksichtigung des Scopes, Füttern derFrontier

8 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Wichtige Prozessor-Module aus [1]

9 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

Benutzung von Heritrix

mittels Web-GUI in der Vorlesung

10 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix

G. Mohr, M. Stack, I. Ranitovic, D. Avery, and M. Kimpton.An introduction to heritrix.Proceedings of IWAW'04, 2004.

10 von 10 Dr. Christian Herta Übersicht: Open Source Webspider Heritrix