Web-Crawler

Definition - Was bedeutet Web Crawler?

Ein Webcrawler ist ein Internetbot, der bei der Webindizierung hilft. Sie crawlen jeweils eine Seite durch eine Website, bis alle Seiten indiziert wurden. Webcrawler helfen beim Sammeln von Informationen über eine Website und die damit verbundenen Links sowie beim Überprüfen des HTML-Codes und der Hyperlinks.

Ein Webcrawler wird auch als Webspider, automatischer Indexer oder einfach als Crawler bezeichnet.

Technische.me erklärt Web Crawler

Webcrawler sammeln Informationen wie die URL der Website, die Meta-Tag-Informationen, den Webseiteninhalt, die Links auf der Webseite und die Ziele, die von diesen Links ausgehen, den Webseitentitel und andere relevante Informationen. Sie verfolgen die URLs, die bereits heruntergeladen wurden, um zu vermeiden, dass dieselbe Seite erneut heruntergeladen wird. Eine Kombination von Richtlinien wie Wiederbesuchsrichtlinie, Auswahlrichtlinie, Parallelisierungsrichtlinie und Höflichkeitsrichtlinie bestimmt das Verhalten des Webcrawlers. Es gibt viele Herausforderungen für Webcrawler, nämlich das große und sich ständig weiterentwickelnde World Wide Web, Kompromisse bei der Auswahl von Inhalten, soziale Verpflichtungen und den Umgang mit Gegnern.

Webcrawler sind die Schlüsselkomponenten von Web-Suchmaschinen und -Systemen, die Webseiten untersuchen. Sie helfen bei der Indizierung der Webeinträge und ermöglichen Benutzern das Senden von Abfragen für den Index sowie die Bereitstellung der Webseiten, die den Abfragen entsprechen. Eine andere Verwendung von Webcrawlern ist die Webarchivierung, bei der große Mengen von Webseiten regelmäßig gesammelt und archiviert werden. Webcrawler werden auch beim Data Mining verwendet, bei dem Seiten auf verschiedene Eigenschaften wie Statistiken analysiert und anschließend Datenanalysen durchgeführt werden.