Googlebot

Googlebot ist eine Familie von Webcrawlern, über die Google Internetseiten durchsucht. Dabei werden Informationen über neue, geänderte oder gelöschte Seiten dem Index der Suchmaschine hinzugefügt, sodass sie später durch die Google-Suche auffindbar sind.

Funktionsweise

Damit eine HTML-Seite vom Crawler indiziert werden kann, ist es zunächst erforderlich, dass andere Seiten darauf verlinken oder der Webmaster sie eigenhändig bei Google einträgt.

 

Googlebot folgt HREF- und SRC-Links und kann ansatzweise JavaScript interpretieren und AJAX-Requests durchführen. Der Crawler ist über seinen User-Agent-Header als Googlebot zu identifizieren.

 

Da es vorkommt, dass sich Spammer und andere unerwünschte Webseitenbesucher als Googlebot tarnen, kann es für einen Webmaster unter Umständen erforderlich sein, über einen Reverse DNS lookup zu überprüfen, ob die Seitenaufrufe tatsächlich von einem der Google-Server stammen.


Neben dem für die Websuche zuständigen Googlebot arbeiten einige weitere Crawler für die Suchmaschine: Diese sind auf bestimmte Arten von Inhalten spezialisiert und durchsuchen das Internet unter anderem nach Musik oder Videos.

 

Der AdSense-Crawler überprüft Seiten darauf, welche passenden Anzeigen im Rahmen von Googles Werbeprogramm eingeblendet werden können, und der AdsBot untersucht die Qualität von Landing Pages.

Googlebot von bestimmten Inhalten ausschließen

Googles Webmaster-Tools halten eine Reihe von Einstellungen bereit, mit denen sich das Verhalten des Crawlers beeinflussen lässt:

 

Beispielsweise kann Googlebot in Fällen, in denen er zu viel Bandbreite verbraucht und dadurch den Server belastet, angewiesen werden, seine Seitenzugriffe zu beschränken – diese Einstellung ist anschließend für drei Monate gültig.


Um einzelne HTML-Seiten oder Verzeichnisse von der Indizierung durch Googlebot auszuschließen, kann die Datei robots.txt entsprechend angepasst werden – da sich die einzelnen Crawler jeweils über ihren User-Agent-Header zu erkennen geben, ist es hier auch möglich, den Zugriff lediglich einzelnen Bots wie dem AdSense-Crawler zu verweigern, alle anderen hingegen zuzulassen.

 

Neben dieser Datei besteht die Möglichkeit, Googlebot über Meta-Tags von einer Seite auszuschließen oder Links mit dem Attribut rel="nofollow" zu versehen.