Umgang mit Crawlern

Schränkt das Crawling, wo notwendig, mit robots.txt ein

Eine robots.txt-Datei teilt Suchmaschinen mit, ob sie auf bestimmte Teile einer Website zugreifen und sie in der Folge crawlen dürfen (1). Diese Datei muss den Namen “robots.txt” tragen und sich im Hauptverzeichnis eurer Website befinden (2).Ihr könntet Interesse daran haben, dass bestimmte Seiten eurer Website nicht gecrawlt werden, da sie für Nutzer nicht hilfreich wären, wenn sie in den Suchergebnissen von Suchmaschinen auftauchen würden. Wenn ihr verhindern wollt, dass Suchmaschinen bestimmte Seiten crawlen, könnte ihr auf den hilfreichen robots.txt-Generator der Google Webmaster-Tools zurückgreifen. Der unterstützt euch bei der Erstellung der Datei. Beachtet bei der Verwendung von Subdomains – falls bestimmte Seiten auf einer bestimmten Subdomain gecrawlt werden sollen -, dass ihr eine weitere robots.txt-Datei für die Subdomain erstellen müsst. Für mehr Infos zu robots.txt-Dateien empfehlen wir euch den Beitrag in der Hilfe für Webmaster zur Verwendung einer robots.txt-Datei.

Google Adwords
Google Adwords

Es gibt eine Reihe weiterer Möglichkeiten, um zu verhindern, dass Content in den Suchergebnissen erscheint – etwa das Hinzufügen von “NOINDEX” zum Meta-Tag “robots”, der Einsatz von .htaccess, um Verzeichnisse durch Passwörter zu schützen, und die Verwendung der Google Webmaster-Tools, um bereits gecrawlten Content zu entfernen. Google Engineer Matt Cutts geht mit euch die Vorbehalte gegen jede dieser URL-Blockier-Methoden in einem (englischsprachigen) Video durch.(1)Jeder konform arbeitende Suchmaschinen-Bot (gekennzeichnet durch das Wildcard-Symbol *) sollte auf den Content in /bilder/ und den Content jeder URL, deren Pfad mit /suche beginnt, nicht zugreifen und diesen nicht crawlen.

Verwendet eine sicherere Methode für sensible Daten

Ihr solltet robots.txt nicht dazu nutzen, heikle oder vertrauliche Inhalte zu blockieren. Ein Grund dafür ist, dass Suchmaschinen auf die blockierten URLs immer noch verweisen können (indem sie nur die URL anzeigen, nicht aber Titel oder Snippet), falls es Links zu den URLs irgendwo im Internet gibt (beispielsweise in Referrer-Logs). Außerdem könnten nicht konform arbeitende oder zwielichtige Suchmaschinen den “Robots Exclusion Standard” nicht akzeptieren und die Anweisungen in eurer robots.txt-Datei missachten. Schlussendlich könnte ein neugieriger Nutzer die Verzeichnisse und Unterverzeichnisse in eurer robots.txt-Datei begutachten und so die URLs der Inhalte, die ihr verbergen wollt, entdecken. Das Verschlüsseln des Contents oder ein Passwortschutz mit .htaccess sind die sinnvolleren Alternativen.

Vermeidet:
Vermeidet:
  • Seiten, die an Suchergebnisse erinnern, crawlen zu lassen (Nutzer mögen es nicht, wenn sie eine Seite mit Suchergebnissen verlassen, nur um auf einer ähnlichen Seite zu landen, die ihnen kaum einen Mehrwert bietet.)
  • Seiten, die das Ergebnis eines Proxy-Service sind, crawlen zu lassen
  • Links Glossar
    • Robots Exclusion Standard Eine Übereinkunft, die verhindert, dass diesem Standard entsprechende Webspiders oder Webcrawler wie der Googlebot auf Websites oder Teile davon zugreifen, die nicht öffentlich zugänglich sein sollen..
    • Proxy-Service Ein Computer, der in Fällen, in denen ein internes oder externes Netzwerk eine Verbindung aufbaut, als Verbindungsersatz dient, oder eine Software, die eine solche Funktion aufweist.
SEO

Macht euch mit rel=“nofollow” für Links vertraut

Bekämpft Spam mit “nofollow”

Wenn ihr den Wert des Attributs “rel” eines Links auf “nofollow” setzt, so teilt ihr Google mit, dass bestimmten Links auf eurer Website nicht gefolgt werden soll und die Reputation eurer Seite nicht an die verlinkten Seiten weitergegeben werden soll. “Nofollow” für einen Link erzielt ihr durch das Hinzufügen von rel=“nofollow” innerhalb des Anchor-Tags des Links (1). Wann wäre das sinnvoll? Falls eure Website einen Blog mit öffentlicher Kommentarfunktion hat, könnten Links in den Kommentaren eure Reputation an Seiten vererben, bei denen es euch Kopfzerbrechen bereitet, s i e zu unterstützen. Blogkommentare sind ein Seitenbereich, der sehr empfänglich für Kommentar-Spam ist (2). Indem ihr diese von Nutzern hinzugefügten Links auf “nofollow” setzt, stellt ihr sicher, dass ihr eure verdiente Reputation nicht an Spamsites weitergebt.

Verwendet “nofollow” automatisch für Kommentare und Foren

Viele Blogging- Software-Lösungen stellen Benutzerkommentare automatisch auf “nofollow”. Solche, die das nicht tun, können höchstwahrscheinlich per Hand darauf umgestellt werden. Dieser Tipp gilt auch für andere Bereiche eurer Site, auf denen benutzergenerierter Content vorkommt, etwa Gästebücher, Foren, Shout-Boxen, Referrer-Listen etc. Falls ihr dazu bereit seid, Links zu vertrauen, die von Dritten hinzugefügt wurden (z. B. wenn ihr einem bestimmten Verfasser von Kommentaren Vertrauen entgegenbringt), dann gibt es keinen Grund, “nofollow” zu verwenden; allerdings kann das Linken zu Websites, die Google als Spam ansieht, sich auf die Reputation eurer eigenen Website auswirken. Die Hilfe für Webmaster enthält weitere Tipps, wie man Kommentar-Spam vermeidet, etwa durch die Verwendung von CAPTCHAs oder das Aktivieren einer Moderation für Kommentare (3).

  • (1) Wenn ihr zu einer Website linkt, der ihr nicht vertraut und der ihr die Reputation eurer Website nicht vererben wollt, benutzt “nofollow”.
  • (2) Ein Kommentar-Spammer hinterlässt eine Nachricht zu einem eurer Posts, in der Hoffnung, etwas von der Reputation eurer Website abzukriegen.
  • (3) Beispiel für ein CAPTCHA auf dem Google Blogdienst, Blogger. Es ist gar nicht so leicht sicherzustellen, dass es tatsächlich eine Person ist, die einen Kommentar hinterläßt.

Kommentar-Spam

Bezeichnet das wahllose Posten von Werbung oder Sonstigem in den Kommentarspalten von Blogs oder in Foren, wobei die Posts in keinerlei Zusammenhang zum Content der genannten Seiten stehen

Domain

Steht für “Completely Automated Public Turing test to tell Computers and Humans Apart” und dient folglich dem Zweck menschliche Eingaben von automatisierten Eingaben zu unterscheiden.

Zur Verwendung von “nofollow” für bestimmten Content, ganze Seiten, etc.

Ein anderer Verwendungszweck für “nofollow” eröffnet sich, wenn ihr Content erstellt und auf eine Website verweisen wollt, aber gleichzeitig keine Reputation an sie zu vererben gedenkt. Beispielsweise könntet ihr einen Blogpost zum Thema Kommentar- Spam schreiben und auf eine Site hinweisen, die euch vor kurzem Spam ins Blog geschoben hat. Ihr wollt andere vor dieser Website warnen, deshalb linkt ihr von eurem Artikel dorthin; gleichzeitig wollt ihr aber sicher nicht, dass die Site etwas von eurer Reputation durch den Link abbekommt. Das wäre der richtige Zeitpunkt, um “nofollow” zu verwenden. Schließlich besteht die Möglichkeit, alle Links auf einer Seite auf “nofollow” zu setzen, indem ihr “nofollow” im Meta-Tag “robots”, der sich innerhalb des -Tags im HTML-Code der Seite (4) befindet, setzt. Der englischsprachige Blog in der Webmaster- Zentrale liefert einen hilfreichen Post zum Meta-Tag “robots”. Er wird wie folgt verwendet: .

Brandon’s Baseball Sammelkarten – Sammelkarten kaufen, Baseball News, Preise (4) So setzt ihr alle Links einer Seite auf “nofollow”.