robots.txt Google-Änderungen: Was muss jetzt getan werden?

„Google schafft No-Index ab“ – solche und ähnliche Schlagzeilen laufen gerade durch alle Branchendienste und Social Media Timelines und verunsichern die Verantwortlichen für Internet-Projekte.
Doch was ändert sich wirklich und was muss jetzt dringend getan werden? Wir sorgen hier für etwas Hintergrund-Aufklärung zum Thema, denn es sind nur sehr wenige Web-Projekte von den Änderungen betroffen.

Hintergrund: Was ist die robots.txt überhaupt?

Die robots.txt ist eine Textdatei, die im Root eines Webservers abgelegt wird. Sie enthält Instruktionen für Suchmaschinen-Roboter, konkret: welche Bereiche einer Webseite erfasst werden sollen, und welche Bereiche für die Suchmaschinen irrelevant sind.

Der „Robots Exclusion Standard“ (RES) regelt, wie diese Instruktionen auszusehen haben. Der RES wurde allerdings nie offiziell zu einem Internet-Standard erklärt. Dennoch hielten sich die meisten Suchmaschinen-Bots an die dort festgelegten Vorgaben.

Im Laufe der Zeit wurden die Regeln der robots.txt um immer mehr praktische Anweisungen zum Crawler-Verhalten erweitert, die oft auch von den relevanten Suchmaschinen-Bots beachtet wurden und daher tatsächlich sinnvoll waren.

Diese neuen Regeln und Angaben, wie z. B. nofollow, wurden vor allem von Webmastern extrem großer Websites eingesetzt, um die Bots sehr genau auf besonders relevante Inhaltsseiten steuern und von Inhaltsdoppelungen fernhalten zu können. Diese neuen Regeln wurden aber auch nie Bestandteil eines offiziellen Standards.

Was möchte Google jetzt „bei der robots.txt“ ändern?

Google möchte jetzt nach 25 Jahren endlich einmal einen offziellen Standard für den RES schaffen und hat dazu mit anderen Mitarbeitern einen Vorschlag eingereicht (siehe auch den offiziellen Google Blogbeitrag zum Thema).

Zeitgleich hat Google seinen eigenen robots.txt-Parser zur maschinenlesbaren Verarbeitung der Crawl-Anweisungen als Open Source Software freigegeben. Das deutet darauf hin, dass Google besonders die bessere und schnellere automatische Verarbeitung der RES-Regeln als Beweggrund für diese Initiative hat.

Die Googlebots werden sich bereits ab dem 1. September 2019 an die neuen Regeln aus den eigenen Vorschlägen halten. Damit werden diese Regeln dann aber zum faktischen Quasi-Standard, auch ohne offizielle Absegnung als Internet-Standard.

Das bedeutet dann natürlich: Einige der bisher üblichen, neuen robots.txt-Konventionen, die es nicht in die Vorschläge geschafft haben, werden dann von Google nicht mehr berücksichtigt.

Welche Anweisungen fallen weg? 

Vom Google-Bot nicht mehr beachtet werden folgende Anweisungen:

  • Noindex
  • Nofollow
  • Crawl-delay

Wichtig: Wer diese Regeln bisher noch nicht in seiner robots.txt eingesetzt hatte, braucht also auch nichts zu tun. 

Wer diese Anweisungen benötigt, kann sie weiterhin sinnvollerweise in den Meta-Tags der jeweiligen Seite ausgeben (was hoffentlich sowieso schon der Fall war).

Alle anderen Webseitenbesitzer dürfen sich sogar auf generelle Verbesserungen freuen.

  • Seiten, die in mit Disallow gesperrten Verzeichnissen liegen, sollen nicht mehr in den Suchergebnissen erscheinen.
  • Der Ausschluss unerwünschter Inhalte soll verbessert werden:
    Seiten hinter einem Frontend-Login werden ignoriert (außer bei speziell ausgezeichneten Paywalls).
  • Mit 404 oder 410 als fehlend gemeldete Seiten sollen schneller aus dem Index entfernt werden. (Derzeit werden diese noch regelmäßig abgefragt, was sich negativ auf das Crawl-Budget auswirkt.)

Was ändert sich konkret an der robots.txt für unsere typischen Projekte?

Im Einsatz waren die „gestrichenen“ Anweisungen bisher vor allem bei Websites mit extrem großen Umfang (z. B. großen Shops oder Produktseiten mit vielen facettierten Suchen) zur besseren Steuerung der Crawl-Budgets.

Für eine durchschnittliche Unternehmenspräsenz mit überwiegend statischen Inhaltsseiten wurden diese Regeln in der robots.txt für gewöhnlich gar nicht eingesetzt. Daher sind unsere Kundenprojekte zum Großteil nicht von den Änderungen betroffen.

Die derzeitige Aufregung um die neuen Regeln ist aber dennoch eine gute Gelegenheit, die eigene robots.txt einmal wieder auf Aktualität zu überprüfen.

Kurze Checkliste zur regelmäßigen Kontrolle der robots.txt

Jede robots.txt in langfristig bestehenden Projekten sollte regelmäßig auf ihre Sinnhaftigkeit überprüft werden. Hier einmal die wichtigsten Punkte zur Schnellcheck-Prüfung der eigenen Website:

  1. Ist die robots.txt in meinem Projekt vorhanden?
    (Einfach /robots.txt an die Projektdomain anhängen und mit dem Webbrowser anschauen.) *
  2. Handelt es sich tatsächlich um die robots.txt des Produktivsystems? Dieser Check ist wichtig nach einem Relaunch. Im schlimmsten Fall werden nämlich Bots von der robots.txt-Datei des temporären Entwicklungsservers mit „User-agent: * Disallow: /“ generell von der Seite ausgeschlossen.
  3. Passen die Instruktionen noch zum aktuellen Webprojekt, dem aktuell eingesetzten CMS oder Shopsystem?
    (So können sich z. B. typische Parameter für die Ausschlussliste nach einem CMS-Upgrade geändert haben.)
  4. In der Google Search Console (GSC) prüfen: Werden wichtige Render-Informationen (CSS- oder JS-Dateien) in der robots.txt von der Indizierung ausgeschlossen? Das ist oft ein Zeichen dafür, dass an der robots.txt lange nicht mehr gearbeitet wurde. Die GSC meldet diese Fehler in der Regel automatisch.
    Wenn man nicht regelmäßig in die GSC schaut, sollte man die Benachrichtigung per E-Mail aktiviert haben.
  5. Enthält die Datei Anweisungen, die bei Google nicht beachtet werden (z. B. Links zu Sitemaps) und die entfernt werden können?
    Diese Anweisungen sind nicht direkt schädlich, können aber die Gesamtlänge der Datei unnötig aufblähen. Denn ein weiteres Ziel der Google-Initiative ist es, die Parsezeit für die robots.txt-Dateien zu verkürzen.

(*) Eine nicht vorhandene robots.txt kann natürlich zum Teil auch durch sinnvolle Meta-Tags aufgefangen werden. Da sich die Datei aber einfach und schnell anlegen lässt, sollte das auch immer getan werden!

Fazit: Auch wenn die meisten Webseiten eher nicht von den aktuellen Google-Änderungen bei den robots.txt-Dateien betroffen sein werden, lohnt sich in jedem Fall eine regelmäßige Kontrolle der Inhalte der eigenen Datei.

Nachtrag 29.7.:
Google verschickt inzwischen Blaue Briefe in der GSC

Über Karoline Steinfatt

Bio als 3. Abifach. Orchideenfächer studiert. Jetzt 'was mit Internet. U.a. Frontend, TYPO3, Social Media und Suchmaschinen.

      Profile:
    • facebook
    • googleplus
    • linkedin
    • pinterest
    • twitter
    • youtube