Duplicate Content vermeiden mit robots.txt
3. Oktober 2007Nun ist dieser Blog grade mal 10 Tage alt und schon ganze zwei Beiträge schwer und schon hat das gefürchtete Duplicate Content Monster zugeschlagen. Eine einfache site: Abfrage bei Google hat nicht nur das freudige “Hurra, ich bin drin”-Ereignis ausgelöst, sondern mir gleichzeitig offenbahrt, welche Seiten indexiert sind: beide Beiträge, und das jeweils drei mal. Ganz nebenbei, bin ich auch der Meinung, daß die Seiten “Anmelden” und “Passwort vergessen” ebenfalls in Google nichts verloren haben.
Keep it simple
Wie für jedes andere Problem, gibt es nun auch hier mehrere Lösungsansätze. Die professionellste dürfte sein, im <head>-Bereich der jeweiligen Templates jeweils entsprechende PHP-Anweisungen á la
if (Seite_ist_Archiv || Seite_ist_Kategorie) then echo 'noindex' else echo 'index'
einzufügen. Für den Einstieg scheint mir dies aber doch recht umständlich, insbesondere da die Alternative deutlich leichter zu handhaben ist und sich im Ergebnis kaum Unterschiede ergeben.
Doubletten mit robots.txt auschliessen
Die Datei robots.txt ist eine reine Textdatei im Hauptverzeichnis der Homepage bzw. des Blogs. Die beiden einzigen Anweisungen sind User-agent: und Disallow:. Mit
User-Agent: *
in der ersten Zeile wird nun festgelegt, daß die folgenden Anweisungen für alle Crawler gelten sollen. In der Praxis bedeutet dies, es halten sich alle sauber programmierten Robots an die folgenden Anweisungen, Spam-Bots machen auch weiterhin was sie wollen.
Als erstes sollen nun die internen Wordpress Seiten aus dem Index verschwinden. Da der Minutenlohnblog aus alter Ordnungsliebe in einem Unterverzeichnis installiert wurde, reicht es, dieses Verzeichnis von der Durchsuchung auszuschließen:
Disallow: /Pfad-zu-WP/
Nun zur eigentlichen Aufgabe, der Vermeidung von Duplicate Content. Das Hauptproblem stellen das Archiv sowie die category-Verzeichnisse dar. Wer auf die aus SEO-Sicht durchaus interessanten Keywords in den Kategorien erhalten will, muß hier auf die oben angesprochene PHP-Lösung zurückgreifen, ansonsten reicht ein
Disallow: /category/
Das Archiv wird nun mit
Disallow: /2007/
Disallow: /2008/
Disallow: /2009/
für die nächsten Jahre gesperrt. Natürlich hat diese Methode einen schwerwiegenden Nachteil: Kann mich bitte irgendjemand im November 2009 daran erinnern, die Folgejahre einzutragen? Danke.
Nachtrag 6.10.07
Gut drei Tage nach Anlegen der robots.txt wirft Googles
site:-Abfrage noch genau eine Seite aus, diese aber immerhin mit dem richtigen Pfad. Hmm, Ziel erreicht und doch nicht glücklich. Aber abwarten.




















