WordPress robots.txt für Suchmaschinen optimiert

by seo2feel on Mai 22, 2009

Heute beschäftigen wir uns mit der robots.txt und deren Optimierung für Suchmaschinen bzw. Anpassung. Manchmal ist es nämlich sehr ratsam bestimmte Seiten oder Bereich von der Indexierung auszuschließen, nicht zu Letzt um keinen Doppelter Content zu produzieren. Doppelter Content wird gnadenlos von Suchmaschinen abgestraft, da diese natürlich einmalige und relevante Ergebnisse liefern wollen.

Und genau deshalb sollte man die robots.txt benutzen um den Suchmaschinen zu sagen, was diese indexieren dürfen und was nicht.

Die robots.txt stammt von ni-c der ebenfalls einen Artikel darüber geschrieben hat. Ich habe die robots.txt lediglich an einigen Punkten verbessert. Besten Dank daher nochmal an Nic.

Was ist die robots.txt?

Hauptaufgabe der robots.txt ist es Crawlen von Suchmaschinen Anweisungen zu erteilen, dass heißt welche Seiten dürfen die Crawler indexieren und welche eben nicht.

Ohne robots.txt unterwegs

Es ist nicht zwingen erforderlich eine robots.txt zu haben. Viele Crawler haben damit kein Problem jedoch indexieren diese dann die komplette Seite und so tritt wieder das Problem mit Doppeltem Content hervor. Außerdem werden durch das aufrufen der nicht vorhanden robots.txt  Fehlermeldungen ausgeben, die aber keine negative Auswirkungen haben.

Warum eine robots.txt für WordPress ?

Grade für einen Blog ist es sinnvoll Seiten von der Indexierung auszuschließen, erstens um Doppelten Content zu vermeiden und zweitens damit keine wichtigen Programmdateien indexiert werden. Standardmäßig wird nämlich alles indexiert inklusive Kategorien, Plugins, wp-admin und noch mehr.

Aufbau einer robots.txt

Standardmäßig muss man eine Textdatei mit dem Namen robots.txt erstellen und diese im Stammverzeichnis der Domain platzieren, sodass diese gefunden werden kann. Achtet darauf, dass alle Buchstaben vom Dateinamen kleingeschrieben sind!

Normaler Aufbau:

# Ganze Site für alle Robots sperren
User-agent: *
Disallow: /

# Ganze Site für alle Robots freigeben
User-agent: *
Disallow:

Beispiel:  /wordpress/robots.txt

Aufruf über: seo2feel.de/robots.txt

Hinweis: Wenn Ihr Plugins nutz um eine robots.txt zu erstellen müsst Ihr diese mit den Rechten 777 versehen.

Was mit der robots.txt nicht geht

Man kann mit der robots.txt keine Dateien vor Zugriffen schützen. Dazu sollte man immer den Passwortschutz des Webservers verwenden

Angepasste robots.txt für Suchmaschinen

Ich habe mir einige Gedanken gemacht wie wohl eine optimale robots.txt aussehen könnte und haben für euch eine angefertigt die Ihr auch gerne übernehmen könnt. Ich denke meine robots.txt dürfte für jeden interessant sein.

Als aller erstes teilen wir den Robots mit, wo unsere Sitemap liegt um diese besser indexieren zu könne. Danach verbieten wir die Indexierung der WordPress Verzeichnisse.

User-agent: *
Sitemap: http://www.[url].de/sitemap.xml

# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wpcontent/themes/
Disallow: /wpcontent/plugins/
Disallow: /trackback/
Disallow: /*?*
Disallow: */trackback/

Nun kommen wir zum Googlebot diesem verbieten wir die Indexierung aller PHP und sonstigen Dateien sowie des kompletten wp-contentVerzeichnisses, bis auf den darin enthaltenen Order uploads. Außerdem verbieten wir die Indexierung der Kategorien, Tags, Archiven, da sich darin der doppelte Content befindet. Zustätzlich verbieten wir die Indexierung des Feeds, da dieser in der Vergangenheit zu Problemen geführt hatte.

User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.php*
Disallow: */trackback*
Disallow: /*?*
Disallow: /category/
Disallow: /tag/
Disallow: /archives/
Disallow: /feed/
Disallow: /wp-*
Allow: /wp-content/uploads/

Dem Googlebot für die Bildersuche geben wir vollen Zugriff auf alle Verzeichnisse sozusagen ein frei Pass.

# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*

Der AdSense Bot darf bis auf wp-admin und wp-includes alle Verzeichnisse indexieren.

# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow: /*?*
Allow: /wp-content/
Allow: /tag/
Allow: /category/
Allow: /*.php$
Allow: /*.js$
Allow: /*.inc$
Allow: /*.css$
Allow: /*.gz$
Allow: /*.cgi$
Allow: /*.wmv$
Allow: /*.cgi$
Allow: /*.xhtml$
Allow: /*.php*
Allow: /*.gif$
Allow: /*.jpg$
Allow: /*.png$

Nun verbieten wir noch die Archivierung des Blog. Achtung mit dem Befehl IA Archiver entfällt die Listung bei Archive.org.

# disallow archiving site
User-agent: ia_archiver
Disallow: /

# disable duggmirror
User-agent: duggmirror
Disallow: /

Zum Schluss kann man die Datei noch an die eigene Bedürfnisse anpassen und um Einträge erweitern wie installierte Plugins.

WP-Supercache

Disallow: /wp-content/cache/
Disallow: /wp-content/advanced-cache.php/

Herausgekommen ist nun eine robots.txt die für WordPress Blogs und für Suchmaschinen optimiert ist.

User-agent: *
Sitemap: http://www.[url].de/sitemap.xml

# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wpcontent/themes/
Disallow: /wp-content/plugins/
Disallow: /trackback/
Disallow: /*?*
Disallow: */trackback/

User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.php*
Disallow: */trackback*
Disallow: /*?*
Disallow: /category/
Disallow: /tag/
Disallow: /archives/
Disallow: /feed/
Disallow: /wp-*
Allow: /wp-content/uploads/

# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*

# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow: /*?*
Allow: /wp-content/
Allow: /tag/
Allow: /category/
Allow: /*.php$
Allow: /*.js$
Allow: /*.inc$
Allow: /*.css$
Allow: /*.gz$
Allow: /*.cgi$
Allow: /*.wmv$
Allow: /*.cgi$
Allow: /*.xhtml$
Allow: /*.php*
Allow: /*.gif$
Allow: /*.jpg$
Allow: /*.png$

# disallow archiving site
User-agent: ia_archiver
Disallow: /

# disable duggmirror
User-agent: duggmirror
Disallow: /
robots.txt herunterladen

robots.txt herunterladen

{ 5 trackbacks }

hype.yeebase.com
Mai 23, 2009 um 12:09 am
Daily News About Wordpress : A few links about Wordpress - Friday, 22 May 2009 15:06
Mai 23, 2009 um 12:13 am
Optimale Ergebnisse bei seitwert.de erzielen - seo2feel
Mai 24, 2009 um 4:18 am
Ermis-Net Social Bookmarking Service
Mai 24, 2009 um 9:31 am
WordPress-SEO 2: robots.txt | moritzhanebeck.de
Juli 2, 2009 um 12:15 am

{ 7 comments… read them below or add one }

1 Marc Mai 27, 2009 um 3:26 pm

Hi. Seiten welche du für die Spider per robots.txt sperrst, werden von diesen nur nicht aufgerufen. Das heißt nicht, dass sie nicht indiziert werden. Da Google auch Seiten aufgrund einer Referenz indizieren kann ohne diese je gecrawled zu haben.
Was hier hilft ist das Meta-Tag robots mit dem Attribut noindex. An was sich Google auch halten soll, ist das nicht mit dem Standard konforme Noindex: /page.html in der robots.txt. Letzteres habe ich bisher aber noch nicht getestet.

Antworten

2 Marc Mai 27, 2009 um 3:32 pm

Gerade noch den passenden Eintrag bei Google dazu gefunden: http://www.google.de/support/webmasters/bin/answer.py?hl=de&answer=35303

Antworten

3 seo2feel Mai 27, 2009 um 3:47 pm

Hallo Marc,

erstmal danke für den Hinweis.

Dort steht aber auch,dass eine Indexierung nur möglich ist, wenn andere Seite auf meinen Content verlinken. Selbst dann wird aber nur der Ankertext und der Titel in den Google Suchergebnissen gezeigt.

Antworten

4 Mario Mai 27, 2009 um 3:52 pm

Zusätzlich sollte man noch den Trackback Redirect von 302 auf 301 ändern, trotz robots.txt Eintrag

Antworten

5 seo2feel Mai 27, 2009 um 4:12 pm

Hallo Mario,

siehe User-agent: Googlebot, dort habe ich den Eintrag: Disallow: */trackback/$, was den Google Bot davon abhalten soll den Trackback nachzusteigen.

Antworten

6 Alex August 6, 2009 um 2:31 am

Moin, interessanter Artikel.
Aber wieso nutzt du in deiner robots.txt das hier Vorgestellte nicht?
Doch alles für die Katz?

Gruß
Alex….

Antworten

7 flerserburn September 13, 2009 um 6:51 pm

Moin Moin

Hi Tweete76
habe mich jetzt mal hier angemeldet. Hoffe das es sich lohnt und die Jungs hier sind wirklich so gut drauf^^
Ach ja bevor ich es vergesse. Habe dir eine PN geschrieben konnte sie aber irgentwie nich absenden.
Habe nämlich hier mal eine Deutsche Webseite mit Hilfe und Erkärungen zu dem Tool Xrumer von Botmaster. Ist doch das was du suchst..oder?
Dachte das dir diese dann Weiterhilft. Ist aber nicht schlecht was ich so gelesen habe. xrumer.de
Die haben auch einen Link zu Leiten die diesen Service anbieten so das man sich das Programm nich selber kaufen.
Ist aber auch krass teuer. 520 öken finde ich heftig. Aber naja Würde es erstmal so testen bevor du es kaufst Süße.

Habe von der Anscheinend Aktuellen Version einen Screenshot gefunden. Sieht echt mächtig aus.
bigpichost.com/viewer-xrumer_nroyl8bu.gif.html

Ach ja..Mein Alter imagehoster ist seit 4 Tagen down…Frag mal Stefan ob er was näheres weis.
Hoffe du hast auch einige Projekte wo sich der aufwand lohnt. Für meine kleine Webseite wäre das nix.
Habe ja eh nur Privaten kram und ein paar Bilder von mir^^
Was ich jetzt nicht so verstanden habe ist folgendes…Ist das jetzt ein Illegales tool oder ein legales ?
Naja klär mich mal auf.

Machs gut

Maren

Antworten

Leave a Comment

You can use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre lang="" line="" escaped="">

Previous post:

Next post: