Heute beschäftigen wir uns mit der robots.txt und deren Optimierung für Suchmaschinen bzw. Anpassung. Manchmal ist es nämlich sehr ratsam bestimmte Seiten oder Bereich von der Indexierung auszuschließen, nicht zu Letzt um keinen Doppelter Content zu produzieren. Doppelter Content wird gnadenlos von Suchmaschinen abgestraft, da diese natürlich einmalige und relevante Ergebnisse liefern wollen.
Und genau deshalb sollte man die robots.txt benutzen um den Suchmaschinen zu sagen, was diese indexieren dürfen und was nicht.
Die robots.txt stammt von ni-c der ebenfalls einen Artikel darüber geschrieben hat. Ich habe die robots.txt lediglich an einigen Punkten verbessert. Besten Dank daher nochmal an Nic.
Was ist die robots.txt?
Hauptaufgabe der robots.txt ist es Crawlen von Suchmaschinen Anweisungen zu erteilen, dass heißt welche Seiten dürfen die Crawler indexieren und welche eben nicht.
Ohne robots.txt unterwegs
Es ist nicht zwingen erforderlich eine robots.txt zu haben. Viele Crawler haben damit kein Problem jedoch indexieren diese dann die komplette Seite und so tritt wieder das Problem mit Doppeltem Content hervor. Außerdem werden durch das aufrufen der nicht vorhanden robots.txt Fehlermeldungen ausgeben, die aber keine negative Auswirkungen haben.
Warum eine robots.txt für WordPress ?
Grade für einen Blog ist es sinnvoll Seiten von der Indexierung auszuschließen, erstens um Doppelten Content zu vermeiden und zweitens damit keine wichtigen Programmdateien indexiert werden. Standardmäßig wird nämlich alles indexiert inklusive Kategorien, Plugins, wp-admin und noch mehr.
Aufbau einer robots.txt
Standardmäßig muss man eine Textdatei mit dem Namen robots.txt erstellen und diese im Stammverzeichnis der Domain platzieren, sodass diese gefunden werden kann. Achtet darauf, dass alle Buchstaben vom Dateinamen kleingeschrieben sind!
Normaler Aufbau:
# Ganze Site für alle Robots sperren
User-agent: *
Disallow: /
# Ganze Site für alle Robots freigeben
User-agent: *
Disallow:
Beispiel: /wordpress/robots.txt
Aufruf über: seo2feel.de/robots.txt
Hinweis: Wenn Ihr Plugins nutz um eine robots.txt zu erstellen müsst Ihr diese mit den Rechten 777 versehen.
Was mit der robots.txt nicht geht
Man kann mit der robots.txt keine Dateien vor Zugriffen schützen. Dazu sollte man immer den Passwortschutz des Webservers verwenden
Angepasste robots.txt für Suchmaschinen
Ich habe mir einige Gedanken gemacht wie wohl eine optimale robots.txt aussehen könnte und haben für euch eine angefertigt die Ihr auch gerne übernehmen könnt. Ich denke meine robots.txt dürfte für jeden interessant sein.
Als aller erstes teilen wir den Robots mit, wo unsere Sitemap liegt um diese besser indexieren zu könne. Danach verbieten wir die Indexierung der WordPress Verzeichnisse.
User-agent: * Sitemap: http://www.[url].de/sitemap.xml # disallow all files in these directories Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wpcontent/themes/ Disallow: /wpcontent/plugins/ Disallow: /trackback/ Disallow: /*?* Disallow: */trackback/
Nun kommen wir zum Googlebot diesem verbieten wir die Indexierung aller PHP und sonstigen Dateien sowie des kompletten wp-contentVerzeichnisses, bis auf den darin enthaltenen Order uploads. Außerdem verbieten wir die Indexierung der Kategorien, Tags, Archiven, da sich darin der doppelte Content befindet. Zustätzlich verbieten wir die Indexierung des Feeds, da dieser in der Vergangenheit zu Problemen geführt hatte.
User-agent: Googlebot # disallow all files ending with these extensions Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.gz$ Disallow: /*.cgi$ Disallow: /*.wmv$ Disallow: /*.png$ Disallow: /*.gif$ Disallow: /*.jpg$ Disallow: /*.cgi$ Disallow: /*.xhtml$ Disallow: /*.php* Disallow: */trackback* Disallow: /*?* Disallow: /category/ Disallow: /tag/ Disallow: /archives/ Disallow: /feed/ Disallow: /wp-* Allow: /wp-content/uploads/
Dem Googlebot für die Bildersuche geben wir vollen Zugriff auf alle Verzeichnisse sozusagen ein frei Pass.
# allow google image bot to search all images User-agent: Googlebot-Image Allow: /*
Der AdSense Bot darf bis auf wp-admin und wp-includes alle Verzeichnisse indexieren.
# allow adsense bot on entire site User-agent: Mediapartners-Google* Disallow: /*?* Allow: /wp-content/ Allow: /tag/ Allow: /category/ Allow: /*.php$ Allow: /*.js$ Allow: /*.inc$ Allow: /*.css$ Allow: /*.gz$ Allow: /*.cgi$ Allow: /*.wmv$ Allow: /*.cgi$ Allow: /*.xhtml$ Allow: /*.php* Allow: /*.gif$ Allow: /*.jpg$ Allow: /*.png$
Nun verbieten wir noch die Archivierung des Blog. Achtung mit dem Befehl IA Archiver entfällt die Listung bei Archive.org.
# disallow archiving site User-agent: ia_archiver Disallow: / # disable duggmirror User-agent: duggmirror Disallow: /
Zum Schluss kann man die Datei noch an die eigene Bedürfnisse anpassen und um Einträge erweitern wie installierte Plugins.
WP-Supercache
Disallow: /wp-content/cache/ Disallow: /wp-content/advanced-cache.php/
Herausgekommen ist nun eine robots.txt die für WordPress Blogs und für Suchmaschinen optimiert ist.
User-agent: * Sitemap: http://www.[url].de/sitemap.xml # disallow all files in these directories Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wpcontent/themes/ Disallow: /wp-content/plugins/ Disallow: /trackback/ Disallow: /*?* Disallow: */trackback/ User-agent: Googlebot # disallow all files ending with these extensions Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.gz$ Disallow: /*.cgi$ Disallow: /*.wmv$ Disallow: /*.png$ Disallow: /*.gif$ Disallow: /*.jpg$ Disallow: /*.cgi$ Disallow: /*.xhtml$ Disallow: /*.php* Disallow: */trackback* Disallow: /*?* Disallow: /category/ Disallow: /tag/ Disallow: /archives/ Disallow: /feed/ Disallow: /wp-* Allow: /wp-content/uploads/ # allow google image bot to search all images User-agent: Googlebot-Image Allow: /* # allow adsense bot on entire site User-agent: Mediapartners-Google* Disallow: /*?* Allow: /wp-content/ Allow: /tag/ Allow: /category/ Allow: /*.php$ Allow: /*.js$ Allow: /*.inc$ Allow: /*.css$ Allow: /*.gz$ Allow: /*.cgi$ Allow: /*.wmv$ Allow: /*.cgi$ Allow: /*.xhtml$ Allow: /*.php* Allow: /*.gif$ Allow: /*.jpg$ Allow: /*.png$ # disallow archiving site User-agent: ia_archiver Disallow: / # disable duggmirror User-agent: duggmirror Disallow: /

{ 7 comments… read them below or add one }
Hi. Seiten welche du für die Spider per robots.txt sperrst, werden von diesen nur nicht aufgerufen. Das heißt nicht, dass sie nicht indiziert werden. Da Google auch Seiten aufgrund einer Referenz indizieren kann ohne diese je gecrawled zu haben.
Was hier hilft ist das Meta-Tag robots mit dem Attribut noindex. An was sich Google auch halten soll, ist das nicht mit dem Standard konforme Noindex: /page.html in der robots.txt. Letzteres habe ich bisher aber noch nicht getestet.
Gerade noch den passenden Eintrag bei Google dazu gefunden: http://www.google.de/support/webmasters/bin/answer.py?hl=de&answer=35303
Hallo Marc,
erstmal danke für den Hinweis.
Dort steht aber auch,dass eine Indexierung nur möglich ist, wenn andere Seite auf meinen Content verlinken. Selbst dann wird aber nur der Ankertext und der Titel in den Google Suchergebnissen gezeigt.
Zusätzlich sollte man noch den Trackback Redirect von 302 auf 301 ändern, trotz robots.txt Eintrag
Hallo Mario,
siehe User-agent: Googlebot, dort habe ich den Eintrag: Disallow: */trackback/$, was den Google Bot davon abhalten soll den Trackback nachzusteigen.
Moin, interessanter Artikel.
Aber wieso nutzt du in deiner robots.txt das hier Vorgestellte nicht?
Doch alles für die Katz?
Gruß
Alex….
Moin Moin
Hi Tweete76
habe mich jetzt mal hier angemeldet. Hoffe das es sich lohnt und die Jungs hier sind wirklich so gut drauf^^
Ach ja bevor ich es vergesse. Habe dir eine PN geschrieben konnte sie aber irgentwie nich absenden.
Habe nämlich hier mal eine Deutsche Webseite mit Hilfe und Erkärungen zu dem Tool Xrumer von Botmaster. Ist doch das was du suchst..oder?
Dachte das dir diese dann Weiterhilft. Ist aber nicht schlecht was ich so gelesen habe. xrumer.de
Die haben auch einen Link zu Leiten die diesen Service anbieten so das man sich das Programm nich selber kaufen.
Ist aber auch krass teuer. 520 öken finde ich heftig. Aber naja Würde es erstmal so testen bevor du es kaufst Süße.
Habe von der Anscheinend Aktuellen Version einen Screenshot gefunden. Sieht echt mächtig aus.
bigpichost.com/viewer-xrumer_nroyl8bu.gif.html
Ach ja..Mein Alter imagehoster ist seit 4 Tagen down…Frag mal Stefan ob er was näheres weis.
Hoffe du hast auch einige Projekte wo sich der aufwand lohnt. Für meine kleine Webseite wäre das nix.
Habe ja eh nur Privaten kram und ein paar Bilder von mir^^
Was ich jetzt nicht so verstanden habe ist folgendes…Ist das jetzt ein Illegales tool oder ein legales ?
Naja klär mich mal auf.
Machs gut
Maren
{ 5 trackbacks }