Einleitung
Für viele ist es keine richtige Überraschung mehr, aber dennoch ist und bleibt WordPress auch mit der aktuellen Version alle andere als SEO-Freundlich. Das schlimme dabei, wer kaum Ahnung von SEO hat, der weiß auch nicht warum auf einmal seit PR so niedrig ist oder warum sein Blog in Google nicht gut indexiert ist. Das Stichwort lautet Duplicate Content, und davon produziert WordPress von Haus aus leider eine große Menge, die man ohne das nötige Fachwissen nicht beheben kann. Deswegen kläre ich euch nun auf, wo der Duplicate Content am häufigsten entsteht und mit was für Methoden Ihr ihn beseitigen könnt.
Folgende Themen werden behandelt.
Inhalt des Artikels
Was ist DC ?
DC = Duplicate Content heißt nichts anders, als das 2 verschieden URLs existieren mit dem gleichen Inhalt. Aus Sicht der Suchmaschiene heißt das der Inhalt wurde kopiert und das wird gar nicht gerne gesehen. Die Seiten werden abgestraft oder werden ganz von der Indexierung ausgeschlossen. Deswegen sollte man es unbedingt vermeiden, das Duplicate Content auf einer Webseiten oder Blog entsteht.
Wo entsteht Duplicate Content in WordPress ?
Der meiste DC in WordPress entsteht an diesen stellen:
- Kategorien
- Archive
- Tags
- Interne Blog Suche
Nun überlegt einmal, wo über all 1 Artikel von euch gefunden werden kann.
Als Beispiel, mein Artikel “Wordpres 2.8 heute erschienen” findet man in den Kategorien unter Allgemein+WordPress, dann nocht unter Suche und zu guter letzt nocht über 5 verschiede Tags. Google wertet das alles als Duplicate Content, da ja jedesmal der gleiche Artikel also (Tite, Beschreibung, Inhalt) gegeben ist.
Deswegen sollte man diese wichtigen Stellen auf noindex setzten, sodass Ihr von Google keinen Abwertung bekommt. Denn wenn Google eins nicht leiden kann, dann ist es DC.
WordPress Einstellungen
Duplicate Content auf Beitragsseiten
Mit einer Einstellung, die auch noch Standardmäßig aktiviert ist produziert WordPress automatisch Duplicate Content ohne wissen des Webmasters. Es geht um die Option, die das blätter durch die Kommentare erlaubt. Um dies zu ermöglichen, wird von WordPress ein Permalink erstellt und dynamisch an die URL angehängt. Sobald ein Kommentar abgegeben wird oder in den Kommentare geblättert wird, ensteht so ein Link.
Problem Google erkennt diese Duplicate Content, dass heißt eurer Seite verliert im Google Index an Wert, da diese angeblich mehrmals existiert.
Lösung:
Deaktiviert unter Einstellungen – > Diskussion, dieses Feld.
Plugin Lösungen
Alles auf einen Streich
Mithilfe des von Yoast entwickelten Plugins robots meta gebt Ihr dem DC schnell und einfach den todestoss. Mit diesem Plugin könnt Ihr die wichtigstens DC-Erzeuger deaktiveren.
Diese sind:
- Tags
- Kategorien
- Feed
- Archive
- Interen Blog suche
ufm.
Konfiguriert das Plugin einfach nach diesen optimierten Einstellungen (siehe Bild)
More Tag Lösung
Das Wunder tag ?
Auf der Startseite befinden sich meistens die letzten 5-10 Artikel. Damit befindet sich DC auf der Startseite und unter der Artikel URL, da der Inhalt der gleiche ist. Dies kann einfach mit dem more-tag vermieden werden. Es lässt sich im HTML-Editor setzten und scheidet Artikel ab. Natürlich sollte man Artikel an sinnvollen Postionen abschneiden. So vermeidet Ihr einfach DC den der komplette Artikel ist nur noch über die Artikel URL abrufbar. Auf allen anderen Seiten wird der Artikel nur gekürzt angezeigt.
Ich hatte allerdings schon öfters das Problem, dass Google dem more-tag gefolgt ist vielleicht ein Einzelfall ?
Code Lösungen
Mit Codes zum Ziel!
So nun gibt es für alle Coder und nicht Pluginliebhaber, die Lösungen für die Probleme noch als Codes zum einfügen. Alle Dateien die es dabei betrifft liegen unter /wp-include/
Hier verweise ich euch auf Holger Freiers Blog, er hat die verschieden Code-Lösungen übersichtlicht dargestellt.
Robots.txt Lösung
Eher Suboptimal und veraltet
Früher hieß es immer, die robots.txt gibt an welche Seiten der Bot nicht besuchen darf. Eigentlich logisch, er darf diese Seiten nicht besuchen also dürfte er diese auch nicht kenne. Heute wissen wir, dass sobald 1 Link zu der Seite gesetzt wird, kennt auch der Suchmaschinen Bot diese Seite. So ist es möglich dass die gesperrte Seite aufgrund von externen Links trotzdem im Suchindex landet.
Somit ist die robots.txt eher eine suboptimale Lösung, die funktionieren kann. Dass die ganze Sache aber auch nach hinten los gehen kann sieht man am Beispiel, wie viele Admin und Plugin Seiten in Google indexiert sind und sogar relativ hoch ranken.
Hier eine optimierte robots.txt von mir:
User-agent: * Sitemap: http://www.[url].de/sitemap.xml # disallow all files in these directories Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wpcontent/themes/ Disallow: /wp-content/plugins/ Disallow: /trackback/ Disallow: /*?* Disallow: */trackback/ User-agent: Googlebot # disallow all files ending with these extensions Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.gz$ Disallow: /*.cgi$ Disallow: /*.wmv$ Disallow: /*.png$ Disallow: /*.gif$ Disallow: /*.jpg$ Disallow: /*.cgi$ Disallow: /*.xhtml$ Disallow: /*.php* Disallow: */trackback* Disallow: /*?* Disallow: /category/ Disallow: /tag/ Disallow: /archives/ Disallow: /feed/ Disallow: /wp-* Allow: /wp-content/uploads/ # allow google image bot to search all images User-agent: Googlebot-Image Allow: /* # allow adsense bot on entire site User-agent: Mediapartners-Google* Disallow: /*?* Allow: /wp-content/ Allow: /tag/ Allow: /category/ Allow: /*.php$ Allow: /*.js$ Allow: /*.inc$ Allow: /*.css$ Allow: /*.gz$ Allow: /*.cgi$ Allow: /*.wmv$ Allow: /*.cgi$ Allow: /*.xhtml$ Allow: /*.php* Allow: /*.gif$ Allow: /*.jpg$ Allow: /*.png$ # disallow archiving site User-agent: ia_archiver Disallow: / # disable duggmirror User-agent: duggmirror Disallow: /
Empfehlung von mir
Die robots.txt hat ausgedient und ist nicht mehr zukunftssicher. Setzt lieber auf die robots-meta Attribute, wie das robots meta Plugin von Yoast oder auf die Code Lösungen und das more tag. Verschiede SEO-Plugins für WordPress wie All in one SEO-Pack, oder wpSEO was auch hier zum Einsatz kommt bringen diese Einstellungen bereits mit und sind sehr einfach zu konfigurieren.


{ 7 comments… read them below or add one }
Aus meiner Erfahrung ist das mit dem DC in manchen Bereichen nicht mehr ganz so wild. Der More Tag bietet definitiv Abhilfe und ich habe z.B. auch die Kategorien und Tags nicht ausgeschlossen (nur die Archive und die Suche).
Kurze Erklärung zu meiner Behauptung: Ich schreibe z.B. immer nur einen Absatz und setze dann den More-Tag. Deswegen ist auf der Startseite, den Kategorien und Tags immer nur dieser Absatz zu sehen, den es natürlich mehrfach gibt (4x ingesamt mit dem ganzen Beitrag). Eine Übersichtsseite wie die Index, Kategorien und Tags besteht aber nicht nur aus einem Artikel, sondern aus mehreren. Und wer beim Wählen seiner Kategorien und Tags nicht so vorgeht, dass mehrere Artikel hintereinander die gleiche Kategorie oder Tags erhalten, wird diese Übersichtsseiten nicht zur kompletten DC Seite gestalten. DC innerhalb der eigenen Domain wird bis zu einem bestimmten Prozentsatz toleriert. Erst wenn man diesen übertrifft müsste man z.B. mit der canonical arbeiten, um nicht die wichtigste seiner Seiten aus dem Index zu verlieren.
Fazit: Mit dem robots meta Plugin alles möglich auf noindex zu setzen ist nicht wirklich notwendig.
Anders sehe ich das mit der Kommentaraufsplittung. Dort ist der gesamte Artikel DC und das kann definitiv zu Problemen führen. Die Canonical bringt in solchen Fällen auch nichts, da die auf den DC Seiten mitgeführt werden würde. Diese Einstellung ist also definitiv für den “A…”
, da sollte man schön die Finger von lassen, wenn einem das Ranking seiner Artikel am Herz liegt.
In der robots.txt habe ich mittlerweile nicht mehr besonders viel stehen (weitaus weniger als Du). Der entsprechende meta tag auf den entsprechenden Seiten ist weitaus effektiver und die robots.txt nutzt man heutzutage eigentlich nur noch, wenn es anders gerade nicht geht.
Danke für dein Feedback
Ich hatte leider schon Fälle, wo Beiträge trotz more Tag als DC von Google gewertete wurden. Daraus schließe ich das Google diese tag nun auch folgt und sich nicht mehr aus tricksen lässt, naja mal schauen wie sich das weiter entwickelt.
Robots-meta ist sehr nützlich wie ich finde, denn es beseitigt die schlimmsten DC produzieren, dazu sind natürlich diese Einstellungen nötig. Wo ich das Problem sehe ist eher das man schwer wieder aus der DC-Falle raus kommt, denn wenn Google einmal so was sieht kommt man schwer wieder raus. Deswegen gleich vermeiden.
Das Plugin bringt ja keine Nachteil, sondern nur Vorteile und ist für jeden einfach einzustellen.
ps. Die beispiel robots.txt ist auch nur als solche gedacht. Ich habe das alles natürlich auch nicht in meiner stehen
sondern nur 4 wichtige Punkte.
Das mit dem more-Tag verstehe ich ehrlich gesagt in Deiner Erläuterung nicht wirklich. Klar folgt Google einem Link, aber das hat ja nix mit Double Content zu tun. Es kommt natürlich darauf an, wie viel vor dem More Tag seht und wie viel danach. Wenn nur wenig danach steht auf dem einzelnen Beitrag ist die Gefahr für DC weitaus höher. Deswegen setze ich den More Tag meistens nach dem ersten Absatz. So ist nur dieser DC auf mehreren Seiten und fällt überhaupt nicht ins Gewicht.
Hallo Tanja,
vielleicht war das etwas undeutlich. Ich hatte schon öfters das Problem das Google das more erkannt hat. Das sieht das so aus Google erkennt das more und indiziert den Kompletten Artikel schon auf der Startseite. Vielleicht war das ein Einzelfall, aber ich haben schon öfters gehört das Google mitterweile das more erkennt.
Deine Lösung ist optimal mit dem Absatz. Ja du hast auch recht wenn vor dem more wenig Text steht und danach ist die Gefahr höher.
Kannst kann mann DC nicht ausschließen, aber eingrenzen sodass es keinen Abwertung gibt. Man schreibt ja auch Texte für die leser und nicht für die Suchmaschine
Also ich habe dieses plugin jetzt mal auf unseren Blogs aktiviert, das erspart dann die arbeit mit dem Code. Wobei das dort auch gut erklährt ist und ich hätte das auch ohne Plugin geschafft.
Gruß
Thom
Hallo.
Ich bin ein absoluter Newbie und lese mich gerad in die Thematik ein. Was mich interessiert und worauf ich hier keine Antwort finde: Was ist eigentlich mit Einleitungen für Artikel? WordPress nennt sie “Auszüge”. Sollte man immer extra einen anderen Text schreiben, oder kann es ruhig die ersten Zeilen des Artikels enthalten? Es erzeugt doch auch DC, oder ist das nicht so kritisch?
Google kann das more-tag doch garnicht lesen! Es wird nur von WordPress benutzt, um einen Text nur bis zu der Stelle anzuzeigen, an der das more-tag steht. Dieses wird durch den Link ersetzt, und der restliche Text nicht mit ausgegeben.
Ansonsten eine guter Beitrag gegen DC.