Récapitulation sur le contenu en duplicata.
LIBÉREZ LE PANDA! En 2011, Google a lancé la mise à jour qui a été baptisée Panda. Les webmestres et les professionnels du web ont ignoré certains points du SEO pendant longtemps. Google a amélioré dramatiquement sa façon de gérer le contenu en duplicata, compliquant la tâche aux stratèges web et les obligeant à s’occuper d’un aspect qu’ils ont négligé.
Qu’est-ce que le contenu en duplicata?
Le contenu en duplicata existe lorsque 2 pages ou plus partagent le même contenu en ligne. Voici un exemple :
- Vrai duplicata : c’est lorsqu’une page est à 100% identique (dans le contenu) à une autre page. La seule différence est dans l’URL.
- Proche d’un duplicata : c’est lorsque le contenu sur les différentes URL est pratiquement pareil, à quelques degrés près. (Par contenu, on entend : un bloc de texte, une image, ou l’ordre du contenu)
- Duplicata de domaine : Un duplicata sur plusieurs domaines est lorsque plus qu’un site web possède la même pièce de contenu.
Vous vous dites surement que c’est assez facile de ne pas créer deux pages similaires sur votre site web, non? Cependant, il est beaucoup plus facile pour vous de créer des pages en duplicata sur votre site web sans en avoir l’intention.
Pourquoi accorder de l’importance au contenu en duplicata?
Il faut vous rappeler que le but de Google est toujours de vous donner les meilleurs résultats de recherche possible. Dans cette optique, il a appliqué une mise à jour en avril 2011 pour permettre à son algorithme de différencier les sites web avec du contenu de qualité et de moins bonne qualité. Dans cette mise à jour, Google s’est notamment attaqué aux sites web avec du contenu copié et sans droit d’auteur ou de références vers le contenu original.
Outils pour fixer le contenu en duplicata
Erreur 404 (Page introuvable)
Bien entendu, la façon la plus facile de corriger un problème de contenu en duplicata est de supprimer la page et de retourner aux visiteurs une erreur de type 404. Si le contenu n’a vraiment aucune valeur pour les visiteurs ou les moteurs de recherche et qu’il n’y a pas de liens entrants ou de trafic, enlever le contenu est alors une avenue qui a bien du sens.
Redirection 301
Une autre façon de supprimer une page est au travers une redirection 301. Contrairement à une erreur 404, la redirection de type 301 indiquera aux visiteurs (qu’ils soient humains ou robotisés) que la page a été déplacée de façon permanente vers une autre location. L’humain arrivera tout simplement à la nouvelle page, sans se rendre compte de rien. D’une perspective SEO, la plupart du jus transféré par les liens entrants sera aussi transféré à cette nouvelle page. Donc, si votre contenu dupliqué a une URL canonique claire et que le duplicata a du trafic et des liens entrants, une redirection de type 301 est optimale pour vous.
Robots.txt
Une autre option serait de laisser le contenu dupliqué disponible seulement pour les visiteurs humains et de bloquer le contenu pour les moteurs de recherche. La plus vieille façon et probablement la façon la plus facile de le faire sera à travers un fichier robots.txt, généralement situé dans votre répertoire racine.
Un des avantages du robots.txt est que c’est relativement facile de bloquer un répertoire complet ou des paramètres d’URL. Le désavantage est que c’est assez extrême comme solution et parfois cela peut s’avérer une solution douteuse. Alors que le robots.txt est effectif pour bloquer le contenu qui n’est pas indexé, ce n’est pas parfait pour enlever le contenu qui est déjà dans l’index. Les moteurs de recherche majeurs ne semblent pas suggérer une surutilisation et ne recommandent pas généralement le robots.txt pour le contenu dédoublé.
Meta robots
Vous pouvez aussi contrôler le comportement des robots de recherche au niveau des pages avec une directive placée dans le header connu sous le nom de Meta Robots tag (parfois Meta Noindex). Dans sa forme plus simple, le tag ressemble à quelque chose comme :
Cette directive de la page indique aux robots de recherche de ne pas indexer du contenu particulier sur une page ou de suivre les liens dessus. Vous trouverez probablement le Meta Robots un peu plus plaisant à utiliser que le robots.txt parce qu’il est intégré directement dans le code et donc souvent plus facile à manipuler.
L’autre variante du Meta Robots est la valeur du contenu NOINDEX, FOLLOW, qui permet aux robots des moteurs de recherche de suivre son chemin sans ajouter de pages dans l’index des moteurs de recherche. Cela peut être utile lorsque nous voulons bloquer certaines variations de pages de recherche sur le site web, mais suivre les liens vers les pages de produit.
*** Il n’y a aucune raison d’ajouter le Meta Robots tag INDEX, FOLLOW a une page, parce que toutes les pages sont indexées par défaut. ***
Les éditeurs de presse voient souvent leur contenu copié. Ils peuvent s’assurer que seulement les versions originales des articles soient publiées dans le feed de nouvelles de Google. Ils peuvent s’en s’assurer en demandant à leur partenaire de syndication d’utiliser un tag Meta Robots. En voici un exemple :
Utiliser ce tag préviendra de syndiquer votre contenu d’apparaître dans les résultats de recherche de la section des nouvelles de Google, mais permettra quand même au contenu d’être indexé par d’autres moteurs de recherche. Si quelqu’un voudrait restreindre son contenu syndiqué d’apparaître dans tous les moteurs de recherche, il se doit d’utiliser le Meta Noindex tag à la place.
Rel=canonical
En 2009, les moteurs de recherche se sont entendu pour créer la directive Rel=Canonical, aussi nommé Rel-canonical ou le tag Canonique. Cela permet au webmestre de spécifier une version canonique d’une page. Il faut positionner ce tag dans le header du site web :
Quand les moteurs de recherche arrivent sur une page avec un tag canonique, ils attribueront la page l’URL canonique, sans se soucier de l’URL qu’ils ont utilisée pour atteindre cette page. Donc par exemple, si un bot atteint l’URL http://ludismedia.com/index.html, les moteurs de recherche n’indexeront pas la page additionnelle qui est non canonique. Normalement, les liens entrants donneront aussi de l’autorité à la page canonique. Il est important de noter qu’il est essentiel de faire attention de s’assurer que c’est la bonne page canonique qui est choisie.
GWT URL Removal
Dans Google Webmaster Tools, vous pouvez demander à ce qu’une page individuelle soit manuellement enlevée de l’index. Cliquez sur Index Google dans le menu de navigation à gauche, puis dans le sous-menu URL à supprimer et vous verrez un bouton nommé Nouvelle demande de suppression. Puis vous n’aurez qu’à saisir l’URL à supprimer.
Si vous voulez enlever une page complètement, nous vous suggérons de faire une 404, de bloquer le robots.txt ou de Meta Noindex la page avant de demander la demande pour l’enlever.
*** Google peut décider ou non de réintroduire ces pages dans l’index si elles ne sont pas bloquées par d’autres méthodes que dans GWT. ***
Dans GWT, vous pouvez également bloquer les paramètres d’URL que vous voulez que Google ignore. Google bloquera ensuite l’indexation des pages avec ces paramètres. Vous pouvez atteindre cette section dans GWT en cliquant sur le menu de navigation à gauche nommé Exploration et dans le sous-menu URL bloquées.
Vous pouvez aussi utiliser Bing Webmaster Center pour bloquer les paramètres des URL si vous avez des visiteurs provenant de Bing.
Liens internes
Il est important de noter que le meilleur outil qui est disponible pour ne pas créer de contenu en duplicata est de ne pas en créer à la base. Comme ce n’est pas toujours possible, vous pouvez utiliser tous les outils nommés ci-haut, mais souvent il est préférable de prendre un pas de recul et de vous assurer que votre structure de liens internes et votre architecture de site web soient bien faites.
Il ne faut pas oublier aussi d’enlever les liens qui pointent vers les mauvaises pages aussi. Trop souvent, les gens vont faire des modifications à leur URL et vont oublier de changer les anciens liens qui pointaient vers l’URL qui n’existe plus ou qui a été redirigée.
Vous êtes maintenant libérés des pandas! Je vous présenterai des exemples de contenu en duplicata et de situation réelle dans mon prochain article.
Voir aussi : http://ludismedia.com/google-panda-comment-surmonter-penalite/
Latest posts by Alexis Barnabe
- Recap: Conférence les affaires – le Marketing de contenu - 14 Février 2014
- 7 avantages de la force du groupe dans la stratégie web - 24 Octobre 2013
- Libérez-vous du panda – Réduisez le contenu en duplicata - 25 Septembre 2013
- Qu’est-ce que le NAP? - 27 Aout 2013
- Guide : Survivre à la crise d’une migration de site web - 13 Aout 2013
Très bon article. J’ajouterais également une section sur le duplicata de contenu pour les site internationaux et l’utilisation du rel=”alternate”.
Beau travail.
J-A
Bonjour Jacques,
En effet, dans mon prochain article je parlerai du rel=”alternate”, du hreflang=”x” , du rel=Prev et Rel=next. C’est une très bonne idée de parler du SEO International.
Merci,