Sommaire :
Le duplicate content ou le contenu dupliqué est certainement la « bête noire » des experts SEO. Toute stratégie pour faire connaître une boutique, un magasin ou une TPE sera vaine si le site web est pénalisé à cause d’un contenu inapproprié. Nous allons commencer par différencier les contenus dupliqués des plagiats, puis vous exposer plusieurs solutions permettant d’éviter les conséquences de ces contenus copiés sur le référencement de votre site.
Définition du contenu dupliqué
Le duplicate content résulte tout simplement du copier-coller de contenus : si les auteurs de contenus dupliqués pensent pouvoir gagner du temps en récupérant le texte d’un autre pour le publier, cela peut générer de graves conséquences sur le référencement de leurs sites. Ces contenus « glanés » vont être associés à du spam par Google, ce qui consiste à « noyer » le web de contenus similaires : cette technique est dans le collimateur des moteurs de recherche, qui n’hésiteront pas à sanctionner les sites coupables.
Dans ce sens, Andrey Lipattsev, Search Quality Senior Strategist chez Google, a affirmé en 2016 que l’algorithme ne pénalisait pas un site qui présenterait un duplicate content si les internautes y ajoutent des commentaires pertinents. Le moteur de recherche s’intéresserait alors à la valeur ajoutée apportée à un contenu dupliqué.
Le duplicate content interne
On parle de duplicate content interne lorsque des doublons de phrases, de passages entiers sont constatés au sein d’un même site, comme cela peut être le cas sur des fiches produits par exemple. Commencez par vérifier sur vos pages s’il s’agit de duplicate content total, plus grave, ou partiel : les doublons résultent parfois d’une mauvaise configuration ou d’un problème d’indexation. Ces contenus dupliqués sont mis en évidence lorsqu’une page est visitée par les robots de Google (crawlée).
Le duplicate content externe
Le cas du contenu dupliqué externe est plus grave, car il s’agit d’un « contenu volé » depuis un site tiers. En cas de copié collé de texte, il n’est pas toujours évident de déterminer le véritable auteur, même les moteurs de recherche sont incapables de reconnaître celui qui a rédigé en premier ce contenu. Quelle que soit leur forme, les contenus dupliqués envoient donc systématiquement un mauvais signal SEO, qui va entacher l’e-reputation d’une boutique, d’un magasin ou d’une TPE aux yeux de Google. Si cela se répète, le moteur de recherche peut sévir en désindexant les pages concernées !
Les pages générées automatiquement
Dans certains cas, les duplicates contents sont générés automatiquement, lorsque le webmaster utilise un CMS tel que WordPress. Il publie des articles et il peut arriver que le CMS crée systématiquement des pages similaires à la vôtre, sans prévenir. Pour y remédier, je vous conseille de paramétrer le plug-in Yoast SEO sur WordPress.
Google n’alloue que peu de « budget crawl » à chaque site. En cas de contenus dupliqués sur votre site, il perdra son temps sur ces pages et passera à côté des pages importantes !
Les contenus partiellement dupliqués
Il arrive souvent que des blogueurs « recyclent » les contenus et se retrouvent avec des pages qui traitent du même sujet/thème. Les points traités sont quasiment similaires. Même s’il ne s’agit pas d’un cas de duplicate content flagrant, il serait tout de même plus judicieux de fusionner plusieurs articles (en reformulant bien tout) pour obtenir un contenu unique, et plus riche.
Les contenus dupliqués sur les réseaux sociaux
Le fait de republier des contenus sur les réseaux sociaux est une stratégie très utilisée par les blogueurs. Du coup, les internautes qui lisent vos posts peuvent les recommander, car ils sont immédiatement visibles par les membres de votre réseau. Votre article peut même devenir viral en un rien de temps. Les publications sur les réseaux sociaux seront privilégiées dans les résultats des recherches. Ainsi, même si le contenu a été copié-collé depuis votre site, Google l’attribue au réseau social comme Medium, LinkedIn…
Attention, la duplication d’un article sur les réseaux sociaux peut entraver le référencement de votre propre site. Pour y remédier, je vous recommande d’attendre une semaine avant de transférer les contenus tirés de votre site vers les plateformes sociales. Vous pourrez ainsi programmer l’apparition des articles sur les réseaux sociaux avec des outils spécifiques comme le pluging Jetpack, Hootsuite qui vous permet de programmer la publication de votre article sur Facebook, LinkedIn, Twitter, Pinterest…, ou encore Buffer, qui est un outil essentiel dans la gestion des publications.
Je peux également vous recommander d’écrire un article différent de l’original, quitte à reformuler le contenu en entier, avant de le publier sur un réseau social. Bien évidemment, l’idéal serait de créer des contenus uniques pour chaque plateforme. Vous pouvez traiter un sujet sous plusieurs axes et le reformuler autant de fois que possible. Quelle que soit la technique choisie, veillez tout de même à apporter quelques modifications, car les contenus copiés à 100% sont souvent mal référencés par Google.
Afin d’éviter le duplicate content, une astuce consiste à publier une infirme partie du contenu sur les plateformes sociales. Ce sera comme un avant-goût pour les lecteurs, qui auront envie de découvrir la suite sur votre propre site. Et pour une visibilité optimale, travaillez sur le référencement. C’est encore le meilleur moyen de toucher une large audience, voire de susciter l’intérêt des annonceurs pour votre blog. Si vous utilisez ces techniques à bon escient, vous pourrez développer la visibilité de votre site sur les moteurs de recherche.
Le contenu dupliqué en cas de migration
Très souvent, les webmasters dupliquent des contenus entiers dans le cadre d’une migration. Par exemple, ils peuvent copier et transposer le contenu d’un nom de domaine à un autre. Ce procédé est souvent mal perçu par les moteurs de recherche, qui vont ralentir l’indexation des plateformes qui présentent des duplicates contents. La redirection 301 peut remédier à cela, mais doit être utilisée savamment, car Google peut l’assimiler à une tentative de ponctionner la popularité d’un site pour en nourrir un autre.
Les différences entre le duplicate content et le plagiat
Dupliquer un contenu consiste à copier-coller des blocs de texte en pensant améliorer son positionnement sur les moteurs de recherche. Certains imaginent en effet que c’est le meilleur moyen de tromper Google et son fameux algorithme… ce qui est faux. Si certains contenus dupliqués peuvent être intentionnels (notamment plusieurs URL qui pointent vers une seule page ou une balise métadescription qui se ressemblent point par point), il faudra aussi faire attention aux contenus répétitifs tels que les fiches produits sur les sites de vente.
Le plagiat quant à lui consiste à reprendre des passages ou des idées à son compte, sans citer ses sources. Attention, dupliquer des contenus propres à vos sites peut avoir des conséquences sur votre SEO, mais n’est pas passible de pénalité. En revanche, Google est contre le fait de copier les contenus des sites qui ne vous appartiennent pas et vous sanctionnera si vous le faites.
Les techniques pour solutionner les contenus dupliqués
Très souvent, les webmasters abusent du robot.txt pour passer au travers de l’algorithme Google. Cette manière d’éviter les pénalisations consiste à guider le bot de Google en empêchant l’indexation ou le crawling de certaines pages.
Certes, cette technique peut être efficace, néanmoins, il est tout de même recommandé de limiter les contenus dupliqués au maximum. Mieux vaut se concentrer sur la création de contenus uniques et bannir le copier-coller. Attention, il ne s’agit pas de créer des contenus pour le moteur de recherche, mais pour les internautes : ainsi, les doublons seront évités.
Les redirections 301
Pour éviter que Google indexe des liens vers les pages d’un même site, pensez à faire systématiquement des redirections 301 au niveau du serveur. Les redirections devraient rediriger les lecteurs de la page dupliquée vers la page originelle. Du coup, le crawler pourra repérer facilement la page qui devrait être la mieux indexée. Attention tout de même à la pondération imposée par Google sur ce type de redirection, et préférez-lui la balise rel=canonical si possible.
Régler le site sur la Search Console
Une manière de remédier au duplicate content consiste à régler tout simplement le site via la Search Console. Vous serez amené à indiquer votre domaine favori dans les réglages, avec ou sans www. De cette façon, Google saura immédiatement quel site doit être indexé et ignorera les autres. Cette astuce permet de réduire les risques de double indexation. Dans le cas des pages dupliquées, je vous conseille de faire un lien vers la page la plus détaillée via la Search Console.
Canoniser ses urls
Grâce aux URL dites canoniques (« légitimes »), symbolisées par la balise rel=canon, le moteur de recherche retrouvera plus facilement quelle page il doit indexer, surtout lorsque plusieurs pages affichent des contenus similaires. Google se concentrera surtout sur cette page et fera l’impasse sur celles aux contenus dupliqués. À noter que l’URL canonique doit être placée dans le corps de la page de référence, ainsi que des pages qui présentent des duplicates contents.
Repérer les contenus dupliqués
Pour être mieux référencé sur les moteurs de recherche, il n’y a rien de mieux que les contenus uniques. De votre côté, vous pouvez toujours repérer les contenus dupliqués en vérifiant que vos pages n’ont qu’un seul titre, métadescription ou balise de titre H1. Pour ce faire, rendez-vous sur ContentKing et cliquez sur la section « Problèmes » puis « Métadonnées » et « Titres ».
Pour vérifier les duplicates contents sur les sites tiers, vous trouverez des plateformes dédiées comme Copyscape. Vous pouvez toujours rechercher les phrases entre guillemets sur Google et voir s’il existe d’autres versions sur d’autres sites. Kill Duplicate vous permettra également de repérer les duplicate contents externes, ainsi que les pages plagiées de votre site. Vous avez même la possibilité de contacter les « voleurs » de contenus. Si ces derniers refusent d’obtempérer, votre hébergeur prendra les mesures adéquates pour y remédier.
La Moz bar est aussi un outil efficace pour détecter les contenus dupliqués : ce plug-in identifie systématiquement les balises title, les méta descriptions et les URL canoniques des pages que vous visitez. De ce fait, tout contenu dupliqué sera automatiquement signalé.
Les outils d’indexation vous permettront également de prévenir les duplicate contents, par exemple la commande Ping vérifie rapidement les contenus des pages pour indexation, afin qu’ils puissent se conformer aux critères. De nombreux services permettent de disposer de pings pour le référencement de vos contenus. C’est le cas de Pingomatic, de Bulkping, de PingFarm ou encore de Pingler.
Les solutions contre les vols de contenus
De nombreux sites doivent faire face aux vols de contenus tous les jours. Les « voleurs » de contenus ne demandent pas l’autorisation des auteurs pour copier-coller leurs contenus. Pour pallier ce genre de désagrément, vous pouvez utiliser des logiciels antiplagiat, qui vous permettront de repérer rapidement les sites qui ont dupliqué vos contenus et de les contacter.
Positeo est un logiciel gratuit, simple et efficace. Il vous suffit de copier-coller une URL ou un petit extrait de votre article. Lancez la recherche et les pages qui vous ont été plagiées seront classées en fonction du pourcentage de contenu dupliqué. Les extraits dupliqués sont également signalés par un code de couleur.
Duplicate Content Checker figure aussi parmi les logiciels antiplagiat. Il est gratuit et s’avère très simple d’utilisation : il vous suffit d’entrer une URL ou un extrait de texte et le logiciel fera le reste. Même si le logiciel est en anglais, vous pourrez tout de même l’utiliser pour des contenus en français.
Copyscape est la référence en matière de logiciels antiplagiat, la version payante est meilleure, mais vous pouvez toujours comparer gratuitement des URL ou des extraits de textes. Copyscape est surtout privilégié pour son efficacité.
Quetext est un autre logiciel utilisé pour détecter les contenus plagiés. Attention, vous n’avez pas la possibilité d’y comparer des URL, mais vous pouvez toujours vérifier des extraits de contenus. Cet outil détecte aussi les pages dont les contenus sont similaires aux vôtres.