Le duplicate content (« contenu dupliqué » dans sa version française) fait référence à un texte similaire voire identique à une ou plusieurs autres pages web. En plus de nuire à la valeur ajoutée de votre texte, cette pratique est très mauvaise pour le SEO.
En effet, lorsque Google est face à plusieurs contenus identiques, il lui est difficile de déterminer lequel est le plus pertinent selon la recherche de l’utilisateur. Et concernant l’autorité et la pertinence de votre contenu, autant vous dire qu’aucune de ces deux caractéristiques n’est présente. Mieux vaut donc éviter le duplicate content.
Si le contenu est dupliqué intentionnellement, vous pourriez faire face à des pénalités de Google ce qui serait très mauvais pour votre image.
Alors pour éviter de vous retrouver dans une telle situation, il convient de comprendre – dans un premier temps – les différents facteurs qui favorisent le duplicate content.
Les causes techniques
Le duplicate content n’est pas toujours l’oeuvre d’un humain et n’est donc pas toujours intentionnel. Il se peut que le contenu dupliqué soit dû à un mauvais paramétrage de votre site ou de votre serveur web.
Dans ce genre de situation, vous ne recevrez pas de pénalités de la part de Google mais votre ranking sera tout de même impacté. D’où l’importance d’être conscient des causes techniques.
Le choix de votre nom de domaine
Admettons que vous avez choisit une url avec « htpps » et « www », ce qui pourrait donner : https://www.monsite.com
Les pages de votre site sont donc accessibles via cette url, mais dans la pratique ce n’est pas toujours le cas. En réalité, si votre serveur web est mal configuré il se peut que votre contenu soit accessible via toutes les urls suivantes :
Pour Google, ces différentes urls ne sont pas identiques. Le géant du web va ainsi croire que votre contenu est dupliqué sur 4 sites.
Pour palier à ce problème, vous pouvez faire une redirection 301, c’est-à-dire transférer automatiquement et en permanence les visiteurs d’une url sur une autre. Cela indique ainsi à Google la page à prendre en compte pour le référencement naturel.
L’extension de votre page index
Encore une fois, si votre serveur est mal configuré votre page d’accueil, appelée aussi « index », peut être accessible via plusieurs urls :
- https://www.monsite.com/index.html
- https://www.monsite.com/index.php
- https://www.monsite.com/index.asp
- https://www.monsite.com/index.aspx
La redirection 301 pourra vous permettre de rediriger vos visiteurs sur une seule et même page d’accueil, sans qu’il ne s’en aperçoivent.
La structure de votre url
Google est sensible aux minuscules et majuscules dans une url. Cela signifie que les deux urls suivantes lui semblent différentes :
- https://www.monsite.com/url-a/
- https://www.monsite.com/url-A/
Lorsque vous créez une url, faites attention de respecter une structure précise, par exemple aucune majuscule et un slash à la fin.
L’utilisation de la taxonomie
La taxonomie est une méthode utilisée pour classer le contenu, et pour mieux comprendre nous allons ici prendre l’exemple d’un blog.
Sur votre blog je suis certaine que vous associez vos articles à une ou plusieurs catégories. Dans ce dernier cas, votre contenu est accessible à travers plusieurs catégories et donc plusieurs urls :
- https://www.monsite.com/categorie-seo/article/
- https://www.monsite.com/categorie-referencement/article/
Pour éviter toute confusion à Google et lui indiquer que votre contenu n’est pas dupliqué, je vous conseille de choisir une catégorie principale et d’utiliser une balise canonical sur les autres.
Les paramètres et filtres de votre url
Avez-vous déjà remarqué ces urls contenant des paramètres de recherche ?
Si ce genre d’informations peut être utile aux visiteurs, cela peut tout de même causer quelques problèmes pour les moteurs de recherche.
Si vous proposez plusieurs filtres sur votre site e-commerce cela donne naissance à un nombre important de combinaisons des paramètres dans votre url. D’autant plus que ces derniers peuvent être arrangés de différentes façons :
- https://www.monsite.com/toys/cars?colour=black&type=racing
- https://www.monsite.com/toys/cars?type=racing&colour=black
Les deux urls ci-dessus semblent différentes dans leur structure, pourtant elles affichent le même contenu.
Pour prévenir le duplicate content, vous devrez user des balises canonical pour indiquer à Google la page à prendre en compte pour le SEO. Vos visiteurs ne seront quant à eux pas redirigés, contrairement à une redirection 301.
Les paramètres de tracking
Les paramètres peuvent aussi apparaître dans votre url si vous trackez vos utilisateurs. Par exemple, si vous partagez un article sur Twitter la source risque d’apparaître dans l’url faisant ainsi croire que votre contenu a été dupliqué sur deux pages (car deux urls) différentes.
Pour continuer de tracker vos utilisateurs sans faire de duplicate content, je vous conseille d’insérer des UTMs. Ce genre de paramètres fait office de balise canonical et indique à Google de ne prendre que l’url de base pour le SEO.
Les IDs des sessions utilisateurs
Sur votre site e-commerce vos utilisateurs devraient pouvoir se connecter à leur propre compte pour effectuer des achats et retrouver leur historique de commandes. De votre côté, vous leur attribuez un ID afin de suivre ce qu’ils font et obtenir par la suite des statistiques sur vos clients.
L’une des erreurs à ne pas commettre est d’insérer cet ID dans vos urls. Cela générerait un nombre important d’urls et de contenus identiques – et donc dupliqués – aux yeux de Google.
Alors comment faire ? Vous utilisez encore une fois la balise canonical.
Les pages contenant des commentaires
Si votre contenu a généré de l’engagement et que vous avez obtenu de nombreux commentaires, je vous félicite. Mais avez-vous fait attention au duplicate content ?
Et oui, peu de personne s’en doute, pourtant si vous affichez les commentaires sur plusieurs pages alors vous dupliquez vote contenu. Ce n’est pas clair ? Prenons un exemple.
Vous avez rédigé un super article sur le métier de blogger. Il est accessible à l’url suivante : https://www.monsite.com/etre-blogger/. Sur cette même page s’affiche les premiers commentaires des internautes, mais il y en a tellement qu’une pagination s’est mise en place.
Ainsi :
- Les 10 premiers commentaires sont accessibles sur https://www.monsite.com/etre-blogger/
- Les 10 suivants sur https://www.monsite.com/etre-blogger/page-2
- Les 10 derniers sur https://www.monsite.com/etre-blogger/page-3
L’url est à chaque fois différente et contient pourtant un même contenu : votre article.
Les causes rédactionnelles
Outre les causes techniques souvent non-intentionnelles, le duplicate content peut être lié à la rédaction même de votre contenu.
Les landing pages
Si vous optez pour le système d’annonces sur Google pour faire un peu de publicité, vous verrez qu’il est nécessaire de rediriger les internautes sur une landing page contenant des mots-clés spécifiques.
Ces pages de destination sont bien souvent des copies des pages originales qui sont ensuite ajustées selon la cible et les mots-clés.
La similarité entre ces pages entre dans le cadre du duplicate content si elles sont indexées sur les moteurs de recherche.
Pour que le contenu de votre landing page ne soit pas considéré comme dupliqué il est nécessaire d’insérer une balise <meta name=’robots’ content=’noindex’>. Cette balise meta indique tout simplement aux robots d’indexation de ne pas indexer la landing page.
Les versions régionales
Si vous possédez une audience internationale il est préférable de développer plusieurs versions de votre site pour toucher chacune de vos cibles. Vous pourriez par exemple avoir différentes versions de votre site en français pour la France, la Suisse et la Belgique.
Malgré quelques différences au sein de votre site (produis disponibles à la vente, cordonnées sur la page contact, etc), la majorité de votre contenu sera dupliqué.
Si Google est la plupart du temps capable de détecter ces différentes versions régionales et n’en tient pas compte pour votre SEO, je vous conseille de prendre quelques mesures préventives, des fois que.
Il convient pour cela d’ajouter l’attribut hreflang à votre url. Vos visiteurs seront ainsi redirigés vers la version du site qui leur correspond selon leur localisation.
À lire aussi : Traduction de site web : comment éviter le duplicate content ?
Pour que votre contenu ne soit pas identique d’une version à une autre, demandez à un rédacteur professionnel de ré-écrire certains de vos textes.
Votre contenu a été copié par un tiers
Ce genre de situation est assez problématique, surtout si l’autre site qui vous a copié a une autorité de domaine supérieure à la vôtre. Il pourrait être perçu comme l’auteur original du contenu, et vous comme le copieur.
Si vous constatez que votre contenu a été dupliqué par une autre personne, assurez-vous qu’elle ait implémentée une balise canonical redirigeant vers votre site.
Si ce n’est pas le cas, vous pouvez rapporter le problème à Google.
Comme vous le voyez, il existe une multitude de situations favorisant le duplicate content et nous sommes nombreux à avoir du contenu dupliqué sans le savoir.
Commencez donc par vérifier les différents paramètres de votre site et de votre serveur web puis tentez de résoudre les problèmes mis en évidence. Si la tâche s’avère difficile, je vous recommande de passer par un expert SEO.
Si vous êtes principalement face à des problèmes rédactionnels, vous pouvez utiliser la ré-écriture ou encore faire appel à un rédacteur freelance.
À lire aussi : 2 astuces pour identifier le duplicate content