Le contenu dupliqué ou “Duplicate content” en anglais correspond à des pages identiques accessibles depuis deux adresses, textes identiques dans des templates différents, versions HTML et PDF, textes très similaires (seuls quelques mots ou phrases diffèrent), contenu identique publié sur un autre site, … Ce contenu est donc consultable depuis plus d’un emplacement, qu'il soit strictement identique ou très proche. La duplication de contenu est parfois volontaire, le plus souvent involontaire, générée au sein d’un site ou sur plusieurs sites.
Le contenu dupliqué crée des problèmes de parcours utilisateur et de référencement (SEO).
Le contenu dupliqué interne correspond à des doublons sur un même site. Le contenu dupliqué externe fait référence à des contenus publiés sur plus d'un site.
La duplication de contenu est parfois volontaire, pour rendre un contenu visible dans plusieurs rubriques ou plusieurs sites. Elle est le plus souvent involontaire, fruit d'éléments techniques indésirables ou tout simplement méconnaissance de ce problème et de ses conséquences.
Il peut arriver qu’un contenu soit publié à deux emplacements dans un site parce qu’il semble utile de le faire apparaître dans deux rubriques.
On peut aussi souhaiter partager un contenu de son site sur le site d’un partenaire. Dans ce cas, il faut distinguer les sites “classiques” et les plateformes destinées à la publication : les réseaux sociaux et les plateformes telles que Medium sont moins concernées par ce risque de duplication de contenu.
Le contenu dupliqué peut aussi découler d'encarts reproduits sur de nombreuses pages : quand le contenu unique de chaque page n’est pas assez développé, les pages offrent trop de similarités.
Il arrive fréquemment que les fonctionnalités d’un site créent du contenu dupliqué : contenu accessible via deux templates (avec et sans menu de navigation par exemple), listes d’articles très similaires (“tags” ou catégories remontant des contenus sur des critères très proches, filtres de produits proposant des résultats identiques, …), versions imprimables, production de plusieurs versions de liens techniques par un CMS, ...
Enfin, le plagiat est évidemment une forme de contenu dupliqué puisque votre contenu sera accessible sur un autre site.
La détection et la gestion du contenu dupliqué dépend avant tout de sa forme : duplications volontaires ou involontaires, duplications internes ou externes.
Pour la duplication volontaire, l’essentiel est d’identifier clairement les contenus concernés pour pouvoir agir : revue des contenus publiés à plus d'un emplacement dans le site, liste des autres sites sur lesquels les contenus sont publiés.
Ce inventaire permet de bâtir une feuille de route assez simple :
La détection de contenus dupliqués involontairement s’effectue principalement de 2 façons :
Les cas détectés doivent être évalués :
Quel que soit le cas de figure, il est nécessaire de suivre la performance et le positionnement de votre page et de la page concurrente, de contacter l’éditeur concerné et d’activer si nécessaire des leviers de notoriété sur votre page.
Il est possible de détecter certains cas de duplication interne en parcourant le site mais un professionnel du SEO est en mesure de détecter ces cas de façon exhaustive, notamment pour les cas techniques "invisibles". Les outils utilisés par les référenceurs permettent de trouver automatiquement tous les indices liés au contenu dupliqué : titres et balises dupliqués, poids des pages, pourcentage de similarité entre les pages, …
La résolution n’est pas toujours simple : il faut définir la version à conserver ou favoriser (version canonique), faire pointer les liens vers cette version, ajouter une balise canonique vers cette version, ou faire le choix de désindexer la version non canonique, … Là aussi, le recours à un professionnel du SEO est recommandé : cela permet d’éviter de faire des choix néfastes pour votre référencement.