• Fonctionnalités
    • Avantages Nos atouts & bénéfices uniques
    • App Store Nos Apps 100% gratuites
    • Intelligence artificielle L’IA au service de votre e-commerce
    • SEO Le meilleur SEO au monde
      • Puissance SEO
      • Topic Cluster Manager
      • 50+ optimisations SEO
  • Références
    • Témoignages Parcours inspirants de nos e-commerçants
    • Exemples boutiques Quelques exemples de boutiques à succès
    • Parutions Presse WiziShop dans la presse
  • Tarifs
  • Ressources
    • Nouveautés Les dernières fonctionnalités et innovations
    • Partenaires Experts Notre réseau de partenaires pour vous aider
    • Aides & Accompagnement Les réponses et le support dont vous avez besoin
      • Centre d’aides
      • Glossaire E-commerce
      • Newsletters
        • Good Morning SEO
        • Conseils de Gregory Beyrouti
        • Actualités & Astuces IA
  • Blog
Créez votre boutique en ligne

La solution e-commerce tout-en-un, 100% française, associée à la puissance de l’Intelligence Artificielle

Profitez de 3 jours gratuits !

SEO

Créer sa boutique Générer du CA Ressources et Formations Intelligence Artificielle SEO

14 février 2023 • SEO

Duplicate content : Définition et 8 outils pour analyser le contenu dupliqué

Duplicate content : Définition et 8 outils pour analyser le contenu dupliqué

Le contenu prend aujourd’hui une place très importante dans la stratégie de référencement naturel des sites Internet. La plupart des éditeurs de site l’ont bien compris, pour réussir en SEO, il faut créer du contenu de qualité qui répond correctement à l’intention de recherche des internautes.

Pour mener à bien cette stratégie de content marketing, les rédacteurs et créateurs de contenu font souvent face à une problématique bien connue : le duplicate content. Ce terme effraie la plupart des propriétaires de sites web, et ce n’est pas pour rien !

Mais qu’est-ce que réellement le duplicate content ? Peut-il impacter le positionnement de vos pages dans les moteurs de recherche ? Comment le détecter rapidement ? Je vais répondre à toutes ces questions dans cet article.

Qu’est-ce que le duplicate content (ou contenu dupliqué) ?

Le duplicate content, également connu en français sous les termes “contenu dupliqué”, peut se définir par la présence d’un bloc de texte à plusieurs endroits sur le web. Le contenu peut être considéré comme dupliqué lorsqu’il est identique mais aussi lorsqu’il est très similaire.

Le contenu peut se voir dupliquer entre des sites mais également à l'intérieur d’un même site.

En règle générale, cette duplication des textes n’est pas volontaire. Les sites e-commerce sont d’ailleurs les plus touchés par ces problématiques de contenu dupliqué. Une mauvaise configuration du CMS peut entraîner la génération de nombreuses pages avec des textes dupliqués : pagination, doublon d’URLs, filtres, tags, etc.

Par exemple, si un des produits de votre catalogue se situe dans plusieurs catégories, vous pouvez le retrouver sous différentes URLs :

  • https://www.maboutique.fr/categorie1/produit1
  • https://www.maboutique.fr/categorie2/produit1

Il y a aussi les pages de filtres qui peuvent se dupliquer :

  • https://www.maboutique.fr/categorie1
  • https://www.maboutique.fr/categorie1?=filtre1

Il est crucial de vous tourner vers une solution e-commerce qui apporte une grande importance aux facteurs techniques.

Chez WiziShop, nous ajustons l’ensemble des paramétrages pour éviter toutes ces problématiques. Vous pouvez retrouver toutes nos optimisations SEO dans cet article complet.

En dehors des aspects techniques, certains blocs de textes peuvent être présents à différents endroits au sein du même site : FAQ, caractéristiques, etc.

Pour le duplicate content entre plusieurs sites, là aussi, il peut y avoir plusieurs causes.

Certains sites web comme des agrégateurs de flux ou des relayeurs d’actualités utilisent le contenu des autres pour s’alimenter de manière automatique.

Il y a aussi des webmasters qui récupèrent des textes et les réutilisent sur leur site dans le but de tromper les moteurs de recherche. Cette technique de plagiat s’appelle le “vol de contenu” ou encore le “pillage de contenu”.

Quel est l’impact du contenu dupliqué ?

Le contenu dupliqué peut devenir un véritable problème pour votre référencement naturel avec des impacts dévastateurs sur votre business.

En interne

Dans le cas où certains contenus sont dupliqués au sein de votre propre site web, il peut y avoir différents impacts.

  • Qualité globale de votre site

Aujourd’hui, les moteurs de recherche apportent une importance particulière à la satisfaction des utilisateurs et à la qualité des résultats dans les SERPs. La qualité des contenus doit donc être une priorité !

La présence de pages avec des textes dupliqués au sein de votre site risque donc de faire baisser la qualité globale de votre site.

Lors de l'analyse, les robots parcourent la totalité de vos URLs. Si une grande partie d’entre elles sont sensiblement identiques, les moteurs de recherche ne savent pas quelle page afficher aux internautes. Vous risquez donc de voir vos pages baissées dans les résultats de recherche et votre trafic chuter.

  • Exploration de votre site par les robots

Les robots allouent un certain temps à chaque site lors de leur visite, c’est ce que l’on appelle le budget crawl. Ce terme concerne particulièrement les sites avec un certain nombre de pages (plusieurs milliers).

Pour faciliter l’exploration, le parcours des robots crawlers doit être optimisé.

Dans le cas d’un e-commerce, si votre CMS est mal configuré et que des centaines / milliers de pages se génèrent avec des textes dupliqués (recherche interne, filtres, tags, etc.), les robots vont passer un temps considérable à visiter et explorer des pages sans intérêt.

  • Affichage dans les résultats de recherche

Dans le cas où plusieurs de pages de votre site sont dupliquées, le moteur de recherche va choisir celle qui lui semble la plus pertinente à afficher.

Il n’a aucun intérêt à afficher plusieurs fois des pages qui apportent la même information. Vous allez donc vous retrouver avec des pages sur votre site qui ne seront jamais référencées.

L’autre problème étant que dans ces cas-là, comme le moteur de recherche hésite en plusieurs pages, il va plutôt prioriser d’autres sites dans les résultats et placer votre site plus bas. Il peut même arriver qu’il retire complètement les pages liées au mot cible de son index.

  • Dilution de la puissance des liens internes et externes

Le Pagerank représente la popularité d’un site web. L’ensemble des liens qui pointent vers la page sont pris en compte dans le calcul, qu’ils soient internes ou externes.

Il y a de fortes chances que les pages avec du contenu dupliqué au sein de votre site possèdent de nombreux liens. Le problème étant que si elles ne sont pas pertinentes et ne ressortent pas dans les résultats naturels, vous diluez la puissance de vos liens.

C’est donc tout votre maillage interne qui est impacté par ces contenus dupliqués.

En externe

Nous pouvons penser que la première personne qui publie un contenu sur Internet est automatiquement son propriétaire. Malheureusement ce n’est pas le cas et c’est en partie pour cela que le contenu dupliqué est un vrai problème.

Le duplicate content est aujourd’hui mal géré par les moteurs de recherche et une grande problématique se pose encore : “Comment savoir qui a réellement la paternité d’un contenu ?

A l’heure actuelle, c’est plutôt l'autorité d’un site qui va primer sur la paternité d’un contenu.

C’est à dire que si vous possédez un site avec une faible autorité, que vous publiez un contenu et qu’un rédacteur d’un grand média s’amuse à le récupérer pour le publier sur son site, il est fort probable que ce soit le site média qui soit considéré comme étant le créateur.

Pour les moteurs de recherche comme Google, la paternité revient plutôt au site le plus populaire. Le raccourci est que si l’article est dupliqué sur plusieurs sites, c’est le site avec le plus de confiance qui est son propriétaire.

C’est donc la page du site le plus populaire qui va s’indexer et se référencer sur Google. Le contenu en double présent sur les autres sites ne se référence pas ou peut même se voir retirer de l’index dans certains cas.

8 Outils pour détecter le duplicate content

Il existe aujourd’hui de nombreux outils en ligne pour détecter le duplicate content. Voici une liste non exhaustive qui vous permet de vérifier facilement si votre texte est présent sur d’autres pages ou d’autres sites.

Duplichecker

Cet outil en ligne vous permet d'analyser gratuitement si votre texte est déjà présent sur le web.

Plusieurs choix s’offrent à vous dans la version gratuite :

  • Ajouter un texte de 1000 mots maximum
  • Télécharger un document (doc, txt,...)
  • Renseigner l’URL d’une page

Il vous suffit ensuite de cliquer sur “Check Plagiarism”. Duplichecker va ensuite lancer l’analyse. Au bout de quelques secondes, vous pouvez découvrir les résultats.

Pour l’exemple, je vais ajouter délibérément une description présente sur une page catégorie du site Décathlon.

duplichecker-outil

L’analyse m’affiche donc que le contenu est 100% plagié. L’outil m’indique également l’URL où se trouve le texte.

Kill Duplicate

Cet outil très complet, développé par l’agence SEO Hackers de Paul Sanchez, est un des plus connus et des plus efficaces.

Plusieurs forfaits sont disponibles, allant de 19 € HT/mois à 399 € HT/mois.

Une fois l’offre souscrite, Kill Duplicate vous donne accès à une interface pour ajouter rapidement l’ensemble des URLs que vous souhaitez vérifier.

L'outil détecte ensuite s’il existe du contenu dupliqué sur le web et vous fournit un rapport. Un scan est réalisé de façon automatique et hebdomadaire.

Plusieurs solutions pour contrer le duplicate content sont même proposées au sein de l'interface.

Grammarly

Grammarly est de prime abord un outil de vérification d'orthographe et d’aide à la rédaction. Le site propose également un outil pour vérifier l’exclusivité de votre contenu.

Vous renseignez votre texte dans le champ adapté et Grammarly va lancer une analyse. Voici le résultat avec le texte d’exemple :

grammarly-outil

L’outil détecte bien le duplicate content. En revanche, les sites qui possèdent le contenu ne sont pas mentionnés dans la version gratuite. Pour avoir cette information, il faut souscrire au compte Premium.

Prepostseo

Prepostseo est un site proposant plusieurs outils en ligne, dont un pour détecter le duplicate content. Il a le même fonctionnement que Duplichecker.

Dans Prepostseo, vous renseignez un texte, un document ou une URL et l’outil se charge de rechercher sur le web si le contenu existe déjà.

prepostseo-outil

Copyscape

Outil également très populaire, Copyscape vous permet de détecter le contenu dupliqué d’une page déjà existante. En freemium, les recherches sont limitées à 3 par jour.

Il vous suffit de renseigner l’URL dans le champ et de lancer l’analyse.

Ensuite, l’outil vous permet de cliquer sur les différents URLs détectées pour les analyser. Un pourcentage de duplicate content est affiché et les contenus identiques sont affichés en couleur.

Avec la version payante vous pouvez renseigner des textes qui ne sont pas en ligne. Copyscape va également réaliser des scans réguliers pour vérifier que le contenu n’est pas utilisé par d'autres sites.

Screaming Frog

Screaming Frog est un outil SEO très complet qui permet de réaliser de nombreuses analyses au sein de votre site web.

Il permet de lancer des robots sur votre site pour analyser de nombreux éléments clés : balises, codes HTTP, vitesse de chargement, données structurées... et le duplicate content interne !

La version gratuite permet de parcourir 500 URLs mais elle vous limite dans les paramétrages. Il vous faut donc opter pour la licence annuelle si vous souhaitez activer la configuration.

Screaming Frog propose de configurer l’analyse du duplicate content directement dans “Configuration” > “Contenu”. Il vous suffit ensuite de cocher l’option “Activer les quasi-duplications”. Définissez ensuite le pourcentage de similarité que vous souhaitez ressortir.

Avec ce paramétrage, le robot crawler identifiera les doublons présents dans votre contenu qui atteignent le seuil de similarité définie.

Screaming Frog propose une vidéo complète sous format tutoriel :

Siteliner

Outil également destiné à identifier le duplicate content présent au sein de votre site web, Siteliner est très efficace. Cet outil propose une version freemium qui permet d’analyser 250 URLs par mois.

Pour utiliser l’outil, il vous suffit de vous rendre sur le site et de renseigner l’URL de votre domaine. Siteline va ensuite scanner la totalité de votre site.

Il arrive souvent que l’analyse affiche de nombreux éléments dupliqués. Il ne faut pas vous inquiéter tout de suite ! Il est fréquent d’avoir différentes parties du site en double comme le menu, le footer, la sidebar, etc. Google fait très bien la différence et ce n’est pas considéré comme du duplicate content.

Pour chaque résultat, cliquez sur le lien et Siteliner vous indique de manière visuelle la page de votre site ainsi que les éléments dupliqués.

L’outil ne s’arrête pas à l’analyse du duplicate content interne. Il vous partage également le nombre de pages scannées, les liens cassés, le nombre de mots, la taille de la page, les éventuels problèmes techniques rencontrés, etc. Des données qui peuvent être intéressantes pour un audit SEO.

Commande Google

Enfin, une méthode très efficace mais assez chronophage pour identifier du contenu dupliqué sur le web est la commande Google “...”.

Si vous souhaitez vérifier que votre contenu est présent dans l’index de Google, vous pouvez copier un bout de texte de votre page et le mettre entre guillemets de cette manière “...” dans le moteur de recherche, puis lancer la recherche.

Voici un exemple si je copie/colle le contenu d’un de nos articles :

commande-site-google-duplicate-content

Je m’aperçois ici que plusieurs sites ressortent avec la même phrase dans leur contenu. Certains récupèrent une toute petite partie de notre article mais le deuxième résultat a complètement dupliqué notre page.

Avoir des outils pour détecter vos textes dupliqués c’est bien, mais encore faut-il réussir à lutter contre ce fléau ! C’est d’ailleurs ce que nous allons voir dans la dernière partie de l’article avec quelques actions efficaces pour lutter contre le plagiat.

Quelles sont les solutions pour lutter contre le contenu dupliqué ?

Selon les cas de figure, il existe plusieurs méthodes pour lutter contre le duplicate content.

En interne

Du côté du duplicate interne, en règle générale, comme vous l’avez vu, cela est causé par la configuration technique de votre CMS.

Il est donc important de mettre en place les améliorations nécessaires pour éviter les doublons sur votre site : pages de filtres, paramètres d’URL, gestion des canonicals, etc.

Les sites e-commerce sont particulièrement touchés par ces problématiques. Afin d’éviter la génération automatique de duplicate content, vous devez choisir une plateforme optimisée.

C’est le cas de notre solution WiziShop. Tout est entièrement configuré à ce niveau pour éviter de générer des pages en double et voir son référencement naturel impacté.

Dans le cas où le contenu en double est généré par vous via des sections et blocs de textes présents sur plusieurs pages, il faudra retravailler ces contenus. Aujourd’hui il existe beaucoup d’outils pour vous aider à reformuler vos textes via l’intelligence artificielle. C’est un véritable gain de temps et cela fonctionne très bien pour ces types de contenus.

Là aussi, WiziShop propose au sein de son interface un outil complet pour formuler vos textes avec l’intelligence artificielle.

Testez WiziShop gratuitement pendant 3 jours

VOTRE PREMIER MOIS À SEULEMENT 1€

En externe

En ce qui concerne le duplicate content présent sur d’autres sites, c’est un peu plus compliqué car vous n’avez pas la main sur le site qui vous copie.

Néanmoins, rien n‘est perdu ! Il existe plusieurs solutions pour lutter contre le vol de contenu.

  • Contacter le propriétaire du site

La première étape est de contacter le propriétaire du site web pour tenter de résoudre le problème à l’amiable.

En général, vous pouvez assez facilement trouver ses coordonnées (email, téléphone et adresse) ou une page avec un formulaire de contact.

Il vous suffit ensuite de le contacter en lui exposant le problème. Essayez toujours de rester le plus courtois possible.

Si cela ne suffit pas, vous pouvez également amener des preuves et indiquer que vous allez lancer des procédures auprès de Google. Cet argumentaire peut accélérer les choses.

  • Contacter l’hébergeur

Dans le cas où le propriétaire du site ne donne pas de suite aux échanges ou même ne répond pas, la seconde solution va être de contacter directement l’hébergeur.

Trouver l’hébergeur d’un site est assez simple. Il existe plusieurs sites en ligne dédiés à cette recherche, comme https://lookup.icann.org/en/lookup. Vous indiquez le nom de domaine et le site vous retourne toutes les informations : date d'enregistrement, hébergeur, adresse, email…

Envoyez un email avec toutes les informations relatives au duplicate content en incluant les différentes preuves à l’appui. Vous pouvez aller encore plus loin en envoyant un courrier recommandé.

  • Plainte DMCA

La demande DMCA (Digital Millennium Copyright Act) est le dernier recours pour la suppression d’un contenu dupliqué, mais elle est souvent assez efficace !

Cette solution consiste à remplir un formulaire en ligne directement auprès de Google : https://support.google.com/legal/troubleshooter/1114905. Remplissez les champs avec le plus d’informations et en étant précis.

En fonction de votre demande, le moteur de recherche peut décider de supprimer le contenu des résultats de recherche. Mais il peut arriver qu’il décide de ne rien faire.... Dans ce cas-là, il ne reste plus qu’une seule solution.

  • Retravailler les contenus

Dans le cas où aucune des méthodes précédentes n’a abouti et que le site qui vous duplique a un impact négatif sur votre référencement naturel, il va falloir entamer la réécriture de vos textes.

Attention, vérifiez bien que l’impact SEO est réel avant de vous lancer ! Dans beaucoup de cas, les sites qui vous dupliquent se positionnent derrière vous et ne pénalisent pas votre référencement naturel.

Cette tâche de réécriture peut être longue et chronophage en fonction du nombre de contenus mais si c’est la seule solution pour rendre à nouveau vos textes uniques et récupérer vos positions, c’est le mieux à faire.

Afin d’éviter les futurs problèmes de duplicate content, vous pouvez également vous prémunir du vol de texte avec quelques astuces. Par exemple, en bloquant la possibilité de sélectionner les textes de vos pages ou encore en empêchant l'exploration par certains robots.

Le web a encore besoin de s’améliorer sur certains éléments et le duplicate content en fait partie.

Pour le duplicate content interne, la clé repose dans le choix d’une solution techniquement optimisée, à l’image de WiziShop. Une bonne configuration évitera de vous auto-pénaliser.

Pour le duplicate content externe, la paternité des contenus ne revient pas forcément au rédacteur. Il est donc important de monitorer l’unicité de ses textes pour préserver son positionnement SEO. Les outils cités dans cet article seront d’une grande utilité pour réagir rapidement et efficacement.

Margaux le 21 février 2023 à 12:25

Bonjour,
Très intéressant votre article sur les outils pour analyser le contenu dupliqué. Il m'aide beaucoup à trouver le contenu dupliqué lors de la rédaction d'un article.
Merci à vous pour cet article de pointe.

David de BeFreelancr le 23 février 2023 à 14:17

Merci beaucoup pour votre article, je ne manquerai pas de le conseiller à nos rédacteurs et rédactrices quand ils ou elles me demanderont des conseils pour vérifier leur texte avant de l'envoyer au client. ;)
Merci de remplir tous les champs et de valider le captcha pour envoyer un commentaire.
Votre commentaire a été enregistré avec succés. Merci !
Chargement

Les articles populaires

SEO

SEO E-commerce : Guide complet pour réussir votre référencement naturel [2024]

SEO

Topic Cluster : définition, étapes de création et fonctionnalité WiziShop

SEO

Générateur de mots clés : 11 meilleurs outils gratuits & payants en 2023 [+Bonus]

SEO

Google Search Console : Comprendre et corriger le rapport de couverture

WiziShop

Créez votre boutique en ligne

Votre email
est déjà utilisé.
Veuillez vous connecter pour créer la boutique

Mot de passe oublié?

Le mot de passe incorrect

La liaison avec le serveur n'a pas abouti, veuillez réessayer

Retourner à la création

Vous avez déjà un compte WiziShop ?
Connectez-vous

En fournissant votre adresse e-mail, vous acceptez nos Conditions Générales d’utilisation.

Profitez d’un essai gratuit puis de votre premier mois à 1€ !

Symbole Euro Test gratuit
pendant 3 jours
Symbole Carte Bancaire Aucune carte
bancaire requise
Symbole Fonctionnalités Accès à toutes les
fonctionnalités
Symbole Engagement Sans engagement