Quelles pages désindexer ?

Publié le par

Quelles pages désindexer ?

Désindexer les pages inutiles, pourquoi ? comment ? C'est l'heure du grand ménage !

Le filtre Google Panda

Avec le développement des techniques SEO est arrivé le spam des résultats de recherche, sous des formes diverses et variées. Parmi ce spam on trouve les sites de contenu de faible qualité : fermes de contenu, scrappers, comparateurs, annuaires, etc, qui ne présentent tout simplement pas de valeur ajoutée.

Pour ne pas devenir une poubelle à ciel ouvert suite à tous ces excès, Google a déployé des filtres permettant de faire du ménage dans les résultats. On parle alors du fameux filtre Panda, qui fait couler beaucoup d'encre (de Chine), on va éviter d'en rajouter.

ici je voulais mettre une image de kung fu panda mais en fait non

Via ces filtres, Google a fait passer un message clair : il faut produire du contenu de qualité et ne pas lui refourguer trop d'URL sans intérêt, sous peine de se prendre une pénalité. La mise à jour de Panda est pour le moment ponctuelle, donc si votre site est pénalisé il faudra attendre la prochaine mise à jour du filtre pour espérer en sortir après un nettoyage haute pression, ou attendre que Panda soit intégré directement à l'algorithme (c'est pour bientôt mais pas pour tout de suite).

Pourquoi ? Non mais POOOOOOUUUUURQUOI ?

Et là je vous vois venir : « Oui mais moi je ne spamme pas, pourquoi je devrais désindexer des pages ? ». Alors même sans cette histoire de grosse bébête, il y a un intérêt de taille : le suivi. Ben oui, comment suivre rapidement l'indexation si on doit se trimballer dans l'index des url dont on se fout totalement pour le référencement ? Et évidemment plus on fait attention au suivi plus on découvre qu'on a laissé tel ou tel type de pages s'indexer, et qu'on spamme Google à l'insu de son pein gré tout en dégradant sa stratégie de liens.

Du coup, je fais quoi ?

Les pages inutiles

Commençons tout simplement par déterminer les pages qui ne présentent pas d'intérêt. Pour un site e-commerce on retrouve le plus souvent des pages panier, création de compte, authentification, mot de passe oublié, des filtres passés en paramètres dans l'url pour ordonner les résultats par prix... Sur du WordPress par exemple il s'agit de pages telles que les tags ou les pages de media qui peuvent vite décupler le nombre de pages indexées, et présenter un risque pour votre positionnement.

La duplication de contenu

Le site est accessible avec et sans www ? Vos articles sont accessibles via différentes URL ? Votre site multilingue n'est pas entièrement traduit ? Votre développeur a laissé s'indexer le site de développement ? Bah bravo, il ne reste plus qu'à rediriger ou désindexer suivant les cas.

Pour détecter rapidement de la duplication de contenu, faites un copier-coller d'un extrait de texte de votre site que vous rechercherez sur Google en le plaçant entre guillemets pour trouver les correspondances exactes.

Comment désindexer les pages ?

Il existe plusieurs façons de désindexer une page :

  • meta noindex
    <meta name="robots" content="noindex">
  • fichier robots.txt en ajoutant les règles à appliquer
    Disallow: /cart
  • En-tête HTTP X-Robots-Tag
    header("X-Robots-Tag: noindex", true);

Attention tout de même avec l'utilisation du robots.txt car la directive Disallow empêche uniquement le scroll, et non l'indexation. La page sera donc tout de même présente dans les résultats mais affichera « La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. ». Par conséquent si vous mettez à la fois une balise meta noindex et que vous bloquez la page via le robots.txt, le robot ne se rendra pas sur la page pour constater la présence du noindex. La méthode la plus facile à mettre en place reste donc la meta noindex.

Points courants à vérifier

Désactiver le listing des fichiers

Autre problème récurrent, l'indexation des listings de fichiers. Outre le fait que ces pages de listing puissent être indexées, vous risquez également de voir s'indexer les fichiers qui y sont listés, dont certains n'ont rien à faire en ligne (fichiers de sauvegarde notamment, fichiers non réécrits).

listing fichiers Apache

Pour bloquer l'accès à ces pages sur un serveur Apache 1 seule ligne dans le .htacces suffit :

Options -Indexes

Désactiver la négociation de contenu

La négociation de contenu permet en cas d'accès à une url inexistante de renvoyer le contenu d'une page dont l'url est proche. L'intention est louable mais pose le problème de la duplication et de la dilution du link juice (transmission d'autorité via des liens). Pour corriger ça sur un serveur Apache il suffit de le désactiver via le .htaccess :

Options -MultiViews

Les 404 seront alors remontées et vous pourrez les corriger.

Suivi de l'indexation

Un site évolue, il faut donc régulièrement surveiller son indexation. Pour ce faire Google met à disposition dans Search Console différents outils permettant de suivre le nombre de pages indexées, mais aussi le nombre de pages fournies via les sitemaps.

Vous n'avez rien compris à cet article mais vous voulez que je jette un œil à votre site ? Vous avez compris mais vous voulez être sûr que ce soit bien fait ?

tags : ,