Bloquez-vous accidentellement des liens précieux avec robots.txt ?

Bloquez-vous accidentellement des liens précieux avec robots.txt ?

J’ai récemment remarqué que de nombreux sites de commerce électronique obtenaient des liens provenant de sites très performants, mais que la valeur de ce lien était ensuite supprimée parce qu’ils avaient accidentellement empêché Googlebot d’explorer la page. Et tout cela est dû au blocage des paramètres dans le fichier robots.txt.

Voici un exemple : le fichier robots.txt de Hotel Chocolat inclut cette instruction :

Le fichier robots.txt de l'Hôtel Chocolat empêche Googlebot d'explorer les URL paramétrées

Le Interdire : /*?* est conçu pour empêcher Googlebot d’explorer toute URL comportant un paramètre. Cela signifie que les URL qui incluent des paramètres de suivi tels que source_utm ou gclid (le paramètre de suivi Google Ads) ne pourra pas être exploré.

Mais ces URL captent des liens étonnamment souvent, et parfois depuis des sites vraiment intéressants. Voici un article du Guardian qui renvoie vers la page Velvetizer d’Hotel Chocolat, en utilisant un paramètre ?gclid.

The Guardian fait un lien vers Hotel Chocolat avec un paramètre gclid

Il est probable que le journaliste ait recherché le nom du produit sur Google pendant qu’il écrivait l’article et ait cliqué sur le premier résultat trouvé : la publicité payante.

Il est important de noter que les équipes d’ingénierie peuvent avoir de très bonnes raisons de prendre ce genre de décisions. Ce n’est pas forcément une erreur. Mais le problème est que le fichier robots.txt empêche Googlebot d’explorer cette URL liée. Vous pouvez le vérifier avec l’outil de test des données structurées (ou Google Search Console si vous y avez accès. Je tiens à préciser que Hotel Chocolat n’est pas un client, donc nous n’y avons pas accès).

L'outil de test des données structurées signale que la page ne peut pas être explorée

Si Google ne peut pas explorer la page liée, elle ne fait effectivement pas partie du graphique de liens et il ne transmettra aucune valeur de lien au siteCe lien du Guardian serait vraiment précieux, si seulement Googlebot pouvait explorer l’URL liée.

Je vois souvent ce schéma, et même les très gros acteurs n’y sont pas immunisés. Voici un exemple avec le fichier robots.txt de Lego.com, où ils bloquent un ?icmp paramètre à explorer :

Le fichier robots.txt de Lego.com bloque l'exploration du paramètre ?icmp

Et voici quelques liens provenant de sites comme Patreon, USA Today et Time qui ne transmettront aucune valeur de lien en conséquence (et il y en a beaucoup d’autres).

Une vue d'Ahrefs montrant quelques liens vers Lego.com

Vous pouvez utiliser Ahrefs pour trouver ces liens

Tout d’abord, regardez dans votre fichier robots.txt et voyez si des paramètres sont bloqués. Si c’est le cas, vous pouvez utiliser un outil comme Ahrefs pour voir s’ils ont détecté des liens externes. Dans le rapport sur les backlinks, ajoutez votre paramètre et filtrez sur « URL cible » (il devrait vous montrer les URL qui ont ce paramètre dans le lien vers la page). J’ai aussi tendance à filtrer par liens suivis.

Filtrage Ahrefs

Vous pouvez résoudre ce problème avec des balises canoniques au lieu d’utiliser robots.txt

Cela vaut la peine de discuter avec l’équipe d’ingénierie à ce sujet précis. pourquoi ces paramètres ont été filtrés. Dans la plupart des cas, j’imagine qu’il s’agirait simplement d’une réponse assez raisonnable : « nous ne voulons pas que Google indexe ces URL ». Si c’est votre cas, je vous conseille de supprimer la directive dans le fichier robots.txt et de vous assurer à la place que ces pages ont toutes des balises canoniques qui font référence à la bonne page, sans les paramètres.

De cette façon, Googlebot devrait indexer la version correcte de la page, mais les liens vers la version du paramètre seront toujours accessibles et devraient diriger vers la page canonique.

Photo de Autumn Studio sur Unsplash

A lire:

Japonais/Vocabulaire/Nombres .,Lien sur la description complète. »

Mesures physiques et Informatique .,A voir . »

Informatique et Sciences du Numérique au lycée : un pas plus loin/LANGAGES/Logiques Temporelles et Vérification par modèles .,Référence litéraire de cet ouvrage. Disponible à l’achat sur les plateformes Amazon, Fnac, Cultura …. »

Projet:KarthaLab .,Référence litéraire de cet ouvrage. »

optimizedforseo.com est une plateforme numérique qui présente de multiples nouvelles publiés sur le net dont le sujet central est « référencement site web ». Cet article, qui traite du sujet « référencement site web », vous est spécialement proposé par optimizedforseo.com. Cette chronique a été reproduite du mieux possible. Si par hasard vous avez envie d’apporter quelques notes concernant le domaine de « référencement site web » vous pouvez prendre contact avec notre rédaction. Sous peu, on rendra accessibles à tout le monde d’autres infos sur le sujet « référencement site web ». Par conséquent, consultez de manière régulière notre site.