Votre site a trop d’urls ?

La tendance de quelques sites de E-Commerce,  c’est la navigation par facettes avec des selections multiples.

Par exemple, vous pourriez rechercher des Jeans  femmes de taille 32, 34 ou 46 et avoir une liste de produits qui respecte l’un de ces critères.

Ici j’ai une liste de jeans femme de 1126 jeans possibles. J’ai fait une présélection des jeans de taille 32, 34 et 46.



Vous noterez, dans l’url, la présence des différents choix : plus vous allez saisir de choix, plus l’url sera grande ! Finalement, les robots d’indexation des moteurs de recherche vont tester toutes les combinaisons possibles.

Certains sites permettent ce filtre en ajax, mais malgré l’ajax en place, souvent, les sites sont conçus pour permettre à Google de crawler ces pages là.

 

Facettes à sélections multiples : combien d’urls  à crawler ?

Et bien il s’agit d’analyse statistique : la notion d’arrangements (cf wikipedia) ou de combinaisons (cf wikipedia) !

Ici, la liste des articles concerne 26 tailles différentes et donc, l’utilisateur peut choisir 1 taille, 2 tailles, 3 tailles … jusqu’à 26 tailles différentes.

Le site est conçu de manière à ce que les tailles soient toujours ordonnées par ordre croissant dans les urls possibles, cela réduit considérablement le nombre de pages possibles : et donc de « combinaisons »

nombre de tailles cliquées nombre de combinaisons d’url possibles
1 26
2 325
3 2600
4 14950
5 65780
6 230230
7 657800
8 1562275
9 3124550
10 5311735
11 7726160
12 9657700
13 10400600
14 9657700
15 7726160
16 5311735
17 3124550
18 1562275
19 657800
20 230230
21 65780
22 14950
23 2600
24 325
25 26
26 1

Avec donc, rien que pour le choix des tailles : plus de 6 700 000 d’urls à crawler.

!!

Mais dans le cas qui nous intéresse, il n’y a pas que la taille, on peut choisir, en les combinant :
tailles (26), longueurs (10), types de taille (3),  types de bas (2), coupes (14) et couleurs (16)

soit 26+10+3+2+14+16 = 71 parametres possibles en selection multiples

on peut donc avoir une url qui aurait, approximativement : 26 couleurs = 26*3 caracteres + 10 *3 caracteres + 3 * 25 (environ) + 2 * 20 (environ) + 14 * 15 (env) + 16 * 15 (environ)  : des urls dont la longueur maximale est d’environ 700 caracteres. Ce qui reste raisonnable par rapport à la taille maximale des urls crawlées par google.

Avec la meme formule, combien de choix possibles alors ?

et bien cela fait

2 000 000 000 000 000 000 000 urls possibles.

(2 suivi de 21 zéros)

C’est à dire, tres certainement plus que le nombre d’url indexées par Google !

A quoi sert le PageRank dans ce cas ?

Et bien voila un des cas où il est bien utile : Google s’arrete de crawler quand le pagerank est trop faible. C’est un moyen génial de permettre à Google de ne pas s’engouffrer dans trop de pages.

Quel est l’impact en SEO ?

En ce qui me concerne, je pense que le contenu vraiment utile est noyé au milieu d’un océan de pages et que cela s’en ressent sur le positionnement.

 Le nombre d'URL détectées par Googlebot sur votre site http://www.site.com/ est extrêmement élevé.

Le nombre d’URL détectées par Googlebot sur votre site … est extrêmement élevé.

Il s’agit de travailler techniquement le sujet pour que présenter un site propre aux internautes et à Google, et non pas une immensité de pages. C’est le genre de sujets que j’aime traiter et résoudre 😉

Et sinon, aujourd’hui, en janvier 2013, Google, lui nous indique ceci sur l’aide en ligne

 

 

Solutions permettant de résoudre ce problème

Pour éviter tout problème au niveau de la structure des URL, nous vous recommandons de suivre les conseils ci-après :

  • Lorsque cela est possible, réduisez la longueur de vos URL en supprimant les paramètres superflus. Utilisez l’outil Gestion des paramètres pour préciser les paramètres d’URL que Google peut ignorer en toute sécurité. Veillez ensuite à utiliser ces URL nettoyées pour tous les liens internes. Essayez de rediriger les URL démesurément longues vers leurs versions nettoyées ou d’utiliser l’élément de lien rel= »canonical » pour spécifier l’URL canonique plus courte à utiliser.

 

  • Évitez autant que possible d’insérer des identifiants de session dans vos URL. Remplacez-les par des cookies. Pour plus d’informations, consultez nos consignes aux webmasters.

 

  • Si votre site dispose d’un calendrier infini, ajoutez l’attribut nofollow aux liens qui mènent vers des futures pages de calendrier créées de façon dynamique.

 

  • Vérifiez que votre site ne comporte aucun lien relatif rompu.

 

  • Si aucune des solutions ci-dessus n’est possible, essayez d’utiliser un fichier robots.txt pour empêcher Googlebot d’accéder aux URL problématiques. De manière générale, nous vous recommandons de bloquer les URL dynamiques, telles que les URL générant des résultats de recherche ou créant des espaces infinis, comme les calendriers. L’utilisation de caractères génériques dans votre fichier robots.txt vous permettra de bloquer rapidement un nombre important d’URL.

 

 

12 Responses to “Facettes à sélection multiple et PageRank”
  1. Marie

    Et tu préconises quoi ? D’interdire l’indexation des résultats de la recherche ou l’indexation d’un certain nombre d’urls et pas plus ?

  2. Korleon

    Perso c’est le genre de chose que je fais directement quand je récup un SEO. Si il y a des milliers d’url(s) indexés, je vais y aller par pallier, désindexé peut à peut le maximum d’url pour rester propre et avoir de la pertinence, je ne comprends pas que ce ne soit pas déjà le cas de base sur les scripts tel que prestashop ou autre !

  3. Nicolas

    Le sujet chaud du moment. Personnellement j’opte pour la Canonical mais toi qui as l’habitude des sites à forte volumetrie, quel est ton choix ?

  4. Yannick

    Ma philosophie :

    tout d’abord

    – mesurer ce que font les internautes en reel sur le site et determiner quels types de facettes seraient vraiment utiles en navigation « multiple ».

    et ensuite, si cela s’avère quand même nécessaire 🙂

    – laisser une navigation en pur ajax par défaut et ouvrir au fur et à mesure des facettes au crawl

    – malgré tout, si Googlebot tombe sur une page de ce genre : je préconise une balise meta robots « follow », histoire de transmettre le pagerank quoi qu’il en soit

    – quand on choisit toutes les tailles possibles
    http://www.sojeans.fr/femme/jeans?longueur=27+28+29+30+31+32+33+34+35+36

    on devrait retomber sur la même liste que

    http://www.sojeans.fr/femme/jeans
    et donc, il faudrait une redirection 301 ou un canonical vers http://www.sojeans.fr/femme/jeans

    – mesurer que les produits de la liste sont bien crawlés et indexés

    et pour limiter les dégâts :

    – blocage dans le /robots.txt quand on est sur que la page a un très faible pagerank , histoire de limiter les dégâts
    (sur RDC : Disallow: /m/pl/malid:*,*,*,*)

    et des tas d’autres choses, en travail d’orfèvre selon les cas 😉

  5. Watussi

    Un exemple classique de spider traps qui peut avoir des conséquences désastreuses en SEO 🙂 Je ne compte plus les millions de pages de ce type dont j’ai coupé l’accès aux crawlers 🙂

  6. Webbax

    La question à se poser aussi c’est comment Google pense réagir dans des cas comme celui-ci ? Je pense aussi que par le futur, il pourra le deviner peut-être automatiquement sans qu’on doive forcément s’en préoccuper et de lui donner les directives.

    Il faut dire aussi que dans certains système e-commerce, comme par exemple Prestashop, on peut désactiver l’indexation sur le module navigation à facettes (via le back-office).

  7. Guillaume

    perso, je limite le nombre de liens cliquables afin que les combinaisons improbables ne soient pas indexées. Quand je dis improbables, je pense aux combinaisons qui ne seront jamais sélectionnées par un humain. Je pense qu’il faut surtout faire attention au contenu dupliqué, et que le cas ou les bots cessent de passer car trop d’URL est encore plutôt rare, et attention également à l’indexation des page de résultats du moteur de recherche interne également, qui peut vit devenir ingérable 😀

  8. François-Olivier

    Merci pour cet article. C’est à peu près ce que je suis obligé de marteler à l’agence quand une équipe e-merch arrive triomphalement à vendre un moteur de facettes … sans même avoir tenu compte du SEO.
    La précaution la plus sage est dans ce cas bien sur de bloquer le crawl des facettes (je dis bien crawl) pour ne pas se retrouver avec un bot trap qui pénaliserait tout le site.
    Si après on veut exploiter les facettes sur plus d’un niveau ou plus d’une combinaison, les complications arrivent et il faut vraiment y passer un temps considérable pour savoir quelles combinaisons autoriser à l’exploration et quelles combinaisons exclure.

    C’est certainement le sujet le plus passionnant et le plus touchy en matière de structure interne 🙂

  9. Matthieu

    bonjour
    bonjour,
    merci pour ce partage d’infos.
    Une question, vous dites :
    « réduisez la longueur de vos URL en supprimant les paramètres superflus. »

    Quel intérêt à partir du moment où la canonicalisation est en place et la déclaration des paramètres effectuées dans webmaster tools ?

    Matthieu

    • admin

      Et bien, parce que la canonicalisation ne reduit pas le crawl pour autant, et que paramétrer la suppression de certains paramètres dans le webmaster tools ne fonctionne qu’avec Google et pas avec les autres crawlers.
      Si malgré tout vous persistez dans cette axe de paramétrage , je préfère bloquer les urls correspondantes dans le /robots.txt avec une ligne du genre
      Disallow: /*param=

      Mais cette solution n’est universelle 😉