Retour d'expérience sur l'analyse croisée (Crawl + Logs) avec OnCrawl

J’ai testé la solution OnCrawl, un crawler SEO OnPage combiné à un analyseur de logs sur un site Client à forte volumétrie (plus de 2 millions d’urls).

Première surprise, l’installation de l’analyse croisée (crawl + logs) a été simplifiée au maximum par l’équipe technique de OnCrawl afin de permettre à tout référenceur ou un marketeur averti, d’obtenir des données SEO pertinentes sur la visibilité des pages de votre site auprès de GoogleBot : taux de crawl, taux de pages actives, nombre de pages orphelines, catégorisation, codes HTTP, la répartition de la popularité, …).

Pour obtenir les résultats d’une analyse croisée, il suffit de fournir l’url du site pour la partie « Crawl du site » et de lancer le crawl. Ensuite, pour l’analyse des logs, il faut fournir les fichiers de logs sur un compte FTP dédié, en fonction du type de serveur web : apache/nginx/iis.

Les logs doivent être exhaustifs (pas de serveur de cache en amont qui filtre des pages qui nous intéressent). Les fichiers peuvent être compressés avec gz, bz2 ou zip.

Exemple de format de logs standard :

log_format combined_vhosts '$host $remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent"';

Des champs supplémentaires peuvent être ajoutés en suivant si besoin, après $http_user_agent.

Les Résultats de l’analyse croisée

Une fois connectée à votre compte OnCrawl, vous retrouvez les 3 principaux modules d’analyses : Logs monitoring, Crawl Report, Cross Analysis. Chaque module comprend un nombre important de données, je vous ai préparé ci-dessous quelques rapports d’analyse que j’ai jugé les plus pertinents :

1. Le comportement de GoogleBot

Aujourd’hui, l’une des problématiques principales des gros sites, est d’essayer de se positionner sur un maximum de mots-clés de longue traîne sur Google. Pour réussir cet objectif, les référenceurs doivent être vigilant au comportement du crawl de GoogleBot sur le site, plus leur analyse du passage de GoogleBot sera précise, plus il sera possible d’effectuer des actions SEO pertinentes.

Par exemple, si l’on s’aperçoit que GoogleBot ne crawle pas certaines de vos pages, il faut se poser un certain nombre de questions SEO : mes pages sont-elles suffisamment linkées ? A quel niveau de profondeur se situent-elles ? Est-ce que les contenus sur les pages sont pertinents ou dupliqués ?

oncrawl crawler

Visualisation du comportement de GoogleBot sur vos pages !

L’outil OnCrawl facilite cette analyse en nous proposant de filtrer le crawl de GoogleBot selon la structuration des urls de votre site (catégories, sous-catégories, tags, etc). Il est également possible de configurer plusieurs filtres avancés pour analyser les rapports de logs et de crawl (exemple : filtre combiné : pages crawlées par GoogleBot + nombre de liens entrants des pages crawlées, je vous laisse imaginer le résultat ☺ un gain de temps énorme !).

Autre exemple, si l’on étudie les pages crawlées et non crawlées (couleur grisée) par niveau de structuration, il est possible en quelques clics de voir les pages non crawlées (potentiel de trafic perdu) et d’exporter facilement ces pages au format CSV. Au niveau du SEO, il nous restera qu’à effectuer les optimisations OnSite nécessaires pour obtenir des résultats probants !

performance SEO

Récupérer dans un fichier CSV toutes vos pages non crawlées par Google !

2. L’analyse du contenu et du nombre de mots moyen par page

Nous savons que GoogleBot favorise le positionnement des pages qui ont un contenu sémantique pertinent et un nombre de mots-clés suffisamment important (autour de 800-1500 mots par page). A contrario, une page contenant un contenu avec moins de 150 mots, obtiendra souvent un fort taux de rebond et un temps moyen passé sur la page très faible.

Cette analyse croisée m’a permis d’identifier les pages non crawlées par GoogleBot et d’identifier les pages des catégories qui devront être retravailler en termes de quantité de contenu.

performance SEO

Quelles sont le taux de crawl sur les pages avec des contenus de 300-500 mots ?

4. L’identification des pages Orphelines

Surtout pour les sites à forte volumétrie, il est souvent difficile d’identifier les pages orphelines. OnCrawl propose un dashboard complet sur cette problématique afin de nous aider à trouver et filtrer ces pages par catégorisation du site ou par niveau de structuration.

performance SEO

Quel est votre taux de pages orphelines par rubrique ?

5. Le contrôle des Statuts Codes HTTP

Le rapport OnCrawl de l’analyse des statuts codes identifiés par GoogleBot nous indique clairement les erreurs 403 / 404 / 500 et 503. On peut aussi analyser l’ensemble des redirections permanentes ou temporaires sur le site (R301 et R302).

L’objectif SEO sera d’éliminer un maximum de redirections 302 et d’erreur 404, et de diminuer les redirections 301.

performance SEO

Comment éviter de fournir à GoogleBot des pages avec des statuts codes HTTP en erreur ?

6. Vous souhaitez détecter les pages dupliquées ?

OnCrawl contient un module d’analyse de contenu qui détecte automatiquement les pages similaires ou dupliquées. Il examine la densité de contenu et analyse la fréquence des principaux enchaînements de textes et mots-clés, plus connus sous le nom de « n-grams ».

oncrawl crawler

La duplication de contenu, une problématique récurrente du SEO en 2016 !

Le monitoring Crawl / Logs, un incontournable pour les sites à la recherche de performances SEO !

Pour résumer, si vous souhaitez booster votre trafic, il est devenu indispensable de surveiller le nombre de pages crawlées par GoogleBot à chaque passage sur votre site. Chaque passage de GoogleBot est limité dans le temps selon l’autorité de votre site !

Il est donc primordial de monitorer régulièrement vos logs afin de pas perdre une seule seconde de son temps de crawl. Il est par exemple aujourd’hui inutile de fournir à GoogleBot : des pages dupliquées à crawler ou encore pire des erreurs de code HTTP.

L’analyse croisée offre de nouvelles opportunités d’optimisation de votre référencement OnSite. Il est possible de « faciliter le chemin de navigation du crawler et les performances de crawl », en lui indiquant notamment les urls les plus pertinentes à crawler.

Sur ce point, la solution OnCrawl me semble parfaitement répondre à cette demande, l’outil nous aide à mieux utiliser le quota de Crawl des robots de Google.

L’analyse croisée (Crawl + Logs), c’est l’une des optimisations SEO les plus avancées du moment pour performer dans les pages de résultats de Google. Si vous souhaitez obtenir d’avantages d’informations sur le sujet, n’hésitez pas à me contacter pour mettre en place une stratégie SEO avancée pour votre référencement naturel !

Pour plus d’informations sur l’analyse de logs

Site officiel de la solution OnCrawl : http://fr.oncrawl.com Guide complet sur l’analyse de Logs : https://builtvisible.com/log-file-analysis