Guide d'indexation Google : problèmes d'index Google, statistiques, etc.

Publié: 2017-04-04
An overview of indexation in Google search results.
(Dernière mise à jour : 11 avril 2019)

Une grande partie du contenu SEO se concentre sur le bon classement dans les résultats de recherche souhaités. Cela a du sens car vous ne pouvez pas générer de trafic vers votre site à partir de la recherche organique sans être bien classé dans les résultats de recherche (c'est-à-dire l'index Google). De plus, vous ne pouvez pas générer de prospects et de ventes pour votre entreprise sans générer du trafic organique. Si vous êtes un directeur marketing, un directeur, un gestionnaire, etc., c'est probablement votre principale préoccupation.

Afin de classer les termes souhaités, vous devez d'abord être présent dans l'index Google. Il était une fois une fois votre site dans l'index était quelque peu difficile. La « soumission de site » était un service commun. Cependant, Google est maintenant très doué pour trouver de nouveaux sites. Par exemple, si vous avez tweeté à propos de votre site, envoyé un communiqué de presse ou pratiquement toute personne liée à votre site, Google sait probablement que vous existez. Mais si vous avez essayé de générer du trafic de recherche, vous avez probablement rencontré divers problèmes d'indexation Google à mesure que votre site se développe.

Pour les non-SEO (et souvent aussi pour les SEO), beaucoup de ces problèmes restent très déroutants et frustrants. Pratiquement chaque fois que je passe en revue un audit SEO avec un client, il y a au moins une certaine confusion sur les problèmes d'indexation, le contenu dupliqué, la meilleure façon de supprimer des pages de l'index de Google, etc.

À quoi s'attendre de cet aperçu de l'index Google

Dans cet article, je vais essayer d'aider un généraliste du marketing (quelqu'un avec une compréhension de base du référencement qui est responsable de générer plus de trafic vers son site Web, mais qui n'est peut-être pas à la hauteur des crawls Screaming Frog et de l'analyse des liens au jour le jour). jour) comprendre :

  • Comment fonctionne l'index Google.
  • Interprétez différentes statistiques d'index ou "comptes" de Google.com.
  • Comprendre votre compte Google Search Console.
  • Correctifs techniques pour les problèmes d'indexation courants (c'est-à-dire, ne pas avoir de pages indexées ou avoir des pages que vous ne voulez pas indexer qui fuient dans l'index).

Commençons par le début.

Comment fonctionne l'index Google ?

Le moteur de recherche de Google est très complexe. Un examen approfondi de la façon dont Google trouve, stocke et hiérarchise les pages dépasse le cadre de cet article.

À un niveau élevé, Google s'efforce de trouver (ou d'explorer) autant de pages utiles que possible. De plus, Google travaille dur pour stocker (ou indexer) les pages qui renvoient des recherches pertinentes. De plus, l'index Google s'efforce de renvoyer les pages appropriées qui répondent le mieux à la requête de recherche d'un internaute. (En tant qu'effet secondaire, cela aide probablement aussi le résultat net d'Alphabet, mais c'est une autre discussion).

Encore une fois à un niveau élevé (et trop simplifié), vous voulez :

  • les bonnes choses indexées (les pages de votre site qui sont de haute qualité, utiles pour les internautes et susceptibles d'entraîner des actions souhaitables pour votre entreprise).
  • les mauvaises choses de l'index Google (pages de faible valeur et/ou minces ou dupliquées qui vous nuisent plus qu'elles ne vous aident à générer un trafic pertinent vers votre site).

Autre chose à noter : l'indexation n'est pas nécessairement la même chose que ce qui apparaît dans les résultats de recherche . Google maintient un index des pages en interne. Lorsque vous recherchez des sujets sur Google.com, certaines de vos pages s'affichent. Ce n'est pas nécessairement toutes les pages que Google conserve dans son index . Les pages indexées peuvent ne jamais apparaître dans les résultats de recherche ou obtenir des clics et accéder à votre site.

Le reste de cet article se concentre sur l'analyse des pages de votre site dans l'index ainsi que sur ce que vous, en tant que spécialiste du marketing, pouvez faire pour prendre le contrôle et mieux optimiser ce qui est et n'est pas indexé. En outre, un certain nombre de ressources existent pour en savoir plus sur le fonctionnement de l'indexation Google, notamment :

  • Présentation de Moz sur le fonctionnement des moteurs de recherche.
  • Quelques ventilations différentes de la présentation d'un ingénieur de recherche Google sur le fonctionnement de l'index Google.
  • Cette représentation visuelle du fonctionnement de Google.

Comprendre les statistiques d'index

Pour beaucoup, les statistiques d'index que vous voyez sur votre propre site donnent lieu à des réflexions assez déroutantes. Google propose deux méthodes courantes pour afficher les statistiques de votre site sur le nombre de pages de votre site indexées par Google.

Indexer les statistiques sur Google.com

Afin de voir combien et lesquelles de vos pages sont indexées dans Google, commencez par vous rendre sur Google.com et tapez site:votresite.com. Regardons ce que Google affiche dans l'opérateur de recherche de site pour un site, dont nous avons parlé dans le passé, SearchEngineLand.com :

Statistiques de l'index Google dans les résultats de recherche

Environ 30 700 résultats – c'est pas mal ! S'il s'agissait de votre site et que vous avez vérifié les statistiques de votre index pour la première fois, vous avez probablement deux émotions. Tout d'abord, l'excitation car vous pensez que beaucoup de mes messages sont indexés ! À l'inverse, vous pourriez vous sentir alarmé en pensant que votre site ne contient pas autant de pages.

Lorsque vous commencez à parcourir les pages indexées et cliquez sur des pages de résultats supplémentaires (dix - ou beaucoup moins avec des publicités et d'autres contenus Google en vedette dominant de nombreux SERP - est la valeur par défaut bien sûr, mais comme je suis souvent en fouillant dans les SERPs, j'aime changer mes résultats par page à 100), quelque chose d'assez étrange se produit. Avec mes paramètres à 100 résultats par page lorsque je fais défiler vers le bas du résultat de recherche pour la recherche sur le site de SEL, je vois 8 liens :

Une capture d'écran de la pagination dans les résultats de recherche de l'index Google

8 x 100 résultats ne correspondent clairement pas à "Environ 30 700". Odd : Je pensais que Google fournissait plus de 30 000 résultats. Si je clique sur le lien vers la 8 ème page de résultats, c'est encore plus déroutant :

Capture d'écran de la dernière page des résultats de recherche de l'index Google

Et si je clique sur le lien "répéter la recherche avec les résultats omis inclus" et que je reviens à la dernière page, je vois quelque chose de similaire.

Mais Search Engine Land est un site extrêmement fiable qui publie plusieurs nouveaux éléments de contenu par jour. Cela ne peut donc pas être toutes les pages indexées par Google, n'est-ce pas ?

Ce n'est certainement pas le cas. Google a en fait été vu en train de tester complètement cela. De plus, Google a explicitement déclaré que ces chiffres ne devaient pas être totalement fiables avant plusieurs années (cette vidéo date de 2010 !). Et ce problème s'aggrave à mesure que votre site s'agrandit :

Où d'autre pouvons-nous trouver nos décomptes d'indexation ? Ou comment savoir quelles pages de notre site sont indexées ?

Statistiques d'index dans Google Search Console (anciennement Outils pour les webmasters)

Votre compte Google Search Console fournit des données supplémentaires sur les résultats de l'index de votre site. Et si vous n'avez pas de compte GSC, créez-en un ici aujourd'hui.

Pour notre vue d'ensemble, examinons le compte d'un site appartenant à mon entreprise. Il existe une sous-section entière de Google Search Console dédiée aux données de l'index Google.

État de l'index dans Google Search Console

Statut de l'index Google dans GSC

Les données de la CGC fournissent généralement des informations plus précises. De plus, il offre également des données sur les tendances. Mais que se passe-t-il si vous voyez un nombre de pages indexées qui semble bien trop faible ? Ou des statistiques Search Analytics considérablement sous-déclarées ?

Généralement, ces problèmes se produisent en fonction de la façon dont Google Search Console traite les sous-domaines, les versions www et non www de votre site, et les versions http et https de votre site.

Si vos chiffres Google Search Console sont extrêmement bas, vérifiez l'URL très spécifique associée au site dans la barre de navigation supérieure :

Site Web de la CGC

De plus, si vous avez déplacé votre site vers https ou utilisez un sous-domaine (par exemple http://info.measuredsem.com), ajoutez-les en tant que sites distincts. De plus, si vous êtes passé de http://www.measuredsem.com à http://measuredsem.com ou si vous prenez en charge les deux, définissez votre domaine préféré dans votre compte.

De plus, il existe un autre endroit où vous pouvez obtenir des informations sur la façon dont votre site est indexé dans Google Search Console.

Plans de site dans Google Search Console

Google Search Console comprend une section de plan de site, qui permet une soumission de plan de site XML pour votre site. De plus, cette section donne une idée du nombre de pages soumises qui se trouvent réellement dans l'index. De plus, la section montre comment ce nombre change au fil du temps.

Plans de site et indexation dans Google Search Console

Le défi ici est que même si vous pouvez regarder dans votre sitemap XML pour voir quelles pages vous avez soumises, vous n'avez pas nécessairement le niveau de détail que vous souhaitez pour répondre à des questions spécifiques (comme si de larges pans de pages sont ou ne sont pas t indexé).

5 conseils d'indexation Google exploitables

Alors maintenant, vous en savez un peu plus sur le fonctionnement de l'index de Google. De plus, certains des outils vous montrent les performances de votre site dans l'index Google. Qu'en est-il de la résolution de problèmes spécifiques liés à l'index ? Sur la base de mon travail avec des clients et de certaines recherches sur le sujet, voici les cinq questions/problèmes les plus importants que j'ai rencontrés concernant l'indexation Google :

1. Comment savoir quelles pages spécifiques ne sont PAS indexées

Les pages qui ne sont pas dans l'index de Google n'apparaîtront pas dans les résultats de recherche. Donc, l'une des premières choses que vous voudrez peut-être comprendre est « quelles pages de mon site ne sont pas indexées ? » Malheureusement, la plupart des méthodes énumérées ci-dessus n'ont pas de solution à ce problème. Les méthodes précédentes permettent de comprendre les pages de votre site dans l'index Google . Cependant, ces méthodes n'adressent pas les pages de votre site qui ne figurent pas dans l'index Google . Pour un très petit site, cela peut être assez facile à repérer. Mais si vous maintenez un blog actif, votre site contient probablement suffisamment de pages pour que « regarder » les pages manquantes ne soit pas une option raisonnable. Deux outils principaux répondent à ce processus :

Première étape : explorez votre site avec Screaming Frog

Screaming Frog est généralement l'une de mes applications les plus utilisées dans le cadre de tout processus d'audit de site SEO. Dans cette capture d'écran, il fournit une image des pages présentes sur votre site :

Obtenir une liste d'URL de Screaming Frog

Screaming Frog est un outil de référencement super utile / puissant, mais pour nos besoins ici, nous voulons simplement explorer le site et filtrer les pages HTML. Ensuite, filtrez cette liste pour toutes les pages de notre site que nous voulons dans l'index. Nous nous occuperons des pages dont nous ne voulons pas dans une minute.

À partir de là, j'utiliserai un autre outil extrêmement utile dans tout audit SEO technique : URL Profiler.

URL Profiler est un autre outil de référencement extrêmement puissant, mais encore une fois, nous allons l'utiliser dans un but assez étroit. Découvrir lesquelles des URL de notre site (que nous venons d'exporter de notre crawl) sont réellement indexées :

Vérification de l'index Google avec URL Profiler

Si vous avez un site plus volumineux, cela nécessite généralement des proxys pour vérifier l'indexation. Si vous n'êtes pas trop technique, cela semble intimidant, mais c'est incroyablement facile. Cela prend quelques minutes et ne nécessite aucune expertise technique (au-delà des compétences de copier/coller).

Parfois, cela prend plusieurs fois et laisse toujours du temps pour des explorations plus importantes. Mais, finalement, vous vous retrouvez avec une liste de toutes les pages qui ne sont pas indexées sur votre site.

2. Comment faire indexer quelque chose (votre site entier, une nouvelle page, une page existante qui n'est pas indexée)

Obtenir un nouveau site indexé était autrefois une industrie en soi. Cependant, de nos jours, si vous possédez un site Web et une entreprise légitimes, le processus est simplifié. En fait, votre page d'accueil et votre domaine global devraient être indexés très rapidement. Par exemple, envoyer un Tweet avec un lien aide Google à indexer le site. Ou recevoir un lien d'un autre site fonctionne. Enfin, il suffit de soumettre votre URL à Google gratuitement ! En conséquence, de nombreux sites sans contenu et sans liens externes / tweets / etc. sont indexés sans aucun effort. Récemment, mon entreprise a acheté 50 domaines et mis en place des pages d'espace réservé très simples sur chacun. Google en a indexé 28 avant que nous ne procédions à aucune promotion.

Pour les sites existants avec un ensemble de pages nécessitant une indexation, jetez un œil à vos options.

A. Récupérer et soumettre pour index via Google Search Console

Pour les sites avec un petit nombre d'URL, soumettez-les chacune à Google Console pour indexation. C'est un processus assez simple. Commencez par vous connecter à votre compte Google Search Console et regardez la navigation de gauche sous crawl et cliquez sur Fetch as Google :

Récupérer comme Google dans GSC

Ensuite, vous entrez l'URL qui doit être soumise et cliquez sur chercher. Vous aurez la possibilité de demander l'indexation :

Capture d'écran de la demande d'indexation dans GSC

Enfin, vous soumettez soit l'URL elle-même, soit l'URL et celles liées à la page. Pour nos besoins, puisque nous avons un ensemble spécifique d'URL que nous aimerions voir indexées (et parce que nous avons un nombre limité de soumissions - 500 URL simples et seulement 10 soumissions d'URL multiples - par mois), nous soumettrons l'URL à l'index:

Écran de demande d'indexation finale de la CGC

Enfin, vous devriez voir que votre demande d'indexation a abouti :

Confirmation d'indexation de la demande de GSC

Si vous travaillez sur une liste d'URL, vous pouvez lui donner quelques jours et réexécuter la même liste via URL Profiler et voir comment vos efforts ont eu un impact sur l'indexation.

B. Partagez vos URL socialement

Le partage de vos URL et contenus via les réseaux sociaux améliore également l'indexation des pages clés. Par exemple, pour les pages précieuses (et liées à votre audience principale), partagez-les socialement. En particulier, cela fonctionne pour les sites avec des comptes sociaux populaires.

Par exemple, votre site contient-il un ensemble de pages de produits détaillant des fonctionnalités spécifiques ? Si c'est le cas, mettez en file d'attente 1 tweet par semaine / tous les deux jours en partageant une page de fonctionnalité spécifique. Quelque chose comme "Saviez-vous que {product} pourrait vous aider avec {thing feature help with} ? {lien}" fonctionne bien.

C. Corrigez les problèmes sous-jacents !

Votre site contient-il encore de gros volumes de pages nécessitant une indexation ? Si tel est le cas, vous avez probablement un problème de référencement fondamental avec votre site. Vous voudrez enquêter :

  • Équité des liens – Avez-vous plus de pages sur votre site que l'équité des liens (nombre et autorité des liens pointant vers votre site) ne peut supporter ? Cela peut signifier que les pages plus profondes ne seront pas explorées et indexées jusqu'à ce que vous trouviez des moyens de créer des liens vers vos domaines (et éventuellement des moyens d'obtenir des liens et des partages pour vos pages plus profondes).
  • Architecture du site – L'architecture des informations de votre site est un sujet qui dépasse le cadre de cet article. Mais vous pouvez avoir des pages qui sont à plusieurs clics de la page d'accueil de votre site. En conséquence, ceux-ci sont difficiles à atteindre pour les moteurs de recherche. Encore une fois, c'est quelque chose à étudier (et/ou à embaucher potentiellement un référenceur expérimenté pour enquêter).
  • Plan du site – Enfin, si vous n'avez pas encore soumis de plan de site XML dynamique à Google Search Console. Cette étape entraîne une meilleure indexation de votre site.

3. Comment conserver les pages que vous ne voulez pas indexer hors de l'index

Un autre problème courant pour les spécialistes du marketing est que vous souhaitez exclure une page spécifique de l'index de Google. Il s'agit peut-être d'un doublon d'une page existante, une page très fine qui a une certaine utilité pour les utilisateurs mais pas pour les chercheurs, ou peut-être est-ce quelque chose avec des informations privées que vous ne voulez pas dans l'index de Google.

Quelle que soit la raison, il existe quelques méthodes de base pour garder le contenu hors de l'index de Google.

1. Meta Pas de balise d'index

Dans de nombreux cas, la méthode préférée pour garder une page hors de l'index de Google consiste à ajouter une balise Meta No Index, à partir de la documentation de Google sur le sujet :

Un exemple de balise meta sans index

La balise no index offre une excellente solution. Il demande à Google de supprimer des pages de l'index. Par exemple, pour les sites dont le contenu est déjà indexé , la balise no index offre une méthode privilégiée pour désindexer votre contenu. La directive d'interdiction des robots empêche Google d'explorer la page. Mais ne le supprimera pas nécessairement de l'index s'il y est déjà.

Inversement, comme le souligne l'ingénieur Google Gary Illyes :

Google doit pouvoir explorer votre page pour la supprimer de l'index via cette méthode. Assurez-vous donc que les pages restent accessibles, attendez qu'elles soient explorées (ou Fetch as Google pour demander qu'elles soient explorées / reconsidérées).

2. Robots.txt Interdire

Pour les nouveaux sites (ou sections de site) en attente d'indexation, utilisez la directive robots disallow. Par exemple, un site intermédiaire ou un sous-domaine en construction et non prêt pour les heures de grande écoute a probablement besoin de cette option.

Encore une fois, l'ajout de cette directive n'entraîne pas nécessairement la suppression de votre contenu de l'index s'il y figure déjà. En fait, cela peut conduire à un résultat qui est indexé et qui n'a qu'une description sous-optimale.

Un avertissement important avec l'utilisation de l'interdiction est de s'assurer de ne pas interdire plus que prévu . Veillez à ne pas bloquer les sous-sections de votre site où il peut y avoir un contenu précieux auquel vous souhaitez que les internautes puissent accéder. Et testez les modifications dans votre fichier de robots dans Google Search Console avec l'outil de test de robot.

Suppression d'URL et exclusion de paramètres d'URL via la Search Console

Enfin, si vous avez des paramètres qui sont ajoutés par le système de gestion de contenu de votre site (peut-être à cause des résultats de recherche filtrés, de la pagination ou similaire) qui sont indexés et que vous souhaitez supprimer, vous pouvez également donner à Google plus d'informations sur ces paramètres. ou demander que des URL spécifiques soient supprimées en supprimant temporairement des URL des résultats de recherche (pas nécessairement de l'index de Google, et pas nécessairement de manière permanente) :

Supprimer les URL dans GSC

De plus, cela fournit une méthodologie pratique pour supprimer en masse des URL des résultats de recherche ou identifier un paramètre spécifique :

Exclure les paramètres dans GSC

Et ensuite donner à Google plus d'informations à ce sujet :

Ajouter un paramètre - informations supplémentaires dans GSC

John Mueller de Google a déclaré que cela fonctionne de la même manière qu'un contenu sans indexation "permanente". Cela offre donc une option viable pour les URL uniques. Idéalement, cependant, dans la plupart des cas, plutôt que de tirer parti d'une suppression temporaire, vous voudrez creuser et résoudre les problèmes fondamentaux. En quoi la structure technique de votre site crée-t-elle le besoin de désindexer les pages ? Pourquoi souffrez-vous (ou souffrez-vous) de « gonflement de l'index » en premier lieu ?

4. Qu'est-ce que "l'Index Bloat" et comment puis-je y remédier ?

Le gonflement de l'index est effectivement lorsque vous avez des pages inutiles indexées par Google qui ne sont pas susceptibles de générer un trafic pertinent vers votre site en réponse aux requêtes des utilisateurs. Cela crée un problème car cela oblige les moteurs de recherche à passer du temps à explorer et à indexer les pages de faible valeur (ce qui pourrait utiliser votre "budget d'exploration"). De plus, il sert potentiellement des pages de faible valeur dans certains résultats de recherche (entraînant une mauvaise expérience utilisateur et de mauvaises mesures d'engagement). Contenir beaucoup de contenu mince ou largement dupliqué avec des mesures d'engagement terribles entraîne probablement un classement de qualité inférieure aux yeux de Google.

En plus d'utiliser les outils et les processus ci-dessus pour analyser quelles pages sont et ne sont pas actuellement dans l'index, puis d'en utiliser davantage pour supprimer les pages de qualité inférieure et de valeur inférieure de l'index, voici deux excellentes ressources sur le sujet :

  • Guide de Green Lane SEO pour trouver et résoudre les problèmes de gonflement de l'index
  • Diagnostics d'index rapides et sales de Portent Interactive

Ici encore, une note importante est de ne pas "couper trop profondément". Avant de commencer à supprimer de grandes sections de votre site à partir de l'index de Google, regardez dans Analytics (ou saisissez les URL et exécutez-les via URL Profiler) pour vous assurer que vous ne coupez pas le trafic et les prospects/ventes de ces pages.

5. Quels outils peuvent aider à surveiller l'indexation (c'est-à-dire quels sont les meilleurs "vérificateurs d'index Google ?")

Comme je l'ai mentionné ad nauseum ici, ma préférence personnelle est d'utiliser URL Profiler en tant que Google Index Checker, mais voici quelques options supplémentaires :

  • http://indexchecking.com/
  • https://northcutt.com/tools/free-seo-tools/google-indexed-pages-checker/
  • https://www.greenlaneseo.com/blog/google-indexation-tester/

BONUS : Ressources d'indexation mobile

L'indexation des mobiles et des applications en particulier peut être légèrement différente de l'indexation traditionnelle. Si vous rencontrez des problèmes, voici quelques ressources d'indexation supplémentaires axées sur les mobiles :

  • https://www.apptentive.com/blog/2015/12/15/app-indexing-how-to-index-your-app-on-google/
  • https://www.bruceclay.com/blog/apps-101-what-is-deep-linking-and-app-indexing-setup/
  • https://www.slideshare.net/justinrbriggs/how-to-setup-app-indexation
  • http://searchengineland.com/5-tips-for-optimal-mobile-site-indexing-107088
  • https://www.deepcrawl.com/blog/best-practice/app-deep-linking-for-beginners-google-app-indexing-facebook-app-links/
  • https://moz.com/blog/how-to-get-your-app-content-indexed-by-google

Qu'avons-nous manqué ? Quels autres problèmes d'indexation Google avez-vous rencontrés/quels conseils pouvez-vous partager ?