Guia de indexação do Google: problemas de índice do Google, estatísticas e mais

Publicados: 2017-04-04
An overview of indexation in Google search results.
(Última atualização em: 11 de abril de 2019)

Muito conteúdo de SEO se concentra em classificar bem nos resultados de pesquisa desejados. Isso faz sentido porque você não pode direcionar o tráfego para seu site a partir da pesquisa orgânica sem ter uma boa classificação nos resultados da pesquisa (ou seja, o índice do Google). Além disso, você não pode gerar leads e vendas para sua empresa sem gerar tráfego orgânico. Se você é um executivo de marketing, diretor, gerente etc., essa provavelmente é sua principal preocupação.

Para classificar os termos desejados, primeiro você precisa estar presente no índice do Google. Antigamente, colocar seu site no índice era um tanto difícil. A “submissão do site” era um serviço comum. No entanto, agora o Google é muito bom em encontrar novos sites. Por exemplo, se você twittou sobre seu site, enviou um comunicado à imprensa ou praticamente qualquer pessoa vinculada ao seu site, o Google provavelmente sabe que você existe. Mas se você tentou direcionar o tráfego de pesquisa, provavelmente se deparou com vários problemas de indexação do Google à medida que seu site cresce.

Para não-SEOs (e frequentemente para SEOs também), muitos desses problemas permanecem muito confusos e frustrantes. Praticamente toda vez que passo por uma auditoria de SEO com um cliente, há pelo menos alguma confusão sobre problemas de indexação, conteúdo duplicado, a melhor maneira de remover páginas do índice do Google etc.

O que esperar desta visão geral do índice do Google

Neste artigo, tentarei ajudar um generalista de marketing (alguém com uma compreensão básica de SEO que é responsável por direcionar mais tráfego para seu site, mas pode não se aprofundar em rastreamentos e análises de links do Screaming Frog em um dia-a-dia dia) entenda:

  • Como funciona o índice do Google.
  • Interprete diferentes estatísticas de índice ou “contagens” do Google.com.
  • Entenda sua conta do Google Search Console.
  • Correções técnicas para problemas comuns de indexação (ou seja, não ter páginas indexadas ou ter páginas que você não deseja indexar vazando no índice).

Vamos começar no início.

Como funciona o índice do Google?

O motor de busca do Google é muito complexo. Uma análise detalhada de como o Google encontra, armazena e prioriza páginas está além do escopo deste artigo.

Em alto nível, o Google trabalha arduamente para encontrar (ou rastrear) o maior número possível de páginas úteis. Além disso, o Google trabalha duro para armazenar (ou indexar) as páginas que retornam pesquisas relevantes. Além disso, o índice do Google trabalha arduamente para retornar as páginas apropriadas que melhor satisfaçam a consulta de pesquisa do usuário. (Como efeito colateral, isso provavelmente também ajuda nos resultados da Alphabet, mas isso é outra discussão).

Novamente em um nível alto (e simplificado demais), você deseja:

  • as coisas boas indexadas (as páginas do seu site que são de alta qualidade, úteis para os pesquisadores e provavelmente geram ações desejáveis ​​para o seu negócio).
  • as coisas ruins do índice do Google (páginas de baixo valor e/ou finas ou duplicadas que prejudicam você mais do que ajudam a direcionar tráfego relevante para seu site).

Outra coisa a observar: a indexação não é necessariamente a mesma coisa que aparece nos resultados da pesquisa . O Google mantém um índice de páginas internamente. Ao pesquisar tópicos no Google.com, você vê algumas de suas páginas. Isso não é necessariamente todas as páginas que o Google mantém em seu índice . As páginas indexadas podem nunca aparecer nos resultados de pesquisa ou obter cliques e chegar ao seu site.

O restante deste artigo se concentra em analisar quais páginas do seu site estão no índice, bem como o que você – como profissional de marketing – pode fazer para assumir o controle e otimizar melhor o que é e o que não é indexado. Além disso, existem vários recursos para aprender mais sobre como a indexação do Google funciona, incluindo:

  • O passo a passo da Moz sobre como os mecanismos de pesquisa operam.
  • Alguns detalhamentos diferentes da apresentação de um engenheiro de pesquisa do Google sobre como o índice do Google funciona.
  • Esta representação visual de como o Google funciona.

Compreendendo as estatísticas do índice

Para muitos, as estatísticas de índice que você vê sobre seu próprio site geram alguns pensamentos bastante confusos. O Google oferece duas maneiras comuns de mostrar as estatísticas do seu site sobre quantas páginas do seu site o Google indexa.

Estatísticas do índice em Google.com

Para ver quantas e quais das suas páginas são indexadas no Google, comece acessando Google.com e digitando site:seusite.com. Vejamos o que o Google mostra no operador de pesquisa de um site sobre o qual escrevemos no passado, SearchEngineLand.com:

Estatísticas de índice do Google nos resultados de pesquisa

Cerca de 30.700 resultados – isso é bastante! Se este fosse o seu site e você verificasse as estatísticas do seu índice pela primeira vez, provavelmente teria duas emoções. Em primeiro lugar, empolgação ao pensar que muitos dos meus posts estão sendo indexados! Por outro lado, você pode sentir algum alarme ao perceber que seu site não contém tantas páginas.

À medida que você começa a vasculhar as páginas indexadas e clicar em páginas adicionais de resultados (dez - ou muito menos com anúncios e outros conteúdos do Google em destaque dominando muitos SERPs - é o padrão, é claro, mas como frequentemente vasculhando SERPs, gosto de alterar meus resultados por página para 100) algo muito estranho acontece. Com minhas configurações em 100 resultados por página, quando rolo até o final do resultado da pesquisa para a pesquisa do site da SEL, vejo 8 links:

Uma captura de tela da paginação nos resultados de pesquisa do índice do Google

Resultados de 8 x 100 claramente não são iguais a “Cerca de 30.700”. Odd: Achei que o Google forneceu mais de 30.000 resultados. Se eu clicar no link para a 8ª página de resultados fica ainda mais confuso:

Captura de tela da última página dos resultados de pesquisa do índice do Google

E se eu clicar no link “repetir a pesquisa com os resultados omitidos incluídos” e voltar para a última página, vejo algo semelhante.

Mas o Search Engine Land é um site extremamente confiável que publica vários novos conteúdos por dia. Portanto, não podem ser todas as páginas que o Google indexou, certo?

Definitivamente não é. O Google foi visto testando a eliminação total disso. Além disso, o Google disse explicitamente que esses números não são totalmente confiáveis ​​por vários anos (esse vídeo é de 2010!). E esse problema piora quanto maior o seu site:

Onde mais podemos encontrar nossas contagens de indexação? Ou como podemos entender quais páginas do nosso site são indexadas?

Estatísticas de índice no Google Search Console (anteriormente Ferramentas do Google para webmasters)

Sua conta do Google Search Console fornece dados adicionais sobre os resultados do índice do seu site. E se você não tiver uma conta GSC, configure uma aqui hoje.

Para nossa visão geral, vejamos a conta de um site pertencente à minha empresa. Há uma subseção inteira do Google Search Console dedicada aos dados do índice do Google.

Status do índice no Google Search Console

Status do índice do Google no GSC

Os dados do GSC geralmente fornecem informações mais precisas. Além disso, também oferece alguns dados de tendências. Mas, e se você vir um número de páginas indexadas que parece muito baixo? Ou estatísticas de Search Analytics dramaticamente subnotificadas?

Normalmente, esses problemas ocorrem com base em como o Google Search Console lida com subdomínios, versões www e não www do seu site e versões http e https do seu site.

Se os números do Google Search Console forem extremamente baixos, verifique a URL muito específica associada ao site na navegação superior:

Site do GSC

Além disso, se você mudou seu site para https ou utiliza um subdomínio (por exemplo, http://info.measuredsem.com), adicione-os como sites separados. Além disso, se você mudou de http://www.measuredsem.com para http://measuredsem.com ou oferece suporte a ambos, defina seu domínio preferido em sua conta.

Além disso, há outro lugar onde você pode obter informações sobre como seu site é indexado no Google Search Console.

Sitemaps no Google Search Console

O Google Search Console inclui uma seção de mapa do site, que permite o envio de um mapa do site XML para o seu site. Além disso, esta seção oferece uma noção de quantas páginas enviadas estão realmente no índice. Além disso, a seção mostra como esse número muda com o tempo.

Sitemaps e indexação no Google Search Console

O desafio aqui é que, embora você possa examinar seu sitemap XML para ver quais páginas você enviou, você não tem necessariamente o nível de detalhes que deseja para responder a perguntas específicas (como se grandes faixas de páginas são ou não t indexado).

5 dicas acionáveis ​​de indexação do Google

Então agora você sabe um pouco mais sobre como funciona o índice do Google. Além disso, algumas das ferramentas que mostram o desempenho do seu site no índice do Google. Que tal resolver problemas específicos relacionados a índices? Com base no meu trabalho com clientes e em algumas pesquisas sobre o assunto, aqui estão as cinco maiores dúvidas/problemas que encontrei em relação à indexação do Google:

1. Como saber quais páginas específicas NÃO estão indexadas

As páginas que não estão no índice do Google não aparecerão nos resultados de pesquisa. Portanto, uma das primeiras coisas que você pode querer descobrir é “quais páginas do meu site não estão indexadas?” Infelizmente, a maioria dos métodos listados acima não tem solução para esse problema. Os métodos anteriores ajudam a entender as páginas do seu site no índice do Google . No entanto, esses métodos não abordam as páginas do seu site que não estão no índice do Google . Para um site muito pequeno, isso pode ser muito fácil de detectar. Mas se você mantém um blog ativo, seu site provavelmente contém páginas suficientes para que “observar” as páginas ausentes não seja uma opção razoável. Duas ferramentas principais abordam esse processo:

Etapa um: rastreie seu site com o Screaming Frog

O Screaming Frog geralmente é um dos meus aplicativos mais usados ​​em qualquer processo de auditoria de site de SEO. Nesta captura de tela, ele fornece uma imagem de quais páginas estão presentes em seu site:

Obtenha uma lista de URLs do Screaming Frog

O Screaming Frog é uma ferramenta de SEO super útil/poderosa, mas para nossos propósitos aqui, queremos apenas rastrear o site e filtrar as páginas HTML. Em seguida, filtre essa lista para qualquer uma das páginas em nosso site que desejamos no índice. Vamos começar a lidar com as páginas que não queremos em um minuto.

A partir daí, usarei outra ferramenta incrivelmente útil em qualquer auditoria técnica de SEO: URL Profiler.

O URL Profiler é outra ferramenta de SEO extremamente poderosa, mas, novamente, vamos usá-la para uma finalidade bastante restrita. Descobrir quais URLs em nosso site (que acabamos de exportar de nosso rastreamento) são realmente indexados:

Verificação de índice do Google com URL Profiler

Se você tiver um site maior, isso normalmente requer alguns proxies para verificar a indexação. Se você não for muito técnico, parece intimidador, mas é incrivelmente fácil. Leva alguns minutos e não requer nenhum conhecimento técnico (além de habilidades de copiar/colar).

Ocasionalmente, leva algumas vezes e sempre deixa algum tempo para rastreamentos maiores. Mas, eventualmente, você acaba com uma lista de todas as páginas que não estão indexadas em seu site.

2. Como obter algo (todo o seu site, uma nova página, uma página existente que não está indexada) indexado

Conseguir um novo site indexado costumava ser uma indústria em si. No entanto, hoje em dia, se você possui um site e uma empresa legítimos, o processo é simplificado. Na verdade, sua página inicial e o domínio geral devem ser indexados muito rapidamente. Por exemplo, enviar um Tweet com um link ajuda o Google a indexar o site. Ou receber um link de outro site funciona. Por fim, basta enviar seu URL ao Google para trabalhos gratuitos! Como resultado, muitos sites sem conteúdo e sem links externos / tweets / etc. são indexados sem nenhum esforço. Recentemente, minha empresa comprou 50 domínios e colocou páginas de espaço reservado muito simples em cada um. O Google indexou 28 deles antes de realizar qualquer tipo de promoção.

Para sites existentes com um conjunto de páginas que precisam de indexação, dê uma olhada em suas opções.

A. Buscar e enviar para o índice por meio do Google Search Console

Para sites com um pequeno número de URLs, cada um deles deve ser enviado ao Console do Google para indexação. Este é um processo bastante simples. Comece fazendo login na sua conta do Google Search Console e olhando para a navegação à esquerda em rastrear e clicando em Fetch as Google:

Buscar como o Google no GSC

Em seguida, insira o URL que precisa ser enviado e clique em buscar. Você terá a opção de solicitar a indexação:

Captura de tela da solicitação de indexação no GSC

Por fim, você envia o próprio URL ou o URL e os links da página. Para nossos propósitos, como temos um conjunto específico de URLs que gostaríamos de ver indexados (e porque temos um número limitado de envios – 500 URLs únicos e apenas 10 envios de URLs múltiplos – por mês), enviaremos o URL para o índice:

Tela de solicitação de indexação final do GSC

Por fim, você deve ver que sua solicitação de indexação passou por:

Confirmação de indexação de solicitação GSC

Se você estiver trabalhando em uma lista de URLs, poderá esperar alguns dias e executar a mesma lista por meio do URL Profiler novamente e ver como seus esforços afetaram a indexação.

B. Compartilhe seus URLs socialmente

Compartilhar seus URLs e conteúdo por meio de redes sociais também melhora a indexação de páginas importantes. Por exemplo, para páginas valiosas (e relacionadas ao seu público principal), compartilhe-as socialmente. Em particular, isso funciona para sites com contas sociais populares.

Por exemplo, seu site contém várias páginas de produtos detalhando recursos específicos? Em caso afirmativo, coloque na fila 1 tweet por semana / a cada dois dias, compartilhando uma página de recurso específica. Algo como “Você sabia que {produto} pode ajudar com {coisa que o recurso ajuda}? {link}” funciona bem.

C. Corrija os problemas subjacentes!

Seu site ainda contém grandes volumes de páginas que precisam de indexação? Em caso afirmativo, provavelmente há um problema de SEO fundamental com seu site. Você vai querer investigar:

  • Link Equity – Você tem mais páginas em seu site do que o link equity (número e autoridade de links apontados para seu site) pode suportar? Isso pode significar que as páginas mais profundas não serão rastreadas e indexadas até que você encontre maneiras de criar links para seus domínios (e possivelmente encontrar maneiras de obter links e compartilhamentos para suas páginas mais profundas).
  • Arquitetura do site – A arquitetura de informações do seu site é um tópico que está além do escopo deste artigo. Mas você pode ter páginas que estão a vários cliques da página inicial do seu site. Como resultado, eles são difíceis de serem acessados ​​pelos mecanismos de pesquisa. Novamente, isso é algo para investigar (e/ou potencialmente contratar um SEO experiente para investigar).
  • Mapa do site – Finalmente, se você ainda não enviou um mapa do site XML dinâmico para o Google Search Console. Esta etapa leva a uma melhor indexação do seu site.

3. Como manter as páginas que você não deseja indexadas fora do índice

Outro problema comum para os profissionais de marketing é que você deseja manter uma página específica fora do índice do Google. Talvez seja uma duplicata de uma página existente, uma página muito fina que tem alguma utilidade para os usuários, mas não para os pesquisadores, ou possivelmente é algo com informações privadas que você não deseja no índice do Google.

Seja qual for o motivo, existem alguns métodos básicos para manter o conteúdo fora do índice do Google.

1. Meta Sem Tag de Índice

Em muitos casos, o método preferido para manter uma página fora do índice do Google é adicionar uma tag Meta No Index, da documentação do Google sobre o assunto:

Um exemplo de tag meta sem índice

A tag sem índice oferece uma ótima solução. Ele instrui o Google a remover páginas do índice. Por exemplo, sites com conteúdo já indexado , a tag no index oferece um método preferencial de desindexação de seu conteúdo. A diretiva robots disallow impede que o Google rastreie a página. Mas não necessariamente o removerá do índice se já estiver lá.

Por outro lado, como o engenheiro do Google Gary Illyes aponta:

O Google deve ser capaz de rastrear sua página para removê-la do índice por meio desse método. Portanto, certifique-se de que as páginas permaneçam acessíveis, aguarde até que sejam rastreadas (ou Busque como o Google para solicitar que seja rastreado / reconsiderado).

2. Robots.txt não permite

Para novos sites (ou seções de site) aguardando indexação, use a diretiva robots disallow. Por exemplo, um site de teste ou subdomínio em construção e não pronto para o horário nobre provavelmente precisa dessa opção.

Novamente, adicionar esta diretiva não necessariamente faz com que seu conteúdo seja removido do índice se já estiver aparecendo lá. Na verdade, pode levar a um resultado indexado e com uma descrição abaixo do ideal.

Um aviso importante sobre o uso de proibir é ter certeza de não proibir mais do que você pretendia . Tenha cuidado para não bloquear subseções de seu site onde pode haver conteúdo valioso que você deseja que os pesquisadores possam acessar. E teste as alterações em seu arquivo de robôs no Google Search Console com a ferramenta de teste de robôs.

Remoção de URLs e exclusão de parâmetros de URL por meio do Search Console

Por fim, se você tiver parâmetros que estão sendo adicionados pelo sistema de gerenciamento de conteúdo do seu site (talvez devido a resultados de pesquisa filtrados, paginação ou algo semelhante) que estão sendo indexados e que gostaria de remover, você também pode fornecer ao Google mais informações sobre esses parâmetros ou solicitar que URLs específicos sejam removidos removendo URLs temporariamente dos resultados de pesquisa (não necessariamente do índice do Google e não necessariamente de forma permanente):

Remover URLs no GSC

Além disso, isso fornece uma metodologia útil para remover URLs em massa dos resultados da pesquisa ou identificar um parâmetro específico:

Excluir parâmetros no GSC

E, em seguida, dando ao Google mais informações sobre isso:

Adicionar um parâmetro - informações adicionais no GSC

John Mueller, do Google, disse que isso funciona de maneira semelhante ao conteúdo sem indexação “permanente”. Portanto, isso oferece uma opção viável para URLs únicos. Idealmente, porém, na maioria dos casos, em vez de alavancar uma remoção temporária, você deve se aprofundar e resolver os problemas principais. O que há na estrutura técnica do seu site que está criando a necessidade de desindexar as páginas? Por que você está (ou está) sofrendo de “inchaço do índice” em primeiro lugar?

4. O que é “Inchaço do índice” e como corrigi-lo?

O inchaço do índice é eficaz quando você tem páginas desnecessárias indexadas pelo Google que provavelmente não direcionarão tráfego relevante para seu site em resposta às consultas dos usuários. Isso cria um problema porque força os mecanismos de pesquisa a gastar tempo rastreando e indexando páginas de baixo valor (o que pode consumir seu “orçamento de rastreamento”). Além disso, potencialmente veicula páginas de baixo valor em alguns resultados de pesquisa (levando a uma experiência do usuário insatisfatória e a métricas de engajamento insatisfatórias). Ter muito conteúdo escasso ou amplamente duplicado com métricas de engajamento terríveis provavelmente causa uma classificação de qualidade inferior aos olhos do Google.

Além de usar as ferramentas e processos acima para analisar quais páginas estão e quais não estão atualmente no índice e, em seguida, usar mais delas para remover do índice páginas de menor qualidade e de menor valor, aqui estão dois ótimos recursos sobre o assunto:

  • Guia do Green Lane SEO para encontrar e corrigir problemas de inchaço do índice
  • Diagnóstico de índice rápido e sujo da Portent Interactive

Aqui, novamente, uma observação importante é não “cortar muito fundo”. Antes de começar a extrair grandes seções do seu site a partir do índice do Google, olhe no Analytics (ou pegue os URLs e execute-os no URL Profiler) para garantir que você não está cortando tráfego e leads/vendas dessas páginas.

5. Quais ferramentas podem ajudar no monitoramento da indexação (ou seja, quais são os melhores "verificadores de índice do Google?")

Como mencionei ad nauseum aqui, minha preferência pessoal é aproveitar o URL Profiler como um verificador de índice do Google, mas aqui estão algumas opções adicionais:

  • http://indexchecking.com/
  • https://northcutt.com/tools/free-seo-tools/google-indexed-pages-checker/
  • https://www.greenlaneseo.com/blog/google-indexation-tester/

BÔNUS: Recursos de indexação móvel

Especificamente, a indexação de aplicativos e dispositivos móveis pode ser um pouco diferente da indexação tradicional. Portanto, se você estiver enfrentando problemas, aqui estão alguns recursos adicionais de indexação com foco em dispositivos móveis:

  • https://www.apptentive.com/blog/2015/12/15/app-indexing-how-to-index-your-app-on-google/
  • https://www.bruceclay.com/blog/apps-101-what-is-deep-linking-and-app-indexing-setup/
  • https://www.slideshare.net/justinrbriggs/how-to-setup-app-indexation
  • http://searchengineland.com/5-tips-for-optimal-mobile-site-indexing-107088
  • https://www.deepcrawl.com/blog/best-practice/app-deep-linking-for-beginners-google-app-indexing-facebook-app-links/
  • https://moz.com/blog/how-to-get-your-app-content-indexed-by-google

O que perdemos? Que outros problemas de indexação do Google você viu/que dicas você pode compartilhar?