Análise do arquivo de log: 9 maneiras acionáveis ​​que podem ser usadas para SEO

Nesta parte, abordaremos o que são arquivos de log, por que são significativos, o que procurar e quais ferramentas usar. Por fim, darei 9 maneiras práticas de analisá-las para SEO.

O que é um arquivo de log do servidor?
Um log do servidor é um arquivo de log (ou vários arquivos) criado e mantido automaticamente por um servidor que consiste em uma lista de atividades executadas.

Para fins de SEO, estamos preocupados com um log de servidor da web que contém um histórico de solicitações de página para um site, tanto de humanos quanto de robôs. Às vezes, isso também é chamado de log de acesso e os dados brutos são parecidos com o seguinte:

análise de arquivo de log para seo
Sim, os dados parecem um pouco esmagadores e confusos no começo, então vamos detalhá-los e examinar um "acerto" mais de perto.

Um exemplo de sucesso
Cada servidor é inerentemente diferente nos acessos de log, mas geralmente fornece informações semelhantes organizadas em campos.

Abaixo está um exemplo de ocorrência em um servidor da web Apache (isso é simplificado - alguns dos campos foram removidos):

50.56.92.47 - - [01 / março / 2018: 12: 21: 17 +0100] "GET" - "/wp-content/themes/esp/help.php" - "404" "-" "Mozilla / 5.0 ( compatível; Googlebot / 2.1; + http: //www.google.com/bot.html) ”- www.example.com -

análise de arquivo de log para seo
Como você pode ver, para cada ocorrência, recebemos informações importantes, como data e hora, o código de resposta do URI solicitado (neste caso, um 404) e o user agent do qual a solicitação veio (neste caso, Googlebot ) Como você pode imaginar, os arquivos de log são compostos por milhares de acessos por dia, pois toda vez que um usuário ou bot chega ao seu site, muitos hits são registrados para cada página solicitada - incluindo imagens, CSS e quaisquer outros arquivos necessários para renderizar o arquivo. página.

Por que eles são significativos?
Então você sabe o que é um arquivo de log, mas por que vale a pena analisá-los?

Bem, o fato é que há apenas um registro verdadeiro de como os mecanismos de pesquisa, como o Googlebot, processam seu site. E isso é olhando os arquivos de log do servidor para o seu site.

O Search Console, os rastreadores de terceiros e os operadores de pesquisa não fornecerão uma imagem completa de como o Googlebot e outros mecanismos de pesquisa interagem com um site. SOMENTE os arquivos de log de acesso podem nos fornecer essas informações.

Como podemos usar a análise de arquivos de log para SEO?
A análise do arquivo de log fornece uma grande quantidade de informações úteis, incluindo a possibilidade de:

Valide exatamente o que pode ou não pode ser rastreado.
Visualize as respostas encontradas pelos mecanismos de pesquisa durante o rastreamento, por exemplo, 302s, 404s, soft 404s.
Identifique deficiências de rastreamento, que podem ter implicações mais amplas baseadas no site (como hierarquia ou estrutura de links internos).
Veja quais páginas os mecanismos de pesquisa priorizam e podem considerar as mais importantes.
Descubra áreas de desperdício de orçamento de rastreamento.
Vou levá-lo através de algumas das tarefas que você pode realizar durante a análise do arquivo de log e mostrar como eles podem fornecer informações úteis para o seu site.

Como faço para obter arquivos de log?
Para esse tipo de análise, você precisa dos logs de acesso brutos de todos os servidores Web do seu domínio, sem nenhuma filtragem ou modificação aplicada. Idealmente, você precisará de uma grande quantidade de dados para fazer a análise valer a pena. O número de dias / semanas em que isso depende depende do tamanho e da autoridade do seu site e da quantidade de tráfego que ele gera. Para alguns sites, uma semana pode ser suficiente; para alguns sites, pode ser necessário um mês ou mais de dados.

Seu desenvolvedor da Web deve poder enviar esses arquivos para você. Vale a pena perguntar antes de enviarem para você se os logs contêm solicitações de mais de um único domínio e protocolo e se estão incluídos nesses logs. Porque, se não, isso impedirá que você identifique corretamente as solicitações. Você não poderá diferenciar entre uma solicitação de http://www.example.com/ e https://example.com/. Nesses casos, você deve solicitar ao desenvolvedor que atualize a configuração do log para incluir essas informações no futuro.

Quais ferramentas eu preciso usar?
Se você é um gênio do Excel, este guia é realmente útil para ajudá-lo a formatar e analisar seus arquivos de log usando o Excel. Pessoalmente, uso o Screaming Frog Log File Analyzer (custo de US $ 99 por ano). Sua interface amigável facilita e identifica quaisquer problemas com rapidez e facilidade (embora, sem dúvida, você não tenha o mesmo nível de profundidade ou liberdade que obteria usando o Excel). Os exemplos que descreverei são todos feitos com o Screaming Frog Log File Analyzer.

Algumas outras ferramentas são Splunk e GamutLogViewer.



9 maneiras de analisar arquivos de log para SEO


1. Descubra onde o orçamento do rastreamento está sendo desperdiçado
Em primeiro lugar, o que é orçamento de rastreamento? O Google define como:

"Reunindo a taxa de rastreamento e a demanda de rastreamento, definimos o orçamento de rastreamento como o número de URLs que o Googlebot pode e deseja rastrear".

Essencialmente - é o número de páginas que um mecanismo de pesquisa rastreia cada vez que visita seu site e é vinculado à autoridade de um domínio e proporcional ao fluxo de patrimônio de links em um site.

Fundamentalmente em relação à análise do arquivo de log, o orçamento do rastreamento pode às vezes ser desperdiçado em páginas irrelevantes. Se você possui um conteúdo novo que deseja indexar, mas não há orçamento, o Google não indexa esse novo conteúdo. É por isso que você deseja monitorar onde gasta seu orçamento de rastreamento com análise de arquivos de log.

Fatores que afetam o orçamento do rastreamento
Ter muitos URLs de baixo valor agregado pode afetar negativamente o rastreamento e a indexação de um site. URLs de baixo valor agregado podem se enquadrar nestas categorias:

Navegação facetada, geração dinâmica de URL e identificadores de sessão (comum para sites de comércio eletrônico)
Conteúdo duplicado no local
Páginas invadidas
Páginas de erro suave
Conteúdo de baixa qualidade e spam
A perda de recursos do servidor em páginas como essas irá drenar a atividade de rastreamento de páginas que realmente têm valor, o que pode causar um atraso significativo na descoberta de um bom conteúdo em um site.

Por exemplo, olhando para esses arquivos de log, descobrimos que um tema incorreto do WordPress estava sendo visitado com muita frequência, esse é um reparo óbvio!

desperdício de orçamento de rastreamento de arquivo de log
Ao analisar o número de eventos que cada página está recebendo, pergunte a si mesmo se o Google deve se incomodar em rastrear esses URLs . Geralmente, a resposta é negativa. Portanto, otimizar seu orçamento de rastreamento ajudará os mecanismos de pesquisa a rastrear e indexar as páginas mais importantes do seu site. Você pode fazer isso de várias maneiras, como excluir o rastreamento de URLs, bloqueando URLs que contêm determinados padrões com o arquivo robots.txt . Confira nosso post útil sobre o assunto.

2. Suas páginas importantes estão sendo rastreadas?
Abordamos por que é importante que o Google não desperdice o orçamento de rastreamento nas suas páginas de baixo valor. O outro lado da moeda é verificar se suas páginas de alto valor estão sendo visitadas com a importância que você coloca nelas. Se você solicitar seus arquivos de log por Número de eventos e filtrar por HTML, poderá ver quais são as páginas mais visitadas.

páginas importantes da análise de arquivos de log
Seria um pouco simplificado dizer que seus URLs mais importantes devem ser rastreados mais - no entanto, se você é um site de geração de leads, deseja que sua página inicial, principais páginas de serviço e conteúdo do blog apareçam lá.

Como site de comércio eletrônico, você deseja que sua página inicial, páginas de categoria e páginas principais de produtos apareçam lá. Se você vir uma página de produto antiga que não vende mais e zero das páginas de categoria mais importantes nesses resultados, há um problema.

3. Descubra se o seu site mudou para o índice Mobile-First do Google
Você pode registrar a análise de arquivos para saber se o seu site está recebendo o aumento do rastreamento do Googlebot Smartphone, indicando que ele foi alternado para o primeiro índice móvel . A partir de 1º de julho de 2019, a indexação para dispositivos móveis é ativada por padrão para todos os novos sites (novos na Web ou anteriormente desconhecidos na Pesquisa do Google). O próprio Google declarou:

“Para sites mais antigos ou existentes, continuamos a monitorar e avaliar as páginas com base nas melhores práticas detalhadas neste guia. Informamos os proprietários do site no Search Console da data em que o site foi alternado para a indexação inicial para dispositivos móveis. ” Melhores práticas de indexação do Google Mobile - primeiro

Normalmente, um site ainda no índice regular terá cerca de 80% do rastreamento do Google feito pelo rastreador de desktop e 20% pelo mobile. É mais provável que você tenha mudado para celular primeiro e, se tiver, esses números 80/20 serão revertidos.

Você pode encontrar essas informações na guia Agentes do usuário no Screaming Frog Log Analyzer - você deve ver a maioria dos eventos vindos do Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, como Gecko) Chrome / 41.0.2272.96 Mobile Safari / 537.36 (compatível; Googlebot / 2.1; + http: //www.google.com/bot.html:

análise de arquivo de log para seo
Se você foi alternado, também deveria ter recebido uma notificação no Google Search Console de que seu site teve a indexação em dispositivos móveis ativada. Como alternativa, você também pode ver isso no relatório de cobertura .

relatório de cobertura do console de pesquisa do google
4. Todos os seus robôs direcionados para mecanismos de pesquisa estão acessando suas páginas?
Ficar com bots, é uma verificação fácil de executar. Sabemos que o Google é o mecanismo de pesquisa dominante e, portanto, garantir que o Googlebot Smartphone e o Googlebot visitem regularmente seu site deve ser sua prioridade. 

Podemos filtrar os dados do arquivo de log pelo mecanismo de pesquisa bot.

análise de arquivo de log motor de busca bot
Depois de filtrado, você pode ver o número de eventos que cada um dos robôs de mecanismo de pesquisa desejados está gravando. Felizmente, você verá o Googlebot Smartphone ou o Googlebot visitando o seu site mais.

Eu também recomendo verificar quanto cada bot indesejado está visitando seu site. Por exemplo, se você é uma empresa britânica e não deseja vender bens ou serviços para a Rússia ou a China, pode ver quanto os bots Yandex e Baidu estão visitando seu site. Se eles estão visitando uma quantia incomum (eu já vi em alguns casos, mais do que o Googlebot Smartphone), você pode bloquear os rastreadores no seu robots.txt.

5. Detectando códigos de status incorretos
Embora recebamos uma tonelada de dados no relatório de cobertura do console de Pesquisa do Google sobre 404s, 200s válidos, os arquivos de log nos fornecem uma visão geral dos códigos de status de cada página. Somente os arquivos de log ou o envio manual da busca e renderização do Google Search Console podem permitir que você analise o último código de resposta que o mecanismo de pesquisa terá.

Com o seu Screaming Frog Log File Analyzer, você pode fazer isso rapidamente e, como eles são ordenados pela frequência de rastreamento, também é possível ver quais são os URLs potencialmente mais importantes a serem corrigidos.

Para ver esses dados, você pode filtrar essas informações na guia códigos de resposta

códigos de status incorretos
Procure páginas com status HTTP 3xx, 4xx e 5xx

Eles estão sendo visitados com frequência?
As páginas com 3xx, 4xx e 5xx estão sendo visitadas mais do que suas páginas importantes?
Existem padrões para os códigos de resposta?
Em um projeto, nas 15 principais páginas com mais acessos, houve redirecionamentos , redirecionamento 302 (temporário) incorreto, páginas sem conteúdo e algumas delas 404s e 404s flexíveis .

Com sua análise do arquivo de log, depois de identificar o problema, você pode começar a corrigi-lo atualizando redirecionamentos incorretos e 404s flexíveis.

6. Destaque códigos de resposta inconsistentes
Embora seja importante analisar o último código de resposta que o mecanismo de pesquisa terá, destacar os códigos de resposta inconsistentes também pode fornecer uma ótima visão.

Se você analisou apenas os últimos códigos de resposta e não viu erros incomuns ou picos em 4xxs e 5xxs, poderá concluir suas verificações técnicas lá. No entanto, você pode usar um filtro no analisador de arquivos de log para visualizar apenas respostas 'inconsistentes' em detalhes.

códigos de resposta inconsistentes
Há muitos motivos pelos quais seus URLs podem ter códigos de resposta inconsistentes. Por exemplo:

5xx misturado com 2xx - isso pode apontar para um problema no servidor quando eles estão sob uma carga severa.
4xx misturado com 2xx - isso pode apontar para links quebrados que apareceram ou foram corrigidos
Depois de ter essas informações disponíveis em sua análise do arquivo de log, é possível criar seu plano de ação para corrigir esses erros.

7. Auditar páginas grandes ou lentas
Sabemos que o tempo até o primeiro byte (TTFB), o tempo até o último byte (TTLB) e o tempo até o carregamento da página inteira influenciam o modo como o site é rastreado. O TTFB, em particular, é fundamental para fazer o rastreamento do site de maneira rápida e eficaz. Com a velocidade da página também sendo um fator de classificação, podemos ver o quão crucial é um site rápido para o seu desempenho.

Usando arquivos de log, podemos ver rapidamente as maiores páginas do seu site e as mais lentas.

Para visualizar suas páginas maiores, classifique a coluna 'Média de bytes'.

páginas lentas do arquivo de log
Aqui podemos ver os PDFs que compõem as maiores páginas do site. Otimizar e reduzir seu tamanho é um ótimo lugar para começar. Se você vir páginas específicas exibidas aqui, convém vê-las individualmente.

Eles são cobertos com imagens de alta resolução?
Eles têm reprodução automática de vídeos?
Eles têm fontes personalizadas desnecessárias?
A compactação de texto foi ativada?
Embora o tamanho da página seja um bom indicador de uma página lenta, não é tudo. Você pode ter uma página grande, mas ela pode carregar rapidamente. Classifique a coluna "Tempo médio de resposta" e poderá ver os URLs com o menor tempo de resposta.

Como com todos os dados que você vê aqui, você pode filtrar por HTML, JavaScript, Imagem, CSS e muito mais, o que é realmente útil para sua auditoria.

Talvez seu objetivo seja reduzir a dependência de JavaScript do seu site e queira identificar os maiores culpados. Ou você sabe que o CSS pode ser otimizado e precisa dos dados para fazer o backup. Seu site pode carregar no ritmo de uma lesma e a filtragem por imagens demonstra que servir os formatos de próxima geração deve ser uma prioridade.

8. Verifique a importância dos links internos e da profundidade de rastreamento
Outro ótimo recurso desse analisador de arquivos de log é a capacidade de importar um rastreamento do site. É realmente fácil de fazer e oferece muito mais flexibilidade no que você pode analisar a partir de seus arquivos de log. Basta arrastar e soltar o rastreamento nos "Dados do URL importados" vistos abaixo.

importar rastreamento para o analisador de arquivos de log
Depois de fazer isso, você pode fazer uma análise mais aprofundada. 

análise de link interno
Certifique-se de selecionar no menu suspenso "Corresponde aos dados do URL" e arraste as colunas relevantes para exibição. Aqui, podemos fazer uma análise em massa do impacto da profundidade e dos inlinks do rastreamento na frequência de rastreamento do seu site.

Por exemplo, se você tem páginas 'importantes' que não são rastreadas com frequência e você vê que elas têm muito poucos links e a profundidade do rastreamento é superior a 3, é mais provável que isso ocorra porque a página não está sendo rastreada muito. Por outro lado, se você tem uma página que está sendo rastreada muito e não sabe ao certo o motivo, verifique onde ela fica no seu site. Onde está ligado? A que distância está da raiz? Analisar isso pode indicar o que o Google gosta na estrutura do seu site. Por fim, essa técnica pode ajudá-lo a identificar quaisquer problemas com a hierarquia e a estrutura do site.

Comentários

Postagens mais visitadas