Como identificar “URL’s Not Crawlable” ou URL’s não rastreáveis?

How Can We Help?

Como identificar “URL’s Not Crawlable” ou URL’s não rastreáveis?

Como identificar “URL’s Not Crawlable” ou URL’s não rastreáveis?

 

Definições básicas

Rastreador / (Crawler): um rastreador é um serviço ou um agente que rastreia sites. De modo geral, um rastreador acessa automática e recursivamente URLs conhecidos de um domínio que expõe conteúdo que pode ser acessado com navegadores padrão da Web. À medida que novos URLs são encontrados (por vários meios, como a partir de links em páginas existentes e rastreadas ou de arquivos do Sitemap), eles também são rastreados da mesma forma.

User Agent: um meio de identificar um rastreador específico ou um conjunto de rastreadores.
Diretivas: a lista de diretrizes aplicáveis a um rastreador ou um grupo de rastreadores estabelecidos no arquivo robots.txt.

Localização do arquivo robots.txt

O arquivo robots.txt deve estar no diretório de nível superior do host (http://www.publya.com/robots.txt), podendo ser acessado por meio do protocolo e número de porta adequado. Geralmente, os protocolos aceitos para o robots.txt (e para o rastreamento de sites) são “http” e “https”.
Observação: o URL do arquivo robots.txt faz distinção entre maiúsculas e minúsculas, como outros URLs.

Diretório indisponível

Se na consulta da URL o resultado for algum dos erros abaixo, significa que o rastreador não conseguiu localizar o diretório e por isso não fica disponível para a análise das ad exchanges.
• 401 Não autorizado
• 403 Proibido
• 404 Não encontrado
• 503 Serviço indisponível

Formato de arquivo

Os elementos válidos na descrição do arquivo, são:
user-agent: Especifica o rastreador autorizado a acessar o diretório.
disallow: Especifica caminhos que não devem ser acessados pelos rastreadores designados.
Allow: Especifica caminhos que podem ser acessados pelos rastreadores designados.
Sitemap: Arquivo ou URL de índice com o mapa do site, contendo todas as páginas do determinado domínio.

Exemplos de uso dos diretórios robots.txt

Portal Terra
https://www.terra.com.br/robots.txt
User-agent: * (definição de autorização para todos os rastreadores.)
Disallow: /lite/ (definição de caminhos que não estão autorizados para rastreamento. Ex: https://terra.com.br/lite/admin não será rastreável.)

Portal Globo.com
http://globo.com/robots.txt
User-Agent: * (definição de autorização para todos os rastreadores.)
Disallow: /beta/ (definição de caminhos que não estão autorizados para rastreamento. Ex: https://globo.com/beta/admin não será rastreável.)
Sitemap: http://www.globo.com/sitemap-image.xml (link com a lista de caminhos do portal.)

Como usar a metatag robots

A metatag robots permite que você utilize uma abordagem granular e específica em cada página para controlar como uma página individual deve ser indexada e veiculada para os usuários nos resultados da pesquisa.
Posicione a metatag robots na seção <head> de uma determinada página assim:
<!DOCTYPE html>
<html><head>
<meta name=”robots” content=”noindex, nofollow” />
(…)
</head>
<body>(…)</body>
</html>

A metatag robots do exemplo acima instrui todos os mecanismos de pesquisa a não mostrar a página nos resultados da pesquisa e não rastrear quaisquer links na página. O valor do atributo name (robots) especifica que as diretivas (noindex e nofollow) seja aplicada a todos os rastreadores. Para autorizar o rastreamento e indexação nos resultados de pesquisa, posicione a metatag robots na seção <head> de uma determinada página assim:

<!DOCTYPE html>
<html><head>
<meta name=”robots” content=”index, follow” />
(…)
</head>
<body>(…)</body>
</html>

O exemplo acima autoriza os mecanismos de pesquisa a mostrar a página nos resultados de pesquisa e rastrear os link’s da página.

Referências:
https://developers.google.com/search/reference/robots_txt?hl=pt-br#top_of_page
https://developers.google.com/search/reference/robots_meta_tag?hl=pt-br