quarta-feira, 18 de novembro de 2020

Robocops

 


O protocolo Robots.txt, também chamado de "padrão de exclusão de robôs", foi projetado para impedir que os web spiders acessem parte de um site. É uma medida de segurança ou privacidade, o equivalente a pendurar uma placa de "Mantenha-se afastado" na porta.

Este protocolo é usado por administradores de sites quando há seções ou arquivos que eles preferem não ser acessados ​​pelo resto do mundo. Isso pode incluir listas de funcionários ou arquivos que estão circulando internamente. Por exemplo, o site da Casa Branca usa o arquivo robots.txt para bloquear qualquer inquérito sobre discursos do vice-presidente, um ensaio fotográfico da primeira-dama e perfis das 911 vítimas.

Como funciona o protocolo? Ele lista os arquivos que não devem ser verificados e os coloca no diretório de nível superior do site. O protocolo do robots.txt foi criado por consenso em junho de 1994 por membros da lista de discussão de robôs (robots-request@nexor.co.uk). Não há um órgão de padrões oficial ou RFC para o protocolo, portanto é difícil legislar ou exigir que o protocolo seja seguido. Na verdade, o arquivo é tratado como estritamente consultivo e não tem garantia absoluta de que esse conteúdo não será lido.

Com efeito, o robots.txt requer a cooperação do web spider e até do leitor, uma vez que tudo o que é carregado na Internet torna-se publicamente disponível. Você não está bloqueando o acesso a essas páginas, está apenas tornando mais difícil para eles entrarem. Mas leva muito pouco para eles ignorarem essas instruções. Os hackers de computador também podem facilmente penetrar nos arquivos e recuperar informações. Portanto, a regra é: se for tão delicado, não deveria estar no seu site para começar.

No entanto, deve-se tomar cuidado para garantir que o protocolo Robots.txt não bloqueie os robôs do site de outras áreas do site. Isso afetará drasticamente a classificação do seu mecanismo de pesquisa, pois os rastreadores contam com os robôs para contar as palavras-chave, revisar metatags, títulos e cruzamentos e até mesmo registrar os hiperlinks.


Um hífen ou travessão mal colocado pode ter efeitos catastróficos. Por exemplo, os padrões do robots.txt são combinados por comparações de substring simples, portanto, deve-se tomar cuidado para garantir que os padrões que correspondem aos diretórios tenham o caractere final '/' anexado: caso contrário, todos os arquivos com nomes começando com essa substring corresponderão, em vez apenas aqueles no diretório pretendido.

Para evitar esses problemas, considere enviar seu site a um simulador de mecanismo de pesquisa, também chamado de simulador de robô de mecanismo de pesquisa. Esses simuladores - que podem ser comprados ou baixados da internet - usam os mesmos processos e estratégias de diferentes mecanismos de busca e fornecem uma "simulação" de como eles lerão seu site. Eles dirão quais páginas foram ignoradas, quais links foram ignorados e quais erros foram encontrados. Uma vez que os simuladores também irão reencenar como os bots seguirão seus hiperlinks, você verá se o protocolo robots.txt está interferindo na capacidade do mecanismo de pesquisa de ler todas as páginas necessárias.

Também é importante revisar seus arquivos robots.txt, o que permitirá que você identifique quaisquer problemas e os corrija antes de enviá-los para mecanismos de pesquisa reais.

Autor Bio

XML-Sitemaps.com fornece ferramentas online gratuitas para webmasters, incluindo um simulador de pesquisa de aranha e um validador XML de mapas de sites do Google.

Fonte do artigo: http://www.ArticleGeek.com - Conteúdo de site gratuito

Fonte: https://www.activesearchresults.com/articles/320-robocops.php

Nenhum comentário:

Postar um comentário