O protocolo Robots.txt, também chamado de "padrão de exclusão de robôs", foi projetado para impedir que os web spiders acessem parte de um site. É uma medida de segurança ou privacidade, o equivalente a pendurar uma placa de "Mantenha-se afastado" na porta.
Este protocolo é usado por administradores de sites quando há seções ou arquivos que eles preferem não ser acessados pelo resto do mundo. Isso pode incluir listas de funcionários ou arquivos que estão circulando internamente. Por exemplo, o site da Casa Branca usa o arquivo robots.txt para bloquear qualquer inquérito sobre discursos do vice-presidente, um ensaio fotográfico da primeira-dama e perfis das 911 vítimas.
Como funciona o protocolo? Ele lista os arquivos que não devem ser verificados e os coloca no diretório de nível superior do site. O protocolo do robots.txt foi criado por consenso em junho de 1994 por membros da lista de discussão de robôs (robots-request@nexor.co.uk). Não há um órgão de padrões oficial ou RFC para o protocolo, portanto é difícil legislar ou exigir que o protocolo seja seguido. Na verdade, o arquivo é tratado como estritamente consultivo e não tem garantia absoluta de que esse conteúdo não será lido.
Com efeito, o robots.txt requer a cooperação do web spider e até do leitor, uma vez que tudo o que é carregado na Internet torna-se publicamente disponível. Você não está bloqueando o acesso a essas páginas, está apenas tornando mais difícil para eles entrarem. Mas leva muito pouco para eles ignorarem essas instruções. Os hackers de computador também podem facilmente penetrar nos arquivos e recuperar informações. Portanto, a regra é: se for tão delicado, não deveria estar no seu site para começar.
No entanto, deve-se tomar cuidado para garantir que o protocolo Robots.txt não bloqueie os robôs do site de outras áreas do site. Isso afetará drasticamente a classificação do seu mecanismo de pesquisa, pois os rastreadores contam com os robôs para contar as palavras-chave, revisar metatags, títulos e cruzamentos e até mesmo registrar os hiperlinks.
Um hífen ou travessão mal colocado pode ter efeitos catastróficos. Por exemplo, os padrões do robots.txt são combinados por comparações de substring simples, portanto, deve-se tomar cuidado para garantir que os padrões que correspondem aos diretórios tenham o caractere final '/' anexado: caso contrário, todos os arquivos com nomes começando com essa substring corresponderão, em vez apenas aqueles no diretório pretendido.
Para evitar esses problemas, considere enviar seu site a um simulador de mecanismo de pesquisa, também chamado de simulador de robô de mecanismo de pesquisa. Esses simuladores - que podem ser comprados ou baixados da internet - usam os mesmos processos e estratégias de diferentes mecanismos de busca e fornecem uma "simulação" de como eles lerão seu site. Eles dirão quais páginas foram ignoradas, quais links foram ignorados e quais erros foram encontrados. Uma vez que os simuladores também irão reencenar como os bots seguirão seus hiperlinks, você verá se o protocolo robots.txt está interferindo na capacidade do mecanismo de pesquisa de ler todas as páginas necessárias.
Também é importante revisar seus arquivos robots.txt, o que permitirá que você identifique quaisquer problemas e os corrija antes de enviá-los para mecanismos de pesquisa reais.
Autor Bio
XML-Sitemaps.com fornece ferramentas online gratuitas para webmasters, incluindo um simulador de pesquisa de aranha e um validador XML de mapas de sites do Google.
Fonte do artigo: http://www.ArticleGeek.com - Conteúdo de site gratuito
Fonte: https://www.activesearchresults.com/articles/320-robocops.php
Nenhum comentário:
Postar um comentário