Por: Philip Nicosia
O protocolo Robots.txt, também chamado de "robôs padrão de exclusão" é projetado para bloquear aranhas web acessem parte de um website. É uma medida de segurança ou privacidade, o equivalente a pendurar um sinal de "Keep Out" em sua porta. Este protocolo é usado pelos administradores do site da web quando há seções ou arquivos que eles preferem não ser acessados pelo resto do mundo. Isto poderia incluir listas de empregados, ou arquivos que estão circulando internamente. Por exemplo, o site da Casa Branca usa robots.txt para bloquear todos os inquéritos sobre discursos do Vice-Presidente, um ensaio fotográfico da Primeira Dama, e perfis das 911 vítimas. Como funciona o protocolo? Ele lista os arquivos que não devem ser verificadas, e coloca-lo no diretório de nível superior do site. O protocolo robots.txt foi criado por consenso em junho de 1994 por membros dos robôs lista (robots-request@nexor.co.uk) de discussão. Não há corpo de padrões oficial ou RFC para o protocolo, por isso é difícil legislar ou mandato que o protocolo ser seguido. Na verdade, o arquivo é tratado como estritamente consultivo, e não tem garantia absoluta de que esses conteúdos não será lido. Com efeito, robot.txt exige a cooperação pela aranha web e até mesmo o leitor, uma vez que tudo o que é enviado para o internet torna-se disponível ao público. Você não está bloqueando-os para fora dessas páginas, você está apenas tornando mais difícil para eles para entrar. Mas é preciso muito pouco para eles para ignorar estas instruções. Hackers de computador também pode penetrar facilmente os arquivos e recuperar informações. Portanto, a regra de ouro é-se é tão sensível, ele não deve ser em seu site para começar.
Cuidado, no entanto, devem ser tomadas para garantir que o protocolo Robots.txt não bloquear os robôs de sites de outras áreas do site. Isso vai afetar drasticamente o seu motor de busca ranking, como os indexadores contar com os robôs para contar as palavras-chave, revisão metatags, títulos e cruzetas, e até mesmo registrar o hyperlinks. Um hífen extraviado ou traço pode ter efeitos catastróficos. Por exemplo, os padrões robots.txt são acompanhadas por comparações substring simples, por isso deve ser tomado cuidado para se certificar de que os padrões de diretórios correspondentes têm o caractere final '/' anexados: caso contrário todos os arquivos com nomes que começam com essa substring irá corresponder, em vez de apenas aqueles no directório pretendido. para evitar esses problemas, considere submeter seu site para um simulador de motor de busca aranha, também chamado de motor de pesquisa robô simulador. Estes simuladores-que podem ser comprados ou baixados da internet- usar os mesmos processos e estratégias de diferentes motores de busca e dar-lhe um "funcionamento a seco" de como eles vão ler seu site. Eles vão te dizer quais páginas são ignorados, quais links são ignorados e que são encontrados erros. Uma vez que os simuladores também vai renovar a forma como os bots irá seguir os seus links, você verá se o seu protocolo de robot.txt está a interferir com a capacidade do motor de busca para ler todas as páginas necessárias. Também é importante rever seus arquivos robot.txt, que lhe permitirá detectar eventuais problemas e corrigi-los antes de submetê-los aos motores de busca reais.
Autor Bio
XML-Sitemaps.com fornece ferramentas online grátis para webmasters, incluindo um simulador de motor de busca aranha e um validador sitemaps XML Google.
Fonte do artigo: http://www.ArticleGeek.com - Free Website Content
Fonte: http://www.activesearchresults.com/articles/320-robocops.php
Nenhum comentário:
Postar um comentário