segunda-feira, 12 de setembro de 2022

Como funcionam os mecanismos de pesquisa

 Por: David Tang

Um mecanismo de busca funciona, na seguinte ordem: 1) Rastreamento; 2) Deep Crawling Depth-first search (DFS); 3) Fresh Crawling Breadth-first search (BFS); 4) Indexação; 5) Pesquisando.

Os mecanismos de pesquisa da Web funcionam armazenando informações sobre um grande número de páginas da Web, que recuperam da própria WWW. Essas páginas são recuperadas por um rastreador da web (também conhecido como aranha) - um navegador da web automatizado que segue todos os links que vê, as exclusões podem ser feitas pelo uso de robots.txt. O conteúdo de cada página é então analisado para determinar como deve ser indexado. Os dados sobre as páginas da Web são armazenados em um banco de dados de índice para uso em consultas posteriores. Alguns mecanismos de busca, como o Google, armazenam toda ou parte da página de origem (chamada de cache), bem como informações sobre as páginas da Web, enquanto alguns armazenam todas as palavras de todas as páginas encontradas, como o AltaVista. Esta página em cache sempre mantém o texto de pesquisa real, pois é o que foi realmente indexado, por isso pode ser muito útil quando o conteúdo da página atual foi atualizado e os termos de pesquisa não estão mais nela. Esse problema pode ser considerado uma forma leve de linkrot, e a manipulação do Google aumenta a usabilidade ao satisfazer as expectativas do usuário de que os termos de pesquisa estarão na página da web retornada. Isso satisfaz o princípio do menor espanto, pois o usuário normalmente espera que os termos de pesquisa estejam nas páginas retornadas. O aumento da relevância da pesquisa torna essas páginas armazenadas em cache muito úteis, mesmo além do fato de poderem conter dados que podem não estar mais disponíveis em outros lugares. Isso satisfaz o princípio do menor espanto, pois o usuário normalmente espera que os termos de pesquisa estejam nas páginas retornadas. O aumento da relevância da pesquisa torna essas páginas armazenadas em cache muito úteis, mesmo além do fato de poderem conter dados que podem não estar mais disponíveis em outros lugares. Isso satisfaz o princípio do menor espanto, pois o usuário normalmente espera que os termos de pesquisa estejam nas páginas retornadas. O aumento da relevância da pesquisa torna essas páginas armazenadas em cache muito úteis, mesmo além do fato de poderem conter dados que podem não estar mais disponíveis em outros lugares.



Quando um usuário acessa o mecanismo de pesquisa e faz uma consulta, geralmente fornecendo palavras-chave, o mecanismo pesquisa o índice e fornece uma lista das páginas da Web que melhor correspondem de acordo com seus critérios, geralmente com um breve resumo contendo o título do documento e, às vezes, partes do texto. A maioria dos mecanismos de pesquisa suporta o uso dos termos booleanos AND, OR e NOT para especificar melhor a consulta de pesquisa. Um recurso avançado é a busca por proximidade, que permite definir a distância entre palavras-chave.

A utilidade de um motor de busca depende da relevância dos resultados que devolve. Embora possa haver milhões de páginas da Web que incluem uma palavra ou frase específica, algumas páginas podem ser mais relevantes, populares ou autorizadas do que outras. A maioria dos mecanismos de pesquisa emprega métodos para classificar os resultados para fornecer os "melhores" resultados primeiro. Como um mecanismo de pesquisa decide quais páginas são as melhores correspondências e em que ordem os resultados devem ser exibidos varia muito de um mecanismo para outro. Os métodos também mudam com o tempo, à medida que o uso da Internet muda e novas técnicas evoluem.

A maioria dos mecanismos de busca na web são empreendimentos comerciais apoiados por receita de publicidade e, como resultado, alguns empregam a prática controversa de permitir que os anunciantes paguem dinheiro para que suas listagens tenham uma classificação mais alta nos resultados de pesquisa.

A grande maioria dos mecanismos de busca são executados por empresas privadas usando algoritmos proprietários e bancos de dados fechados, sendo os mais populares atualmente o Google, o MSN Search e o Yahoo! Procurar. No entanto, a tecnologia de mecanismo de pesquisa de código aberto existe, como Dig, Nutch, Senas, Egothor, OpenFTS, DataparkSearch e muitos outros.

Fonte do artigo: http://www.ArticleGeek.com - Conteúdo do site gratuito e https://www.activesearchresults.com/articles/how_search_engines_work.php

Nenhum comentário:

Postar um comentário