Web crawler automático (varrer qualquer site)

Olá galera, tudo bem?

Ando pesquisando sobre Web Spider, Scraping e Crawler. Todos os exemplos e documentação que encontro o site alvo é setado no código.

Existe alguma biblioteca para a busca ser feita em qualquer site, digo, varrer a internet sem setar o site manualmente. Há como fazer isso?

Preciso só da biblioteca ou o meio para fazer isso. Não quero código pronto.

Grato!

Cara eu to louco pra comprar esse livro

Nele vi o sumário, fala sobre uma lib chamada BeautifulSoup, talvez te ajude…

1 curtida

Muito boa sua colocação!

Eu já estou estudando BeautifulSoup pela documentação da própria lib (https://www.crummy.com/software/BeautifulSoup/bs4/doc/) que diga-se de passagem é excelente! Mas ela, como a própria documentação fala, serve para extrair dados de arquivos HTML e XML. Ou seja manipular a resposta da requisição. Para isso ela é excelente e cumpre o que promete.

Mas o que desejo é: pode fazer uma requisição ao site A e depois ao B, C, D, E, F… Mapear a web site a site. Eu sei que tem uma maneira de fazer isso meio rudimentar, eu diria, que é usando expressões regulares. Mas se tivesse uma maneira de varrer todos os ips/domínios da internet seria ótimo!

Uma boa notícia rs
Acabei lendo um trecho do livro que está no google books. E sim, acho que o livro vai matar minha curiosidade. Vou comprá-lo hoje mesmo! haha

Se quiser degustar: Web Scraping com Python

1 curtida

Já viu o Scrapy

nunca usei mais parece bom
pra coisas mais complexas tipo varrer um site todo.

1 curtida

Já vi. E vou usá-lo em meus projetos.
O que eu queria exatamente era fazer um robô autônomo que não precisasse que o site a ser varrido fosse setado manualmente no código e sim ele pudesse acessar todos os sites da internet como o do google faz. E pelo que me parece o livro acima tem essa informação.

Abraço!