Indicação de Livro para começar com Web-Crawlers

20 de maio de 2012 3 respostas

fcf 20 de maio de 2012

Preciso construir uma aplicação em jsp, que todos os dias, em um horário que o usuario escolha.
Vá na url de um site e baixe todos os arquivos em pdf desse site, para então, procurar nos arquivos alguma coisa ( como nomes , emails … ).

Alguem pode me indicar um bom livro (de preferência em JAVA) para construir uma aplicação do tipo ?
Fiz uma pesquisa no Amazon, mas só saiu livros para ensinar web semântica …

3 Respostas

Hebert_Coelho 20 de mai. de 2012

Cara, isso aí não vejo um livro que teria isso especificamente.

Você poderia deixar que o usuário configurasse o serviço, esse serviço agendado seria ativado pelo QUARTZ por exemplo.

O download você pode fazer com API nativa do java ou apache commons.

fcf 20 de mai. de 2012

jakefrog

Primeiramente, obrigado pelo tempo cara.

Nao precisa ser um livro focado no tema, pois até agora o que eu encontro são livros com sistemas de busca, web semântica, data mining … .
Como nunca precisei fazer uma aplicação do tipo estou pegando alguns livros para poder entender a teoria.

Até agora o que eu tenho é :

Um livro de expressões regulares.
Acabei de conseguir um agendador de tarefas :lol:

o que eu estou pensando em fazer é o seguinte :

Pegar o codigo html do site usando a api java
Com o codigo html do site em maos eu faria uma busca por qualquer link que terminasse em .pdf e dai abriria essa url.

O que eu ainda nao sei é se este é o melhor jeito de fazer o programa. (por isso gostaria de alguns livros para entender como funciona um web crawler )
E se ja existe na API java alguma forma de baixar o arquivo PDF e coloca-lo em uma pasta especifica e depois converte-lo para texto,
ou se sou obrigado a ler o arquivo pdf direto da url e converte-lo para texto.

maior_abandonado 21 de mai. de 2012

fcf:
jakefrog

Primeiramente, obrigado pelo tempo cara.

Nao precisa ser um livro focado no tema, pois até agora o que eu encontro são livros com sistemas de busca, web semântica, data mining … .
Como nunca precisei fazer uma aplicação do tipo estou pegando alguns livros para poder entender a teoria.

Até agora o que eu tenho é :

Um livro de expressões regulares.
Acabei de conseguir um agendador de tarefas :lol:

o que eu estou pensando em fazer é o seguinte :

Pegar o codigo html do site usando a api java
Com o codigo html do site em maos eu faria uma busca por qualquer link que terminasse em .pdf e dai abriria essa url.

O que eu ainda nao sei é se este é o melhor jeito de fazer o programa. (por isso gostaria de alguns livros para entender como funciona um web crawler )
E se ja existe na API java alguma forma de baixar o arquivo PDF e coloca-lo em uma pasta especifica e depois converte-lo para texto,
ou se sou obrigado a ler o arquivo pdf direto da url e converte-lo para texto.

mas tem que ser desse jeito, olhando em uma página web se existe algum link para um arquivo pdf? Caso sim, você pode usar uma api no próprio jdk para fazer requisições http, basicamente centralizada na classe UrlConnection, ou um framework chamado HttpClient.

Caso não precise, necessariamente, ser deste jeito e você tenha permissão por exemplo para abrir um ftp para um endereço onde os arquivos iriam, ou uma pasta compartilhada na rede por exemplo, fica mais simples de se verificar se existem novos arquivos a serem baixados…

Criado 20 de maio de 2012

Ultima resposta 21 de mai. de 2012

Respostas 3

Participantes 3

3 Respostas

Topicos relacionados