Indicação de Livro para começar com Web-Crawlers

Preciso construir uma aplicação em jsp, que todos os dias, em um horário que o usuario escolha.
Vá na url de um site e baixe todos os arquivos em pdf desse site, para então, procurar nos arquivos alguma coisa ( como nomes , emails … ).

Alguem pode me indicar um bom livro (de preferência em JAVA) para construir uma aplicação do tipo ?
Fiz uma pesquisa no Amazon, mas só saiu livros para ensinar web semântica :cry:

Cara, isso aí não vejo um livro que teria isso especificamente.

Você poderia deixar que o usuário configurasse o serviço, esse serviço agendado seria ativado pelo QUARTZ por exemplo.

O download você pode fazer com API nativa do java ou apache commons.

jakefrog

Primeiramente, obrigado pelo tempo cara.

Nao precisa ser um livro focado no tema, pois até agora o que eu encontro são livros com sistemas de busca, web semântica, data mining … .
Como nunca precisei fazer uma aplicação do tipo estou pegando alguns livros para poder entender a teoria.

Até agora o que eu tenho é :

Um livro de expressões regulares.
Acabei de conseguir um agendador de tarefas :lol:

o que eu estou pensando em fazer é o seguinte :

Pegar o codigo html do site usando a api java
Com o codigo html do site em maos eu faria uma busca por qualquer link que terminasse em .pdf e dai abriria essa url.

O que eu ainda nao sei é se este é o melhor jeito de fazer o programa. (por isso gostaria de alguns livros para entender como funciona um web crawler )
E se ja existe na API java alguma forma de baixar o arquivo PDF e coloca-lo em uma pasta especifica e depois converte-lo para texto,
ou se sou obrigado a ler o arquivo pdf direto da url e converte-lo para texto.

[quote=fcf]jakefrog

Primeiramente, obrigado pelo tempo cara.

Nao precisa ser um livro focado no tema, pois até agora o que eu encontro são livros com sistemas de busca, web semântica, data mining … .
Como nunca precisei fazer uma aplicação do tipo estou pegando alguns livros para poder entender a teoria.

Até agora o que eu tenho é :

Um livro de expressões regulares.
Acabei de conseguir um agendador de tarefas :lol:

o que eu estou pensando em fazer é o seguinte :

Pegar o codigo html do site usando a api java
Com o codigo html do site em maos eu faria uma busca por qualquer link que terminasse em .pdf e dai abriria essa url.

O que eu ainda nao sei é se este é o melhor jeito de fazer o programa. (por isso gostaria de alguns livros para entender como funciona um web crawler )
E se ja existe na API java alguma forma de baixar o arquivo PDF e coloca-lo em uma pasta especifica e depois converte-lo para texto,
ou se sou obrigado a ler o arquivo pdf direto da url e converte-lo para texto.[/quote]

mas tem que ser desse jeito, olhando em uma página web se existe algum link para um arquivo pdf? Caso sim, você pode usar uma api no próprio jdk para fazer requisições http, basicamente centralizada na classe UrlConnection, ou um framework chamado HttpClient.

Caso não precise, necessariamente, ser deste jeito e você tenha permissão por exemplo para abrir um ftp para um endereço onde os arquivos iriam, ou uma pasta compartilhada na rede por exemplo, fica mais simples de se verificar se existem novos arquivos a serem baixados…