Extração de Documentos de sites, Indexação e busca

Olá, estou precisando desenvolver um sistema parecido com um motor de busca, para pesquisar por exemplo todo documento que tiver presente a palavra “contratação direta”, explicando melhor, estou precisando indexar os arquivos do diário oficial do estado (“http://www.tjma.jus.br/inicio/diario”) , todos os diários estão abaixo desta url, por exemplo (“http://www3.tjma.jus.br/diario/diarios/diario_21112016_112642_213.pdf.pdf”) vai me retornar um arquivo pdf, então eu teria que acessar todos os diretórios abaixo de “http://www.tjma.jus.br/inicio/diario”, ler os arquivos pdf, extrair o texto e criar os índices com o Apache Lucene, a questão é, como posso acesar os arquivos pdfs deste diretório?

vc quer baixar todos os PDFs ou dado que vc tem TODOS, vc quer indexar?

o wget ( popular comando do linux ) tem uma opção --mirror que baixa tudo o que ele puder encontrar.

Olá peczenyj, o objetivo final mesmo é indexar este conteúdo para possibilitar a busca por algumas palavras chaves, para tal tarefa vou utilizar o Apache Lucene. Fazer o download dos arquivos ou fazer a extração do texto online nem é tão difícil, o problema mesmo é pegar esses arquivos de dentro de uma url, os arquivos que quero indexar seguem um padrão de ur por exemplol:

http://site.tce.ma.gov.br/DOE/2016/11/diario01_11_2016.pdf
http://site.tce.ma.gov.br/DOE/2016/11/diario04_11_2016.pdf

ou seja, preciso de uma forma de indexar todos os pdfs abaixo da url http://site.tce.ma.gov.br/DOE/

essa é minha dificuldade, fazer isso e com Java por cima, mas vou dar uma olhada no wget, obrigado