Pessoal, bom dia.
Alguém conhece alguma forma / produto que leia PDF e permita a extração de dados?
Gostaria de ler esse tipo de arquivo “como se fosse um arquivo texto” recuperando algumas informações importantes e gerando um arquivo de saida TXT, por exemplo (lembrando que pode ser um produto de mercado).
Abraços!
Opa,
cara tem diversas API´s que você pode utilizar para trabalhar com PDF.
Uma delas é o PDFBOX, que você pode encontrar no link abaixo:
http://pdfbox.apache.org/
Com esta API, é muito fácil você começar a trabalhar com PDF nela. entre suas características informadas abaixo estão:
Features
- PDF to text extraction
- Merge PDF Documents
- PDF Document Encryption/Decryption
- Lucene Search Engine Integration
- Fill in form data FDF and XFDF
- Create a PDF from a text file
- Create images from PDF pages
- Print a PDF
Sobre um produto comercial, o que você fazer de útil ao ler um arquivo PDF pode sim, virar um produto de mercado. Agora, no meu ver, a sua necessidade em ler um arquivo PDF e gerar um TXT, nada mais é do que a mais pura sintaxe inicial e óbvia de utilizações de componentes em Java.
Espero ter ajudado.