Extrair dados de PDF

Pessoal, bom dia.

Alguém conhece alguma forma / produto que leia PDF e permita a extração de dados?
Gostaria de ler esse tipo de arquivo “como se fosse um arquivo texto” recuperando algumas informações importantes e gerando um arquivo de saida TXT, por exemplo (lembrando que pode ser um produto de mercado).

Abraços!

Opa,

cara tem diversas API´s que você pode utilizar para trabalhar com PDF.
Uma delas é o PDFBOX, que você pode encontrar no link abaixo:

http://pdfbox.apache.org/

Com esta API, é muito fácil você começar a trabalhar com PDF nela. entre suas características informadas abaixo estão:

Features

  • PDF to text extraction
  • Merge PDF Documents
  • PDF Document Encryption/Decryption
  • Lucene Search Engine Integration
  • Fill in form data FDF and XFDF
  • Create a PDF from a text file
  • Create images from PDF pages
  • Print a PDF

Sobre um produto comercial, o que você fazer de útil ao ler um arquivo PDF pode sim, virar um produto de mercado. Agora, no meu ver, a sua necessidade em ler um arquivo PDF e gerar um TXT, nada mais é do que a mais pura sintaxe inicial e óbvia de utilizações de componentes em Java.

Espero ter ajudado.