Análise de Texto Estruturada (Parsing) - *.pdf | Retirar dados estruturados de arquivos PDF

Boa tarde pessoal,

Preciso de uma ajuda.

Tenho um projeto que preciso transformar diversos (mais de 30.000) arquivos PDF em um banco de dados estruturado, onde preciso extrair as informações. Já tentei alguns serviços, como por exemplo docparser.com, mas não tive o resultado desejado, não pela complexidade dos dados, mas sim pela grande quantidade de exceções.

Vocês conhecem alguma ferramente para este tipo de extração?

Obrigado e abraços a todos!

Guilherme

Se tiver conhecimento em programação, usando por exemplo C# com a lib iTextSharp poderá ter controle de tudo.

1 curtida