Extrair títulos documentos

Question

olá para todos,

preciso de alguma sugestão de vcs do forum sobre uma biblioteca que tenha a capacidade de extraír informações de documentos estruturados (eu necessíto do título dos documentos), utilizarei pra extrair títulos de documentos .pdf, .doc, .ppt, .odt, .html, entre outros… agradeço por sugestões…

obrigado,

([email removido])

gzofera · Answer

vc pode trabalhar com manipulacao de arquivos, se nao me engano tem a biblioteca iofile, alguma coisa assim, nela existe metodos para extrair essas informacoes. vlws

_fs · Answer

“Entre outros” complica bastante ;D

Bom vamos listar:
PDF: http://www.pdfbox.org/userguide/index.html
DOC (até 2003): http://poi.apache.org/hwpf/index.html
PPT: http://poi.apache.org/hslf/quick-guide.html
HTML: qualquer biblioteca de manipulação de XML serve. Para só extrair o conteúdo da tag “title” é fácil.

cos30 · Answer

é… esse “entre outros” foi foda mesmo, desculpe!! mas valew mesmo pela respostas!!!

3 Respostas

Topicos relacionados