Extrair títulos documentos

3 respostas
cos30

olá para todos,

preciso de alguma sugestão de vcs do forum sobre uma biblioteca que tenha a capacidade de extraír informações de documentos estruturados (eu necessíto do título dos documentos), utilizarei pra extrair títulos de documentos .pdf, .doc, .ppt, .odt, .html, entre outros… agradeço por sugestões…

obrigado,

([email removido])

3 Respostas

G

vc pode trabalhar com manipulacao de arquivos, se nao me engano tem a biblioteca iofile, alguma coisa assim, nela existe metodos para extrair essas informacoes.

vlws

_fs

“Entre outros” complica bastante ;D

Bom vamos listar:
PDF: http://www.pdfbox.org/userguide/index.html
DOC (até 2003): http://poi.apache.org/hwpf/index.html
PPT: http://poi.apache.org/hslf/quick-guide.html
HTML: qualquer biblioteca de manipulação de XML serve. Para só extrair o conteúdo da tag “title” é fácil.

cos30

é… esse “entre outros” foi foda mesmo, desculpe!! mas valew mesmo pela respostas!!!

Criado 7 de abril de 2008
Ultima resposta 7 de abr. de 2008
Respostas 3
Participantes 3