Extrair títulos documentos

olá para todos,

preciso de alguma sugestão de vcs do forum sobre uma biblioteca que tenha a capacidade de extraír informações de documentos estruturados (eu necessíto do título dos documentos), utilizarei pra extrair títulos de documentos .pdf, .doc, .ppt, .odt, .html, entre outros… agradeço por sugestões…

obrigado,

(cos30@walla.com)

vc pode trabalhar com manipulacao de arquivos, se nao me engano tem a biblioteca iofile, alguma coisa assim, nela existe metodos para extrair essas informacoes.

vlws

“Entre outros” complica bastante ;D

Bom vamos listar:
PDF: http://www.pdfbox.org/userguide/index.html
DOC (até 2003): http://poi.apache.org/hwpf/index.html
PPT: http://poi.apache.org/hslf/quick-guide.html
HTML: qualquer biblioteca de manipulação de XML serve. Para só extrair o conteúdo da tag “title” é fácil.

é… esse “entre outros” foi foda mesmo, desculpe!! mas valew mesmo pela respostas!!!