estou a 2 dias pesquisando no google uma api pra ler arquivos do broffice por exemplo odt, mas não acho nada que me agrade, encontrei um tal de JOpenDocument e ODFDom mas ambos parecem ser pra criar arquivos, o contrário do que eu preciso. Quero alguma ferramenta parecida com Apache-POI para arquivos do ms office.
Alguém aqui ja se deparou com tal problema e encontrou soluçao, aguardo ajuda, desde já muito obrigado
[color=darkblue] Depende o tipo de arquivos que você deseja ler, por exemplo se você deja ler algum arquivo do tipo Excel, você terá que usar algo do tipo : [/color]
entao metaleiro a questão é que nós temos um aplicativo rodando na web que é acessado por leigos da empresa toda que enviam arquivos pro servidor por meio desse aplicativo. No momento nosso programa suporta os seguintes formatos xml, html, doc, pdf e xls.
Usando POI, JDOM, PDFBOX…
No entanto, existem pessoas que não salvam os arquivos no formato da ms e querem subir os arquivos pro servidor e nosso aplicativo ainda nao suporta formatos odf. A solução seria integrar ao sistema as extensoes comuns do openoffice também.
E bruno, ja encontrei esse link e estou estudando ele, mas com muito pouca esperança de me servir, eu precisava de algo que conseguisse extrair o texto de um arquivo odt por exemplo para que eu pudesse indexar esse conteudo com o uso de Lucene.
[quote=ramonpm]entao metaleiro a questão é que nós temos um aplicativo rodando na web que é acessado por leigos da empresa toda que enviam arquivos pro servidor por meio desse aplicativo. No momento nosso programa suporta os seguintes formatos xml, html, doc, pdf e xls.
Usando POI, JDOM, PDFBOX…
No entanto, existem pessoas que não salvam os arquivos no formato da ms e querem subir os arquivos pro servidor e nosso aplicativo ainda nao suporta formatos odf. A solução seria integrar ao sistema as extensoes comuns do openoffice também.
E bruno, ja encontrei esse link e estou estudando ele, mas com muito pouca esperança de me servir, eu precisava de algo que conseguisse extrair o texto de um arquivo odt por exemplo para que eu pudesse indexar esse conteudo com o uso de Lucene.[/quote]
[color=darkblue]Não sei se seria a melhor solução, mas nesse cenário seria bom pensar em outra solução, porque não converter os arquivos para formatos com maior facilidade de manipulação ? um exemplo:[/color]
[quote=Metaleiro][quote=ramonpm]entao metaleiro a questão é que nós temos um aplicativo rodando na web que é acessado por leigos da empresa toda que enviam arquivos pro servidor por meio desse aplicativo. No momento nosso programa suporta os seguintes formatos xml, html, doc, pdf e xls.
Usando POI, JDOM, PDFBOX…
No entanto, existem pessoas que não salvam os arquivos no formato da ms e querem subir os arquivos pro servidor e nosso aplicativo ainda nao suporta formatos odf. A solução seria integrar ao sistema as extensoes comuns do openoffice também.
E bruno, ja encontrei esse link e estou estudando ele, mas com muito pouca esperança de me servir, eu precisava de algo que conseguisse extrair o texto de um arquivo odt por exemplo para que eu pudesse indexar esse conteudo com o uso de Lucene.[/quote]
[color=darkblue]Não sei se seria a melhor solução, mas nesse cenário seria bom pensar em outra solução, porque não converter os arquivos para formatos com maior facilidade de manipulação ? um exemplo:[/color]
Ja tinha me deparado com isso também, então eu fui tentar usar uma biblioteca java que manipula xml, ai encontrei um grande problema: “é preciso informar nomes de raiz e filho para acessar um conteudo de um xml”.
Por causa disso não pude nem testar, pois imagine um arquivo odt com o seguinte texto “Texto para teste”, qual seria a raiz e o filho para esse exemplo ?
Ja tinha me deparado com isso também, então eu fui tentar usar uma biblioteca java que manipula xml, ai encontrei um grande problema: “é preciso informar nomes de raiz e filho para acessar um conteudo de um xml”.
Por causa disso não pude nem testar, pois imagine um arquivo odt com o seguinte texto “Texto para teste”, qual seria a raiz e o filho para esse exemplo ?[/quote]
[color=darkblue]Dê uma olhada aqui, usei uma vez, fiz exatamente esse processo, segui esse tutorial : [/color]
[color=darkblue] A idéia era tentar responder a isso, tenho exemplos de como fiz, mas acho que não vai poder te ajudar, mas se quiser envio mas é para .xls[/color]
[quote=ramonpm]entao metaleiro a questão é que nós temos um aplicativo rodando na web que é acessado por leigos da empresa toda que enviam arquivos pro servidor por meio desse aplicativo. No momento nosso programa suporta os seguintes formatos xml, html, doc, pdf e xls.
Usando POI, JDOM, PDFBOX…[/quote]
Use o Apache Tika que lê todos estes formatos (inclusive Open Documento do Open Office) de um jeito só. O Tika deve lançar ainda neste fim de semana a versão 0.4 (veja no mailing list que o lançamento já foi aprovado).
Para mim, o grande problema de quem pretende escarafunchar documentos para retirar informações para um índice do Lucene são os novos formatos de arquivo do Word. O Rian Ackley, que era o cara que fazia isto no POI, saiu do POI e deixou a coisa meio incompleta. Ele agora tem o projeto Text Mining mas que também ainda não parseia corretamente arquivos .docx
[quote=debug]pessoal estou com a mesma dificuldade
como posso ler um pdf dentro de um jpanel?
[/quote]
[color=darkblue]Não entendi bem o que você quer, mas no jasper existe o JasperViewer, que faz algo parecido com o que você quer, estou enviando um tópico que tem uma dúvida diferente do que você deseja, mas possui um código funcionando, dê uma olhada: [/color]
só para efeitos de esclarecimentos o que eu preciso he abrir um pdf dentro da minha aplicação desktop, de preferencia dentro do jpanel.
Por que desejo abrir dentro do jframe/jpanel?
Simplesmente porque teria um panel tabulado para quando abrir o jframe na verdade abriria 4 pdfs um em cada jpanel e o usuario selecionaria que deseja visualizar.