Pesquisa Lucene e indexação de conteúdo em documentos PDF

2 respostas
R

Viva pessoal,

Já coloquei esta questão em três fóruns oficiais de Alfresco, mas como até agora não obtive qualquer ajuda, talvez tenha mais sorte com o apoio dos inúmeros programadores que fazem parte desta comunidade. Peço desculpa pelo abuso da repetição da questão nos vários fóruns, mas tenho este problema profissional para resolver em muito pouco tempo. Espero que entendam e me possam ajudar.

Tenho obtido falhas em pesquisas Lucene de Alfresco sobre metadados, em diversos documentos PDF.

Para exemplo, fiz o upload de dois ficheiros para teste, com características idênticas (tamanho, motor de conversão PDF, programa que os converteu, versão do formato PDF, etc.). Estão ambos colocados no mesmo espaço.

Obtenho o seguinte nas pesquisas:

Search Language: lucene
Search: PATH:"/app:company_home/cm:Empresa/cm:EntradasPendentes/cm:Evora//*"

Results (2 rows)
Name Node Parent
actions-article.pdf workspace://SpacesStore/1e8a97a4-a7b7-4 … 08cd3b2fbc workspace://SpacesStore/d1822abb-4be2-4 … 602c2806f8
content-article.pdf workspace://SpacesStore/c724c44d-880b-4 … ca1b99dbe1 workspace://SpacesStore/d1822abb-4be2-4 … 602c2806f8


Search Language: lucene
Search: PATH:"/app:company_home/cm:Empresa/cm:EntradasPendentes/cm:Evora//*" AND ( TEXT:admin )

Results (1 rows)
Name Node Parent
content-article.pdf workspace://SpacesStore/c724c44d-880b-4 … ca1b99dbe1 workspace://SpacesStore/d1822abb-4be2-4 … 602c2806f8


Search Language: lucene
Search: PATH:"/app:company_home/cm:Empresa/cm:EntradasPendentes/cm:Evora//*" AND ( TEXT:admin )

Results (0 rows)
Name Node Parent


Note-se que ambos têm as propriedades:
{http://www.alfresco.org/model/content/1.0}creator admin
{http://www.alfresco.org/model/content/1.0}modifier admin

No contentModel.xml:

Creator d:text true true [b] true false both [/b] Modifier d:text true true [b] true false both [/b]

Pode-se notar com as propriedades padrão do Alfresco a falha na pesquisa Lucene, como nos exemplos acima indicados. Neste caso concreto, ao nível dos metadados das propriedades.

Uso Alfresco 3.2 em Ubuntu 9.10.

Alguém tem ideia do que estará errado? Haverá mais alguma configuração que eu deva rever?

Abraços,
Ricardo Cardoso

2 Respostas

W

Olá Ricardo,
Poderia dar maiores detalhes desses documentos.:

ficheiros para teste, com características idênticas (tamanho, motor de conversão PDF, programa que os converteu, versão do formato PDF, etc.). Estão ambos colocados no mesmo espaço.
Qual o tipo de ferramenta vc. usou para conversão dos documentos para o formato PDF.Independente do Alfresco usar o Lucene como motor de pesquisa e indexão o Alfresco utiliza o utilitário "pdf2swf "do SWF Tools para visualizar os documentos.Já efetuei esses mesmos testes em pesquisas no repositório tanto em documentos como conteúdo de arquivos .doc,docx,.pdf ,etc.com sucesso.
Faça o mesmo teste com o Alfresco Share criando um projeto comum tanto para o Alfresco DM e para o Alfresco Share no espaço"Company Home > Web Projects > documentLibrary ".Apesar de utulizar o SO Windows e Alfresco Community Edition 3.2r creio que isso seja indiferente. se puder envie os arquivos para o meu e-mail - [email removido] -.
O ideal é vc. renomear a sua pasta alfresco e fazer uma nova instalação sem alterar o “contentModel.xml”,estude uma forma também de etiquetar os seus documentos usando “categorias”.
Verifique se está apontando para o “espaço” correto ao usar a pesquisa avançada.
Mande um abraço ao pessoal da Moredata ai em portugal, gosto muito do trabalho de vcs.
Qualquer coisa retorne ok…
Ps. Estarei replicando a resposta no Forun Alfresco ok.
sds.

R

Como esta questão também foi respondida no fórum oficial de Alfresco no Brasil ( http://forums.alfresco.com/br/viewtopic.php?f=13&t=105&p=670#p670 ), não adiantarei mais o assunto aqui.

Mas agradeço profundamente ao GUJ, pois foi graças a esta comunidade que obtive resposta à minha questão. Cada vez me convenço mais, de que esta é realmente a melhor comunidade e local de debate para utilizadores de Java.

Criado 21 de fevereiro de 2010
Ultima resposta 22 de fev. de 2010
Respostas 2
Participantes 2