Mastigando Lucene

30 de junho de 2005 7 respostas

Claire 30 de junho de 2005

Olá,
Tenho que fazer uma página simples em jsp, para busca em arquivos (pdf,html,doc). Estou manipulando os exemplos que eles disponibilizam, até para entender melhor.
Tenho várias questões básicas uma delas seria:

Lucene lê arquivos desses tipos?

7 Respostas

Mauricio_Linhares 30 de jun. de 2005

Não tem que transformar esses arquivos em texto pra ele poder indexar não?

Claire 30 de jun. de 2005

Tem?

Mauricio_Linhares 30 de jun. de 2005

Sei lá, pelo que um amigo meu disse, primeiro transformava em arquivo de texto e depois que o lucene indexava.

Mas eu não sei não, tem gente aqui que sabe trabalhar com Lucene, cadê o Luca?

smota 30 de jun. de 2005

Claire:
…(pdf,html,doc)…
Lucene lê arquivos desses tipos?

O Lucene é apenas o engine de indexação, quem passa o que indexar é você, então em teoria você indexa o que quiser.

Você não precisa transformar em texto, precisa extrair o texto desses documentos e criar um objeto Document para o Lucene indexar.

Na página Contributions tem alguns mas se não me engano já vi algum para doc em algum lugar.

Claire 4 de jul. de 2005

Oi,
Mais algumas dúvidas…

O Lucene sozinho faz leituras de arquivos tipo txt? ou algum outro tipo de arquivo?

Copiei o .jar pro meu common, a aplicação de exemplo que vem com ele esta lendo as classes normalmente, porém retorna que nenhum que o sistema não encontra o arquivo indicado, passando o diretório que eu especifiquei mais um \segments (Ao menos está tratado assim na jsp com o cath). Vou colocar aquia parte da aplicação onde este erro esta sendo tratado.

&lt;%
        boolean error = false;                 
        String indexName = (String)application.getRealPath("/")+"teste";
        IndexSearcher searcher = null;     
        Query query = null;                     
        Hits hits = null;                       
        int startindex = 0;                   
        int maxpage    = 50;               
        String queryString = null;        
        String startVal    = null;           
        String maxresults  = null;  
        int thispage = 0;  
        try {
        searcher = new IndexSearcher(
                        IndexReader.open(indexName)    
                );
        } catch (Exception e) {                         
                                                      
%&gt;
                <p>ERROR opening the Index - contact sysadmin!</p>
                <p>Error message: &lt;%=escapeHTML(e.getMessage())%&gt; </p>   
&lt;%                error = true;                                
        }
%&gt;

Alguém sabe porque está dando este erro?

Já alterei o diretório de teste, mas mesmo assim não funciona

Está retornando o seguinte html:

Welcome to the Lucene 

ERROR opening the Index - contact sysadmin!

Error message: C:\Tomcat 5.0\webapps\jsp\teste\segments (O sistema não pode encontrar o arquivo especificado)

Grata,
Claire

sfohart 21 de dez. de 2006

Existe uma biblioteca chamada PDFBox, a qual consegue extrair conteúdo e metadados de arquivos PDF. Ela possui uma classe de integração com o Lucene, de nome LucenePDFDocument (procurem na api da biblioteca).

Agora eu preciso integrar a minha busca por pds (que já funciona em modo texto) com um site de busca em jsp (eu não sei jsp), como eu faço isso?

Tô usando o Netbeans, ele tem plugin pra edição visual de páginas JSP, mas eu não sei necas de jsp…

Se alguém puder me ajudar…

sfohart 27 de dez. de 2006

Tem que colocar os arquivos de índice em /opt/lucene/index. Se vc usa windows, coloca em c:…

Se vc tá usando o NetBeans, coloca na raíz da partição em que o projeto NetBeans está.

Criado 30 de junho de 2005

Ultima resposta 27 de dez. de 2006

Respostas 7

Participantes 4

7 Respostas

Topicos relacionados