Mastigando Lucene

Olá,
Tenho que fazer uma página simples em jsp, para busca em arquivos (pdf,html,doc). Estou manipulando os exemplos que eles disponibilizam, até para entender melhor.
Tenho várias questões básicas uma delas seria:

Lucene lê arquivos desses tipos?

Não tem que transformar esses arquivos em texto pra ele poder indexar não?

Tem?

Sei lá, pelo que um amigo meu disse, primeiro transformava em arquivo de texto e depois que o lucene indexava.

Mas eu não sei não, tem gente aqui que sabe trabalhar com Lucene, cadê o Luca?

[quote=Claire]…(pdf,html,doc)…
Lucene lê arquivos desses tipos?
[/quote]

O Lucene é apenas o engine de indexação, quem passa o que indexar é você, então em teoria você indexa o que quiser.

Você não precisa transformar em texto, precisa extrair o texto desses documentos e criar um objeto Document para o Lucene indexar.

Na página Contributions tem alguns mas se não me engano já vi algum para doc em algum lugar.

Oi,
Mais algumas dúvidas…

O Lucene sozinho faz leituras de arquivos tipo txt? ou algum outro tipo de arquivo?

Copiei o .jar pro meu common, a aplicação de exemplo que vem com ele esta lendo as classes normalmente, porém retorna que nenhum que o sistema não encontra o arquivo indicado, passando o diretório que eu especifiquei mais um \segments (Ao menos está tratado assim na jsp com o cath). Vou colocar aquia parte da aplicação onde este erro esta sendo tratado.

<%
        boolean error = false;                 
        String indexName = (String)application.getRealPath("/")+"teste";
        IndexSearcher searcher = null;     
        Query query = null;                     
        Hits hits = null;                       
        int startindex = 0;                   
        int maxpage    = 50;               
        String queryString = null;        
        String startVal    = null;           
        String maxresults  = null;  
        int thispage = 0;  
        try {
        searcher = new IndexSearcher(
                        IndexReader.open(indexName)    
                );
        } catch (Exception e) {                         
                                                      
%>
                <p>ERROR opening the Index - contact sysadmin!</p>
                <p>Error message: &lt;%=escapeHTML(e.getMessage())%&gt; </p>   
&lt;%                error = true;                                
        }
%&gt;

Alguém sabe porque está dando este erro?

Já alterei o diretório de teste, mas mesmo assim não funciona

Está retornando o seguinte html:

Welcome to the Lucene 

ERROR opening the Index - contact sysadmin!

Error message: C:\Tomcat 5.0\webapps\jsp\teste\segments (O sistema não pode encontrar o arquivo especificado)

Grata,
Claire

Existe uma biblioteca chamada PDFBox, a qual consegue extrair conteúdo e metadados de arquivos PDF. Ela possui uma classe de integração com o Lucene, de nome LucenePDFDocument (procurem na api da biblioteca).

Agora eu preciso integrar a minha busca por pds (que já funciona em modo texto) com um site de busca em jsp (eu não sei jsp), como eu faço isso?

Tô usando o Netbeans, ele tem plugin pra edição visual de páginas JSP, mas eu não sei necas de jsp…

Se alguém puder me ajudar…

Tem que colocar os arquivos de índice em /opt/lucene/index. Se vc usa windows, coloca em c:…

Se vc tá usando o NetBeans, coloca na raíz da partição em que o projeto NetBeans está.