| Autor |
Mensagem |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 25/01/2008 11:32:38
|
Luca
Moderador
![[Avatar]](/images/avatar/17e62166fc8586dfa4d1bc0e1742c08b.jpg)
Membro desde: 06/09/2002 14:30:10
Mensagens: 5793
Localização: São Paulo/SP ou Paraty/RJ
Offline
|
Olá
O Lucene (open-source search software) é uma ferramenta que tem lugar em um grande número de aplicações web e quem não conhece está perdendo tempo. Ontem saiu a nova versão com novidades que merecem aparecer aqui.
A grande mudança acontece com o novo algoritmo de indexação que agora trabalha na memória e consegue enorme melhoria no desempenho. A simples troca do jar do Lucene 2.2 pelo novo jar do Lucene 2.3 (sem recompilar nada) já mostra um excelente ganho de desempenho na indexação que pode atingir até 500%.
Algumas informações tiradas de http://svn.apache.org/repos/asf/lucene/java/tags/lucene_2_3_0/CHANGES.txt
Os defaults do IndexWriter mudaram de modo a maximizar a velocidade de indexação.
1) Agora o IndexWriter usa a memória, 16 MB por default) (call IndexWriter.setMaxBufferedDocs to get backwards compatible behavior).
2) ConcurrentMergeScheduler serve para executar merges usando background threads (call IndexWriter.setMergeScheduler(new SerialMergeScheduler()) to get backwards compatible behavior).
3) Os merges são escolhidos baseados no tamanho em bytes de cada segmento ao invés do número de documentos (call IndexWriter.setMergePolicy(new LogDocMergePolicy()) to get backwards compatible behavior).
O download pode ser veito em em http://lucene.apache.org/#24+January+2008+-+Lucene+Java+2.3.0+available
Vejam mais informações em http://www.infoq.com/news/2008/01/lucene-23-mahout
[]s
Luca
|
Dare Obasanjo (Program Manager at Microsoft)
"The folks I know from across the industry who have to build large scale Web services on the Web today at Google, Yahoo!, Facebook, Windows Live, Amazon, etc are using RESTful Web services. The only times I encounter someone with good things to say about WS-* is if it is their job to pimp these technologies or they have already "invested" in WS-* and want to defend that investment."
CEP, JMS, JMX e coisas afins (ou não)
http://lucabastos.blogspot.com/ |
|
|
 |
|
|
![[Post New]](/templates/default/images/icon_minipost_new.gif) 25/01/2008 13:47:21
|
maquiavelbona
JWizard
![[Avatar]](/images/avatar/24bea84d52e6a1f8025e313c2ffff50a.jpg)
Membro desde: 29/06/2006 09:06:51
Mensagens: 2444
Localização: São Paulo - SP
Offline
|
Caramba, essa estatística não está muito irreal? Vou testar aqui numa aplicação minha para ver se o ganho de indexação pelo menos é metade disso.
Testaste se está bem rápido mesmo? Uso Lucene desde as versões 1.X e já estava um pouco desapontado pela performance.
Aliás, alguém sabe como anda o Hadoop?
Até!
|
----------------------------------------------------------------
"Within a few years a simple and inexpensive device, readily carried about, will enable one to receive on land or sea the principal news, to hear a speech, a lecture, a song or play of a musical instrument, conveyed from any other region of the globe. "
Nikola Tesla - A means for furthering Peace (1905)
"Gedanken ohne Inhalt sind leer, Anschauungen ohne Begriffe sind blind."
Immanuel Kant - Kritik der reinen Vernunft (1781) |
|
|
 |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 25/01/2008 13:56:46
|
Paulo Silveira
Administrador
![[Avatar]](/images/avatar/a87ff679a2f3e71d9181a67b7542122c.jpg)
Membro desde: 07/08/2002 18:38:50
Mensagens: 4152
Localização: São Paulo
Offline
|
A mudancas do lucene de 2.0 para 2.1 e 2.1 para 2.2 tambem anunciaram grandes ganhos de performance. Em uma delas o formato binario do indice foi totalmente modificado e ficou incompativel (mas ele mesmo convertia se precisasse). O Lucene é um dos projetos open source mais incriveis que conheco, e é uma grande aplicação de conceitos academicos.
Hadoop continua encubado, e esta sendo utilizado em um projeto recem lancado, o Manhount, que tem um pessoal de grandes universidades envolvidos.
Maquiavel, o lucene e qualquer indexador sempre vai ser mais lento para escrever do que pra ler. Pra mim a leitura pelo lucene sempre foi incrivelmente rapida.
|
http://blog.caelum.com.br twitter: @paulo_caelum
|
|
|
 |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 25/01/2008 14:14:06
|
maquiavelbona
JWizard
![[Avatar]](/images/avatar/24bea84d52e6a1f8025e313c2ffff50a.jpg)
Membro desde: 29/06/2006 09:06:51
Mensagens: 2444
Localização: São Paulo - SP
Offline
|
Paulo Silveira wrote:A mudancas do lucene de 2.0 para 2.1 e 2.1 para 2.2 tambem anunciaram grandes ganhos de performance. Em uma delas o formato binario do indice foi totalmente modificado e ficou incompativel (mas ele mesmo convertia se precisasse). O Lucene é um dos projetos open source mais incriveis que conheco, e é uma grande aplicação de conceitos academicos.
Realmente mudou mas não vi ganhos aparentes. Deve ser bem incrível mesmo por dentro, mas ainda não tenho capacidade de entender por dentro a fundo a maneira que faz os índices.
Paulo Silveira wrote:Hadoop continua encubado, e esta sendo utilizado em um projeto recem lancado, o Manhount, que tem um pessoal de grandes universidades envolvidos.
Então não saiu muito do que estava a um ano atrás.
Paulo Silveira wrote:Maquiavel, o lucene e qualquer indexador sempre vai ser mais lento para escrever do que pra ler. Pra mim a leitura pelo lucene sempre foi incrivelmente rapida.
Para ler estou bem satisfeito, na escrita já sabia que era bem mais lento, mas ainda esperava algo mais. Geralmente faço criação de pouco em pouco dos índices, assim não sobrecarrego o sistema. Não gosto de comparar coisas, mas quando fiz testes do MS IndexServer e Lucene 1.9 na época, o IndexServer e o IFilter não comiam um processador inteiro para eles e faziam a indexação em menor tempo (não tão menor). Tinha um projeto que a primeira indexação tinha que indexar 120GB de pdfs, não creio que seja culpa só do Lucene e do PDFBox, e talvez o que eu fiz na época também não era tão otimizado, mas mesmo assim era mais simples integrar o Lucene ao portal em PHP do que o IndexServer.
Valeu pelas respostas.
Até!
This message was edited 1 time. Last update was at 25/01/2008 14:16:13
|
----------------------------------------------------------------
"Within a few years a simple and inexpensive device, readily carried about, will enable one to receive on land or sea the principal news, to hear a speech, a lecture, a song or play of a musical instrument, conveyed from any other region of the globe. "
Nikola Tesla - A means for furthering Peace (1905)
"Gedanken ohne Inhalt sind leer, Anschauungen ohne Begriffe sind blind."
Immanuel Kant - Kritik der reinen Vernunft (1781) |
|
|
 |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 25/01/2008 20:07:21
|
glaucioguerra
Java Ninja
![[Avatar]](/images/avatar/4bbb5420ed2dc9a8eaaedc7ae59de448.jpg)
Membro desde: 12/05/2006 09:18:54
Mensagens: 253
Localização: Porto, Portugal
Offline
|
Com certeza, o Lucene é um projeto impressionante. Não só para a comunidade Java, mas para o povo que trabalha com php (como o maquiavel citou) e o pessoal de ruby com o ferret e o lucene4c para C. Acredito que tenha suporte para outras linguagens, mas só trabalhei com essas.
Põe projeto de sucesso nisso
Um abraço,
|
Glaucio Guerra
http://glaucioguerra.wordpress.com |
|
|
 |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 25/01/2008 22:05:50
|
saoj
JWizard
![[Avatar]](/images/avatar/2e7ceec8361275c4e31fee5fe422740b.png)
Membro desde: 09/03/2004 23:34:46
Mensagens: 2568
Localização: Chicago, EUA
Online
|
Lucene é o tipo de projeto que o cara poderia ter ficado rico (ou ganho uma bela grana), mas preferiu fazer um projeto open-source e gratuito. Tem que tirar o chapéu para o autor e para o projeto, que é realmente fenomenal. Outro que também me impressiona bastante é o JGroups.
This message was edited 1 time. Last update was at 25/01/2008 22:06:11
|
Sergio A Oliveira Jr. - saoj
ExperiMENTA:
Mentawai = http://www.mentaframwork.org - Full-stack Java Web Framework com Configuracão Programática
MentaLog = http://mentalog.soliveirajr.com - Non-intrusive, fast, garbage-less, colored and straightforward logging
MentaBean = http://mentabean.soliveirajr.com - Tiny ORM with SQL Builder
MentaRegex = http://mentaregex.soliveirajr.com - Perl-style regex for Java.
MentaContainer = http://mentacontainer.soliveirajr.com - Straightforward IoC, DI e Auto-Wiring
Space4J = http://www.space4j.org - Banco-de-dados de Objetos em Memória
Options-Lib = https://github.com/saoj/options-lib - Ruby classes para ter acesso as opcoes do Yahoo Finance
Selleto = http://www.selleto.com.br
Flipinion = http://www.flipinion.com
Kawai = http://www.kawaiwiki.org
|
|
|
 |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 28/01/2008 20:09:30
|
Daniel.F
GUJ Ranger
Membro desde: 29/03/2007 18:30:39
Mensagens: 908
Offline
|
Desculpe a ignorancia mas pra que serve o lucene?
|
|
|
|
 |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 28/01/2008 20:28:27
|
maquiavelbona
JWizard
![[Avatar]](/images/avatar/24bea84d52e6a1f8025e313c2ffff50a.jpg)
Membro desde: 29/06/2006 09:06:51
Mensagens: 2444
Localização: São Paulo - SP
Offline
|
Lucene é um servidor de indexação, servindo para fazer principalmente full-text search.
Caso queira saber mais do projeto: http://lucene.apache.org/
Especificamente para java: http://lucene.apache.org/java/docs/index.html
Até!
|
----------------------------------------------------------------
"Within a few years a simple and inexpensive device, readily carried about, will enable one to receive on land or sea the principal news, to hear a speech, a lecture, a song or play of a musical instrument, conveyed from any other region of the globe. "
Nikola Tesla - A means for furthering Peace (1905)
"Gedanken ohne Inhalt sind leer, Anschauungen ohne Begriffe sind blind."
Immanuel Kant - Kritik der reinen Vernunft (1781) |
|
|
 |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 14/03/2008 09:41:01
|
tr_jr
Smalltalk
Membro desde: 27/12/2006 13:38:21
Mensagens: 2
Offline
|
Olá Pessoal!
Alguem ai sabe onde posso encontrar um tutorial sobre o Lucene??? Ou se existe algum livro???
valeu!
|
|
|
 |
![[Post New]](/templates/default/images/icon_minipost_new.gif) 17/08/2008 19:42:02
|
mlobao
HelloWorld
Membro desde: 10/10/2007 11:44:28
Mensagens: 12
Offline
|
Existe o livro "Manning - Lucene In Action"
|
|
|
 |
|
|