Crawler de busca e quebra de captcha  XML
Índice dos Fóruns » Java Avançado
Autor Mensagem
gustavogrsGUJ
Smalltalk

Membro desde: 26/12/2007 00:09:40
Mensagens: 4
Offline

É o seguinte: não quero quebrar captcha pra fazer cadastros, baixar coisas ou fazer o mal.

Preciso disso para realizar buscas automáticas na plataforma lattes (a dos currículos). Uma busca séria e justificada. Quero automatizar a tentativa de localização de algum profissional, seja pelo nome ou por características profissionais.

O software apenas faria buscas e organizaria os resultados automaticamente. Sem ter que fazer isso de forma manual e sempre respondendo ao captcha.

Consigo me conectar ao site, mas o captcha me impede de receber os resultados das buscas e dá erro porque não inseri as letrinhas de validação visual. Sei que já existem vários algoritmos que quebram vários tipos de captcha mas não sei como introduzi-los em meu código.

Alguém sabe como integrar um quebrador de captcha e alguem tem um desses algorítmos? (eu não achei códigos fontes deles, apenas trechos comentados que explicavam a lógica)

agradecido desde já.

(caso não queiram responder por isso poder ser usado para outros fins, podem me mandar diretamente para meu e-mail: gustavogrs@gmail.com)

This message was edited 2 times. Last update was at 13/05/2009 17:57:41

maquiavelbona
JWizard
[Avatar]

Membro desde: 29/06/2006 09:06:51
Mensagens: 2447
Localização: São Paulo - SP
Offline

Ao invés de querer fazer algo que posso ferir a maneira que os dados são disponibilizados, poderias ver uma maneira de fazer corretamente:

http://lattes.cnpq.br/conteudo/acordos.htm

Até!

----------------------------------------------------------------
"Within a few years a simple and inexpensive device, readily carried about, will enable one to receive on land or sea the principal news, to hear a speech, a lecture, a song or play of a musical instrument, conveyed from any other region of the globe. "
Nikola Tesla - A means for furthering Peace (1905)

"Gedanken ohne Inhalt sind leer, Anschauungen ohne Begriffe sind blind."
Immanuel Kant - Kritik der reinen Vernunft (1781)
gustavogrsGUJ
Smalltalk

Membro desde: 26/12/2007 00:09:40
Mensagens: 4
Offline

Infelizmente tais acordos são traçados diretamente com as instituições. Eu, como indivíduo, ou mesmo empresa de pequeno porte não teria recursos para traçar um acordo desses.

Não será feito nem um dano ao site ou suas informações, somente o resgate das informações.

Mas obrigado pelo link, realmente não tinha visto aquilo ainda.
maquiavelbona
JWizard
[Avatar]

Membro desde: 29/06/2006 09:06:51
Mensagens: 2447
Localização: São Paulo - SP
Offline

Mas tens que entender que o captcha está ali por dois motivos:
- Evitar que crawlers maliciosos abusem do sistema;
- Fazer com que tenham que entrar na página do CNPq, as informações ali são disponibilizadas ao público mas eles querem que se faça saber quem detêm tal informação.

Acharia melhor você tentar entrar em contato para ver se há alguma possibilidade de fazer um contrato qualquer mas se quiser continuar com a sua empreitada, boa sorte.

Até!

----------------------------------------------------------------
"Within a few years a simple and inexpensive device, readily carried about, will enable one to receive on land or sea the principal news, to hear a speech, a lecture, a song or play of a musical instrument, conveyed from any other region of the globe. "
Nikola Tesla - A means for furthering Peace (1905)

"Gedanken ohne Inhalt sind leer, Anschauungen ohne Begriffe sind blind."
Immanuel Kant - Kritik der reinen Vernunft (1781)
viniciuspadua
JavaEvangelist
[Avatar]

Membro desde: 25/11/2006 17:21:30
Mensagens: 370
Offline

alguem consegiu burlar ?
Einsteinmt
What is classpath?
[Avatar]

Membro desde: 28/01/2009 01:47:40
Mensagens: 5
Localização: Goiania
Offline

Eu tenho a solução caso ainda tenha interesse entre em contato. Abraço
me adicione no msn albert@volix.com.br
[WWW] [MSN]
viniciuspadua
JavaEvangelist
[Avatar]

Membro desde: 25/11/2006 17:21:30
Mensagens: 370
Offline

diz uma dica ai!
agodinhost
Virtual Machine Man
[Avatar]

Membro desde: 28/03/2006 21:19:16
Mensagens: 590
Localização: RJ, Tijuca
Offline

Sabendo que o formato do captcha pode mudar a dica é: mãe Diná ?

Fala sério, você vai ralar muito pra fazer isso e ainda correrá riscos (no caso de mudança do captcha).

"The difference between theory and practice is that, in theory, there is no difference between theory and practice".
[WWW] [MSN]
 
Índice dos Fóruns » Java Avançado
Ir para:   
Powered by JForum 2.1.8 © JForum Team