Crawler

6 respostas
P

Bom galera ,
Estou em um projeto e estou com um problema.

Tenho uma planilha excel com milhares de linhas e em cada linha um nome , exemplo :
Linha 1 = casa
Linha 2 = carro
Linha 3 = Aviao...

E assim por diante.
Eu preciso ir Linha por linha e fazer o download (no google images mesmo) e salvar numa pasta(ou em qualquer lugar desejado)..
Meu chefe deu a ideia de usar "Crawler" pra isso, porem eu não faço a minima ideia de como se usa,
fiz varias pesquisas no google mas la nao tem muitas informações sobre...

eu consegui fazer algo usando crowler como por exemplo o codigo abaixo, que retorna o html da url desejada:

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;

public class Teste2 {
	public static void main(String[] args) {
		try {
			URL my_url = new URL("http://www.terra.com.br/");
			BufferedReader br = new BufferedReader(new InputStreamReader(my_url.openStream()));
			String strTemp = "";
			while (null != (strTemp = br.readLine())) {
				System.out.println(strTemp);
			}
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

}

E este que retorna a quantidade de links de um determinado site

import com.meterware.httpunit.GetMethodWebRequest;
import com.meterware.httpunit.WebConversation;
import com.meterware.httpunit.WebLink;
import com.meterware.httpunit.WebRequest;
import com.meterware.httpunit.WebResponse;


public class Teste {
	  public static void main(String[] args) throws Exception {
		  try{
			  
			  WebConversation wc = new WebConversation();
			  
			  //String url="http://www.google.com.br/";
			  String url="http://www.meterware.com";

	          WebRequest request = new GetMethodWebRequest(url);
	          WebResponse response = wc.getResponse(request);

	          WebLink httpunitLink = response.getFirstMatchingLink( WebLink.MATCH_CONTAINED_TEXT, "HttpUnit" );
	          response = httpunitLink.click();
	          
	          System.out.println( "A pagina '"+url+"' contem " + response.getLinks().length + " links" );
	       //   System.out.println(response.getTitle());
		  }catch (Exception e) {
			  System.err.println( "Exception: " + e );
          
	  }
	  }
}

Alguem pode me ajudar?(sou novo no forum nao sei se estou criando o topico no lugar certo)

Obrigado!

6 Respostas

P

alguem? :frowning:

aechiara

não entendi muito bem o que vc quer

  • vc quer baixar uma imagem (buscando no google images) de acordo com o que está na linha da planilha
    ou vc quer fazer crawler dos sites ?
P

Isso eu tenho uma lista numa planilha e quero buscar imagens no google de acordo com a linha,
por exemplo:
Se eu tenho uma linha chamada Ford Fiesta,
eu quero que ele busque automatico baseado nessa linha , a imagem do carro ford fiesta(Sei que ele provavelmente vai trazer algumas imagens erradas as vezes mas isso ja vai me ajudar muito , baseado no fato que minha planilha tem mais de 30 mil linhas hehe)

aechiara

sugiro que você de uma olhada na API do próprio Google
https://developers.google.com/image-search/v1/devguide

ViniGodoy

Por favor, ao postar tópicos, não deixe o título somente com letras maiúsculas.
E não destaque o título com palavras óbvias como [AJUDA].

Além disso, use a tag code. Para aprender a usar o fórum com efetividade, leia nosso how to:

P

aechiara :Vi a documentação mas ainda estou na mesma =/

ViniGodoy: Obrigado e desculpe, é que eu postei na “pressa” nem reparei nesses detalhes, é meu primeiro topico rs.

Criado 19 de fevereiro de 2013
Ultima resposta 21 de fev. de 2013
Respostas 6
Participantes 3