Extração de dados WEB

11 respostas
A

Boa Tarde gente;

Estou iniciando em java e meu objetivo é criar um programa que faça uma busca de dados em paginas da WEB e me retorne esses valores constantemente.

Exemplo:

Tabela de Preços:

Site A

Maçã: R$ 5,37 / Kg
Pera: R$2,14 / Kg
Abacate: R$ 1,25 / Kg

Site B

Maçã: R$ 5,39 / Kg
Pera: R$2,18 / Kg
Abacate: R$ 2,25 / Kg
Laranja: R$4,17 / Kg

Site C

Maçã: R$ 4,87 / Kg
Pera: R$1,21 / Kg
Abacate: R$ 4,25 / Kg
Abacaxi: R$1,00 / Kg
Tomate: R$8,21 / Kg

Então o programa deve buscar nos sites os valores de todos os produtos que o site possua e comparar com o de outro site caso exista o mesmo produto no outro site, ele deve fazer isso constantemente por exemplo com um refresh de 5 min, e caso alguma das opções esteja com um bom preço eu possa dar uma ordem de compra direto por este programa, ou seja ele faz um login direto no site e da uma ordem de compra.

Alguem sabe me indicar uma direção de estudo?
O que eu preciso para montar um programa assim?
O grande problema é fazer a busca dos dados e depois o login para emitir a ordem de compra eu não tenho nem idéia de como fazer isso.

Eu não achei nenhum outro tópico com esta pergunta caso alguem tenha visto algum me indique tambem, agradeço desde ja a ajuda de todos.

Vlw a todos

11 Respostas

M

Você tem uma lista de sites onde deseja comparar os dados ou precisa fazer uma varredura na web?

nel

Isso me cheira a webservices ou API proprias, como a Amazon disponibiliza uma para Java.
Fora isso, não faço a menor idéia.

Abraços.

M

Como é essa história de API da Amazon???

P

Vc vai ter que usar as classes de Http alem de fazer parse no html.

M

Mesmo que teoricamente falando, como eu faço para iniciar a varredura web?

Ler o HTML de uma determinada URL eu já sei como fazer, não sei como varrer a web…

A

eu tenho uma lista de sites fixos…me falaram pra usar um crawler ja mas q ele iria fazer a busca de dados mas eu num entendi nada sobre esse negocio

nel

A amazon disponibiliza em seu SDK API para comunicação com seu banco de dados.
Lá, você possui métodos que buscam informações sobre produtos deles.

Com certeza há mais sites (empresas) que fornecem esse tipo de API.
Mas é que como nunca trabalhei com a necessidade citada aqui, apenas dei uma idéia.

Abraços.

A

Bom se os sites que eu preciso verificar fornecessem uma api ou algum xml ou qq outra coisa pra que eu tivesse um acesso facilitado seria uma coisa mais simples, mas não é o caso, na verdade esses sites não fornecem eu até ja cheguei a converssar com o dono de um desses sites mas eles dizem q para isso eles cobrariam um valor ( q é muito alto pelo valor das informações que preciso obter).

R

Faça um crawler. Com Ruby + HPricot isso é mais fácil que tirar doce de criança rsrs

Quais são os endereços dos sites? Se passar, posso ajudá-lo.

P

Procure por “parse html java” no google

A

Eu dei uma olhada na classe parse, mas pelo que entendi isso seria bem util para eu fazer a analise de um arquivo xml que contivesse as informações, o que não é o caso pois eu não possuo o arquivo xml, eu preciso mesmo é entrar no site e procurar pelos dados dentro da pagina.

Com a classe parse da pra fazer isso? Eu não encontrei um meio.

Criado 16 de março de 2011
Ultima resposta 22 de mar. de 2011
Respostas 11
Participantes 5