Capturar de dados / código-fonte

Eu quero criar um “bot” de captura de imagens de um determinado site.

O site (http://www.x.com/) segue sua estrutura com um lista de 10 miniaturas de papel de parede que apontam para uma outra página interna (http://www.x.com/img.php?id=5599). Nesta página, tem um link para download (http://www.x.com/download.php?id=5599). Está pagina que contêm a lista, também contêm páginação (http://www.x.com/?page=2).

O que eu quero é um código que consiga ler todas as referências de arquivos, tudo o que link para http://www.x.com/img.php?id=* e copiar o ID () para acessar a página http://www.x.com/download.php?id=. Quero que ele também verifique o link para a próxima página e faça o mesmo procedimento. Isso em loop até não haver mais um página seguinte.

Eu até tentei fazer um teste simples e gerar um html assim:

String url = "http://www.x.com/download.php?id="; System.out.println("<html><body>"); for (int i = 1; i < 100; i++) { System.out.println( "<iframe src='" + url + i + "' width=100 height=100></iframe><br>" ); } System.out.println("</body></html>");

Mas o site contêm diversas seções, e não existe um ID expecífico para cada uma delas, ele usa sempre o mesmo ID. Ou seja, esse script acaba capturando screen shots, logon screen, ícones, entre outros… O que acaba gerando muito tráfego de rede desnecessário, pra mim e pro site… E o que eu quero pegar os papéis de parede e não iniciar um ataque de DOS no site

Topicos relacionados