Capturar páginas web (Data Scraping)

Boa noite galera,

Comecei a desenvolver para android faz pouco tempo e eu preciso fazer um programa que capture algumas informações de uma página da web. Por exemplo as manchetes do globo.com.
Alguém tem idéia de como se faz isso ou já tem um código pronto para eu me basear?

Tem como pegar um texto de uma notícia junto com o título, eu já fiz isso quando fiz um tradutor que roubava informações do site do Google Translator. =)

Deve ser a mesma lógica.

e como eu posso fazer isso?

Você pode usar o HttpClient… tente algo assim:

String url = "http://www.google.com"
HttpClient client = new DefaultHttpClient();
HttpGet get = new HttpGet(url);
HttpResponse response = client.execute(get);
HttpEntity entity = response.getEntity();

Ai procura a informação que você quiser no entity. Vale a pena uma olhada no YQL http://developer.yahoo.com/yql/ também!

Ah! E lembre-se de fazer isso em uma branch para não ocupar a thread principal! :slight_smile: