Desenvolvimento de WebCrawler

Bem pessoal, seguinte, estava pensando aqui em desenvolver um WebCrawler com um objetivo em especifico, provavelmente para buscas de TCC’s, enfim, o algoritmo para efetuar buscar para esse tema não é bem o que venho perguntar, era mais em questão do web crawler em si, queria saber se existe algum web crawler open source para que eu possa usar a base, não quero inventar a roda novamente ( a menos que seja realmente preciso ;/), outro problema que encontrei é que normalmente ele precisa “percorrer” uma base digamos assim, só que não queria ter uma base em sí, queria que ele bucasse pelas paginas existentes pela web e retornasse as possibilidades, minha duvida é? querendo ou não essas paginas precisam estar cadastradas em um banco meu? nao há como efetuar essa busca pelos http’s existentes?