Oi,
Estou a desenvolver o meu PhD na área do PLN (e.g., Reconhecimento de Entidades Mencionadas) e Web Semântica. Pretendo criar um sistema de anotação semântica de textos em língua portuguesa sobre engenharia de software, mais concretamente sobre Programação. Para tal preciso de um corpus sobre programação. esse conjunto enorme de textos pode ser baseado em posts de foruns, listas de discussão etc desde que com qualidade razoável.
Alguém me pode indicar um bom repositório que eu possa utilizar (para inglês encontra-se para PT de Portugal ou Brasil é mais dificil) . Agradeço a ajuda
RM