Classificação de textos

Estou desenvolvendo uma app onde faço uma pré-classificação de um texto.
Essa classificação é feita usando um conjunto de palavras e expressões (positivas e negativas) cadastradas previamente.
Funciona da seguinte forma:

  • Se o texto contém mais palavras positivas do que negativas, ele é pré-classificado como positivo.
  • Se o texto contém mais palavras negativas do que positivas, ele é pré-classificado como negativo.
  • Se o número de palavras positivas é igual ao número de palavras negativas, ele é pré-classificado como neutro.

Dessa forma está funcionando, mas essa classificação é muito simples e gostaria de melhorá-la.
Gostaria de saber se alguém já desenvolveu algo parecido, se tem alguma bibliografia para indicar, algum algoritmo específico, etc.

Talvez você quer algo como o Jena, que é para semânticas?

Não conheço o Jena. Vou verificar se vai servir.
Valeu a indicação!