Dicionário  XML
Índice dos Fóruns » Java Básico
Autor Mensagem
gumba
HelloWorld

Membro desde: 30/03/2006 06:25:46
Mensagens: 12
Offline

Pretendo desenvolver uma aplicação em que após importarmos um texto, essa aplicação diz-nos qual a lingua predominante nesse texto. Tenho que pelo menos avaliar se está em português ou inglês.

Alguma ideia?

Obrigado
velo
GUJ Ranger
[Avatar]

Membro desde: 19/02/2004 18:23:55
Mensagens: 797
Localização: Jaraguá do Sul - SC
Offline

Bom, uma lista com umas mil palavras de cada idioma deve resolver.

VELO

Use o melhor:

Linux para servidores
Macintosh para gráficos
Palm para mobilidade
Windows para jogar paciência

SCJP 5
[Email] [MSN] [ICQ]
pmsoad
JavaChild

Membro desde: 11/08/2004 14:23:53
Mensagens: 121
Offline

Com certeza é um desafio subjetivo e as pessoas vão dar algumas soluções diferentes, mas também é muito interessante e poderíamos perder mto tempo discutindo um bom método para resolver isso, nenhuma idéia será totalmente segura, pois hoje em dia nenhuma língua é pura...principalmente o português....

A minha dica seria parecida com a do velo, mas como existe a possibilidade de existirem sempre algumas palavras estrangeiras no meio do texto, o ideal seria dar o resultado em porcentagens, e não listar mtas palavras de uma língua, e sim procurar por palavras que caracterizam a língua como pronomes pessoais, ou então verbos comuns(ser/to be)....
Boa sorte e dps diz como vc fez!!!^^

Antes de você entender a solução, vc precisa entender o seu problema...

"a sapa mara lá na lagaa a na lava a pá parqua na kar...maka chalá!!!!!"
-"Willian Shaekespeare"
[MSN] [ICQ]
Mantu
GUJ Ranger
[Avatar]

Membro desde: 27/03/2006 09:05:16
Mensagens: 961
Localização: São Paulo/SP
Offline

Entre no site abaixo e dê uma fuçada. É uma professora minha quando eu tava na facul que tem estudos na área de reconhecimento de linguagem natural, ou coisa assim (Se ela ler esse "ou coisa assim" ela vai tentar revogar meu diploma )
www.dc.ufscar.br/~lucia

[]'s
Mantu

"Vou lançar o 'Caguei'. Caguei para o 'Cansei'". Luciano Camargo
"O povo votou contra a opinião pública". Um certo jornalão da mídia golpista, a respeito da vitória de um certo cadidato a presidente do Brasil.

[Email] [MSN] [ICQ]
escordeiro
Java Ninja
[Avatar]
Membro desde: 20/08/2003 09:31:08
Mensagens: 257
Localização: Belo Horizonte
Offline

Palavra-chave pro Google:
"natural language processing"

Tem um grupo português de linguistas e cientistas da computação da Universidade do Minho que faz pesquisa em processamento de português e tradução entre inglês e português...talvez você ache alguma coisa.

http://www.linguateca.pt

Flickr
[Email] [Yahoo!] [MSN] [ICQ]
 
Índice dos Fóruns » Java Básico
Ir para:   
Powered by JForum 2.1.8 © JForum Team