APIs para scrubbing de endereços brasileiros?

Caros,

Sou novo postando aqui, mas já esbarrei várias vezes com informações úteis em vossos tópicos. Talvez vocês possam me ajudar mais especificamente nesse caso.

Estou trabalhando no desenvolvimento de um pequeno sistema de correlação fonética para um cadastro de clientes. A parte interessante já passou, mas nos testes notei que conseguiria aumentar bastante a performance (em termos de qualidade dos resultados) se minha lista de endereços fosse mais normalizada.

Como na maioria dos casos, minha base foi alimentada manualmente ao longo dos anos e agora, com quase 9 milhões de registros únicos, tenho a palavra “avenida” escrita de todas as maneiras possíveis e imagináveis.

Queria saber que alguém escreveu alguma classe simples (que não precisa ser ideal, se contiver os casos estatisticamente relevantes já é suficiente) que me ajude a traduzir “av.”, “avnd”, “avd” e suas primas para “avenida”. Até uma simples tabela com de/para dessas corrupções já me ajudaria.

Estou tentando gerar meus próprios dados em relação a isso, mas é um processo empírico de mais pro meu gosto :confused:

Alguma ajuda?

obrigado e um abraço.