Pentaho Kettle,ler arquivo de texto, separado por vírgula, delimitado por aspas, com quebra de linha

Olá pessoal,

Tenho uma base de dados em um arquivo de texto, com os campos separados por vírgulas, delimitados por aspas, em que cada linha é um registro.

Estou usando o pentaho Kettle Data Integration para carregar esse arquivo.

O problema é o seguinte, identifiquei que uma das linhas tem uma quebra de linha no meio de um campo, dividindo assim um registro em 2 linhas (infelizmente não sou eu quem gera esses arquivos… pessoal de estatística acha mais fácil trabalhar com eles assim, pois só trabalham com números, mas quando tem texto ferra tudo…)

Com o Kettle não estou sabendo como fazer para ler o arquivo e identificar que aquela linha tem uma quebra de linha no meio dela, e continuar o registro na linha de baixo, alguém tem alguma ideia de como fazer?

Se ninguém souber como fazer com o Kettle, visto que é pouco usado no mercado (o líder é PowerCenter), como me recomendam fazer no java para não consumir memória e processamento excessivo do computador?

Estou pensando em abrir uma thread para usar um scanner, interpretar os valores (fazer os parsers para os tipos específicos) e popular um hashtable, para em outra thread fazer batchUpdate (com inserts) na base de dados. E assim que for lendo os registros da hashtable, apagando esses registros para liberar memória.

No kettle mesmo, o step “CSV Input File” lê arquivos com quebra de linhas dentro de um campo. Muito mais prático que construir uma aplicação com scanner.

Mas parece que tem uma classe Java para o tratamento de CSV.