Como dividir um arquivo de texto por Tokens?

4 respostas
R

tenho 3 arquivos o que execução, o de leitura e o de escrita. Meu problema é no de leitura, que primeiro tive que fazer ler 3 texto que é a parte que está como comentário, mas agora tenho que adaptar ele para pegar o arquivo “news.txt” e separar por linhas para o arquivo de escrita, possa dividir em tokens.

Muito obrigado pela ajuda!

public class DummyReader extends JCasCollectionReader_ImplBase {

List<String> texts;
int idx = 0;


@Override
public void initialize(UimaContext context) throws ResourceInitializationException {
    super.initialize(context);
  
            ClassLoader classLoader= getClass().getClassLoader();
	File file = new File(classLoader.getResource("news.txt").getFile());     

//   texts = new ArrayList<>();
  
//    texts.add("Ubi est Cornelia?");
//    texts.add("Subito Marcus vocat:");
//    texts.add("Ibi Cornelia est, ibi stat!");
    
    

}

@Override
public void getNext(JCas jcas) throws IOException, CollectionException {
    // add the text to the JCAS. All annotation (AEs) will be based on this text
    jcas.setDocumentText(texts.get(idx));
    idx++;
}

@Override
public Progress[] getProgress() {
    return new Progress[] { new ProgressImpl(idx + 1, texts.size(), Progress.ENTITIES) };
}

@Override
public boolean hasNext() throws IOException, CollectionException {
    return idx < texts.size();
}

}

4 Respostas

peczenyj

Metodo split da classe String?

R

Obrigado pela ideia, mas não posso usar este método, pois este projeto de NLP, tenho que fazer usando o apache UIMA.

peczenyj

e vc não achou q podia ser relevante mencionar isso na sua duvida logo no primeiro post?

ja viu se algum desses te ajuda?

http://uima.apache.org/annotators.html

R

era pra eu ter colocado sim, desculpa, foi minha primeira postagem.

Estou olhando este site sim, problema deste UIMA é que tem pouquíssimo conteúdo na internet e este site deles, não consigo achar muita informação útil

Criado 19 de outubro de 2018
Ultima resposta 20 de out. de 2018
Respostas 4
Participantes 2