Seguinte… estou extraindo trechos de texto de uma página, mas até onde onsegui chegar, meu parser identifica tanto o texto quanto alguns links.
Pelo que observei, somente adicionando " "(espaço) obrigatórios, removeria os links da busca, pois os mesmos não contém espaço em uma boa porção de caracteres, ou retirar a String https, que todos os links do site contém.
O problema que não estou conseguindo adicionar esta condição na minha atual expressão.
A expressão que eu criei para esta página é:
[^<>=\n]{100,1000}
… que remove qualquer possível tag, sinal de igualdade ou quebra de linha, com um mínimo de 100 caracteres e no máximo 1000 caracteres, para pegar um trecho de texto por vez.
O link de onde estou retirando os textos é:
https://www.coaf.fazenda.gov.br/conteudo/legislacaoe-normas/normas-coaf/resolucoes/
Se alguém puder me ajudar, eu ficarei grato.