[RESOLVIDO] Expressão regular para validar textos de um HTML

Seguinte… estou extraindo trechos de texto de uma página, mas até onde onsegui chegar, meu parser identifica tanto o texto quanto alguns links.
Pelo que observei, somente adicionando " "(espaço) obrigatórios, removeria os links da busca, pois os mesmos não contém espaço em uma boa porção de caracteres, ou retirar a String https, que todos os links do site contém.
O problema que não estou conseguindo adicionar esta condição na minha atual expressão.

A expressão que eu criei para esta página é:

[^<>=\n]{100,1000}

… que remove qualquer possível tag, sinal de igualdade ou quebra de linha, com um mínimo de 100 caracteres e no máximo 1000 caracteres, para pegar um trecho de texto por vez.

O link de onde estou retirando os textos é:
https://www.coaf.fazenda.gov.br/conteudo/legislacaoe-normas/normas-coaf/resolucoes/

Se alguém puder me ajudar, eu ficarei grato.

1 Resposta

Topicos relacionados