Retirar Tags

5 respostas
R

Estou tentando fazer um função que pega um pagina HTML e retira todas as tag. Vocês conhecem alguma API que possa me ajudar a fazer isso?

5 Respostas

M

…tu quer deletar tudo oq é tag do html? ou o conteudo todo? … nao sei de api q faça isso, acho q vai ter q fazer no coro mesmo, ler o arquivo html, e onde tiver a sequencia de “< … >” … tira, copia pra outro arquivo sem as tags e substitui… só uma idéia

R

quero deletar todas as tags. Estou fazendo na mão mesmo, mas são muitos casos pra tratar. Queria algo pra me ajudar.

M

infelismente eu não sei de nenhuma API pra isso cara… :oops: :oops: :oops:

S

Eu tb quero fazer algo parecido…
na verdade u usei o teleport pro e copiei toda a página do cifraclub…
mas quero as cifras em txt, para isso vou fazer o programinha que vai lendo o html e tirando as tags… e depois vê o nome da crifra e salva o arquivo com tal nome.

so não estou com tempo para fazer isso agora…

a idéia é você ir lendo um caractere de cada vez e ir verificando o ‘<’ quando encontrar, apague tudo até o ‘>’

R

Em outro forum me mandaram o codigo que faz isso. Valeu!

import javax.swing.text.*; 
import javax.swing.text.html.*; 
import javax.swing.text.html.parser.*; 
import java.io.*; 
import java.net.*; 
import java.util.*; 

public class MeuParser extends HTMLEditorKit.ParserCallback &#123; 

  private Writer out; 
  private int level = 0; 
  private static StringBuffer buf = new StringBuffer&#40;1000&#41;; 
  
  public void handleText&#40;char&#91;&#93; text, int position&#41; &#123; 
    
      buf.append&#40;text&#41;; 
      buf.append&#40;'\n'&#41;; 

    
  &#125; 
  
  public static void main&#40;String&#91;&#93; args&#41; &#123; 
    
ParserGetter kit = new ParserGetter&#40;&#41;;    
HTMLEditorKit.Parser parser = kit.getParser&#40;&#41;; 
  
    try &#123; 
      URL u = new URL&#40;&quot;file&#58;///e&#58;/trab/java/2004/guj/teste.html&quot;&#41;; 
      InputStream in = u.openStream&#40;&#41;; 
      InputStreamReader r = new InputStreamReader&#40;in&#41;; 
      HTMLEditorKit.ParserCallback callback = new MeuParser&#40;&#41;; 
      parser.parse&#40;r, callback, true&#41;; 
      System.out.println&#40;buf.toString&#40;&#41;&#41;; 
    &#125; 
    catch &#40;Exception e&#41; &#123; 
      System.err.println&#40;e&#41;; 
    &#125; 
          
  &#125; 
  
&#125; 

class ParserGetter extends HTMLEditorKit &#123; 

  public HTMLEditorKit.Parser getParser&#40;&#41;&#123; 
    return super.getParser&#40;&#41;; 
  &#125; 
&#125;
Criado 20 de maio de 2004
Ultima resposta 21 de mai. de 2004
Respostas 5
Participantes 3