Retirar tags HTML da pagina

albjava · Agosto 1, 2006, 12:25pm

Galerinha, tenho essa classe que me da o fonte de uma pagina html, como faço pra retirar as tags e ficar apenas com o texto?

[code]package URL;

import java.net.URL;
import java.net.MalformedURLException;
import java.net.HttpURLConnection;
import java.io.IOException;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTML.Tag;

public class Lendo {

private String url;

public Lendo(String url)
{
    this.url = url;
}

public void conectaURL() throws MalformedURLException, IOException {

    URL url = new URL(this.url);


    HttpURLConnection connection = (HttpURLConnection) url.openConnection();

    connection.setRequestProperty("Request-Method", "GET");

    connection.setDoInput(true);
    connection.setDoOutput(false);

    connection.connect();

    BufferedReader br = new BufferedReader(new InputStreamReader(connection.
            getInputStream()));

    StringBuffer newData = new StringBuffer(10000);
    String s = "";
    while (null != ((s = br.readLine())))
    {
        newData.append(s);
    }
    br.close();
    
    
 
    

    System.out.println(new String(newData));


    System.out.println(
            "Resultado: " + connection.getResponseCode() + "/" +
            connection.getResponseMessage());


    PrintWriter out = new PrintWriter(System.out, true);

}

}
[/code]

Abraçs

marciocamurati · Agosto 1, 2006, 1:47pm

E ae,

Pelo que sei não existe nenhum modo de fazer isso “automáticamente” você irá ter que criar seu próprio método ou métodos para poder retirar as tags HTML texto que está sendo retornado para você.

[]s

Mantu · Agosto 1, 2006, 2:20pm

Cria uma classe qq e executa esse main e vê se isso é mais ou menos o que vc procura.

	public static void main(String[] args) {
		String html = "<html>\n\t<head>\n\t</head>\n\t<body>\n\t\tBlablablablabla\n\t</body>\n</html>";
		String noTagRegex = "<[^>]+>";
		System.out.println("Substituindo: " + html.replaceAll(noTagRegex, ""));
	}

qq dúvida, poste aí, ok!

albjava · Agosto 2, 2006, 8:32am

Obrigado velho…resolveu…minha duvida maior era como representar tudo que estava dentro de < >…abraçs

system · Dezembro 23, 2015, 6:16pm

Retirar tags HTML da pagina

Cursos de Mobile

Cursos de Programação

Cursos de Front-end

Cursos de DevOps

Cursos de Design & UX

Cursos de Business

Cursos de Data & BI