Leitura de Arquivo HTML

Olá.

É possível ler um arquivo html do mesmo jeito que leio um .txt? Digo, informando colunas que quero guardar e etc.

Se possível, poderia me informar qual classe eu posso ver isto?

Obrigado,
Marck

Marck,

é possível sim. Não é tão semelhante como ao ler um arquivo txt, doc, etc. Porém utiliza algumas interfaces e classes semelhantes como: Reader, StringBuffer, InputStreamReader.

Eu tenho esse exemplo aqui…dá uma olhada

[code]public static String getText(String uriStr) { final StringBuffer buf = new StringBuffer(1000);
try { HTMLDocument doc = new HTMLDocument() { public HTMLEditorKit.ParserCallback getReader(int pos) { return new HTMLEditorKit.ParserCallback() { public void handleText(char[] data, int pos) { buf.append(data); buf.append(’\n’); } }; } };

        URL url = new URI(uriStr).toURL();            URLConnection conn = url.openConnection();            Reader rd = new InputStreamReader(conn.getInputStream());
        EditorKit kit = new HTMLEditorKit();            kit.read(rd, doc, 0);        } catch (MalformedURLException e) {        } catch (URISyntaxException e) {        } catch (BadLocationException e) {        } catch (IOException e) {        }

    // Retorna todo o texto encontrado        return buf.toString();    }

[/code]

Att

vixi, nao ficou mto nitido…to postando de novo

public static String getText(String uriStr) {
        final StringBuffer buf = new StringBuffer(1000);    
        try {
            HTMLDocument doc = new HTMLDocument() {
                public HTMLEditorKit.ParserCallback getReader(int pos) {
                    return new HTMLEditorKit.ParserCallback() {
                        public void handleText(char[] data, int pos) {
                            buf.append(data);
                            buf.append('\n');
                        }
                    };
                }
            };
            URL url = new URI(uriStr).toURL();
            URLConnection conn = url.openConnection();
            Reader rd = new InputStreamReader(conn.getInputStream());
            EditorKit kit = new HTMLEditorKit();
            kit.read(rd, doc, 0);
        } catch (MalformedURLException e) {
        } catch (URISyntaxException e) {
        } catch (BadLocationException e) {
        } catch (IOException e) {
        }
        // Retorna todo o texto encontrado
        return buf.toString();

se ficar errado, copia pra sua maquina e faz identação

1 curtida

Bom dia karen_barbatto,

Pelo que eu intendi no sue código é o seguinte eu vou ter que possuir um conexão com a Internet,

correto funciona, já testei.

Agora tem como eu ler um arquivo .html .htm ?

por exemplo eu passo o caminho do HTML (C:\Truck1n.html), ai eu leio todo o HTML em um TEXT.

Att.
Truck1n

ViniGodoy já respondeu,

http://java.sun.com/products/jfc/tsc/articles/bookmarks/

abraços!

oi karen_barbatto, qual o formato do parametro uriStr?

Obrigado