Announcement

Collapse
No announcement yet.

html Quelltext UTF-8 auslesen - wo sind die Entities?

Collapse
X
  • Filter
  • Time
  • Show
Clear All
new posts

  • html Quelltext UTF-8 auslesen - wo sind die Entities?

    Hallo,

    ich bräuchte Rat zu folgendem Problem, das ich irgendwie von Grund auf nicht recht verstehe.

    Ich möchte aus einer URL den Quelltext auslesen und in der Datenbank ablegen.
    Ist die Webseite mit ISO-8859-1 kodiert funktioniert das,
    aber mit UTF-8 leider nicht.

    Wenn ich den Src mit UTF-8 in den Stream lese und das ganze dann in einen String wandle sind (logischerweise?) keine hmtl-entities mehr drin, bzw. nicht mehr alle ...

    Wie kann ich denn einen UTF-8 kodierten Stream so in einen String bekommen, dass der die Entities übersetzt und anzeigt?
    Dass in dem String dann z.B. nicht eingeschr㭫ter sondern eingeschränkter steht ?
    Geht das irgendwie?


    mein Code->>

    URLConnection conn = new URL("http://www.taz.de").openConnection();
    conn.setDoInput(true);
    InputStream in = conn.getInputStream();

    StringBuilder sb = new StringBuilder();
    String line;

    try {
    BufferedReader reader = new BufferedReader(new InputStreamReader(in,"utf-8"));
    while ((line = reader.readLine()) != null) {
    sb.append(line).append("\n");
    }
    } finally {
    in.close();
    }
    System.out.println("sb.toString():" + sb.toString());



    Viele Grüße
    Anthrazit

  • #2
    Obiger Code mit taz.de funktioniert einwandfrei
    Christian

    Comment


    • #3
      Hallo Christian,

      echt bei Dir gehts? Du hast dann bei Dir in der Log-Datei die Umlaute als hmtl-entities?
      Hm vielleicht muss ich dann irgendwas an meinem tomcat einstellen?

      Danke auf jeden Fall fürs Testen!

      Viele Grüße
      Anthrazit

      Comment


      • #4
        Nein, ich sehe die Wörter mit Umlauten korrekt

        Wenn eine HTNL-Seite korrekt ausgezeichent ist, müssen Entities nicht genutzt werden....
        Christian

        Comment

        Working...
        X