Announcement

Collapse
No announcement yet.

SAX Parser, Java und UTF-8

Collapse
X
  • Filter
  • Time
  • Show
Clear All
new posts

  • SAX Parser, Java und UTF-8

    Hallo zusammen,

    versuche mit dem SAX-Parser (jdom.jar (v1.0)) Daten aus XML-Dateien herauszulesen. Bevor ich die Probleme beschreibe, hier erstmal die system-technischen Informationen:

    Betriebssystem: Windows XP Prof.
    JSDK/JRE: v.1.4.2
    IDE: Eclipse/MyEclipse v3.1

    Da ich u. U. Dateien von einer Grösse => 490 MB lese, schaue ich nicht in jede XML-Datei um evtl. Fehler zu prüfen.

    Nun zu den Schwierigkeiten. Beim Lesen von XML-Datein stosse ich (je nach Datei) auf die folgenden Fehlermeldungen:

    1)
    Wenn XML-Datei in "Windows-1252"-Zeichensatz heruntergeladen wurde:
    SAXParseException:, Zeile 1, Spalte -1
    org.xml.sax.SAXParseException: Unzulässiges XML-Zeichen � (oder  oder  oder &#xC, ...)

    2) Wenn eine XML-Datei als UTF-8 heruntergeladen wurde (mit oder ohne XML-Schema), kommt beim Lesen die folgende Meldung:

    SAXParseException:, Zeile 1, Spalte -1
    org.xml.sax.SAXParseException: Dokumentwurzelelement fehlt

    Desweiteren habe ich bemerkt, das jedesmal, wenn in einem Satz das "&"-Zeichen vorkommt, automatisch ein Zeilenumbruch vorgenommen wird. Manchmal wird dann das "&"-Zeichen
    in der nächten Zeile angezeigt, manchmal allerdings weggelassen.

    Beispiel-Satz: "Kuchen & Käse"

    Ausgabe:

    Kuchen
    &
    Käse


    Im allgemeinen haben die Dateien folgenden Aufbau:

    Beispiel-XML-Datei:

    <?xml version="1.0" encoding="utf-8" ?>
    <root>
    <!-- product data
    -->
    <xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema" elementFormDefault="qualified" attributeFormDefault="unqualified">
    .... {Schema-Definition}
    </xs:schema>
    <product>
    <child1>Text</child1>
    <child2>
    Text
    </child2>
    {weitere Child-Elemente}
    </product>
    </root>

    An den Dateien konnte ich nicht aussergewöhnliches erkennen.

    Danke für Ideen und für die Hilfe.

    Gruss
    Cengiz

  • #2
    Ja merkwürdige Effekte,
    ich hatte mal ein ähnliches Problem. Zu deinem ersten Punkt, es kann sein das in dem entsprechenden File Zeichen sind die der Editor nicht anzeigt, der XML-Parser meckert dann in der art wie von Dir angegeben. Und auch die Zweite Meldung läßt sich so erklären. Der Parser findet "vermeintliches Markup" und beschwert sich über das Fehlende Root-Element. Solche Fehler treten gern auf wenn die XML Dateien von nicht Windows Systemen kommen und auf Windows Systemen verarbeitet werden sollen. Ohne die XML-Dateien zu korregieren wüßte ich aber auch nix....

    Comment

    Working...
    X