Announcement

**Christian Marquardt** · 01.10.2019, 14:37

Das ist kein sinnvolles vorgehen bei 8 GB Dateien jeweils die Tags zu suchen.

ja, es soll id bis id stehen:

verstehe ich nicht in Zusammenhang mit dem leader-Tag
fso=FileSystemObjecte damit wird imho nicht im XML gesucht. Und eine Volltextsuche über das Filesystem ist ebenfalls recht sinnlos

**defo** · 01.10.2019, 14:43

Mit den Werkzeugen aus dem Paket xml-twig-tools kann man vielleicht auch was anfangen.

Beispiel:

Code:

user@server:~$ sudo apt-get install xml-twig-tools

user@server:~$ wget http://aiweb.cs.washington.edu/research/projects/xmltk/xmldata/data/SwissProt/SwissProt.xml

user@server:~$ ls -lh SwissProt.xml
-rw-r--r-- 1 user user 110M Jan  2  2002 SwissProt.xml

user@server:~$ ls -lh SwissProt.xml
-rw-r--r-- 1 user user110M Jan  2  2002 SwissProt.xml
user@server:~$ xml_split -g 10000 SwissProt.xml
user@server:~$ ls -lh SwissProt*
-rw-r--r-- 1 user user  214 Okt  1 14:33 SwissProt-00.xml
-rw-r--r-- 1 user user 23M Okt  1 14:33 SwissProt-01.xml
-rw-r--r-- 1 user user 22M Okt  1 14:33 SwissProt-02.xml
-rw-r--r-- 1 user user 22M Okt  1 14:33 SwissProt-03.xml
-rw-r--r-- 1 user user 23M Okt  1 14:33 SwissProt-04.xml
-rw-r--r-- 1 user user 22M Okt  1 14:33 SwissProt-05.xml
-rw-r--r-- 1 user user 110M Jan  2  2002 SwissProt.xml

user@server:~$ cat SwissProt-00.xml
<root>
<?merge subdocs = 0 :SwissProt-01.xml?>
<?merge subdocs = 0 :SwissProt-02.xml?>
<?merge subdocs = 0 :SwissProt-03.xml?>
<?merge subdocs = 0 :SwissProt-04.xml?>
<?merge subdocs = 0 :SwissProt-05.xml?></root>
user@server:~$

user@server:~$ head -n 10 SwissProt-01.xml
<xml_split:root xmlns:xml_split="http://xmltwig.com/xml_split">
  <Entry id="100K_RAT" class="STANDARD" mtype="PRT" seqlen="889">
 <AC>Q62671</AC>
 <Mod date="01-NOV-1997" Rel="35" type="Created"></Mod>
 <Mod date="01-NOV-1997" Rel="35" type="Last sequence update"></Mod>
 <Mod date="15-JUL-1999" Rel="38" type="Last annotation update"></Mod>
 <Descr>100 KDA PROTEIN (EC 6.3.2.-)</Descr>
 <Species>Rattus norvegicus (Rat)</Species>
 <Org>Eukaryota</Org>
 <Org>Metazoa</Org>

user@server:~$ tail -n 10 SwissProt-01.xml
  </DISULFID>
  <DISULFID from="26" to="52">
   <Descr>BY SIMILARITY</Descr>
  </DISULFID>
  <MOD_RES from="73" to="73">
   <Descr>AMIDATION</Descr>
  </MOD_RES>
 </Features>
</Entry>
</xml_split:root>

**Anna85** · 01.10.2019, 15:01

Danke defo, aber ich verstehe das nicht, was du grade gesagt hast.
Ich möchte nur ein Tool schreiben, der mir die Datei auf kleine Deteien zerlegt/aufteilt. Ich weiss, dass es geht, aber irgendwie weiss ich es nicht wie ... ich kann einfach nicht programmieren.

**defo** · 01.10.2019, 15:54

Was ich geschrieben habe (im letzten Beitrag) bezieht sich auf fertige, kostenlose Programme, die man unter Linux (hier beschrieben: debian / ubuntu Distribution) installieren kann.
Man braucht eigentlich nur einen Befehl (programm) xml_split, das wahrscheinlich das macht, was Du möchtest.
Ich habe den ganzen Weg mit einer Beispieldatei beschrieben
- Installation des Splitprogramms
- Download einer Beispieldatei
- Verarbeitung
- Auflistung der Ergebnisdateien
- Exemplarische Anzeige eines Dateianfangs und -endes

**defo** · 01.10.2019, 15:59

Das tool entfernt offenbar das Root Element und die Splitdatei mit Endung 00 beschreibt die Zusammensetzung, die wieder das komplette File darstellt.
Nicht ganz richtig: Die Splitdateien sind dann jeweils mit einem eigenen Root Element versehen.

neben xml_split gibt es in dem installierten Paket weitere Toos, die z.B. auch wieder das Mergen erlauben.

Die 100MB Datei hat als Beispiel schon ein einige Sekunden gedauert. Aber Du musst Dich so oder so auf eine größere Verarbeitungsdauer einstellen.

**defo** · 02.10.2019, 09:16

Originally posted by Anna85 View Post

irgendwie weiss ich es nicht wie ... ich kann einfach nicht programmieren.

Was ich vorgeschlagen habe, ist keine Programmierung, sondern die Nutzung eines Programms/Tools.
Man braucht nur einen Linux Rechner, wo man das eben installieren kann. Oder einen Windows Rechner mit Windows Subsystem Linux.
Und der Rechner sollte bei 8Gb Daten wohl nicht allzu schwächlich sein, besonders wenn man auf ein Verfahren setzt, dass in irgendeiner Form den Inhalt analysiert.

Ein anderer Ansatz- das war mein erster Vorschlag- ist die bloße Zerteilung, nach der Du ja im Grunde gefragt hast. Anschließend manuelle Korrektur (im Editor oder mit anderen Werkzeugen)
Dabei könnte man so vorgehen, dass man nicht in 2GB Dateien zerteilt, sondern eine Größe wählt, die ein halbwegs ordentlicher Editor schluckt, nehmen wir 1 GB.
Man zerhackt die Datein ohne auf den Inhalt zu achten in 8 Teile, das geht sehr schnell.
Dann nimmt man jeweils Anfang und Ende, verschiebt verstümmelte Daten zur einen oder anderen Seite und ergänzt das/die Root Element(e) jeweils.

Auch dabei muss man sich fragen, welchen Sinn es macht. Eine XML Datei von 1GB Größe dürfte nur von wenigen Programmen zu verarbeiten sein. Die Verarbeitung von XML beruht meist auf dem vollständigen Laden und Abbilden der Struktur im Hauptspeicher. Das ist auch bei deutlich weniger als 1GB Dateigröße nicht einfach.

Noch besser wäre natürlich, von vornherein kleinere Dateien zu haben.

**Christian Marquardt** · 02.10.2019, 10:10

Crosspost
https://www.mycsharp.de/wbb2/thread.php?threadid=122226

Announcement

XML Datei zerlegen

Comment

Comment

Comment

Comment

Comment

Comment

Comment