Announcement

Collapse
No announcement yet.

Binärdaten aus Textdatei extrahieren

Collapse
X
  • Filter
  • Time
  • Show
Clear All
new posts

  • Binärdaten aus Textdatei extrahieren

    Hallo allerseits!

    Ich habe hier ein kleines Problem bei dem ich einfach nicht weiter komme. Ich habe das Gefühl ich steh grad total auf der Leitung.

    Also folgendes ich habe eine Textdatei in der verschiedene Arten von 'Dateien' enthalten sind. Zuerst kommt einfacher Text, dann eine HTML-Datei und zum Schluß ein PDF oder Image. Die drei Teile sollen jetzt voneinander getrennt in den passenten Formaten gespeichert werden.

    Problematisch sind jetzt nur das PDF bzw. Image. Ich habe grad keinen Plan wie ich das dort rausbekomme. Den Text und das HTML habe ich per BufferedReader ausgelesen. Das PDF/Image wollte ich mir per BufferedInputStream holen, allerdings weiß ich nicht, wie ich den Anfang finden soll?

    Jemand eine Idee bzw. einen Tip wie ich das lösen könnte?

    Danke schonmal im vorraus.

  • #2
    Sorry, da ist keine Textdatei!

    Hast du das so definiert oder mußt du bestehende Daten übernehmen?

    Comment


    • #3
      Ist leider so vorgegeben und ich muß nun sehen wie ich damit klar komme. Das Ding kommt als blah.txt mit dem beschriebenen Inhalt so bei mir an und soll in die einzelnen Bestandteile zerlegt werden.

      Comment


      • #4
        Hallo,
        PDF Dateien fangen immer mit %PDF-... (Version) an.
        Kannst mal ne PDF Datei mit einem Editor öffnen, da sieht man das.
        Dies solltest Du als Startzeichen nehmen können.

        Thomas .-)

        Comment


        • #5
          Ja, das ist mir auch schon aufgefallen und habe ich auch schon versucht. Allerdings scheint der BufferedReader einige Zeichen des PDFs nicht richtig auszulesen, so daß das PDF anschließend leider nicht lesbar ist. Möglicherweise auch ein Problem mit dem Encoding.

          Ich bin leider mit der Verarbeitung von Dateien unter Java noch nicht sehr vertraut.

          Comment


          • #6
            Schau mal hier .-)
            http://www.javahowto.de/sprache/io/b...-kopieren.html

            Thomas

            Comment


            • #7
              Die ganze Datei zu kopieren bringt mich ja jetzt nicht wirklich weiter. Ich brauch ja nur einen Teil. Sorry, ich steh wohl echt voll auf meiner Leitung.

              Comment


              • #8
                Vielleicht ist dies ja besser :
                http://informatik.unibas.ch/lehre/ws...en/15_IO_2.pdf
                .-)

                Comment


                • #9
                  Du darfst die Datei (als ganzes) nur als Binärdatei anfassen und nicht mit irgendwelchen Textreadern lesen der Codierungswandlungen durchführt.

                  Die länge des PDF's sollte irgendwo im PDF vermerkt sein. Dazu wirst du dich aber in die Spec einlesen dürfen.

                  Also wer sich das ausgedacht hat gehört auf den Mond geschossen. Es gibt tausend Fälle indenen ein Algorithmus scheidert. Wie wäre es mit %PDF in der HTML-Datei welche kein entsprechenden End-Tags beinhaltet?

                  Comment


                  • #10
                    Originally posted by Bernhard Geyer View Post
                    Also wer sich das ausgedacht hat gehört auf den Mond geschossen.
                    Ja, das sehe ich genauso. Ist mir schleierhaft wie man auf so einen Mist kommen kann.

                    Ich versuche es jetzt mal per InputStream. Weiß nur noch nicht genau wie ich die Stelle finden soll, an der das PDF bzw. Image beginnt. Die PDF Specs werde ich mir auch mal zu Gemüte führen.

                    Danke euch soweit. Für weitere Vorschläge bin ich immer offen.

                    Comment

                    Working...
                    X