Announcement

Collapse
No announcement yet.

PDF Datei nach Textinhalte durchsuchen und anzeigen

Collapse
X
  • Filter
  • Time
  • Show
Clear All
new posts

  • PDF Datei nach Textinhalte durchsuchen und anzeigen

    Schönen gute Morgen,
    ich möchte gerne programatisch eine PDF Datei nach einem Text durchsuchen und mir den Treffer in einem Ausschnitt der PDF Datei anzeigen lassen.
    Dazu habe ich zwei Dateien. Ein ASCII File, dass eine Liste mit den Texten enthält, nach denen gesucht werden soll, dann noch eine PDF Datei in der die Texte vorkommen.

    Kann mir jemand einen Tipp geben, wie so etwas in C# programmiert werden kann oder wo ich mich in das Theme einlesen kann?

    Vielen Dank im Voraus.
    Gruß Michael

  • #2
    Da es sich bei PDF erstmal um ein proprietäres Format handelt wird das mit Sicherheit nicht so ganz einfach.
    Wenn Du Glück hast gibts dafür ein COM Control mit dem man auch suchen. Vielleicht schaust Du erstmal dort. Ich glaube ich habe sowas schon mal gesehen. Dann könntest Du praktisch den Adobe Reader fernsteuern.

    Comment


    • #3
      Der Adobe Reader kannst du nur beauftragen das er seine eigene Suchfunktionalität anschmeißt und dir dann das Ergebnis dieser Suche präsentiert.

      Comment


      • #4
        Das hier sieht auch sehr gut aus:

        http://www.thundercorp.de/programmieren/pdf.htm

        Damit kann man angeblich den Text aus einem PDF Dokument extrahieren ohne eine externe Library oder ähnliches verwenden zu müssen. Suchen könnte man dann ja danach noch selbst. Ich habs allerdings nicht ausprobiert, aber einen Versuch wärs bestimmt wert

        Auf Google gibts auch diverse VB.NET to C# konverter, falls Du damit Probleme haben solltest (aber eigentlich isses echt einfach das zu übersetzen und man lernt auch gleich was der Code tut). Ich glaube die ganze Magie steckt in dieser DeflateStream Klasse.

        Comment


        • #5
          Originally posted by fanderlf View Post
          Das hier sieht auch sehr gut aus:

          http://www.thundercorp.de/programmieren/pdf.htm

          Damit kann man angeblich den Text aus einem PDF Dokument extrahieren ohne eine externe Library oder ähnliches verwenden zu müssen.
          So wie ich das PDF-Format kenne wird diese Einfache Lösung bei 20% der "Real-World"-PDF-Dateien scheitern.

          Schau dir lieber mal die PDFBox an. Diese dürfte mit der Texterkennung eher eine 99,9%-Lösung darstellen (100% wirds nur mit Adobe-Mitteln werden da alle PDF-Erzeuger gegen diese Implementierung testen).

          Comment


          • #6
            Adobe installiert einen IFilter für PDF. IFilter werden zum Beispiel zum Indexieren durch den Windows Indexing Dienst verwendet. Einen IFilter kann man aber natürlich auch in seiner eigenen Anwendung anzapfen um den PlainText aus einem beliebigen Dokumentenformat abzugreifen (solange den ein passender IFilter registriert ist).

            Guckst du zum Beispiel hier.

            Comment


            • #7
              Originally posted by Ralf Jansen View Post
              Adobe installiert einen IFilter für PDF.
              IFilter und Adobe-Support ist nicht mehr: http://forums.adobe.com/thread/754398

              Comment


              • #8
                IFilter und Adobe-Support ist nicht mehr:
                Im Reader. Die letzte Version (9) des Filters kann man sich aber auch bei Adobe runter laden. Und im Acrobat ist ein aktueller IFilter dabei.

                Die Zukunftsfähigkeit ist aber natürlich fraglich. Solange Adobe da aber nichts liefert ist das für mich die ~offiziellste~ Möglichkeit an den Klartext eines PDF's zu kommen.

                Comment


                • #9
                  Originally posted by Ralf Jansen View Post
                  Im Reader. Die letzte Version (9) des Filters kann man sich aber auch bei Adobe runter laden. Und im Acrobat ist ein aktueller IFilter dabei.
                  Im Richtigen Acrobat ist noch viel mehr als API dabei. Aber ich glaube nicht das er eine Lösung wie die immer 3stelligen Betrag pro Installation kostet.

                  Originally posted by Ralf Jansen View Post
                  Die Zukunftsfähigkeit ist aber natürlich fraglich. Solange Adobe da aber nichts liefert ist das für mich die ~offiziellste~ Möglichkeit an den Klartext eines PDF's zu kommen.
                  Offiziellste = Adobe Acrobat kaufen/installieren.

                  Comment


                  • #10
                    http://david.uebelacker.ch/2008/07/0...-pdf-auslesen/

                    Das Beispiel sollte sich mit

                    http://sourceforge.net/projects/itextsharp/files/

                    analog umsetzen lassen.
                    Christian

                    Comment


                    • #11
                      Originally posted by Christian Marquardt View Post
                      Bei iText sollte man die GPL-Falle beachten wenn man ClosedSource entwickelt.
                      Preise gibts hier erst auf Anfrage.

                      Comment


                      • #12
                        Originally posted by Bernhard Geyer View Post
                        Offiziellste = Adobe Acrobat kaufen/installieren.
                        Ok In dem Fall kann man dann offiziellste noch durch lukrativste (für Adobe) ergänzen.

                        Comment

                        Working...
                        X