Announcement

Collapse
No announcement yet.

PDF Auslesen

Collapse
X
  • Filter
  • Time
  • Show
Clear All
new posts

  • PDF Auslesen

    Hallo Forumgemeinde,

    wir müssen Inhalte (nur Text, keine Anlagen oder Metadaten) aus PDF - Dateien auslesen.
    Google liefert dazu ja viele Treffer.

    Bevor ich mich da wild durchprobiere: Macht jemand sowas vielleicht bereits und kann etwas empfehlen?

    Muss nicht unbedingt für Delphi direkt sein, einen DLL oder einen API - Hinweis nehme ich auch gerne.

    Danke, Viele Grüße
    Tino
    Ich habs gleich!
    ... sagte der Programmierer.

  • #2
    Stichwort ist IFilter. Das stammt noch aus seligen Indexing Server Zeiten ist aber immer noch das Aktuellste in Windows und wird auch von Windows Search zum indexieren verwendet. Dafür muss natürlich ein passender IFilter für pdf auch installiert sein. Sollte man bei Adobe bekommen oder wird z.B. mit dem Reader installiert.

    Eine kurze Google suche hat, für mich als eher nicht Delphi User, nur das hier für Delphi aufgetan. In dem Package soll sich eine GetFileContentsFromIFilter Methode befinden wo man sich vermutlich die entscheidenden Teile abgucken kann.

    Comment


    • #3
      IFIlter und Adobe - Ich würde hier nix weiteres installieren. Bei Adobe muss man davon ausgehen das sie solche Tools einfach mal mit Hinweis auf Sicherheit oder was weis ich (intern: Wir wollen einfach hier nix mehr machen) das einstellen. Hatten wir schon öfter bei Adobe das Funktionen von heute auf Morgen eingestellt wurden die man als Kernfeature angesehen hat.

      Wir Verwenden http://pdfbox.apache.org/. Ein Commandozeilenaufruf und schon hat man den Text. Wenn man Java nicht vorraussetzen kann oder installieren will, einfach Java als "SideBySide-Installation" mit der Anwendung mitliefern. Läuft

      Comment


      • #4
        Vielen Dank für die Antworten!

        IFilter hab' ich mir ein wenig angeschaut. Der Adobe iFilter änderte nichts an einer Fehlermeldung 'unbekanntes Format' o.ä. Erst nach Installation von nicht - Adobe - Produkten z.B. pdfLib grundsätzlich auch ein Ergebnis gesehen. Das verlinkte Produkt ist allerdings pro Computer lizensiert, was für unsere Anwendung etwas blöd ist.

        PDFLib hat parallel mein Kollege schon etwas ausprobiert, wir hatten Beispielcode aus der IT Abteilung eines Kunden. Wir sind dadurch sehr schnell ans Ziel gekommen. Wahrscheinlich wird es auf einen Java - Aufruf aus Delphi heraus hinauslaufen, mal sehen.

        Danke, viele Grüße
        Tino
        Ich habs gleich!
        ... sagte der Programmierer.

        Comment

        Working...
        X