Announcement

**fanderlf** · 28.11.2011, 11:46

Da es sich bei PDF erstmal um ein propriet�res Format handelt wird das mit Sicherheit nicht so ganz einfach.
Wenn Du Gl�ck hast gibts daf�r ein COM Control mit dem man auch suchen. Vielleicht schaust Du erstmal dort. Ich glaube ich habe sowas schon mal gesehen. Dann k�nntest Du praktisch den Adobe Reader fernsteuern.

**Bernhard Geyer** · 28.11.2011, 11:58

Der Adobe Reader kannst du nur beauftragen das er seine eigene Suchfunktionalit�t anschmei�t und dir dann das Ergebnis dieser Suche pr�sentiert.

**fanderlf** · 28.11.2011, 12:23

Das hier sieht auch sehr gut aus:

http://www.thundercorp.de/programmieren/pdf.htm

Damit kann man angeblich den Text aus einem PDF Dokument extrahieren ohne eine externe Library oder �hnliches verwenden zu m�ssen. Suchen k�nnte man dann ja danach noch selbst. Ich habs allerdings nicht ausprobiert, aber einen Versuch w�rs bestimmt wert

Auf Google gibts auch diverse VB.NET to C# konverter, falls Du damit Probleme haben solltest (aber eigentlich isses echt einfach das zu �bersetzen und man lernt auch gleich was der Code tut). Ich glaube die ganze Magie steckt in dieser DeflateStream Klasse.

**Bernhard Geyer** · 28.11.2011, 13:24

Originally posted by fanderlf View Post

Das hier sieht auch sehr gut aus:

http://www.thundercorp.de/programmieren/pdf.htm

Damit kann man angeblich den Text aus einem PDF Dokument extrahieren ohne eine externe Library oder �hnliches verwenden zu m�ssen.

So wie ich das PDF-Format kenne wird diese Einfache L�sung bei 20% der "Real-World"-PDF-Dateien scheitern.

Schau dir lieber mal die PDFBox an. Diese d�rfte mit der Texterkennung eher eine 99,9%-L�sung darstellen (100% wirds nur mit Adobe-Mitteln werden da alle PDF-Erzeuger gegen diese Implementierung testen).

**Ralf Jansen** · 28.11.2011, 15:37

Adobe installiert einen IFilter f�r PDF. IFilter werden zum Beispiel zum Indexieren durch den Windows Indexing Dienst verwendet. Einen IFilter kann man aber nat�rlich auch in seiner eigenen Anwendung anzapfen um den PlainText aus einem beliebigen Dokumentenformat abzugreifen (solange den ein passender IFilter registriert ist).

Guckst du zum Beispiel hier.

**Bernhard Geyer** · 28.11.2011, 15:57

Originally posted by Ralf Jansen View Post

Adobe installiert einen IFilter f�r PDF.

IFilter und Adobe-Support ist nicht mehr: http://forums.adobe.com/thread/754398

**Ralf Jansen** · 28.11.2011, 16:48

IFilter und Adobe-Support ist nicht mehr:

Im Reader. Die letzte Version (9) des Filters kann man sich aber auch bei Adobe runter laden. Und im Acrobat ist ein aktueller IFilter dabei.

Die Zukunftsf�higkeit ist aber nat�rlich fraglich. Solange Adobe da aber nichts liefert ist das f�r mich die ~offiziellste~ M�glichkeit an den Klartext eines PDF's zu kommen.

**Bernhard Geyer** · 28.11.2011, 17:18

Originally posted by Ralf Jansen View Post

Im Reader. Die letzte Version (9) des Filters kann man sich aber auch bei Adobe runter laden. Und im Acrobat ist ein aktueller IFilter dabei.

Im Richtigen Acrobat ist noch viel mehr als API dabei. Aber ich glaube nicht das er eine L�sung wie die immer 3stelligen Betrag pro Installation kostet.

Originally posted by Ralf Jansen View Post

Die Zukunftsf�higkeit ist aber nat�rlich fraglich. Solange Adobe da aber nichts liefert ist das f�r mich die ~offiziellste~ M�glichkeit an den Klartext eines PDF's zu kommen.

Offiziellste = Adobe Acrobat kaufen/installieren.

**Christian Marquardt** · 28.11.2011, 17:26

http://david.uebelacker.ch/2008/07/0...-pdf-auslesen/

Das Beispiel sollte sich mit

http://sourceforge.net/projects/itextsharp/files/

analog umsetzen lassen.

**Bernhard Geyer** · 28.11.2011, 17:40

Originally posted by Christian Marquardt View Post

http://david.uebelacker.ch/2008/07/0...-pdf-auslesen/

Das Beispiel sollte sich mit

http://sourceforge.net/projects/itextsharp/files/

analog umsetzen lassen.

Bei iText sollte man die GPL-Falle beachten wenn man ClosedSource entwickelt.
Preise gibts hier erst auf Anfrage.

**Ralf Jansen** · 28.11.2011, 17:50

Originally posted by Bernhard Geyer View Post

Offiziellste = Adobe Acrobat kaufen/installieren.

Ok

In dem Fall kann man dann offiziellste noch durch lukrativste (f�r Adobe) erg�nzen.

Announcement

PDF Datei nach Textinhalte durchsuchen und anzeigen

PDF Datei nach Textinhalte durchsuchen und anzeigen

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment