Announcement

**Christian Marquardt** · 25.05.2022, 21:59

"Wir selber beherrschen nur ein paar HTML-Grundlagen und verschiedenste CMS-Fertigbaukästen, sind somit komplette Laien."
Keine guten Voraussetzungen um so ein Projekt anzugehen

PDF ist ein sequentielles Format, das kann nur nacheinander gelesen werden. Des Weiteren kann es verschlüsselt und/oder mit einem Passwortschutz versehen sein.
Javaseitig gibt es gute Libs (iText sehr teuer) die das können und damit auch Zugriff auf den Text ermöglichen.

Damit das auf dem Webserver funktioniert, ist eine Javawebanwendung zu erstellen, einen Javaserver betreiben Tomcat o.a.Es ist hoher Einarbeitungs-- und Lernaufwand

Mit PHP sollte es auch gehen, man muss halt eine entsprechende Lib suchen

**koschi0815** · 25.05.2022, 22:20

Besten Dank für die Infos. Hat schonmal sehr geholfen. Wir wollen das ganze natürlich nicht selber programmieren, sondern suchen 1-2 Leute die das können bzw. fragen einfach mal rum.
Sind noch andere Sprachen möglich? Wie schätzt du den Aufwand für oben beschriebenes Szenario ganz grob ein? Tage, Wochen, Monate, Jahre?

**Christian Marquardt** · 26.05.2022, 05:54

Aufwand für was?
Programmierung? Server einrichten, härten? Doku? Tests? Testdoku?
Nur für die Programmierung ca 200 PT (Personentage), wenn alles neu gemacht werden soll

**defo** · 27.05.2022, 13:48

Mit einem OCR Ansatz vermeidet man wahrscheinlich Verschlüsselungs-, Kopierprobleme und andere Problem bei PDF Dokumenten und könnte ggf. auch andere Formate lesen. Dafür bekäme man es wahrscheinlich mit OCR Fehlern zu tun. Und mit mehr oder weniger Erkenner abhängiger Textverkettung /-Anordnung. Was netter ist, weiß ich nicht. Habt Ihr Euch das PDF Format dieser Firmen schon mal angesehen? Kennt Ihr die Entstehung der PDF Rechnungen? Wie hoch ist der Anteil an Bitmaps in den PDF? Wenn die PDF nicht „nativ“ entsteht, ist u.U. wenig oder gar kein Text extrahierbar, weil nur Bilddaten embedded sind. Ein schlechter PDF Konverter zur Erzeugung kann sehr gut schlechte PDF erzeugen.
Wie geht ihr mit Stornorechnungen um? Was macht Ihr mit fehlenden Rechnungen? (gar nichts sehr wahrscheinlich, doppelte und Stornos könnte man ja noch ganz gut abfangen) Wie aussagefähig ist dann ein Benchmarking? Wie testet Ihr die Qualität der Erkennung? Mehrseiten, Duplikate, .. Was macht Ihr, bei geänderten Rechnungsformularen oder geänderter PDF Erzeugung?

Die Sache erinnert mich etwas an die Kommunikation zwischen verschiedenen Firmenabteilungen. „Schicken sie mal ein Fax, das scanne ich dann und mit dem Screenshot mache ich ein Ticket im Userhelpdesk auf“. Oder so: Warum wertet man nicht gleich die Daten in der Buchhaltung aus?

Aus meinen überschaubaren beruflichen Erfahrungen mit PDF aus Behörden weiß ich nur, PDF Dokumente sind auf nicht nachvollziehbare Weise unerwartet aufgebaut. Einige Stellen sind extrahierbar, andere nicht, verkrüppelte Formularfelder bis hin zu der Funktion „Text schwärzen“. (letztere finde ich in einem elektronischen Dokument besonders lustig)

**Christian Marquardt** · 27.05.2022, 13:55

Auf einem Webserver ein PDF in ein Image zu wandeln und dann eine OCR zu machen halte ich für......schwierig

Announcement

PDF2Text mittels OCR in Echtzeit im Web

PDF2Text mittels OCR in Echtzeit im Web

Comment

Comment

Comment

Comment

Comment