Announcement

Collapse
No announcement yet.

PDF2Text mittels OCR in Echtzeit im Web

Collapse
X
  • Filter
  • Time
  • Show
Clear All
new posts

  • PDF2Text mittels OCR in Echtzeit im Web

    Hallo in die Runde,

    vorab schonmal ein Danke fürs Lesen und eventuelle Tipps :-)

    Ein paar Kollegen und ich machen uns aktuell Gedanken, ob folgendes Szenario in Echtzeit im Web realsierbar ist:
    Es soll eine Website erstellt werden, über die PDF-Rechnungen ausgelesen werden können. Die Rechnungen sind monatlich immer von 10 gleichen Firmen und somit standardisiert. In der jeweiligen PDF finden sich immer wieder die gleichen Begriffe wie z.B. Rechnungs-Endbetrag, Vergütung, Gesamtumsatz, Skonto - und dahinter bzw. in der gleichen Zeile ist dann die jeweilige Zahl. Wir möchten so bestimmte Zahlen aus dieser PDF auslesen, damit diese nicht händisch und recht aufwendig in ein Formular eingetippt werden müssen. Hinter dem Formular selber steckt ein "Taschenrechner". Verschiedene Rechnungen, verschiedener Kunden, verschiedener Monate sollen so über einen längeren Zeitraum benchmarkfähig gemacht werden .

    Wir selber beherrschen nur ein paar HTML-Grundlagen und verschiedenste CMS-Fertigbaukästen, sind somit komplette Laien. Mit welcher Programmiersprache ist das PDF-Auslesen online und in Echtzeit programmierbar? Das Taschenrechner-Prinzip mit PHP? Statistik und Datenbank über mySQL? Sind weitere Programmiersprachen möglich bzw. wieder andere besser geeignet? Wie aufwändig wäre solch eine Programmierung? Wir sind mit unserer Idee in den Kinderschuhen und suchen an unserer Uni nun den richtigen Ansprechpartner mit dem wir uns mal unterhalten können. Damit wir uns nicht direkt zu Beginn blamieren, benötigen wir einen klitzekleinen Wink mit dem Zaunpfahl :-)

    Besten Dank und viele Grüße
    Thomas

  • #2
    "Wir selber beherrschen nur ein paar HTML-Grundlagen und verschiedenste CMS-Fertigbaukästen, sind somit komplette Laien."
    Keine guten Voraussetzungen um so ein Projekt anzugehen

    PDF ist ein sequentielles Format, das kann nur nacheinander gelesen werden. Des Weiteren kann es verschlüsselt und/oder mit einem Passwortschutz versehen sein.
    Javaseitig gibt es gute Libs (iText sehr teuer) die das können und damit auch Zugriff auf den Text ermöglichen.

    Damit das auf dem Webserver funktioniert, ist eine Javawebanwendung zu erstellen, einen Javaserver betreiben Tomcat o.a.Es ist hoher Einarbeitungs-- und Lernaufwand

    Mit PHP sollte es auch gehen, man muss halt eine entsprechende Lib suchen
    Christian

    Comment


    • #3
      Besten Dank für die Infos. Hat schonmal sehr geholfen. Wir wollen das ganze natürlich nicht selber programmieren, sondern suchen 1-2 Leute die das können bzw. fragen einfach mal rum.
      Sind noch andere Sprachen möglich? Wie schätzt du den Aufwand für oben beschriebenes Szenario ganz grob ein? Tage, Wochen, Monate, Jahre?

      Comment


      • #4
        Aufwand für was?
        Programmierung? Server einrichten, härten? Doku? Tests? Testdoku?
        Nur für die Programmierung ca 200 PT (Personentage), wenn alles neu gemacht werden soll
        Christian

        Comment


        • #5
          Mit einem OCR Ansatz vermeidet man wahrscheinlich Verschlüsselungs-, Kopierprobleme und andere Problem bei PDF Dokumenten und könnte ggf. auch andere Formate lesen. Dafür bekäme man es wahrscheinlich mit OCR Fehlern zu tun. Und mit mehr oder weniger Erkenner abhängiger Textverkettung /-Anordnung. Was netter ist, weiß ich nicht. Habt Ihr Euch das PDF Format dieser Firmen schon mal angesehen? Kennt Ihr die Entstehung der PDF Rechnungen? Wie hoch ist der Anteil an Bitmaps in den PDF? Wenn die PDF nicht „nativ“ entsteht, ist u.U. wenig oder gar kein Text extrahierbar, weil nur Bilddaten embedded sind. Ein schlechter PDF Konverter zur Erzeugung kann sehr gut schlechte PDF erzeugen.
          Wie geht ihr mit Stornorechnungen um? Was macht Ihr mit fehlenden Rechnungen? (gar nichts sehr wahrscheinlich, doppelte und Stornos könnte man ja noch ganz gut abfangen) Wie aussagefähig ist dann ein Benchmarking? Wie testet Ihr die Qualität der Erkennung? Mehrseiten, Duplikate, .. Was macht Ihr, bei geänderten Rechnungsformularen oder geänderter PDF Erzeugung?

          Die Sache erinnert mich etwas an die Kommunikation zwischen verschiedenen Firmenabteilungen. „Schicken sie mal ein Fax, das scanne ich dann und mit dem Screenshot mache ich ein Ticket im Userhelpdesk auf“. Oder so: Warum wertet man nicht gleich die Daten in der Buchhaltung aus?

          Aus meinen überschaubaren beruflichen Erfahrungen mit PDF aus Behörden weiß ich nur, PDF Dokumente sind auf nicht nachvollziehbare Weise unerwartet aufgebaut. Einige Stellen sind extrahierbar, andere nicht, verkrüppelte Formularfelder bis hin zu der Funktion „Text schwärzen“. (letztere finde ich in einem elektronischen Dokument besonders lustig)
          Gruß, defo

          Comment


          • #6
            Auf einem Webserver ein PDF in ein Image zu wandeln und dann eine OCR zu machen halte ich für......schwierig
            Christian

            Comment

            Working...
            X