Announcement

Collapse
No announcement yet.

Indexierung von Textdokumenten

Collapse
X
  • Filter
  • Time
  • Show
Clear All
new posts

  • Indexierung von Textdokumenten

    Hallo

    Bin mir nicht sicher ob es hier das passende Forum ist, aber vielleicht kann mir jemand helfen.
    Ich möchte per OCR Dokumente scannen die dann abgelegt werden. Um aber eine kleine Suche einzubauen, möchte ich die Dokumente indexieren.

    Dachte an folgendes:
    3 Tabellen:
    Dokument
    Indexierung
    Treffer

    Ich splitte den ganzen Text vom Dokument in einzelne Wörter.
    Jedes Wort erhält eine ID. Doppelte Wörter werden vorab schon gelöscht.
    In die Tabelle Indexierung:
    DokumentID;TrefferID
    ...

    So werden alle Wörter in einem Dokument erfasst und man kann danach suchen.
    Ein weiteres Dokument wird wiederum indexiert und alle doppelten bzw. schon in der DB existierenden Wörter werden ignoriert.

    Das ist meiner Meinung die einfachste Möglichkeit die DB gering zu halten.
    Jedoch wird die Indexierung Tabelle sicher verdammt groß.

    Oder wie würdet Ihr das machen?

    Wir möchten dann suchen nach:
    Rechnung UND Kundennummer UND Datum

    Dann sollten wir nahe auf das passende Dokument kommen.

    Für Ideen und Kritik wäre ich dankbar!

    Hannes

  • #2
    Warum das ganze Dokument indexieren, wenn nur 3 Merkmale gebraucht werden. Da es sich wohl um formalen Text handelt, wird man die nach dem OCR wohl ermitteln können
    Christian

    Comment


    • #3
      Hallo

      Ich habe mich wohl nicht ganz exakt ausgedrückt.
      Es soll später möglich sein, über alle Wörter eine Suche laufen zu lassen.

      Beispiel:
      Es soll nach einem Jahr alle Originaldokumente der Lieferscheine und Rechnungen gelistet werden, welche den Artikel "xyz" enthalten und den Namen des Lieferanten drinnen haben.

      Das fertig gescannte OCR ist mit einer ID zur dem JPG verlinkt.

      Hannes

      Comment


      • #4
        Dann ist das doch ein gangbarer Weg
        Christian

        Comment


        • #5
          Hallo Christian

          Ich mache mir etwas um die Tabellen Größe Sorgen.
          Ich vermute eine Seite hat ca. 300 verschiedene Wörter.
          Wenn wir 1000 Dokumente im Jahr scannen, sind das 100.000 Zeilen.

          Auf 10 Jahre gesehen 1.000.000 Einträge in der Indextabelle bzw. Fermdschlüsseleinträge.
          Sind hier Probleme zu ewarten?

          Hannes

          Comment


          • #6
            Das sollte eine aktuelle DB können
            Christian

            Comment


            • #7
              Warum verwendest Du dafür nicht einen Volltextsuche Index wie z.B. Lucene oder ähnliches? Warum das Rad jedesmal neu erfinden

              Comment


              • #8
                Hallo

                Weil ich nicht wusste das ich was fertiges nehmen könnte :-)
                Ich muss jedoch eine ID unseres einfachen DMS in die Suche reinbekommen.

                Kannst du mir bitte kurz ein paar Infos geben wie das Teil arbeitet und vor allem wie ein Connect unserer Warenwirtschaft ermöglicht wird?
                In unsere Warenwirtschaft kann ich direkt als vb.net Code Anweisungen schreiben.

                Danke!

                Comment


                • #9
                  Puh im detail weiss ich das leider auch nicht, aber auf der Seite gibt es genügend Info. Ich hab mir das vor einiger Zeit mal angeschaut. Allerdings lässt sich damit relativ einfach eine Volltextsuche realisieren. Dazu gibt es noch einen Aufsatz namens Solr der einem den Einstieg noch leichter macht. Hier gibt es ein Tutorial:

                  http://lucene.apache.org/solr/tutorial.html

                  Bevor ich mir allerdings eine eigene Volltextsuche bauen würde, würde ich lieber das versuchen. So etwas mit normalen DB mitteln (Tabellen usw.) zu lösen ist wohl nicht der richtige Weg und wird auch nicht wirklich gut skalieren.

                  Comment

                  Working...
                  X