Hallo
Bin mir nicht sicher ob es hier das passende Forum ist, aber vielleicht kann mir jemand helfen.
Ich möchte per OCR Dokumente scannen die dann abgelegt werden. Um aber eine kleine Suche einzubauen, möchte ich die Dokumente indexieren.
Dachte an folgendes:
3 Tabellen:
Dokument
Indexierung
Treffer
Ich splitte den ganzen Text vom Dokument in einzelne Wörter.
Jedes Wort erhält eine ID. Doppelte Wörter werden vorab schon gelöscht.
In die Tabelle Indexierung:
DokumentID;TrefferID
...
So werden alle Wörter in einem Dokument erfasst und man kann danach suchen.
Ein weiteres Dokument wird wiederum indexiert und alle doppelten bzw. schon in der DB existierenden Wörter werden ignoriert.
Das ist meiner Meinung die einfachste Möglichkeit die DB gering zu halten.
Jedoch wird die Indexierung Tabelle sicher verdammt groß.
Oder wie würdet Ihr das machen?
Wir möchten dann suchen nach:
Rechnung UND Kundennummer UND Datum
Dann sollten wir nahe auf das passende Dokument kommen.
Für Ideen und Kritik wäre ich dankbar!
Hannes
Bin mir nicht sicher ob es hier das passende Forum ist, aber vielleicht kann mir jemand helfen.
Ich möchte per OCR Dokumente scannen die dann abgelegt werden. Um aber eine kleine Suche einzubauen, möchte ich die Dokumente indexieren.
Dachte an folgendes:
3 Tabellen:
Dokument
Indexierung
Treffer
Ich splitte den ganzen Text vom Dokument in einzelne Wörter.
Jedes Wort erhält eine ID. Doppelte Wörter werden vorab schon gelöscht.
In die Tabelle Indexierung:
DokumentID;TrefferID
...
So werden alle Wörter in einem Dokument erfasst und man kann danach suchen.
Ein weiteres Dokument wird wiederum indexiert und alle doppelten bzw. schon in der DB existierenden Wörter werden ignoriert.
Das ist meiner Meinung die einfachste Möglichkeit die DB gering zu halten.
Jedoch wird die Indexierung Tabelle sicher verdammt groß.
Oder wie würdet Ihr das machen?
Wir möchten dann suchen nach:
Rechnung UND Kundennummer UND Datum
Dann sollten wir nahe auf das passende Dokument kommen.
Für Ideen und Kritik wäre ich dankbar!
Hannes
Comment