Announcement

**Christian Marquardt** · 18.02.2012, 19:06

Warum das ganze Dokument indexieren, wenn nur 3 Merkmale gebraucht werden. Da es sich wohl um formalen Text handelt, wird man die nach dem OCR wohl ermitteln k�nnen

**unique24** · 18.02.2012, 19:55

Hallo

Ich habe mich wohl nicht ganz exakt ausgedr�ckt.
Es soll sp�ter m�glich sein, �ber alle W�rter eine Suche laufen zu lassen.

Beispiel:
Es soll nach einem Jahr alle Originaldokumente der Lieferscheine und Rechnungen gelistet werden, welche den Artikel "xyz" enthalten und den Namen des Lieferanten drinnen haben.

Das fertig gescannte OCR ist mit einer ID zur dem JPG verlinkt.

Hannes

**Christian Marquardt** · 18.02.2012, 20:16

Dann ist das doch ein gangbarer Weg

**unique24** · 18.02.2012, 20:27

Hallo Christian

Ich mache mir etwas um die Tabellen Gr��e Sorgen.
Ich vermute eine Seite hat ca. 300 verschiedene W�rter.
Wenn wir 1000 Dokumente im Jahr scannen, sind das 100.000 Zeilen.

Auf 10 Jahre gesehen 1.000.000 Eintr�ge in der Indextabelle bzw. Fermdschl�sseleintr�ge.
Sind hier Probleme zu ewarten?

Hannes

**Christian Marquardt** · 18.02.2012, 21:06

Das sollte eine aktuelle DB k�nnen

**fanderlf** · 19.02.2012, 11:51

Warum verwendest Du daf�r nicht einen Volltextsuche Index wie z.B. Lucene oder �hnliches? Warum das Rad jedesmal neu erfinden

**unique24** · 20.02.2012, 18:15

Hallo

Weil ich nicht wusste das ich was fertiges nehmen k�nnte :-)
Ich muss jedoch eine ID unseres einfachen DMS in die Suche reinbekommen.

Kannst du mir bitte kurz ein paar Infos geben wie das Teil arbeitet und vor allem wie ein Connect unserer Warenwirtschaft erm�glicht wird?
In unsere Warenwirtschaft kann ich direkt als vb.net Code Anweisungen schreiben.

Danke!

**fanderlf** · 20.02.2012, 19:34

Puh im detail weiss ich das leider auch nicht, aber auf der Seite gibt es gen�gend Info. Ich hab mir das vor einiger Zeit mal angeschaut. Allerdings l�sst sich damit relativ einfach eine Volltextsuche realisieren. Dazu gibt es noch einen Aufsatz namens Solr der einem den Einstieg noch leichter macht. Hier gibt es ein Tutorial:

http://lucene.apache.org/solr/tutorial.html

Bevor ich mir allerdings eine eigene Volltextsuche bauen w�rde, w�rde ich lieber das versuchen. So etwas mit normalen DB mitteln (Tabellen usw.) zu l�sen ist wohl nicht der richtige Weg und wird auch nicht wirklich gut skalieren.

Announcement

Indexierung von Textdokumenten

Indexierung von Textdokumenten

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment