Announcement

**Christian Marquardt** · 18.03.2016, 12:26

Ich m�chte es wenn es geht nur in MS-SQL machen,

Warum ist die Frage dann in MySQL?

**Nevada208** · 18.03.2016, 12:40

sorry meine MySQL

**defo** · 19.03.2016, 09:21

Originally posted by Nevada208 View Post

f�r einen Online-Shop m�chte ich eine Suchfunktion erstellen ..

Das ist eine brauchbare Beschreibung der Anforderung. Was hast Du denn schon erstellt?
Die Anforderung lie�e sich erstmal in 2 Teile zerlegen,
der erste w�re das finden selbst,
der zweite die Sortierung.

Mit welchen Mitteln willst Du da dran gehen?
Wie gro� ist der Datenbestand?

**Nevada208** · 19.03.2016, 10:05

Hallo defo,

der Datenbestand sind derzeit ca. 15.000 Artikel. Wie ich dran gehe wei� ich noch nicht.
Ich m�che noch eine zus�tzliche �hnlichkeitssuche mittels Levenshtein implementieren.

Zu Test habe ich die Felder Marke, Bezeichnung und Text zerlegt und in eine gesonderte Tabelle abgelegt:

aus

SAECO | SAECO Kaffeemaschine | Formsch�ne SAECO Kaffeemaschine mit Messbecher wird

id | artikel_nr | word | ranking

1 | 10001 | saeco | 1
2 | 10001 | Kaffeemaschine | 1
3 | 10001 | Formsch�ne | 4
4 | 10001 | saeco | 4
5 | 10001 | kaffeemaschine | 4
6 | 10001 | messbecher | 4

W�rter wie der, die, das usw. werden vorher entfernt.

Damit erhoffte ich mir eine schnellere Suche. Das Problem ist die Geschwindigkeit wenn ich die Daten sortiere.

select artikel_nr FROM words WHERE levenshtein('$this->q', word) BETWEEN 0 AND 5 limit 0,32

funktioniert sehr schnell.

Wenn ich aber das Ergbnis sortiert haben m�chte:

select artikel_nr FROM words WHERE levenshtein('$this->q', word) BETWEEN 0 AND 5 order by ranking limit 0,32

warte ich ewig, aber das Ergebnis passt

Eventuell ist mein Ansatz falsch?

Gru� Nevada

**Ralf Jansen** · 19.03.2016, 12:26

Nach kurzes googlen nach levenshtein und mysql scheint das eher keine eingebaute Funktion zu sein. Und die stored functions zum Thema sahen eher nicht nach ~schnell~ aus.
Hat MySql keinen Volltextindex? Wenn nicht vielleicht ein Volltextindex zus�tzlich zur Datenbank selbst verwalten zum Beispiel mit Lucene.

**defo** · 19.03.2016, 12:28

Originally posted by Nevada208 View Post

Wie ich dran gehe wei� ich noch nicht.
Ich m�che noch eine zus�tzliche �hnlichkeitssuche mittels Levenshtein implementieren.

W�rter wie der, die, das usw. werden vorher entfernt.

Damit erhoffte ich mir eine schnellere Suche. Das Problem ist die Geschwindigkeit wenn ich die Daten sortiere.

select artikel_nr FROM words WHERE levenshtein('$this->q', word) BETWEEN 0 AND 5 limit 0,32

funktioniert sehr schnell.

Wenn ich aber das Ergbnis sortiert haben m�chte:

select artikel_nr FROM words WHERE levenshtein('$this->q', word) BETWEEN 0 AND 5 order by ranking limit 0,32

warte ich ewig, aber das Ergebnis passt

Eventuell ist mein Ansatz falsch?

Der Ansatz ist gut! Levensthein ist ja schon fast Luxus.
Ich kenne mich nicht so gut mit mysql aus, aber da l�uft irgendwas schief. Gedanke: Wenn 3 oder auch 300 Datens�tze rauskommen, kann es nicht sehr lange dauern, die zu sortieren oder?
Also was macht die ranking order? Wieso produzierst Du kein Sortierkriterium, wie Du es selbst in der Anforderung definiert hast, oder warum sortierst Du nicht explizit nach LV Distanz?

Ich bin ein Depp, hab das "Ranking" Feld in der Wordtabelle nicht erkannt.
Das Ranking kann sich doch erst aus der Kombi ergeben oder?

**defo** · 19.03.2016, 12:38

Also bevor ich das noch mal bearbeite:
Eine eigener Suchindex scheint mir jedenfalls effizienter als ein externer.
Die Umsetzung ist allerdings etwas eigenartig, da pro Artikel einige W�rter mehrfach auftauchen und das Ranking vordefiniert wird.
Das kann nat�rlich genutzt werden, damit ein Hersteller seine Suchbegriffe etwas pushed

, aber darum geht's hier nicht oder?

Also nochmal, das eine ist das Finden (guter Ansatz mit Worttabelle)
das andere ist die Priorisierung, den Ansatz verstehe ich nicht.
Die Priorisierung ergibt sich m.E. erst im 2. Schritt, wenn man im Ergebnis auf den verschiedenen Feldern erneut abgleicht, wo das Suchwort und in welcher Kombi erscheint.
Da das Ergebnis relativ klein sein d�rfte verglichen mit der Gesamtartikelliste darf / sollte man hier einfach die FindeFunktion je Feld erneut anwenden und die Treffer decodieren zur Prio und danach sortieren.

**Ralf Jansen** · 19.03.2016, 12:51

Eine eigener Suchindex scheint mir jedenfalls effizienter als ein externer

Wenn die Funktionalit�t ausreicht

Was leider oft genug nicht der Fall ist. Wie indexierst du zum Beispiel die Word Spalte so das die levenshtein Methode keinen FullScan auf die ganze Tabelle macht?
Ich sehe nicht wie eine klassische relationale DB mit klassischen Indexierungsm�glichkeiten da ~effizient~ sein soll. Da sind spezialisierte Volltexter besser aufgestellt. Insbesondere da man an das ~wie~ indexiert wird besser dran kommt als bei einer relationalen Datenbank. Dinge wie Suche nach ~�hnlichkeit~ und ~Gewichtung~ bekommt man da fast geschenkt.

Aber ich war eh auf dem falschen Dampfer. Scheint ja das sortieren das Problem zu sein und nicht das Filtern bei der angedachten Datenmenge.

Edit: Vielleicht bin ich doch nicht auf dem falschen Dampfer

M�glicherweise bricht durch das Limit die Abfrage nach entsprechend n Treffern ab und muss gar nicht f�r die ganze Tabelle die Levenshteindistanz berechnen. Durch das Order by aber doch weil ja erst ~gerankt~ und dann ~gelimited~ wird. Dann ist der levenshtein Algo das Problem. Gibts einen MySql Profiler?

**defo** · 19.03.2016, 13:58

Originally posted by Ralf Jansen View Post

Wenn die Funktionalit�t ausreicht

Was leider oft genug nicht der Fall ist. Wie indexierst du zum Beispiel die Word Spalte so das die levenshtein Methode keinen FullScan auf die ganze Tabelle macht?
Ich sehe nicht wie eine klassische relationale DB mit klassischen Indexierungsm�glichkeiten da ~effizient~ sein soll. Da sind spezialisierte Volltexter besser aufgestellt. Insbesondere da man an das ~wie~ indexiert wird besser dran kommt als bei einer relationalen Datenbank. Dinge wie Suche nach ~�hnlichkeit~ und ~Gewichtung~ bekommt man da fast geschenkt.

Edit: Vielleicht bin ich doch nicht auf dem falschen Dampfer

M�glicherweise bricht durch das Limit die Abfrage nach entsprechend n Treffern ab und muss gar nicht f�r die ganze Tabelle die Levenshteindistanz berechnen. Durch das Order by aber doch weil ja erst ~gerankt~ und dann ~gelimited~ wird. Dann ist der levenshtein Algo das Problem. Gibts einen MySql Profiler?

Also das Ranking ist ja kein rank Algo sondern einfach nur eine Spalte, die so benannt ist.
Nach dem ersten Post war ich von einem simplen Like ausgegangen und hab das auch immer noch im Kopf. Hier findet fast zwangsl�ufig ein Index keine Anwendung, w�re aber dennoch mit einem oder 2 Scans durch. Bei 15T Artikeln auch kein Problem. Das betrifft dann allerdings die kompletten Textfelder. Die w�rden in einer Indextabelle ja zu einer wesentlich gr��eren Tabelle.

Ein (externer) Indexer hat sicher seine St�rken, vor allem, wenn nicht zuviel Bewegung in den Daten ist. Ich w�rde erstmal versuchen, zu Fu� klarzukommen, ich bek�me vielleicht einiges geschenkt, aber u.U. Dinge, die ich nicht haben will.
Das Limit bzw. das Order zwingt im Fall oben das System vielleicht zu einem vollst�ndigen Durchlauf, w�hrend unorderd einfach die ersten Treffer recht z�gig reinkommen.

**Ralf Jansen** · 19.03.2016, 16:35

Bei 15T Artikeln auch kein Problem

Der Algorithmus l�uft nicht auf die Artikelnamen sondern auf eine Tabelle mit jedem Wort jedes Artikels/Artikelbeschreibung.
Wenn sein Beispiel representativ ist dann sind es eher 100.000 Rows. Dazu steigt die Komplexit�t von levenshtein auch noch mit der L�nge des Suchworts (linear aber immerhin er steigt). Da wird es ohne Index knapp. Ein Gef�hl von ~Instant~ bekommt man da in einem Webshop oder wof�r das gedacht ist vermutlich eher nicht hin.

Um so l�nger ich dr�ber nachdenke um so ungeeigneter halte ich Levenshtein um schnell �hnlichkeiten in einem Wortstamm zu finden. Denn ich kann die Komplexit�t schlecht oder besser gar nicht beim Anlegen des Artikels abfr�hst�cken sondern kann es nur bei der Suche machen (trage die Kosten also bei jeder Suche). Da w�ren Algorithmen die auf der Normalisierung von W�rtern basieren besser geeigneter (Stichwort "Steeming" wie bei einem Volltextindex). Das kann man beim einf�gen erledigen und mu� es nicht erst beim suchen tun sondern kann sich beim suchen auf die Suche nach Gleichheit beschr�nken und w�re damit ~schnell~.

**defo** · 19.03.2016, 18:41

Ja, Du hast Recht. Normalisierung ist sicher nicht verkehrt. Steeming kenne ich nicht, also nicht als Verfahren in dem Bereich.

Ich hatte aber nie den Eindruck, dass levenshtein sehr langsam ist. Klar langsamer als ein like sicher, ich w�rde aber auch nicht mit Distanz 5 arbeiten, 1 bis 2 reicht eigentlich schon f�r sehr bl�dsinnige W�rter.
Die Sache mit den 15T Datens�tzen hatte ich ja auch schon so �hnlich geschrieben, die reine Wortliste w�re viel l�nger als die Anzahl der Ausgangsrecords, zumindest f�r eine gewisse Anzahl von Ausgangsrecords, irgendwann d�rfte die L�nge der Wortliste ja nahe konstant werden.

Nachtrag:
Hab grad mal ausprobiert.
Auf 1,8 Mio DS, gefiltert auf ca 10 %, LVD �ber 'Meierkowski' auf Namenfeld.
Distanz 1, kein Ergebnis
Distanz 2, kein Ergebnis
Distanz 3, 16 DS
Distanz 5, ca 250 DS
Erste Antwortzeit ca 1,6 Sekunden, danach schwankend zwischen 0,6 und 0,8.
Wahrscheinlich war alles nach dem ersten Select gecached. Die Spalte ist indiziert, ist hier vermutlich aber egal. (Die Filterung ebenfalls auf indizierter Spalte, ergibt einen Rangescan.) Ansonsten unoptimiert, taugt so nicht f�r online feeling, aber es w�re auch schon eine sehr gro�e Wortliste. Ich w�rde sagen, da geht noch was.
Eine �nderung der Abfrage auf LVD <5 mit order by LVD, Suchfeld �ndert -erwartungsgem��- nichts an den Zeiten.

Announcement

SQL Abfrage mit priorisiertem Ergbenis

SQL Abfrage mit priorisiertem Ergbenis

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment