Announcement

**Patrick Sack** · 02.02.2000, 21:15

Hi,... 
ich ben�tige ein paar mehr Infos. 
Naja ich versuch es trotzdem ich hoffe ich treffe genau dein Problem. Angenommen man hat eine Tabelle in einer Datenbank mit dem Namen Adressen und m�chte nun feststellen welche Daten Dubletten besitzen. 
SELECT dummy1.ID, dummy1.Vorname, dummy1.Nachname
FROM adressen AS dummy1
WHERE 1 < (SELECT count(1) as Test From adressen as dummy2 where (dummy2.vorname = dummy1.vorname) and (dummy2.nachname = dummy1.nachname)); 
Wenn es nun drei Zeilen gibt in der Tabelle adressen mit dem Vornamen Wolfgang und dem Nachnamen Wendefeuer, dann w�rde diese abfrage alle drei Zeilen incl. ID liefern. Dann kann man selbst entscheiden welches der Vater Datensatz ist und die anderen ggf. l�schen. 
mfg 
P

**Wolfgang Wendefeuer** · 02.02.2000, 21:33

Hallo Patrick,
besten Dank f�r den Kl�rungsversuch, aber vielleicht war es wirklich etwas wenig Info von mir.
Die direkten Vergleiche von Feldern (Vorname, Nachname, Strasse, Plz ... usw.) bringen nur einen gewissen Prozentsatz ca. 70% von Dubletten. Auch der Vergleich von nur den ersten Teilen von den Feldern ist nicht sehr viel mehr ergiebig. Was ist zum Beispiel bei "Juergen" und "J�rgen" oder Stra�ennamen "Karl-Marx-Stra�e" bzw. "Karl Marx Strasse"
ich hoffe die Problematik wird nun etwas klarer.

Gru�
Wolfgan

**Patrick Sack** · 03.02.2000, 02:09

Das ist nat�rlich heikel. 
Vorab: so was habe ich noch nicht gemacht ich schreibe mal kurz was mir ad hoc dazu einf�llt. 
Ich bezweifle zun�chst das es einen Programmcode geben kann der alle etwaigen Fehler (es k�nnen ja auch Tippfehler existieren wie J�rgen und Jurgen) finden kann. Das hei�t man hat immer eine Dunkelziffer an Dubletten, die man nicht finden kann. Finden kann man sie ggf. nur durch Menschenkraft (d.h. jemand tigert die Tabelle durch und sucht nach solchen "fehlerhaften" Dubletten). 
Aber was h�lst du von folgenden L�sungsans�tzen: 
Jeder Text wird in eine Funktion geschickt mit dem Namen Convert die als Ergebnis einen String liefert der die folgenden Eigenschaften hat: Convert"Karl-Marx-Stra�e" 
-in dem �bergebenen Text werden alle �,�,�,� umgewandelt zu ue,ae,oe,ss 
-alle Sonderzeichen als auch Leerzeichen werden gel�scht so, da� nur noch Buchstaben a-z und A-Z in dem Text enthalten sind ggf. noch 1-0 
-zu guter letzt wird ein upcase durchgef�hrt 
 
Resultat: 
Convert"Karl-Marx-Stra�e" = KARLMARXSTRASSE 
Convert"Karl Marx Strasse" = KARLMARXSTRASSE 
Convert"J�rgen" = JUERGEN 
Convert"Juergen" = JUERGEN 

Um Schreibfehler zu finden k�nnte man ggf. die zwei Strings vergleichen: 
JUERGEN und JUERFEN 
man vergleicht immer Text1[i] mit Text2[i] und wenn bei i = 8 7 Zeichen �bereinstimmen ist es sehr wahrscheinlich, das es sich um ein und den selben Namen handelt jedoch mit einem Schreibfehler. Oder man vergleicht Text1[i] mit Text2[i] f�r i = 1 to length(text1) bis eine Unregelm��igkeit auftritt. Dann vergleicht Text1[i] mit Text2[i] f�r i = length(text1) downto Unregelm��igkeit. Damit kann man auch solche Fehler entdecken: JUERGEN und JURGEN 
Solche Datens�tze w�rde ich mir aber auf jeden Fall ausgeben lassen und selber entscheiden ob diese wirklich identisch sind oder nicht.

Eine Funktion zum ersetzen solcher Zeichen (��) habe ich mal in diese Forum gesetzt mu� man mal suchen unter Umlaute und so.
Das ist alles was mir derzeit dazu einf�llt. Falls dir das noch nicht weiterhilft, oder du noch andere aus diesem Forum zu diesem Thema h�ren willst ist es sehr wahrscheinlich am besten du setzt deine Frage nochmals ins Forum da eine Frage, zu der es schon Antworten gibt gerne �bersprungen wird. 
 
Bis dann... 
P

**Wolfgang Wendefeuer** · 03.02.2000, 10:06

Patrik, 
Danke f�r die ausf�hrliche Antwort. Das mit den Umlauten ist gel�st, das sind ja auch Basics. Deine Idee mit dem vergleichen der Buchstaben ist recht intressant, da werde ich mal genauer dr�ber nachdenken. Was mir in einem Bericht gelesen habe ist, das gute Systeme hier auch die h�ufigen Schreibfehler bei der generierung des Matchcodes ber�cksichtigen, da stand nat�rlich nicht wie das geht, aber als Beispiel wurde genannt, dass zum Beispiel das Zeichen "Y" immer mit "I" ersetzt wird, um eine vereinheitlichung der Schreibweise zu erreichen.
 
Mal sehen ob noch jemand was zu dem Thema weiss.....
 
gruss
Wolfgan

**Robert Marquardt** · 04.02.2000, 20:01

c't lesen hilft immer. Da war letztens ein phonetischer Algorithmus, der Kontext beruecksichtigt

**Wolfgang Wendefeuer** · 04.02.2000, 21:43

Ich wette es gibt zu Themen, die Dich Intressieren, in B�chern die ich lese, auch Hinweise und Tips, ich werde mir die Antwort merken.....
 
Wolfgan

**Andreas Kosch** · 05.02.2000, 11:16

Hallo,

zum Vergleich �ber eine unscharfe Suche verwende ich meistens den Soundex-Algorithmus. In meinem Buch Client/Server Datenbankentwicklung mit Delphi ist eine Anwendung zu finden, die den Soundex-Wert �ber eine mit Delphi entwickelte UDF (User Defined Function) direkt in der InterBase-Datenbank pr�ft (Trigger).

Beim Soundex-Prinzip werden nur die relevanten Buchstaben gewichtet und in eine Zahl konvertiert - am Ende liegt ein 4 Zeichen grosser Soundex-Wert vor. Zum Beispiel ergeben D und T den gleichen Wert, doppelte Soundex-Werte werden gestrichen.

Ergebnis: Die Schreibweisen 
a) Schmitt 
b) Schmied 
c) Schmidt 
ergeben alle den gleichen Soundex-Wert

**Wolfgang Wendefeuer** · 06.02.2000, 09:44

Danke Herr Kosch, 
das Buch habe ich mir gestern noch besorgt und auch schon begonnen das entsprechende Kaitel zu lesen. Ist zwar leider f�r den falschen Server geschieben .. hi hi .. aber das st�rt nicht weiter bei diesem Probelem. Sonst ist es wohl ein Treffer. Danke.
 
Wolfgan

**Wolfgang Wendefeuer** · 06.02.2000, 14:51

Herr Kosch, 
bei meinen Tests der Soundex Funktion ist mir aufgefallen, das Leerstrings zu fehlern f�hren. --- Nicht definierter R�ckgabewert der Funktion --- Ich habe dieses behoben und dann l�uft es wirklich sch�n.
Noch mal Danke. 
Wolfgan

**J�rgen Schwarze** · 12.02.2000, 14:21

Soundex wurde ja schon genannt. In der c't war vor Urzeiten mal ein Artikel zur Levenstein-Distanz (hoffentlich richtig geschrieben). Einfach mal die Suchm�glichkeiten des Heise-Servers nutzen und dann ggf. Artikel-Kopie nachbestellen oder Heft in der n�chsten Uni-Bibliothek ansehen.

J�rge

**Ralf Rapp** · 07.03.2002, 13:20

Hallo,

ist SoundEx nicht f�r den englischen Sprachraum?

Wie sieht den das Regelwerk f�r den deutschen aus?

Gru�
Ral

**Martin Krause** · 07.08.2002, 13:38

Hallo Ralf,

Ich verwende das engl. soundex f�r den Import einer Bestell-Email wo eine Adresse angegeben ist, die Suche mit soundex in einem Datenbestand klappt hervoragend (ausschuss vieleicht 5%) wo er den Datensatz nicht findet und einen neuen Kunden anlegt.

ich tausche nur vorher � -> ss , mache aus stra�e -> str und und und...

bis denne

Marti

Announcement

Matchcode Generierung

Matchcode Generierung

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment