Announcement

**Ralf Jansen** · 02.12.2020, 17:26

Klingt problematisch wenn man sich beim anlegen (bei einem INSERT) f�r die collation f�r diesen einen Datensatz entscheiden k�nnte. An dieser Stelle werden Indexe aufgebaut insbesondere auch die f�r uniqueness. Wenn bei jedem INSERT eine andere Defintion von Uniqueness gilt wie willst du sinnvoll entsprechende Indexe aufbauen? Wie willst du sinnvoll Duplikate behandeln wenn es keine eindeutige stabile Definition gibt? Ohne das kannst du eigentlich fast alle Indexe wegwerfen und mu�t mit einer langsamen Datenbank leben. Vermutlich ist es am sinnvollsten eine case sensitive Spalte zu definieren. Und auf der einen caseinsensitiven Index (der dann aber nicht unique sein kann) zus�tzlich anzulegen. Ich vermute sonst wird wenn du dich w�hrend dem select f�r eine andere Collation zum vergleichen entscheidest kein Index gezogen. Ist also potentiell sau langsam.

**Duftox** · 02.12.2020, 18:22

Originally posted by Ralf Jansen View Post

Klingt problematisch wenn man sich beim anlegen (bei einem INSERT) f�r die collation f�r diesen einen Datensatz entscheiden k�nnte.

Also ich will nicht ausschlie�en, dass ich generell ein unvollst�ndiges Verst�ndnis von der Collation habe und den Sachverhalt deshalb noch nicht so ganz begreife. Aber die Collation ist doch die ganze Zeit die gleiche, n�mlich utf8-general-ci, oder? Die soll doch auch so bleiben. Entscheidet der Zusatz BINARY beim Select nicht nur dr�ber, wie SQL sucht, also ob es Case-sensitive oder case-insensitive sucht? Wenn ich, wie oben schon erw�hnt einen INSERT mit Key "ABC" mache, dann liefert mir ein SELECT mit BINARY user_id = 'ABC' ja auch korrekterweise einen Treffer zur�ck, w�hrend z.B. BINARY user_id = 'abc' null Treffer liefert.

Also h�tte ich jetzt angenommen, dass dann auch die zwei Keys "ABC" und "abc" gleichzeitig in der Tabelle existieren k�nnen. Oder ist dies eine Fehlannahme? Oder wenn doch, wie kann ich sie dort reinbekommen?

**Christian Marquardt** · 02.12.2020, 18:28

Oder ist dies eine Fehlannahme?

Ja
Ein Spalte die "ABC" und "abc" enthalten soll kann keine PK/UNIQUE-Spalte sein. Und das ist das Problem
Jede andere Spalte kann nat�rlich beides enthalten.
Also anderen PK definieren und einen Vergleich -wie von Ralf vorgeschlagen - mit einer anderen Spalte vornehmen

**Duftox** · 02.12.2020, 19:06

Originally posted by Christian Marquardt View Post

Ein Spalte die "ABC" und "abc" enthalten soll kann keine PK/UNIQUE-Spalte sein. Und das ist das Problem

Aber was bewirkt denn dann der Zusatz BINARY genau? �ndert das die Kollation oder wie ist das zu verstehen? Weil wenn ich die Tabelle so definiere: CREATE TABLE userid ( user_id STRING BINARY PRIMARY KEY NOT NULL), also BINARY schon beim CREATE mit reinpacke, dann kann ich ja einen Insert mit "ABC" und einen mit "abc" machen.

**Christian Marquardt** · 02.12.2020, 19:11

https://dev.mysql.com/doc/refman/8.0...varbinary.html

https://www.w3schools.com/sql/func_mysql_binary.asp

Convert a value to a binary string

**Ralf Jansen** · 03.12.2020, 00:29

Beim SELECT steuerst du ausschlie�lich die Vergleichsoperation wie du zum Ergebnis Set kommst. Du ver�nderst in keiner Weise die Tabelle und wie die gespeichert wird.
Bei einem INSERT beinflusst du aber den Inhalt der Tabelle und was wie gespeichert wird. Du widersprichst dann eventuell dem Tabellenaufbau den du beim Erzeugen der Tabelle festgelegt hast.

Im Moment hast du festgelegt das die Spalte eindeutige Werte enthalten soll und zwar ohne das casing zu ber�cksichtigen. Du hast m�glicherweise schon Millionen von Datens�tzen in der Tabelle die dieser Regel folgen und voraussichtlich in einer Weise gespeichert wurden um suchen unter zuhilfename dieser Regel schnell zu machen (hei�t meist es gibt spezielle Indizes)
Wenn du jetzt ankommst und einen Datensatz einf�gt der der Regel nicht entspricht, unter der Annahme du d�rftest das, ist jede optimierte Datenhaltung ann�hernd sinnlos geworden. Wenn du auf eine solche Tabelle einen SELECT absetzt kann keine optimierte Regel angewendet werden weil du dich nicht an die Regel gehalten hast. Hei�t also, in dem gedachten Fall du d�rftest das was du gerne willst, ein SELECT w�re furchtbar lahm oder er findet einfach nicht alles.

Dein Beispiel mit google ist offensichtlich arg hinkend. Ein Unique Index ist etwas v�llig anderes als ein VolltextIndex. Bei google ist es schei� egal ob du alles findest, nur einen Teil findest, oder ob eine Suche �berhaupt 1-1 wiederholbar ist. Man m�chte da einfach Treffer zu irgendwas von irgendwo v�llig unscharf. Da werden keinen eindeutigen Abh�ngigkeiten abgelegt ganz anders als in einer relationalen Datenbank.
Also �ndere die Tabellendefinition oder denk dir was anderes aus das die Eindeutigkeit dieser Spalte nach der aktuellen Definition erh�lt.

Es erscheint eh sehr merkw�rdig das etwas das id im Namen tr�gt wie die genannte Spalte irgendeinen Sinn enth�lt so das casing/ nicht casing wichtig w�re. Meist ist man richtig unterwegs wenn das eine v�llig k�nstliche Gr��e ist die keinen Anspruch auf Lesbarkeit hat sondern ein rein technisches Interna abbildet (eine Beziehung oder etwas eindeutig macht). Testfrage dazu w�re m�ssen User einer Anwendung die diese Datenbank benutz irgendwas von dieser id wissen? K�nnen die die sogar sehen? Wenn dem so ist l�uft da vermutlich was falsch.

**Duftox** · 03.12.2020, 09:35

Ok, ich verstehe. Wenn ich die Tabelle also ohne Zusatz BINARY aufbaue, dann baut er sich andere (f�r case-insensitive Suche geeignete) Indizes auf. Das klingt erstmal nachvollziehbar. Daraus folgt allerdings (wichtige Erkenntnis f�r mich!!!) dass ich dann bei gro�en Tabellen beim Read den Zusatz BINARY auch vermeiden sollte, denn er w�rde dann case-sensitiv suchen, obwohl er nur case-insensitive Indizes hat und wie von dir erl�utert dadurch sehr langsam werden. BINARY im READ zeugt also von schlechtem Design, weil - wenn man es wirklich braucht - dann h�tte gleich die Tabelle entsprechend definiert werden sollen.

Eine wirklich sehr wertvolle Info f�r mich, ich werde jetzt mit gutem Gewissen das BINARY in das CREATE TABLE reinpacken und kann dann auf die Angabe im Read verzichten (und auf die theoretisch ben�tigte im Insert).

Meine urspr�ngliche Annahme, war halt einfach nur falsch. Ich arbeite seit Urzeiten z.B. mit Oracle-Datenbanken, und dort ist "hallo" nun etwas vollkommen anderes wie "HALLO". Das mySQL das anders handhabt, also es zwar unterschiedlich speichert aber gleich behandelt, das muss man dann erstmal in den Kopf reinbekommen.

Ich bin Euch jedenfalls sehr dankbar, dass Ihr euch die Zeit genommen habt, mir zu dieser Erkenntnis zu verhelfen.

Announcement

Probleme bei Insert mit Case-sensitive

Probleme bei Insert mit Case-sensitive

Comment

Comment

Comment

Comment

Comment

Comment

Comment