Announcement

**dimitri** · 16.07.2010, 08:51

DISTINCT dampft doppelte Datens�tze einfach nur ein.
GROUP BY gruppiert, wenn Du in Deinem SQL Aggregatsfunktionen verwendest.

Code:

select max(col1),col2 from tabelle group by col2

Das GROUP BY ist hierbei eine Pflichtangabe, auch wenn mysql in �lteren Versionen das nicht anmeckert aber daf�r auch z.T. seltsame ergebnisse liefert.

Verwendest Du keine Aggregatsfuktionen und m�chtest einfach nur eindampfen, dann schreibt man DISTINCT. Statt dessen ein GROUP BY zu verwenden ist m�glich aber schlechter Stil.

ist GROUP BY mit 0.0007 sek. schneller als DISTINCT mit 0.0008 sek.

Das ist nicht wirklich eine seri�se Messung. Welchen Anteil davon hat die Platte, das Netzwerk, hat der Virenscanner vielleicht grade was gemacht etc.

SELECT `Warengruppe`FROM `test`GROUP BY Warengruppe

Die Backticks ` brauchst Du nicht und sind eine der vielen Krankheiten, die sich mysql Benutzer im laufe der Zeit angew�hnen und weitergeben.

Ich w�rde dir empfehlen SQL mit postgres, mssql, oracle etc. zu lernen aber nicht unbedingt mysql.

Dim

**frauwue** · 16.07.2010, 09:15

Hi,

ein Vorteil von distinct ist, dass man nicht jede Spalte zweimal hinschreiben muss, was bei vielen Spalten schon l�stig sein kann. Ausserdem kannst Du, wenn Du die komplette Tabelle betrachten willst einfach schreiben:

select distinct * from test

Gru�

**sfxOn** · 16.07.2010, 10:58

@distinct:
Die Funktionsweise ist mir schon bekannt. Wie gesagt, kann ich aber mit beiden das selbe Ergebnis erreichen -> wodurch ich zB. in Php die selbe Ergebnismenge erreiche.

MySQL l�uft hier auf nem Windows XP-Rechner mit 2Ghz, 1Gbyte Ram, wurde mit XAMPP installiert. Virenscanner ist nicht installiert. Es laufen 38 Prozesse, meine Entwicklungsanwendungen eingeschlossen. Aber auch wenn ich aufs Minimum der Prozesse herunterdrossel, also alles ausschalte, ist das Ergebnis das selbe. Die Backticks `werden von phpmyadmin automatisch eingef�gt.. :\

Oracle und SQL92 wird mit behandelt, also auf Unterschiede hingewiesen. Ich muss mal fragen ob ich evtl. Zugriff auf ne Oracle-Datenbank zum testen bekomm. Unter MySql ist es hier tats�chlich so, das die Abfragen in unterschiedlichen Tabellen f�r GROUP BY immer ein schnelleres Ergebnis liefert.

Hast du vielleicht mal exemplarisch ein Anwendungsbeispiel in nem realit�tsnahen Scenario? Wann w�rde man DISTINCT und wann GROUP BY einsetzen? Ich sch�tze, dass das erst bei komplexeren Abfragen einen Unterschied macht, kann mir aber nicht richtig vorstellen in welchem Zusammenhang..

@frauwue:
Naja.. fraglich ob das wirklich der Grund war weshalb der Befehl eingef�hrt wurde. Ist aber n netter Hinweis f�r Tabellen mit vielen Spalten (wobei ich mir dann wiederum Gedanken �ber mein ER-Modell machen w�rde)

**dimitri** · 16.07.2010, 11:14

Hast du vielleicht mal exemplarisch ein Anwendungsbeispiel in nem realit�tsnahen Scenario? Wann w�rde man DISTINCT und wann GROUP BY einsetzen? Ich sch�tze, dass das erst bei komplexeren Abfragen einen Unterschied macht, kann mir aber nicht richtig vorstellen in welchem Zusammenhang..

Eine Tabelle mit Umsatzzahlen pro Tag f�r ein ganzes Gesch�ftsjahr (also ca. 220 Datens�tze). Errechne die Summe der Ums�tze pro Monat. In Oracle w�rde man das so machen:

Code:

SELECT SUM(UMSATZ_PRO_TAG) MONATSUMSATZ,
       TO_CHAR(UMSATZ_DATUM,'MM.YYYY') MONAT 
  FROM UMSATZTABELLE
GROUP BY TO_CHAR(UMSATZ_DATUM,'MM.YYYY')

Das Ergebnis w�rde dann etwa so aussehen:

Code:

1234,45  01.2010
34567,56 02.2010
3456,33  03.2010
...
88694,75 12.2010

Mach das mal mit DISTINCT

Oracle und SQL92 wird mit behandelt, also auf Unterschiede hingewiesen. Ich muss mal fragen ob ich evtl. Zugriff auf ne Oracle-Datenbank zum testen bekomm.

Runterladen und installieren.

Dim

**sfxOn** · 16.07.2010, 11:17

Ok, du hast mich n bisschen zu w�rtlich genommen.

Ich h�tte das ganze noch auf die Tatsache einschr�nken sollen, das das Ergebnis sowohl mit Distinct als auch Group By erreichbar ist.

Meine �berlegung:
Es muss doch einen wirklich driftigen Grund geben, DISTINCT zu verwenden. Irgendein Ergebnis das mit GROUP BY nicht erreichbar ist. Darauf will ich hinaus.

Edit:
Vielleicht gibt es auch ein Anwendungsgebiet in dem beide Befehle gleichzeitig verwendet werden. Ich kann mir da aber gerade nichts vorstellen. Scheint komplexer zu werden..

**dimitri** · 16.07.2010, 12:29

Es muss doch einen wirklich driftigen Grund geben, DISTINCT zu verwenden.

Ja, wenn man einfach nur doppelte S�tze eindampfen will.

Irgendein Ergebnis das mit GROUP BY nicht erreichbar ist.

Ja:

Code:

SELECT DISTINCT * FROM TABELLE

Anstelle von

Code:

SELECT col1,col2,col3,col4,col5,col6,col7,col8,col9 FROM TABELLE
GROUP BY col1,col2,col3,col4,col5,col6,col7,col8,col9

So kurz und pr�gnant kannst Du nur mit DISTINCT eindampfen.

Damit will ich es von meiner Seite aus auch bewenden lassen.

Dim

**sfxOn** · 19.07.2010, 08:28

Das Beispiel ist nicht schlecht.. Noch nicht ganz 100% �berzeugend, aber trotzdem gut. Ein ungutes Gef�hl, nicht wirklich zu wissen was dahinter steckt bleibt allerdings.

Kommt man denn irgendwie an den Quelltext? Das w�rde mir vielleicht ein bisschen genauer erkl�ren was da passiert. An wen k�nnt ich mich denn sonst noch wenden?

**sfxOn** · 20.07.2010, 08:23

Ich habe gerade das fehlende Puzzlest�ck gefunden. Mit Hilfe von DISTINCT lassen sich unter GROUP BY die Ergebnissmengen noch passgerechter Zusammenfassen, also doch andere Ergebnismengen erzielen.

Ich �bernehme mal die Daten aus der Lektion:

Code:

ID, Kunde, Beschreibung, Betrag
1, Betz, Ersatzgeb�hr, 40
2, Betz, Mitgliederbeitrag, 50
3, Polak, Mitgliederbeitrag, 50
4, Betz, Mahngeb�hr, NULL
5, Kampinski, Kaution, NULL
6, Mayer, Ersatzgeb�hr, 40
7, Polak, Mahngeb�hr, 80
8, Polak, Ersatzgeb�hr, 40
9, Betz, NULL, 35
10, Mayer, Ersatzgeb�hr, 45
11, Mayer, NULL, 45

Wenn man diese Datenmenge jetzt zB. folgenderma�en Abfragt:

Code:

SELECT COUNT(Beschreibung), Kunde
FROM Kasseneinnahmen
GROUP BY Kunde;

interpretiert MySQL die Stelle

Code:

COUNT(Beschreibung)

durch die Voreinstellung automatisch als:

Code:

COUNT(ALL Beschreibung)

und man erh�lt eine Ergebnismenge in der Form:

Code:

COUNT(ALL Beschreibung), Kunde
3,  Betz
3,  Polak
1,  Kampinski
2,  Mayer

Wenn man jetzt statt all, Distinct anwendet, werden doppelte Eintr�ge entfernt (COUNT(DISTINCT Beschreibung)) und man erh�lt ein Ergebnis bei dem doppelte Beschreibungen nicht mit aufgef�hrt werden:

Code:

COUNT(DISTINCT Beschreibung), Kunde
3, Betz
3, Polak
1, Kampinski
1, Mayer

Das ganze macht also erst bei Verwendung mit Aggregatfunktionen wirklich Sinn. Ich war wohl etwas zu ungeduldig.
Ich sch�tze das es noch weitere Anwendungsm�glichkeiten gibt, wenn ich weiter in die Materie eintauche..

**Falk Pr�fer** · 26.07.2010, 10:13

Hallo sfxOn,

es wurde zwar schon viel geschrieben und ist auch schon ein paar Tage her, aber ich m�chte auch noch meinen Senf dazu geben

.
Vlt. macht die Verwendung von DISTINCT noch etwas mehr Sinn, wenn du dir die exakte Definition des SELECT-Befehls ansiehst. Der lautet n�mlich:
SELECT [ ALL | DISTINCT ]...
Bei jedem Select ist also anzugeben, ob die Ergebnismenge alle oder nur eindeutige Zeilen enthalten soll. Die Angabe von ALL kann jedoch weggelassen werden und ist die Voreinstellung. Man sieht also auf einen Blick, welche Art von Ergebnis man erwarten kann, ohne erst das komplette Statement analysieren zu m�ssen. Bei Ein- und Zweizeilern mag das irrelavant sein, aber es gibt durchaus komplexere Statements

.

Das DISTINCT doppelte Datens�tze einfach ignoriert, indem sie aus der Ergebnismenge entfernt - oder "eingedampft" - werden, hat dim ja schon geschrieben. Hier liegt dann auch der Unterschied zum GROUP BY. Beim GROUP BY werden Datens�tze also nicht einfach ignoriert, sondern gruppiert und dabei impliziert sortiert!

Beispiel:
[highlight=sql]
CREATE TABLE distincttest (
id int(8) NOT NULL AUTO_INCREMENT,
name varchar(64) NOT NULL,
PRIMARY KEY (`id`)
);
INSERT INTO distincttest (name) VALUES
('Otto'),
('Kurt'),
('Karl'),
('Otto'),
('Kurt'),
('Max'),
('Otto'),
('Max');
[/highlight]

Die Abfrage mit DISTINCT:
[highlight=sql]
select distinct name
from distincttest
[/highlight]
Otto
Kurt
Karl
Max

Und mit GROUP BY:
[highlight=sql]
select name
from distincttest
group by name
[/highlight]
Karl
Kurt
Max
Otto

Beide Ergebnismengen enthalten zwar die gleichen Werte und besitzen diesselbe Anzahl an Datens�tzen, aber sie sind NICHT IDENTISCH!

Zu deiner Performancemessung: Die ist mit den wenigen Datens�tzen sicherlich einfach unseri�s und gen�gt keiner statistischen Sicherheit. In der Praxis, mit entsprechend vielen Datens�tzen und h�herer Komplexit�t wird ein GROUP BY immer langsamer sein als ein einfaches DISTINCT.

Gru� Falk

Announcement

Distinct und Group By

Distinct und Group By

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment