Announcement

**Alexander_** · 05.10.2009, 15:26

Das subselect ist ungef�hr wie ich meine Anfrage auch aufgebaut habe - aber warum nimmst du min(tab2.id) ?

Das group by reduziert ja wieder alle Datens�tze mit ein und demselbern Tupel (Anmeldejahr, Geburtsort) auf einen Einzigen. Aber das ist ja nicht Sinn der Sache - es sollen ja mehrere gleiche Tupel in Tab3 aus Tab2 geholt werden - nur eben nicht exakt dieselben Datens�tze (hier mit gleicher ID), sondern unterschiedliche ID�s (aber mit dem gleichen Tupel)...

Durch das order by rand (10) wird ja soweit ich wei� nicht wirklich zuf�llig ausgew�hlt ... und daher nimmt die Anfrage bei einem bestimten Tupel auch immer denselben Datensatz aus Tab2 (ich denke mal es wird immer der Datensatz mit dem betreffenden Tupel genommen, den die Anfrage zuerst beim durchgehen des Datensatz (Tab2) findet).

**frauwue** · 05.10.2009, 15:33

Es ist nicht so ganz einfach Dich wirklich zu verstehen,
dann schreibe halt:

Select distinct tab2.id,tab2.anmeldejahr,tab2.geburtsort
where exists (select * from tab1
where tab1.anmeldejahr=tab2.anmeldejahr
and tab1.geburtsort=tab2.geburtsort)

**Falk Pr�fer** · 05.10.2009, 15:50

Hallo Alex,

ich glaube so langsam wird mir klar was du willst. Wenn ich dich richtig verstehe, dann ist jedoch dein Bsp. schlecht gew�hlt, da es den "Knackpunkt" nicht deutlich macht. N�mlich dann wenn in Tab1 ein bestimmtes Tupel mehrfach vorkommt. Wenn ich deine Beispieldaten mal erweitere:

Komplette Tab1:

ID Anmeldejahr Geburtsort
1 1990 Berlin
2 2001 M�nchen
3 2005 Frankfurt
4 2001 M�nchen

dann h�ttest du als Ergebnis gerne:

34
579
9
24

also f�r das "doppelt" vorkommende 2001/M�nchen einmal die ID 579 und einmal die 24. Hab ich das jetzt richtig?
Wenn ja, dann stellt sich mir sofort die n�chste Frage: Was ist wenn es mehr Tupel 2001/M�nchen in Tab1 gibt, als in Tab2?
In jedem Fall wirst du das nicht mit einem einzigen SQL-Statement l�sen k�nnen, da f�r die Entscheidung welcher DS aus tab2 (bei Vorhandensein mehrerer) ausgew�hlt werden soll, Bezug auf die bereits ausgew�hlte Datenmenge genommen werden m��te. Und da SQL Mengen- und nicht Zeilenorientiert arbeitet, wirst du hier wohl in einem Script eine Schleife zum Bef�llen deiner tab3 programmieren m�ssen.

Gru� Falk

**Alexander_** · 05.10.2009, 16:03

Das hatte ich bef�rchtet ... :-(

Hier ist mal meine gesamte (etwas vereinfachte) Query - worin eben besagtes Problem besteht!

CREATE TABLE Tab3
SELECT
(SELECT s.appln_id AS apn_id
FROM Tab2 s
WHERE s.cny_code = t.cny_code
AND SUBSTRING(s.appln_filing_date,1,4) = SUBSTRING(t.apn_date,1,4)
AND s.appln_id NOT IN (SELECT apn_id FROM Tab1)
ORDER BY rand(10)
LIMIT 1) refID,
(SELECT s.cny_code
FROM Tab2 s
WHERE s.cny_code = t.cny_code
AND SUBSTRING(s.appln_filing_date,1,4) = SUBSTRING(t.apn_date,1,4)
AND s.appln_id NOT IN (SELECT apn_id FROM Tab1)
ORDER BY rand(10)
LIMIT 1) refCNY,
(SELECT s.appln_filing_date AS apn_date
FROM Tab2 s
WHERE s.cny_code = t.cny_code
AND SUBSTRING(s.appln_filing_date,1,4) = SUBSTRING(t.apn_date,1,4)
AND s.appln_id NOT IN (SELECT apn_id FROM Tab1)
ORDER BY rand(10)
LIMIT 1) refAPN,
FROM Tab1 t;

Die Query geht also f�r jeden Tab1-Datensatz Tab2 durch und holt sich jeweils eine zuf�llige refID (appln_id), refCNY (cny_code) = Geburtsort und refAPN (appln_filing_date) = Anmeldedatum. Das funktioniert auch alles wunderbar ...

Bei den Auswertungen ist mir aber aufgefallen, dass die gleichen Tripel (refID, redCNY, refAPN) mehrfach auftauchen... das gilt es zu verhindern. Die naheliegendste L�sung war f�r mich - wenn ich auf die sich erstellende Tab3 zugreifen k�nnte und immer abgleichen k�nnte, ob die refID schon in Tab3 existiert (wenn ja - hole anderes Tripel) ... nur das geht anscheinend so nicht!

Wird es dadurch verst�ndlicher?

**Alexander_** · 05.10.2009, 16:11

hi falk,

EXAKT ... genau das m�chte ich :-) ...

mehr Tupel in Tab1 als Tab2 gibt es nicht ... Tab1 ist eine kleine Teilmenge aus Tab2 mit gewissenen anderen Attributen.

Ok - nicht Zeilenorientiert .... sondern mengenorientiert! Es gibt also keine M�glichkeit das so zu l�sen ja? - Die Anfrage so funktioniert ja.

Und bei Skriptprgrammierung h�rt es bei mir auf ... das hab ich zumindest noch nie gemacht! Kann ich das auch als Abfrage an die DB richten?

lg
alex

**Falk Pr�fer** · 05.10.2009, 16:25

Originally posted by Alexander_ View Post

...Es gibt also keine M�glichkeit das so zu l�sen ja? - Die Anfrage so funktioniert ja.

Nach meiner Kenntniss gibt es keine M�glichkeit innerhalb einer Abfrage Bezug auf "sich selbst" zu nehmen. Und eigentlich macht eine Bedingung "Nimm diesen DS nur wenn er nicht in der aktuellen Menge enthalten ist" auch keinen Sinn, denn in dem Moment indem der DS ausgew�hlt wird weil die Bedingung TRUE ist wird sie FALSE, da der DS dann in der Menge enthalten ist und der DS mu� wieder verworfen werden, was die Bedingung wieder zur TRUE macht...

Hier macht eine SP, die die Tab3 erstellt und dann in einer Schleife aus den Werten aus Tab1 und Tab2 einzeln bef�llt mehr Sinn. Innerhalb der Schleife kann dann auch die "wachsende" Datenmenge in Tab3 abgefragt werden.

Gru� Falk

**Alexander_** · 05.10.2009, 18:35

Das h�rt sich ja schonmal gut an ...

Eine SP?
Und wie funktioniert sowas? Hab bisher nur ganz simple mit SQL-Querys �ber phpmyadmin und SQL-Browser gearbeitet...

Kann mir da einer Hilfestellung geben?

**Falk Pr�fer** · 06.10.2009, 09:23

Hallo Alex,

infos zu Stored Procedures (SP) findest du im MySQL-Handbuch zu Stored Programs and Views.

Aussehen k�nnte das Ganze dann etwa so:
[highlight=sql]
DELIMITER |

CREATE PROCEDURE TestDaten()
begin
/* Cursor f�r die Hauptschleife */
declare curLoop CURSOR for
SELECT tab1.ID
FROM tab1;

declare tab1_ID int;
declare tab2_ID int;

declare no_data_found int DEFAULT 0;
declare CONTINUE HANDLER for NOT FOUND SET no_data_found = 1;

/* Tabelle tab3 erstellen, falls sie nicht existiert */
CREATE TABLE IF NOT EXISTS tab3 (
apn_id integer(11)
);
/* Alle Daten in tab3 l�schen */
TRUNCATE TABLE tab3;

open curLoop; /* Cursor �ffnen */
repeat /* Schleife */
fetch curLoop INTO tab1_ID;
if NOT no_data_found then
/* Anhand tab1_id die ID aus tab2 holen (diese darf noch nicht in tab3
enthalten sein) */
SELECT tab2.ID INTO tab2_ID
FROM tab1
INNER JOIN tab2 ON tab2.Anmeldjahr = tab1.Anmeldjahr
AND tab2.Geburtsort = tab1.Geburtsort
WHERE tab1.ID = tab1_ID
AND tab2.ID NOT IN (
SELECT apn_id FROM tab3
)
ORDER BY rand()
LIMIT 1;

/* Die gefundene tab2_ID in tab3 schreiben */
INSERT INTO tab3 VALUES(tab2_ID);

end if;
until no_data_found end repeat;
close curLoop;
end;
|

DELIMITER ;
call TestDaten();
[/highlight]
Das ist jetzt "frei Schnauze" runtergetippt, also nicht getestet und kann durchaus noch Fehler enthalten (aber du willst ja auch was lernen

)

Gru� Falk

**Alexander_** · 12.10.2009, 11:46

hi falk,

also erstmal vielen Dank - Anfrage funktioniert und macht genau das was ich will :-)

Allerdings (deswegen meld ich mich auch erst jetzt zur�ck) dauert die Anfrage extrem lange - ich hatte Sie jetzt seit letzten Donnerstag laufen und Sie ist nicht mal bis zur H�lfte gekommen. Zwar sind die Datenmengen recht gro� - aber gibt es da eine M�glichkeit die Effizienz zu steigern.

Es ist so das die Tab1 zu welchen er die Beispiele holen soll ~ 8000 Datens�tze hat - Tab3 wo er Sie rausholt hat aber ~ 60 Mio...

Lg
alex

**Falk Pr�fer** · 13.10.2009, 08:18

Hallo Alex,

da kannst du jetzt erstmal nur die "Standardsachen" probieren: Vern�nftige Indizes vorhanden? Sonst anlegen. Mal testweise das
[highlight=sql]
...
tab2.ID NOT IN (
SELECT apn_id
FROM tab3)
...
[/highlight]
durch
[highlight=sql]
...
NOT EXISTS (
SELECT 'X'
FROM tab3
WHERE tab3.apn_id = tab2.ID)
...
[/highlight]
ersetzen.

**Alexander_** · 14.10.2009, 17:33

hi Falk,

habe jetzt mal einige �nderungen gemacht - mal sehen ob die Performanz besser wird ...

**Alexander_** · 29.10.2009, 14:23

Hi Hallo,

ich bins mal wieder ... also die Performanz ist jetzt auf jeden Fall besser...

Ich hab jetzt ein anderes kleines Problem. Ich m�chte zu der generierten ID - also in Falk`s Abfrage tab2_ID noch eine match_id aus der tab1 dazunehmen. Somit m�chte ich die AusgangsID�s aus Tab1 mit der neuen ID aus Tab2 verbinden.

Beispiel:
Tab1 :
match_id ID
1 , 25
2 , 33

Tab2:
ID
11
26
30
45

Tab3:
match_id ID
1 , 26
2 , 45

Wie kann ich das machen?

Also irgendwie sowas:

INSERT INTO tab3 VALUES(tab2_ID, match_id from tab1);

Aber die Syntax klappt nat�rlich nicht ...

Gr��e
Alex

**Alexander_** · 29.10.2009, 17:06

Hat sich erledigt ...

Announcement

Abfrage gesucht...

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment