Announcement

**O. Helper** · 07.07.2008, 13:13

Hallo Barbara,

oh ha, so viel Text am Montag zum Lesen; ob ich das alles richtig verstanden habe ...

"dass die Tabelle sehr gross ist (�ber 140 000 Eintr�ge)" na,ja, das ist noch nicht wirklich viel...

Also,
1. Schleifen / Cursor (Server-Round-Trips) sind immer inperformant, das sollte man immer vermeiden.
2. Ich helfe mir immer damit, das ich das Problem so einfach wie m�glich zu beschreiben, so als wollte man es einem Kleinkind erkl�ren (also mir oder dem MSSQL)

In Deinem Fall k�nnte man es so formulieren:

- "Anfang" ist jeder Datensatz, der keinen Vorg�nger �lter als 10 Minuten hat
- "Ende" ist jeder Datensatz, der keinen Nachfolger �lter als 10 Minuten hat
- "Inside" sind damit alle anderen

Und wenn das von der Logik her passt, kannst Du es fasst "mengenorientiert" abhandeln und auf Schleifen verzichten:
[highlight=SQL]
UPDATE Tabelle
SET ClickPart = 1, -- Anfang
ClickID = NEWID()
WHERE NOT EXISTS(SELECT 1
FROM Tabelle AS SUB
WHERE SUB.UserID = Tabelle.UserID
AND SUB.Publikationsdatum = Tabelle.Publikationsdatum
AND SUB.ClickTime >= DATEADD(mi, -10, Tabelle.Tabelle.Publikationsdatum)

UPDATE Tabelle
SET ClickPart = 3, -- Ende
ClickID = (SELECT TOP 1 ClickID FROM Tabelle AS SUB
WHERE SUB.UserID = Tabelle.UserID
AND SUB.Publikationsdatum = Tabelle.Publikationsdatum
AND NOT ClickID IS NULL
AND AND SUB.ClickTime <= Tabelle.ClickTime
AND ClickPart = 1
ORDER BY SUB.ClickTime DESC)
WHERE NOT EXISTS(SELECT 1
FROM Tabelle AS SUB
WHERE SUB.UserID = Tabelle.UserID
AND SUB.Publikationsdatum = Tabelle.Publikationsdatum
AND SUB.ClickTime <= DATEADD(mi, 10, Tabelle.Tabelle.Publikationsdatum)

UPDATE Tabelle
SET ClickPart = 2, -- Inside
ClickID = (SELECT TOP 1 ClickID FROM Tabelle AS SUB
WHERE SUB.UserID = Tabelle.UserID
AND SUB.Publikationsdatum = Tabelle.Publikationsdatum
AND NOT ClickID IS NULL
AND AND SUB.ClickTime <= Tabelle.ClickTime
AND ClickPart = 1
ORDER BY SUB.ClickTime DESC)

WHERE ClickPart IS NULL
[/highlight]

Ist nicht getestet, aber so in der Art m�sste es gehen.

Das kann man nat�rlich noch optimieren, SubSelect sind unter MSSQL auch nicht das schnellst.

Wo bekommst Du die eindeutige Nummer je Clickstream her bzw. wie willst Du die generieren?
Was ist mit S�tzen �ber Mitternacht hinweg, sollen die speziell ber�cksichtigt werden? (Also 1 Minute vor + nach Mitternacht geh�rt zu einem Stream)?

**barbara83** · 07.07.2008, 14:55

Hallo Olaf,

Danke schon mals f�r deine Antwort - ich kann die grobe Vorgehensweise nachvollziehen, verstehe den Code jedoch noch nicht vollst�ndig und konnte ihn daher auch nicht an mein Beispiel anpassen (arbeite erst seit wenigen Tagen mit MS SQL). Ich habe jetzt mal ein Beispiel vorbereitet (.bak-Datei in einem zip-verpackt). Die Datei ist allerdings zu gross um hier anzuh�ngen, sie ist unter folgendem Link zu erreichen:

http://www.file-upload.net/download-...mTest.zip.html

Sie beinhaltet jetzt bereits die beiden neu zu erstellenden Spalten (ClickCode und ClickStreamID):
- Clickcode: 1 = Anfang, 2 = Inside, 3 = Ende;
dazu habe ich noch einen Code 4 verwendet, welcher im Prinzip einer 1 gleichkommt, aber angibt, dass der User von dem entsprechenden Publikationsdatum bereits zuvor einen Clickstream durchgef�hrt hatte (brauche ich f�r die Auswertung ebenfalls). Im Prinzip muss noch ein Code 5 folgen, welcher den Spezialfall beinhaltet, dass Anfang = Ende ist, d.h. in einem Clickstream nur genau eine Ressource abgefragt wurde.
Aber m�glicherweise lassen wir diese beiden F�lle im ersten einfachen Beispiel mal weg...

Beispiel aus dem File:
- User 4094 liest nur Artikel vom 23.05.08 und nur genau an diesem Tag. Allerdings macht er zweimal eine l�ngere Pause (gr�sser 10minuten), so dass wir drei verschiedene Clickstreams f�r ihn identifizieren. Es gibt dreim mal ein Endcode (=3) und im Prinzip auch drei Anfangscode (einmal eine 1, zweimal eine 4). Er beginnt nur einmal das erste Mal Artikel vom 23.05. zu lesen (Code 1), jedoch zweimal steigt er anschliessend wieder ein (Code 4).
- User 6777 hat zwei Clickstreams. Einmal beginnt er Artikel vom 23.05. am 23.05. zu lesen (1) und schliesst diesen Stream auch wieder ab (3), einmal am am 27.05. (Code 4) und schliesst diesen nat�rlich auch wieder ab (3).

Die eindeutigen ClickstreamIDs m�ssen aufgrund der Codes erzeugt werden, d.h.
- globalen Z�hler
- sortiere die ganze Tabelle zuerst nach userid, anschliessend nach publikationstag und schliesslich nach der Clicktime. Dann gehe die Spalte ClickCode von oben nach unten durch und setze jedes mal, wenn eine 3 kommt den globalen Z�hler nach oben. F�ge f�r jede Entit�t den globalen Z�hler ein... (vereinfachte beschreibung)....

Hoffe, dass die Problemstellung jetzt etwas klarer ist und ich irgendwie durch die Forumshilfe an eine L�sung komme.
Vielen herzlichen Dank
Barbara

**O. Helper** · 07.07.2008, 16:08

Hallo Barbara,

wie sieht es mit dem 2. Datensatz
4094 / 23.05.2008 08:45:50
Der ist bei Dir mit 2 codiert, meines daf�rhalten nach ist es eine 4; allerdings gibt dann keinen "Inside" Datensatz?

Kann man Dich dazu �berreden, ein Feld mit einer IDENTITY ID einzubauen? Das w�rde es etwas einfacher machen.

**barbara83** · 07.07.2008, 16:50

hallo olaf.

stimmt, sorry - da hatten wir noch eine andere definition von clickstreams - da war es noch eingestellt "wenn gr�sser 15minuten" anstelle von "wenn gr�sser 10min".

ja, wenn es hilft, k�nnte man die identity id einbauen. allerdings m�sste es im nachhinein m�glich sein - denn ich bekomme den datensatz genau so wie er ist... ;-)
aber denke, dass man eine identity id im nachhinein einbauen k�nnte, oder?

gruss
b

**O. Helper** · 07.07.2008, 17:15

Also, abgesehen von Tippfehlern und kleinen Logikfehlern (nur ganz kleine ;-) passt mein erster Entwurf.

Ich habe mal 2 Felder f�r das Ergebnis hinzugef�gt, damit Du meins/Deins vergleichen kannst.
Ausserdem ein Id Fehler, weil es die Angelegenheit vereinfach.

Was noch fehlt, ist die Ermittlung der "clickstreamid", ein bisschen Arbeit soll f�r Dich ja auch �ber bleiben.

[highlight=SQL]
-- Tabelle um ID erweitern
ALTER TABLE dbo.test ADD
clickcode_oh smallint NULL,
clickstreamid_oh int NULL,
id int NOT NULL IDENTITY (1, 1)
GO

-- ************************************************** *********
-- Der j�ngste Eintrag pro Tag ist
-- immer 1 - Anfang
UPDATE test
SET clickcode_oh = 1,
clickstreamid_oh = clickstreamid -- Gefaket: Hier fehlt noch die ID Ermittelung
WHERE clickcode_oh IS NULL
AND id IN (SELECT MIN(id)
FROM test
GROUP BY userid, publikationsdatum)
GO

-- 4 - "Anfang" ist jeder Datensatz, der keinen Vorg�nger �lter als 10 Minuten hat
UPDATE test
SET clickcode_oh = 4,
clickstreamid_oh = clickstreamid -- Gefaket: Hier fehlt noch die ID Ermittelung
WHERE clickcode_oh IS NULL
AND NOT EXISTS(SELECT SUB.id
FROM test AS SUB
WHERE SUB.id <> test.id
AND SUB.userid = test.userid
AND SUB.publikationsdatum = test.publikationsdatum
AND SUB.ClickTime >= DATEADD(mi, -10, test.clicktime)
AND SUB.ClickTime < test.clicktime)
GO

-- 3 - "Ende" ist jeder Datensatz, der keinen Nachfolger j�nger als 10 Minuten hat
UPDATE test
SET clickcode_oh = 3,
clickstreamid_oh = (SELECT TOP 1 clickstreamid_OH
FROM test AS SUB
WHERE SUB.UserID = test.UserID
AND SUB.Publikationsdatum = test.Publikationsdatum
AND NOT clickstreamid_OH IS NULL
AND SUB.ClickTime <= test.ClickTime
AND clickcode_oh IN (1, 4)
ORDER BY SUB.ClickTime DESC)
WHERE clickcode_oh IS NULL
AND NOT EXISTS(SELECT SUB.id
FROM test AS SUB
WHERE SUB.id <> test.id
AND SUB.userid = test.userid
AND SUB.publikationsdatum = test.publikationsdatum
AND SUB.ClickTime <= DATEADD(mi, 10, test.clicktime)
AND SUB.ClickTime > test.clicktime)
GO

-- 2 - Inside ist der gesamte Rest, der noch keinen Code hat
UPDATE test
SET clickcode_oh = 2,
clickstreamid_oh = (SELECT TOP 1 clickstreamid_OH
FROM test AS SUB
WHERE SUB.UserID = test.UserID
AND SUB.Publikationsdatum = test.Publikationsdatum
AND NOT clickstreamid_OH IS NULL
AND SUB.ClickTime <= test.ClickTime
AND clickcode_oh IN (1, 4)
ORDER BY SUB.ClickTime DESC)
WHERE clickcode_oh IS NULL
GO
[/highlight]

**barbara83** · 07.07.2008, 17:22

Danke, danke Olaf - sieht schon sehr gut aus. Ich muss gleich weg - werde den Code aber heute Abend/Nacht dann intensiv ausprobieren und melde mich anschliessend wieder...

Gruss Barbara

**barbara83** · 08.07.2008, 01:06

Hallo Olaf,

ich bin begeistert. Dein Code funktioniert einwandfrei und verglichen mit den Loops in Java ist er unglaublich schnell (15 sekunden).

Ich habe jetzt noch den Spezialfall eingebaut, dass nur ein Eintrag pro Clickstream existiert und ihm den Code 5 verteilt.

Dieser Code wird vor dem Code f�r Code1 ausgef�hrt:

Code:

      -- ***********************************************************
   
      -- Wenn nur genau 1 Eintrag im Clickstream: d.h. Anfang = Ende
 
      -- 5
 
      UPDATE test
 
      SET clickcode_oh = 5
 
      WHERE clickcode_oh IS NULL
 
            AND id IN (SELECT MIN(id)
 
                     FROM test
 
                       GROUP BY userid, publikationsdatum)
		
			AND id IN (SELECT MAX(id)
 
                     FROM test
 
                       GROUP BY userid, publikationsdatum)
     GO

Auf Code3 folgt dann nochmals:

Code:

      -- 5 - ist jeder Datensatz, der keinen Vorg�nger �lter als 10 Minuten und keinen Nachfolger �lter als 10 Minuten hat
	
	  -- Wenn nur genau 1 Eintrag im Lesevorgang: d.h. Anfang = Ende
 
      -- 5 

      UPDATE tresultsextendedolaf
 
      SET clickcode_oh = 5
 
      WHERE clickcode_oh IS NULL
 
            AND NOT EXISTS(SELECT SUB.id
 
                           FROM tresultsextendedolaf AS SUB
 
                          WHERE SUB.id <> tresultsextendedolaf.id
 
                                 AND SUB.userid = tresultsextendedolaf.userid
 
                                 AND SUB.publikationsdatum  = test.publikationsdatum
 
                                 AND SUB.Clicktime >= DATEADD(mi, -10, test.clicktime)
 
                                 AND SUB.Clicktime < test.clicktime)
			
			AND NOT  EXISTS(SELECT SUB.id
 
                            FROM test AS SUB
 
                            WHERE SUB.id <> test.id
 
                                  AND SUB.userid = test.userid
 
                                  AND SUB.publikationsdatum  = test.publikationsdatum
 
                                  AND SUB.Clicktime <= DATEADD(mi, 10, test.clicktime)
 
                                  AND SUB.Clicktime > test.clicktime)
 
 
      GO

Glaube, dass dies so stimmt, oder?

Ein Problem hatte ich jedoch noch: Meine Ursprungstabelle war nicht nach den entsprechenden Felder sortiert (Userid, Datum, Clicktime). Daher waren die Codes zu Beginn dann nat�rlich auch nicht korrekt. Ich habe dies dann so gel�st, dass ich eine Abfrage mit der entsprechenden Sortierung in einer neuen Tabelle eingef�gt habe. Funktioniert - aber gibt es eine M�glichkeit die Sortierung in der selben Tabelle vorzunehmen?

Gibt es im Internet weitere Beispiele zur "mengenorientierten" Abfrage? Oder ein gutes Buch? Denke n�mlich, dass ich diese Art der Abfrage in Zukunft noch brauchen werde und w�rde daher gerne selber die Gedankeng�nge erlernen. Kann den Code zwar knapp nachvollziehen, denke aber nicht, dass ich selber ohne Weiteres auf diese L�sung gekommen w�re.

Um die Clickstream IDs zu erzeugen: kann ich da einen Cursor einsetzen? Der muss ja im Prinzip nur von oben nach unten die clickcode_oh-Spalte passieren und jeweils den Z�hler um 1 erh�hen, wenn entweder ein Code 3 oder 5 folgt und dann in der spalte stream-id die entsprechende zahl eintragen. Oder gibt es hier auch einen mengenorientierten Ansatz, der geeigneter ist?

Olaf, besten Dank nochmals - deine Hilfe weiss ich echt zu sch�tzen.

Viele Gr�sse
Barbara

**barbara83** · 08.07.2008, 02:59

ich habe jetzt mal versucht die clickstream_id's in die tabelle einzutragen mit folgendem cursor:

Code:

Declare @clickstreamid_zeiger int

SET @clickstreamid_zeiger = 1


--Cursor
DECLARE navigator CURSOR LOCAL SCROLL KEYSET
FOR
	SELECT clickcode_oh, clickstreamid_oh, id FROM tabelle
FOR UPDATE

OPEN navigator

DECLARE @code int, @clickstreamid int, @id int

FETCH NEXT FROM navigator INTO @code, @clickstreamid, @id

WHILE @@fetch_status = 0
	BEGIN
		UPDATE tabelle SET clickstreamid_oh = @clickstreamid_zeiger where id = @id		
		IF (@code = 3 OR @code = 5) 
			BEGIN
				SET @clickstreamid_zeiger = @clickstreamid_zeiger + 1
			END
		
		FETCH NEXT FROM navigator INTO @code, @clickstreamid, @id
	END

CLOSE navigator
DEALLOCATE navigator

Funktioniert - nur dauert es wiederum mehere stunden die id's einzutragen. (kurze zwischenfrage aus reinem interesse: mein notebook ist 4 jahre alt - aber auch auf einem neueren computer w�rde diese operation nicht viel schneller von statten gehen, oder?)

versuche mal einen mengenorientieren ansatz - aber bin mir nicht sicher, ob ich diese denkweise bereits aufnehmen konnte...

liebe gr�sse

**barbara83** · 08.07.2008, 03:56

Nachtrag:

Mit dieser kleinen �nderung funktioniert es jetzt schon recht flott.... damit diese ausf�hrung aber m�glich ist, muss die tabelle einen prim�rschl�ssel besitzen....

ist wahrscheinlich nicht die sch�nste und schnellste variante, funktioniert aber insgesamt in erduldbarer zeit.

Code:

Declare @clickstreamid_zeiger int

SET @clickstreamid_zeiger = 1


--Cursor
DECLARE navigator CURSOR LOCAL SCROLL KEYSET
FOR
	SELECT clickcode_oh, clickstreamid_oh, id FROM tabelle
FOR UPDATE

OPEN navigator

DECLARE @code int, @clickstreamid int, @id int

FETCH NEXT FROM navigator INTO @code, @clickstreamid, @id

WHILE @@fetch_status = 0
	BEGIN
		UPDATE tabelle SET clickstreamid_oh = @clickstreamid_zeiger WHERE CURRENT OF navigator		
		IF (@code = 3 OR @code = 5) 
			BEGIN
				SET @clickstreamid_zeiger = @clickstreamid_zeiger + 1
			END
		
		FETCH NEXT FROM navigator INTO @code, @clickstreamid, @id
	END

CLOSE navigator
DEALLOCATE navigator

**O. Helper** · 08.07.2008, 12:11

Hallo Barbara,

zu welchen Uhrzeiten postest denn Du? Um die Zeiten liege ich im Bett und schlafe ;-)

Wie man das elegant mit der clickstreamid l�sen kann, wei� ich auch noch nicht, da werde ich mir noch Gedanken machen.
Bei eine mengenorientierte L�sung ist das Problem, das UPDATE keine Sortierung unterst�tzt.

Ist den eine l�cklose, der Sortierung entsprechend vergeben ID unbedingt n�tig?
Denn Sortieren kannst Du es zu jedem Zeitpunkt ja auf eine reproduzierbare Weise und eine Id wird ja meistens nur zum Identifizieren von Datens�tze ben�tigt.

Bei Deinem Cursor oben musst Du auch
- entweder zuvor alle Datens�tze wieder zur�cksetzen
- oder die zuletzt verwendete (h�chste) Id ermitteln und mit der weiterechnen.

**O. Helper** · 08.07.2008, 14:11

Ich noch mal ...

Dein Cursor ist �brigens nicht sortiert.

N�chster Versuch zum Thema ID.
Problem beim UPDATE ist wie erw�hnt, das man keine Sortierung angeben kann.

Zudem ist es etwas l�sstig, selbst eine Sequenz zu verwalten und die gew�nschte Sortierung nach User, datum, clicktime macht es auch nicht einfacher.

Wann werden den die Ids vergeben? Den dadurch das die erste Sortierung der User ist, kommen abh�ngig vom Startpunkt unterscheidliche Ergebnisse heraus.

Hier mal meine Idee:

Um eine fortlaufende Id zu bekommen, bietet sich ein Z�hler an (welch Erkenntnis ;-).

Also z�hle ich alle Start ClickStreams Vorkommen, die in der Sortierung vor mir kommen; das ist dann "meine" Id f�r den jeweiligen Datensatz.
Wie in Deiner Bsp.Db beginnen die mit 1000, da kann man aber jeden anderen Wert auch angeben.

Hier das Sql dazu; das muss ausgef�hrt werden, nachdem alle Start Clickstreams gesetzt sind und bevor "Inside" und "Ende" gesetzt werden, da die die Id ja �bernehmen.

Ich hatte zwar nur ein paar Daten zum Test, sollte aber gehen, auch wenn bereits zuvor Ids gesetzt wurden.
Allerdings nur bis zum (abgeschlossenen) Vortrag, sonst gibt es wegen userid als erste Sortierung fehlerhafte Werte (besser w�re Sortierung nach Tag, Uhrzeit, User).

[highlight=SQL]
-- Generieren der IDs f�r alle Starts der ClickStreams
UPDATE test
SET clickstreamid_oh = 1000 + ISNULL(
(SELECT COUNT(*)
FROM test AS SUB
WHERE clickcode_oh IN (1, 4, 5)
AND ((SUB.userid < test.userid) -- Erste Sort=userid
OR (SUB.userid = test.userid -- Zweite Sort= datum
AND SUB.publikationsdatum < test.publikationsdatum)
OR (SUB.userid = test.userid -- Dritte Sort= time
AND SUB.publikationsdatum = test.publikationsdatum
AND SUB.clicktime < test.clicktime)
)), 0)
WHERE clickstreamid_oh IS NULL
AND clickcode_oh IN (1, 4, 5)
-- Nur bis zum Vortag, sonst gibt es fehlerhafte Ergebnisse
AND publikationsdatum <= CONVERT(varchar(10), DATEADD(dd, -1, GETDATE()), 120)[/highlight]

**barbara83** · 08.07.2008, 15:33

hallo olaf,

danke nochmals f�r deinen input.

mein cursor ist zwar nicht sortiert, aber wie in einem fr�heren posting erl�utert, habe ich die ganze datenbank nach user, datum, clicktime sortiert. daher sollte die gew�nschte ordnung trotzdem vorhanden sein. der cursor-ansatz scheint eigentlich zu funktionieren, ich konnte jedenfalls keinen fehler erkennen (stichprobenartiger test) - und die max(id) entspricht auch fast der anzahl 1 + 4 + 5, also im prinzip der anzahl clickstreams. eigentlich m�ssten ja die anzahl beginne (1 + 4) gleich gross sein wie die abschl�sse (3). allerdings weicht dies um 2 ab, d.h. auf 5000 clickstreams habe ich 2 fehler - verkraftbar, muss irgendein sonderfall sein, welchen wir bei den codes noch nicht ber�cksichtigt haben.

nochmals kurz eine unbeantwortete frage: kann ich eine tabelle sortieren (nach userid, datum, clicktime) und die sortierte tabelle dann anschliessend in der urspr�nglichen tabelle abspeichern (quasi �berschreiben) oder muss ich da immer eine neue tabelle erstellen?

probiere jetzt noch deinen clickstream_id-Ansatz aus..

gruss
barbara

**O. Helper** · 08.07.2008, 16:43

Ich wei� nicht, ob ich Deine unbeantwortete Frage richtig verstehe.

Eigentlich ist eine Tabelle in dem Sinn nie sortiert, die Daten kommen halt so rein wie sie kommen.

Wo man eine Sortierung angeben kann, ist
- bei den Indizes
- beim SELECT auf die Tabelle
Sortiert zur�ckschreiben macht somit keinen Sinn.

Wenn Du die Werte der Tabelle sortiert als Liste haben willst, gib es beim Select an.

SELECT *
FROM test
ORDER BY userid, publikationsdatum, clicktime

Announcement

Schleifen in SQL Abfrage: Expertenwissen gefragt

Schleifen in SQL Abfrage: Expertenwissen gefragt

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment