Announcement

**Andreas Kosch** · 15.12.2005, 07:48

Hallo,
>..dann keinen eigenen Server f�r die DB hinstellt <br><br>
in der Tat. Dann sollte der Universal-Server aber genug parallel ansteuerbare Festplatten haben, damit man die Filegroups (Daten-Tabellen, Index-Daten, Transaktions-Log) der MS SQL Server-Datenbank auf verschiedene Festplatten (noch besser: Festplatten-Arrays) legen kann. Denn bei den Heute �blichen CPU-Leistungen bzw. dem RAM-Ausbau des Servers sind die mechanischen Festplatten das gr��te Problem. Wer einmal mit einer SAN (Storage Area Network) mit FibreChannel-Anbindung und aktiviertem Schreib-Cache (die SAN hat eine interne gepufferte Stromversorgung f�r ihre Controller/Festplatten und garantiert somit die Transaktions-G�ltigkeit) hantieren durfte, f�r den erh�lt das Wort "Geschwindigkeit" eine v�llig neue Bedeutung :-

**Ralf Eberhard** · 16.12.2005, 08:33

Hallo,
vielen Dank f�r euere Antworten.
Ich kann leider keine PraxisTests mal mit der DB, dann wieder mit der DB durchf�hren.
Auf die Hardware-Konfiguation haben wir keinen Einflu�.
Erst mal dar�ber schlafen und dann sehen, welche DB zum Einsatz kommt.

Gru�

Ralf Eberhar

**Klemmo** · 17.12.2005, 18:47

zur vorherigen mail:

"Wenn FB doppelt so schnell ist, aber nach 2 Stunden aus
irgendeinem Grund irgend ein GarbageCollect machen muss
und dann f�r 5 Minuten keine Daten liefert, w�re das auch fatal.
Hey, bevor ihr �ber mich herf�llt, das ist nur mal ein theoretischer
Denkanstoss, soll nicht heissen, dass sowas bei FB wirklich passiert, k�nnte genausogut umgekehrt sein."

Der garbagecollector in firebird 1.5 l�uft recht unspektakul�r im Hintergrund, ganz anders als noch bei �lteren Interbase versionen.

Das Problem ist seltener der durchlaufende Garbagecollector
Thread, sondern eher die neuen Transaktionen, Deletes und Updates, die auf einer "vergurkten" Datenbank ablaufen sollen.

Ein Beipiel von vor einiger Zeit: Ein gro�er Telefonanlagenhersteller hat ein Programm geschrieben zum Auslesen der Daten und �bertragen in einen datenbankserver.

Das ganze geschieht ein mal pro Tag und es wurden �ber diverese serielle Kan�le mit diversen (10-20) Threads Daten ausgelesen und parallel in die Datenbank geschrieben.

Typische Tagesdatenmenge waren 100000 Datensatzgruppen (master mit ein paar details und relationen zu konstanten stammdatentabellen).

Pro Datensatzgruppe hatte IB6 dabei ca 50ms verbraucht, also wurden ca 20 Gruppen pro Sekunde verarbeitet. Daran liess sich nicht sonderlich viel optimieren, weil die Hardware eh nicht mehr lieferte.

Die automatische Garbagecollection lief gar nicht, weil das sweep interval auf 0 stand. Es konnte also nur die Garbagecollection laufen, wenn im Rahmen von SQL Befehlen pages besucht wurden mit veralteten Transaktionen. das geschieht bei Inserts normalerweise aber nicht, warum auch, denn die werden immer hinten angeh�ngt.

weil man in dem Programm 3 entscheidene Fehler gemacht hat, kam es zu Problemen:

1. weil fast nur inserts gemacht wurden und kam es nicht zum Ansto� des Garbagecollectorthreads

2. weil man autocommit benutzte, wurden pro datensatzgruppe statt einer transaktion ca 50 verbraten

3. Es gab ein einfaches �berwachungsprogramm, welches nur beim programmstart ein tquery.open macht und sonst gar nichts gemacht hat

Wie �u�erte sich das Problem? nach verarbeitung von mehreren tausend Datensatzgruppen wurde die zeit pro gruppe immer langsamer.

Am ende braucht das System pro Datensatzgruppe ca eine Sekunde. Da ein Tag aber nur 86400 Sekunden hat, kam es zu einem Engpass bei 100000 S�tzen pro Tag. Warum?

1. Wegen fehlender Garbagecollection stand die "oldest transaction" immer auf einem sehr kleinen Wert, der beim Programmstart aktuell war. F�r jede neue Transaktion holt sich der Firebird Server immer ein Speicherabbild der globalen Transaktionsinventory Page von der �ltesten transaktion bis zur n�chsten Transaktion, weil im rahmen der MGA klar sein muss, wer committed ist und wer nicht. Wenn zwsichen diesen Werten sehr viel Platz ist, dann dauert das eben.

Pro Transaktion sind das schon mal einige kB, die beim Starttransactionbefehl kopiert werden m�ssen, obwohl die bei den inserts nicht gebraucht werden. Nun denn, die engine arbeitet immer so und kann ja nicht raten, ob nicht doch noch andere befehle kommen. Auf diese Weise h�tte die Garbagecollection nach dem Durchlauf den Wert der �ltesten Transaktion nach oben korrigieren k�nnen und beim Start jeder Transaktion einiges an zeit eingespart werden kann.

2. Durch autocommit wird der oben genannte effekt noch deutlicher, weil eben mehr transaktionen als erforderlich verbraten werden.

3. Das Offenhalten einer alten Transaktion blockiert die Garbagecollection komplett. Daher immer drauf achten, das so etwas nicht passiert. Wenn gleichzeitig noch viel Update oder delete Befehle laufen, dann wird der negativer Effekt dieser selbst verursachten Problem noch wesentlich st�rker.

Wenn jedoch diese Punkte vom Programmierer ber�cksichtigt werden, l�uft so eine Firebird oder IB Datenbank (wie bei o.a. Kunden) auch nach 100000 S�tzen mit der gleichen Geschwindigkeit, weil die Garbagecollection das Aufr�umen im Hintergrund erledigt.

Wir haben auch Kunden die 500000-1000000 Datens�tze pro Tag in die Datenbank schreiben und auch das problemlos rund um die uhr geht, obwohl mehrere prozesse lesend darauf zugreifen mit verschiedenen sql befehlen.

Die interne Schreibgeschwindigkeit liegt je nach Tabellenstruktur bei ca 20000-30000 records pro Sekunde hier auf meinem 1,7Ghz
Laptop, Lesen funktioniert mit bis zu 50000 Records pro Sekunde
(entweder mit index von gr��eren Tabellen oder eben auch ohne index, dann sequentiell auf der Tabelle, werte in einer 1,5GB Datenbank mit FB15). Wie schnell man das nach au�en bekommt, h�ngt von vielen Faktoren ab. Nutzt man Stored Procedures, Netzwerkbelastung, Schnittstelle, Datenmodell, ....

Der Ansatz mit einem SAN ist ja ganz ok, ich hab auch schon komplette Datenbanken alternativ auf RAM Disk betrieben (die bisher gr��te hatte 5GB), ist zwar gef�hrlicher, aber wenn Geschwindigkeit wichtiger als alles andere ist und man durch Replikation immer noch eine aktuelle physikalisch auf platte hat, ist das selten ein Problem gewesen. War jedenfalls wesentlich preiswerter als ausgewachsene SAN Systeme.

Und 1 GB geht bei FB15 als Cache auch ohne tricksereien, das reicht f�r typische Datenbankanwendungen schon sehr oft aus, auch ohne irgendwas �ber Filegroups, Position der Indexdaten und Transaktionslogs zu wissen.

Gr��ere Datenbanken sind auch selten ein Problem mit 1GB Cache, wenn man bei SQL Befehle nicht nach dem Motto erzeugt, das geht bei MSSQL oder Oracle auch so, also mu� das bei Firebird genauso gehen (ich hatte vor einigen Wochen ein SQL von einem Kunden, welches ausgedruckt 5 DINA4 Seiten in 10 Punkt Courier war. Das lief zwar auch auf firebird, aber braucht die dreifache zeit verglichen mit dem Oracle Server. Nach Umsetzung als Stored Procedure in FB war es 10 mal schneller und wesentlich einfacher zu verstehen. Jetzt versucht der Kunde das in der Oracle Version von seinem Spezi dort auch auf ein �hnliches Tempo zu bringen, noch hab ich von dem nichts dazu geh�rt).

Gerade wenn die Hardware der Kunde bestimmt, wird der ein SAN oder teures Array mit diversen Platten nur dann akzeptieren, wenn es zwingend erforderlich ist und auch zum Preis des Gesamtprojekts passt. Wer eine Software liefert, die im 4-stelligen Eurobereich liegt, macht sich unglaubw�rdig, wenn nur Hardware und Lizenzkosten im oberen 5-stelligen Eurobereich gut genug sein soll.

Da ich aber euer Projekt nicht kenne, kann ich nur auf Basis meiner Erfahrungen sagen, das so manches 5-stellige Projekt mit Datenbankhardware aus dem unteren 4-stelligen Eurobereich problemlos arbeiten kann, jedenfalls mit Firebird und wenn eben gewisse Fehler nicht gemacht werden. Und fehlerhafte Programmierung kann auch die beste Hardware nicht ausgleichen.

Holger
www.h-k.de/fbct/fbct.pdf

p.s.:

1000 s�tze pro Sekunde zu senden, gut vorbereitet durch eine Stored Procedure in der Datenbank, sollte erst mal kein Problem darstellen. Wenn der Auswahlgenerator dann eben statt eines SQLs gleich passende Stored Procedures erstellt, weil die ja wahrscheinlich auch mehr als einmal benutzt werden, macht das f�r den Server schon deutliche Vorteile. Es k�nnte je nach SQL aber auch ohne SP klappen. Und die 300000 S�tze liegen locker st�ndig im Cache

**Klemmo** · 17.12.2005, 18:52

noch etwas: bei den Datenmenge w�rde ich �ber ADO aber erst mnach diversen Tests nachdenken, ich gehe fest davon aus, das der Flaschenhals dort euch zuk�nftig einige Probleme machen wird. Das ist nur meine pers�nliche erfahrung mit ADO. �bertragungsverfahren f�r SQL Befehle und optionale Abholung von Resultsets gehen mit anderen Techniken wesentlich schneller.

Holge

**hwoess** · 18.12.2005, 10:18

Da hat sich dann wohl bei Firebird in den letzten 3 Jahren viel getan. Du machst mir Gusto, FB wieder mal ernsthaft f�r meinen Einsatzbereich auszutesten. Vor allem, da SQL 2005 auf Framework2 beruht und ich nicht sicher bin, wie schnell ich dann damit wieder bei allen Kunden gl�cklich werde.
Allerdings hat mir dein Beispiel gezeigt, dass ein eigener Test auch komplett falsch ausgehen kann, wenn man im Testprogramm Fehler im Datenbankzugriff macht. Ich werde also auf dein Buch bzw. deine Doku warten ;-))
Mein Schwerpunkt liegt nicht in der Geschwindigkeit, da ich jetzt nicht mehr mit Maschinen zu tun habe. Allerdings spielen daf�r Unicode, lange Strings, starker Einsatz von stored procs und Triggern zur Protokollierung und Kontrolle der Gesch�ftslogik sowie eine stabile und fehlertolerante Verbindung des Clients �ber Internet die wesentliche Rolle.

bye,
Helmu

Announcement

MS SQL-Server oder Interbase (Firebird) ?

Comment

Comment

Comment

Comment

Comment