Announcement

**J�rgen Hofmann** · 30.08.2000, 19:47

Delphi zum Numbercrunching geeignet?

Da verstehe einer noch die Welt!!!???? Folgendes kleines Testprogramm habe ich in Delphi5, C++Builder5 und in JBuilder3.5 umgesetzt:

procedure TForm1.Button1Click(Sender: TObject); var i, j: longint; z, z2, z3, summe: extended; begin summe := 0.0; for j:=1 to 400 do begin for i:= 1 to 10000 do begin z := 0.0001*i; z2 := sin(z)*power(1.0001,z); z3 := cos(z)*power(z,z2); z := sin(z)*sin(z) + cos(z2)*cos(z2) + z3*z3; summe := summe +z; end; end; Summe := Summe/i; StaticText2.Caption := IntToStr(i); StaticText1.Caption := IntToStr(j); StaticText3.Caption := FloatToStr(Summe); end;

Auf einem 233MHz Pentium 3 mit 128 MB brauchte das Programm unter Delphi 27.2 Sekunden, mit dem C++-Builder 26.2 Sekunden und dem JBuilder sage und schreibe 16 Sekunden!!!! Das verstehe wer will: wird doch allgemein behauptet C++ sei f�r Rechnereien das Gr��te, dann Delphi (muss ja wohl ungef�hr das Gleiche rauskommen, da die gleiche Bibliothek verwendet wird) und JAVA sei lahmer als lahm, weil Pseudocode und VM usw. Trotz JIT-Compiler sollte es immer noch wesentlich langsamer sein! Das Gegenteil scheint der Fall zu sein. Hat Borland bei Delphi und C++ geschludert oder wie ist das Ergebnis zu verstehen?

**Hagen Reddmann** · 31.08.2000, 11:53

Hi

Ich wei� nicht wast Du hast ?

<pre>
var
Z, Z2, S, ZS, ZQ, ZP: Extended;
begin
S := 0.0;
Z := 0.0;
for i := 1 to 10000 do
begin
Z := Z + 0.0001;
ZS := Sin(Z);
Z2 := ZS * Power(1.0001, Z);
S := S + Sqr(ZS) + Sqr(Cos(Z2)) + Sqr(Cos(Z) * Power(Z, Z2));
end;
S := S * 400 / I;
end;

</pre>

Der JIT "Compiler" arbeitet wie ein Interpreter. Da Interpreter sehr langsam sind optimieren diese im bersonderen Berechnungsschleifen und speichern viele Resultate zwischen. In Deinem Fall hat der JIT-Compiler mehr Intelligenz bewiesen die �u�ere Schleife zu entfernen und die einmal gebildete Summe der inneren Schleife einfach mit 400 zu multiplizieren. Ein echter Compiler optimiert aber NICHT den eigentlichen Algorithmus (zeigt ja das C und PASCAL identisch schnell waren). Das ist schon DEINE Aufgabe.

Nun, test it and see what happend. Nach dieser "kleinen" �nderung sollte sich einiges tun

Gru� Hage

**Hagen Reddmann** · 31.08.2000, 12:07

Un noch mehr..

<pre>
Z, Z2, S, ZS, ZQ, ZP: Extended;
begin
T := PerfCounter;
S := 0.0;
Z := 0.0;
for i := 1 to 10000 do
begin
Z := Z + 0.0001;
ZS := Sin(Z);
ZQ := Sqrt(1 - Sqr(ZS)); // Cos(Z) aus Sin(Z)
Z2 := ZS * Power(1.0001, Z);
S := S + Sqr(ZS) + Sqr(Cos(Z2)) + Sqr(ZQ * Power(Z, Z2));
end;
S := S * 400 / I;
end;
</pre>

Gru� Hagen

PS: Willst'e Deinen Test trotzdem mit �u�erer Schleife durchf�hren solltest Du

<pre>
Summe := 0.0
for J := 1 to 400 do
begin
Summe := Summe * J
for I := 1 to 1000 do....
end;

</pre>

schreiben

**J�rgen Hofmann** · 01.09.2000, 16:31

Hallo, Hagen,
Du wei�t in der Tat nicht, was ich habe: so einfach ist die Sache leider nicht. Ich bin lange genug im Gesch�ft, um den Unterschied zwischen einem Interpreter und einem Compiler zu kennen. Nimm z.B. das folgende Codefragment:

var
i, iloop: longint;
z, z1, z2, z3, summe: double;
begin
summe := 0.0;
iloop := 2000000;
begin
for i:= 1 to iloop do
begin
z1 := 0.0001*i*cos(0.00001*i)*exp(i/iloop);
z2 := sin(z1)* cos(z1)*power(1.0001,z1)*z1;
z3 := sin(z2)* cos(z2)*power(1.0001,z2)*z2;
z := (sin(z3)* cos(z3)*power(1.0001,z3)/z1/z2/z3)*tan(z1*z2*z3);
summe := summe +z;
end;
end;

Hier hat kein Interpreter der Welt die M�glichkeit der Elimination von sog. Common Expressions (hier muss ich Dir �brigens nochmal widersprechen: ein guter Compiler sollte dazu auch in der Lage sein!).
Mit Delphi5 und C++Builder5 braucht das Ganze ca. 22 Sekunden mit dem JBuilder3.5 etwa genau so lang!
�brigens, wenn ich bei meinem urspr�bglichen Beispiel den j-Schleifenindex auf 200 setze, braucht das Programm nur halb so lang, d.h. Deine Behauptung, der JAVA-Interpreter w�rde das Resultat der inneren Schleife nur mit 400 multiplizieren, kann allein schon deswegen nicht stimmen (so clever ist er wohl nicht, dass er die Laufzeit noch anpasst, um mir eins vorzumachen!).

Also leider sehe ich nicht, was Deine Argumente an meinem Statement �ndern. Ich bleibe dabei: Delphi und C++Builder sind keineswegs um einen Faktor 20 schneller als JAVA (was angeblich ja doch nur auf der VM l�uft). Kurz: irgendwie passt das alles nicht! �brigens nur am Rande: der Jbuilder ist eine unglaublicher Ressourcenfresser: selbst mit 128 MB RAM (allerdings nur mit 233 MHZ)kann man w�hrend der einzelnen Arbeitsschritte noch Kaffee trinken gehen

**J�rgen Hofmann** · 02.09.2000, 17:28

Prima, Hagen, wir sind uns also einig, dass da was nicht ganz stimmt!
Vielleicht k�nnte man sich ja gemeinsam mal um die Performance unserer Werkzeuge k�mmern (ich vermute, es gibt eine ganze Menge Leute, die Delphi und den C++Builder f�r Rechnereien einsetzen).
�brigens: als Kritik habe ich Dein Statement nicht verstanden, wir ziehen als Entwickler doch wohl alle am gleichen Strang ;-)

**Robert Marquardt** · 02.09.2000, 19:43

Zieht doch mal die Jedi Code Library in Betracht. JclMath enthaelt allerlei Mathematikfunktionen. Wenn ihr damit ein paar Tests macht, dann erhalten wir davon richtige Performancewerte. Bitte sendet eure Ergebnisse an [email protected].
Die JCL koennt ihr von www.delphi-jedi.org herunterladen

**Fred Ziebell** · 06.09.2000, 15:28

Hallo.

Vielleicht liege ich ja falsch...aber...

ich erinnere mich dunkel, da� vor einigen Jahren, als JAVA ins Gespr�ch kam, zuerst eine ziemliche Ablehnung gegen eine neue interpretierende Sprache aufkam. Man verglich damals JAVA mit so einer Art GW-Basic-Zeileninterpreter(kennt wahrscheinlich keiner mehr) mit aufgesetzter OOP.

Irgendwann war dann mal zu lesen, da� JAVA�s Bytecode einem Pre-Run-Compiling unterzogen wird(oder werden kann!). Sobald der Bytecode geladen ist, sorgt die VM f�r eine Umsetzung auf die jeweilige Maschiene VOR! der Ausf�hrung.

Ich habe das damals und im Ablauf der Zeit weder �berpr�ft noch weiter verfolgt. Allerdings w�rde sich damit das hurtige benehmen(wahrscheinlich nur in Teilbereichen) von JAVA erkl�ren.

Jetzt kenne ich nat�rlich weder die Objektcodes der Compiler noch wie sie selbigen erzeugen und ich werde mich beherrschen sie mittels Disassembler nackig zumachen, aber ich glaube, da� man JAVA und CBUILDER/DELPHI Objektcodeseitig nicht mittels einiger Berechnungen miteinander vergleichen kann.

Wenn schon, dann sollten komplette funktionsidentische Anwendungen miteinander verglichen werden. Was n�tzt es, wenn der eine Compiler superschnelle Float-Routinen zur Verf�gung stellt und bei der Stringverarbeitung versagt. Es sind mittlerweile einfach zuviele Komponenten, die eine wesentliche Rolle bei der Definition von "Ablaufgeschwindigkeit einer Anwendung" eine Rolle spielen.

Vielleicht, sieht J�rgens Ergebnis auf einem AMD oder Cyrix Prozessor statt einem Intelprozessor ganz anders aus oder steht in einem anderem Verh�ltnis. Ich selber kann das jeden Tag an meinem Heim-Pc erleben. Nach dem Austausch des Prozessors von PI-233MMX nach AMD-K6-III/400 liefen viele Programme sichtbar schneller und einige merkbar langsamer(Warum ist mir durchaus klar).

Und die letzte Bermerkung: Wenn JAVA ein in einigen Bereichen sindaktisches und funktionell vereinfachtes C++ darstellt hat der Compiler/Interpreter m�glicher Weise -Aufgrund geringerem geparstem Ballast- weniger M�he in gewissen Teilbereichen schnelleren Code zu erzeugen/auszuf�hren(No Compiler is Perfect).

...by the way...das alte Powerbasic unter DOS!(Ihr k�nnt ruhig grinsen) l��t auch heute noch jedes Delphi, Cbuilder oder JAVA in puncto Codeerzeugung locker in der Ecke stehen. Ein effektiverer Code ist auch von Hand in Assembler kaum m�glich. Wo Windowsprogramme in Millisekunden "denken", ist es bei Powerbasic Mikrosekunden. 2-3 Zehnerpotenzen Unterschied sagen wohl alles...aber wer will schon "back to the roots" :-))

Ach ja, der Watcom-C-Compiler soll unter Windows den schnellsten Code erzeugen!?(Habe es nie getestet).

UUUPPSS......das war jetzt zu lang....sorry!

Gru� Fred Ziebel

**J�rgen Hofmann** · 06.09.2000, 15:40

Robert:
Also mit der JCL klappts leider auch nicht: sie ist bei den angesprochenen Routinen um ca. 20 % langsamer als das, was in Delphi eingebaut ist.

Fred:
ist alles sch�n und gut: ich will ja zun�chst auch nur mal die paar Mathematikroutinen vergleichen (Strings interessieren mich im Moment nicht). Im �brigen habe ich die JAVA, C++Builder und Delphi-Programme auf dem gleichen 233 MHz Intel Pentium laufen lassen, also sind die Werte vergleichbar. Dass auf einem Athlon was anderes rauskommt, bestreitet sicher niemand. Dass DOS-Programme (und dann noch im Powerbasic) beim Numbercrunchen schneller sind, bestreite ich allerdings (denn bei dem oben beschriebenen Miniprogramm spielt das Windows-Overhead �berhaupt keine Rolle)! Just for Fun: wenn man das Programm als DOS-Applikation in Visual C++ 6.0 umsetzt, braucht es deutlich l�nger als in Delphi, in Visual Basic 6.0 (kompiliert!) sogar doppelt so lang

**Hagen Reddmann** · 07.09.2000, 12:40

Hi

PowerBasic kann in diesem Fall nicht schneller sein,das ist auch einleuchtend da ja haupts�chlich FPU Befehle ausgef�hrt werden. Aber genau in diesem Bereich der FPU Programmierung kann man einiges beschleunigen, z.B. NICHT nach jeden Befehl einen WAIT einzuprogrammieren. Allerdings betrifft das IMMER die Assemblerprogrammierung. Zudem lassen sich einige FPU Befehle durch schnellere MMX etc. Routinen austauschen. Ich vermute das der JIT Compiler/Interpreter den Source NICHT 1 zu 1 �bersetzt, sondern verschiedene Optimierungen vornimmt. Z.b. Zusammenfassung eines FPU Rechenblockes und somit verzicht auf WAIT/FWAIT Mnemonics.
Genau da muss aber der Pascal/C Compiler versagen, da z.B. die Power function STATISCH als Laufzeitbibliothek vorliegt !
Die einzelnen math. Funktionen aufzul�sen und in EINE einzigste Funktion zu programmieren d�rfte eine erhebliche Leistungssteigerung bewirken. Allerdings hast'e dann eine hochspezialisierte Funktion und eben keine allg. Laufzeitbibliothek.
Als Beispiel: ALLE Parameter zu math. Functionen wie Sin(), Cos(), Power() m�ssen auf den Programstack gelegt werden. Die Parameter werden als Floats �bergeben und in der entsprechenden Funktion wieder in den FPU-Stack geladen. Nach Beendigung der math. Funktion werden aus dem FPU-Stack die Resultate auf den Programstack verschoben. Beide Operationen sind langsam, da sie meistens auch noch eine Scalierung vornehmen. Wird nun eine einzigste Funktion programmiert, fallen wesentlich weniger Programstack->FPU-Stack->Programstack Verschiebungen an. Nun, wenn der JIT Compiler aus den einzelnen math. Anweisungen einen FPU-Codeblock erzeugt, dann MUSS er schnelleren Code erzeugen.

Gru� Hage

**Robert Marquardt** · 08.09.2000, 09:47

Zu Hagens Ausfuehrungen: Unter anderem deshalb ist der Macintosh mit seiner PowerPC CPU so viel schneller. Das die FPU registerorientiert ist, kann der C Compiler Registervariablen in der FPU anlegen und das Laden und Entladen der Daten in die Variable entfaellt

**Fred Ziebell** · 08.09.2000, 11:59

Hallo,

J�rgen: Du hast mich falsch verstanden. Ich meinte: Wenn du deine Testprogramme jeweils mit JAVA + DELPHI + CBUILDER auf einem INTEL-System und jeweils auf einem AMD-System laufen l��t, bekommt du unterschiedliche Verh�ltnisse in den Ergebnissen, da beide Prozessoren eine unterschiedliche Gewichtung in der Optimierung ihrer Befehlszyklen haben. Wo die eine CPU bspw. 3 Zyklen f�r ein 'ADD BX,3' ben�tigt, ist die andere mit 2 Zyklen dabei daf�r ben�tigt erstere f�r ein MOV AX,2c0h vielleicht 2 Zyklen statt einem. In der Praxis bedeutet das, da� dein Testprogramm unter JAVA auf einem INTEL-PC vielleicht 30% schneller als unter dem CBUILDER l�uft. Auf einem AMD-PC jedoch -m�glicher Weise- nur 10% schneller oder sogar 20% langsamer. Deshalb sind sogar prof. Benchmarkprogramme nur ungef�hr Aussagekr�ftig, weil jede neue Anwendung eine v�llig neue Situation darstellt.

Nicht umsonst werden CPU�s, Mainboards, Compiler usw. in der CT� mit unterschiedlichsten Programmen und Hardware getestet. Ein Test in der Gr��enordnung zB. die Compilierung des LINUX-Kernels ist mit Sicherheit sehr Aussagekr�ftig, weil so ziemlich alle Komponenten angesprochen werden. die math. Funktionen sind ja nur ein Bruchst�ck des Leistungsumfanges von JAVA. Ich wage zu bezweifeln, da� dein gemessener Geschwindigkeitsvorteil f�r JAVA �ber das gesamte Funktionsspektrum Bestand h�tte.

Wozu ich ganz besonders Stellung nehmen mu�, ist zu der Aussage, da� bei deinem Testprogramm das immerhin �ber 20 Sekunden l�uft, die Windowsumgebung keine! Rolle spielt. Innerhalb von 20 Sekunden unterl�uft deine Routine ca. 1000 Taskswitchs und Pseudo-parallel werden hunderte oder tausende von Routinen/Funktionen ausgef�hrt, die auch! st�ndig unterbrochen werden oder wer aktualisiert bei deinem Rechner pseudo-multitasking-m��ig die Mausposition, aktualisiert den Timer, checked den Medienchange, verwaltet den Smartdrv(Cache), kommuniziert mit 8048 in deinem Keyboard, l��t den Cursorblinken usw. usw. Ich sch�tze 99,9% aller User haben nur eine! CPU im System, die sich um alles k�mmern mu�. Das Ergebnis: Pseudo-Multitasking, Pseudo-Multithreading, Pseudo-Parallel. Hardware und Software NMI�s Soft-IRQ�s usw. sind in dieser �berlegung noch nicht mal enthalten.

Und jetzt erz�hlst du mir, die Windowsumgebung spielt keine Rolle ???? Sie spielt immer DIE! Rolle. Sogar wirkliche Multiprozessor-Systeme ala XEON oder PENTIUM PRO mit 2 oder mehr Prozessoren k�nnen diese Problematik auch bei entsprechend modifiziertem Code(Software-Piplines und dergleichen) kaum merkbar verbessern(2 x CPU sind nicht 200% Leistung sondern vielleicht 130% Leistung). Unter keinem! Betriebssystem, kann es frei laufende Software mit maximaler Performance geben -liegt in der Natur der Sache.

Zum Powerbasic: Ich will das Thema nicht mehr ausweiten. Es geh�rt nicht hierher und interessiert ohnehin niemanden mehr. Aber ein Schlu�wort dazu sei mir erlaubt.

Ihr habt euch offensichtlich nie oder wenig damit besch�ftigt. In Powerbasic sind zb. TSR Programme m�glich die einen derart effizienten Code erzeugen, da� sie als Device-Treiber, Realtimescanner usw. eingesetzt werden k�nnen. Nur ein Beispiel: Eine 3D Fr�se sollte um den Faktor 80% beschleunigt werden. 2 64bit-I/O-ISA-Karten dienten unter Windows 3.11/95 als Schnittstelle. Die Aufgabe: 5 Schrittmotoren ansteuern, HPGL emulieren bzw. umwandeln in entsprechende 32bit-Muster, ca. 20 Taster Schalter abfragen, Laufzeiten optimieren, �ber rs232 und rs485 kommunizieren und das alles mit m�glichst wenig externer Hardware. Software(Prof. und extrem Teuer) unter Windows war damals v�llig �berfordert und versagte Steuerungsm��ig im unteren Mikrosekunden bzw. oberen Nanosekundenbereich(PC�s mit ca. 100-200Mhz).

Wir haben damals nicht alles aber den wichtigsten Teil in Powerbasic V3.2 erledigt. Das Verh�ltnis zwischen BASIC und eingebundenem Assembler-Code lag bei 90%:10%. Der Urquelltext wurde �brigens von Turbo-Pascal umgeschrieben.

Hagen: Der

**Fred Ziebell** · 08.09.2000, 12:08

Ic wollte noch sagen:

Hagen: Der Powerbasiccompiler unterst�tzt eine FPU direkt! MMX bzw. 3d/Now kennt er allerdings nicht. So, uns jetzt Schlu� mit BASIC-Thema !? :-)

Gru� Fred Ziebel

**Hagen Reddmann** · 08.09.2000, 12:41

Hi Fred

Ja, sag ich doch, und genau deshalb KANN er ja nicht schneller sein, da die FPU Befehle egal ob Basic/Delphi/C immer gleich sind. NUR in der Anwendung dieser Befehle gibt es Unterschiede und die k�nnen ENTSCHEIDEND sein

Gru� Hage

**Fred Ziebell** · 08.09.2000, 12:45

Hallo,

Hach....ich will nicht darauf rumreiten aber....wer an ultimativen Powercoding mit Maxspeed interessiert ist und keinen Bock auf Assemblerarien hat, der sollte sich mal den PowerBasic DLL/Compiler V6.0 ansehen. Die Dll�s la�en sich beliebig in VB, VC++, CBUILDER und ich denke auch Delphi einbinden. http://www.powerbasic.com

Gru�
Fred Ziebel

Announcement

Delphi zum Numbercrunching geeignet?

Delphi zum Numbercrunching geeignet?

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment