Announcement

**defo** · 01.08.2017, 19:25

Erstmal als ganz allgemeine Antwort:

1. Mein Weg w�ren Views, ausnahmslos, als erster Schritt. Fraglich w�re ggF. wie dynamisch sich Feldnamen oder so �ndern, und es damit eben nur Namens�nderungen w�ren, oder ob sich auch Strukturen stark unterscheiden und wie gut man das dann in verschiedene Grundmuster(Basisviews) zusammenfassen kann,
2.Wenn man das geregelt hat, kann man / will man vielleicht irgendwo Performance optimieren und w�rde mit Indizierung und Materialized Views arbeiten.
1b. Ach so, zu den Views. Views, auch wenn sie viel Komplexit�t verstecken, m�ssen nicht langsamer sein als ein riesen SQL Statement
3 Stored Procedures k�nnen gezielt helfen, kritische Abfragen zu beschleunigen. Das so vielseitig hinzubekommen, wie Du es vermutlich haben willst, ist sicher nicht trivial. > Einzelfallbetrachtung
4. andere Systeme: Scripte und Templates machen nichts schneller. Templates oder Hilfstools zum Erstellen komplexer Abfragen machen es hoffentlich bequemer. Dann schon eher andere DB. Du sprichst von Oracle, meinst wahrscheinlich Oracle Database, nutzt aber mySQL. Das sind nat�rlich Welten. Performance erreicht man auch durch bessere Sprachfeatures. Da bist Du nat�rlich mit Oracle database und Oracle mySQL bei unterschiedlichsten Systemen, was die F�higkeiten angeht. Alternativvorschlag: postgres, kostenlos, aber nicht umsonst. Schl�gt mySQL Funktional um L�ngen, einfachere Lizenzbestimmungen, mit den entsprechenden Extensions auch sehr Oracle database kompatibel. Extrem vielseitige Index M�glichkeiten, Stored Procs, gro�e Typenvielfalt und starke Typisierungsm�glichkeiten in SQL.

Was mir jetzt spontan einf�llt:
Postgres ist im Dictionarybereich und der Sprachf�lle so stark, dass sich vielleicht ein kleines Set von SP anbietet, zusammen mit ein paar Hilfstabellen. Damit k�nnte man Views generieren, Feldnamen mappings hinterlegen usw. usf.
Man k�nnte sich ein aufwendiges Frontend sparen und die Entwicklungsarbeit haupts�chlich in die SQL Pflege, Generierung, Management stecken.
Insgesamt muss man dabei im Auge behalten, wieviel Sinn (Kosten/Nutzen) das f�r einen einzelnen "Nutzer" macht.

**Wursel** · 02.08.2017, 14:30

Hallo defo! Vielen Dank f�r Deine Infos und Tipps!

Zu Views: Das w�re auch mein bevorzugter Weg, denn ein prinzipielles Problem ist oft, dass die Daten nicht wirklich "sauber" vorliegen. Das f�ngt bei kryptischen Tabellen- und Spaltennamen an, geht bei den fehlenden Datentypen weiter (einfach alles in VARCHAR(255) gepackt) und h�rt bei Sachen wie fehlenden Fremdschl�sseln oder teilweise etwas merkw�rdiger Denormalisierungen nicht auf (z.B. teilweise CSVs in Feldern, die dann erst mal zerpfl�ckt werden m�ssen und dann entsprechend langsam sind). Und das betrifft leider einige Hersteller von Produkten, die ihre Daten in die Datenbanken speichern, die man dann auswerten soll. Ich hatte mir zwischenzeitlich schon �berlegt, ob ich via ETL die Daten sauber umwandeln und speichern soll, so wie Datawarehouses das machen. Das ist aber (abgesehen vom Aufwand) nicht gut m�glich, da die Daten, wenn man Probleme feststellt, direkt in den herstellereigenen Programmen korrigiert werden und ich das Ergebnis dann direkt kontrollieren will. Und man kann auch das direkte Feedback nutzen, wenn im Herstellerprogramm in einem Testdatensatz XYZ ge�ndert wird, wertet das anschlie�end die Auswertung korrekt aus? Das ist als Kontrolle und Plausibilit�tspr�fung ganz praktisch.

Mein Plan sind mehrere "Viewlayer":

Viewlayer 1. Anst�ndige Namen: Diese View stellt menschenlesbare Tabellen- und Spaltennamen zur Verf�gung und auch nur die Spalten, die verwendet werden sollen

Viewlayer 2. Typumwandlung: Diese View wandelt die Spalten in die richtigen Spaltentypen um (ggf. mit Fehlerbehandlung?). Z.B. DATE oder TIME statt VARCHAR, damit man damit vern�nftig arbeiten kann (z.B. Zeit- und Datumsabst�nde bestimmen).

Viewlayer 3 Menschenlesbare Inhalte Aus den ganzen Nachschlagetabellen werden anhand der ID die Werte bestimmt und diese direkt eingetragen. Z.B. statt ID "583" dann "Gesch�ftsleitung".

Viewlayer 4 Berechnete Zusatzspalten: Z.B. wird aus "Datum" (mit dann richtigem Typ) noch eine Spalte "SaSoFeiertag", "Wochentagname", "Jahr", "Monat", "Kalenderwoche" usw. neben dran gestellt. Das h�tte den Sinn, Anwendern die Daten "vorgekaut" zur Verf�gung zu stellen. Wenn man sie in Excel oder Statistikprogrammen �ffnet, dann sieht derjenige direkt, was er braucht und sucht. W�rde man diese Spalten indexieren, dann k�nnte man u.U. die Abfragen extrem beschleunigen.

Viewlayer 5 Aggregation/Auswertung Und dann vielleicht noch sehr h�ufig gebrauchte Gruppierungen etc., die man direkt aufrufen kann. Oder: Ich stelle ALLE Auswertungen als View zur Verf�gung. Dann br�uchte man bei erneuten Anfragen nur ein SELECT * FROM auswertung4711 WHERE jahr=2017

Was w�re davon zu halten? Dann k�nnte man selbst entscheiden, auf welchem "Layer" man die Daten abgreifen m�chte. Letztendlich machen ich genau so etwas in meinen Auswertungen auch - nur eben immer von vorn d.h. per Copy + Paste und u.U. wird dann das Rad mehrfach erfunden.
F�r die Einzelschritte h�tte ich gerne diverse FUNCTIONS benutzt, damit man auch das nicht X-fach wiederholen muss, sondern in den Views mit einem Dutzend Funktionen alles �bersichtlich hin bekommt. Das ist eben nur von der Performance her ein (gro�es) Problem.

Zur Performance von Views: Bei MySQL ist das wohl etwas schwierig. In bestimmten F�llen wird es leider extrem langsam. Ich k�nnte mir vorstellen, dass so etwas eine Oracle Database (die meinte ich mit Oracle) deutlich besser optimiert.

Mit Postgres hatte ich auch schon gelieb�ugelt aus diversen Gr�nden, hatte aber bis jetzt noch nichts damit gemacht. Das w�re tats�chlich eine gute Idee! Die haben ziemliche viele Features eingebaut, die interessant w�ren. Ich habe gesehen, dass man die MySQL-DB auch verbinden k�nnte (mysql_fdw) und dann dar�ber die Daten beziehen. Die k�nnen auch Materialized Views (wenn auch nicht wie bei Oracle Database automatisch aktualisiert) und sogar in gewissen Grenzen �ber Spalten mit Funktionen Indices erstellen. Sehr interessant! Der Execution-Plan (EXPLAIN) sieht auch gut aus mit vielen Infos und �bersichtlich. U.U. k�nnte man dar�ber besser optimieren.

**defo** · 03.08.2017, 18:26

Ich w�rde den Ansatz mit den 5 Schichten vielleicht etwas "abspecken". ZB 1 und 2 zusammenfassen und 3 und 4. Es soll ja eine Erleichterung sein. Wenn Du am Ende an jeden Select 5x rumschnippelst ist es vielleicht keine Hilfe, leiert aus, wird unscharf und es entstehen Fehler, keiner blickt mehr durch.

Typumwandlung ist nicht ohne, jenachdem welcher Schrott drinsteht. Ein Substr bspw f�r gek�rzte Felder w�rde ich mit einem Indikator versehen, wenn etwas abgeschnitten wurde, bspw, "substr(originalfeld, 21)||">>" oder so. Datums oder Zahlumwandlungen im ersten Anlauf mit einer Pr�ffunktion, nur was umwandelbar ist, wird auch umgewandelt.
Fehlermeldungen aus Funktionen in Views will man nicht, man produziert notfalls mit einem einzigen Select Statement 100tausende Fehler.
Daraus ergibt sich, dass man das Plausibilisierungsviews zwischen den verschiedenen Ebenen macht, wenn man fehlerhafte S�tze tats�chlich ausfiltert oder nach einem definierten Schema Umwandlungsfehler flagt.

Menschlesbare Daten, Typpr�fung /-Konvertierung usw. sind nat�rlich nicht umsonst. Aber weils so sch�n bequem ist, wird dann immer volle Breitseite ausgewertet und der Server ist schnell am Ende. F�r eine solche Ebene w�rde ich evtl. ein prozedurales Verfahren einsetzen, dass vor Aufruf dieser Views einen Scope setzen muss, andernfalls gibt man leere Menge aus.

Originally posted by Wursel View Post

Viewlayer 5 Aggregation/Auswertung Und dann vielleicht noch sehr h�ufig gebrauchte Gruppierungen etc., die man direkt aufrufen kann. Oder: Ich stelle ALLE Auswertungen als View zur Verf�gung. Dann br�uchte man bei erneuten Anfragen nur ein SELECT * FROM auswertung4711 WHERE jahr=2017

Das habe ich nicht verstanden. "..H�ufig .. oder .. alle..und dann bei erneut.."?

Tja und es ist nicht alles schnell. Man muss vielleicht f�r verschiedene F�lle optimieren. Bei mysql kann ich mir vorstellen, dass es da nicht gl�nzt. Oracle DB schon, aber es ist auch fallabh�ngig (und teuer).

Postgres
Es bietet eine Menge Zeug, sehr vielseitig, XML, JSON per Query abfragen, ausgefeilte Indexierung, die weit �ber Function Based Indizes raus geht. Und es gibt einen Haufen Extensions, u.a. Oracle Extensions f�r Kompatibilit�t. Dann kann man ggF. immer noch umsteigen, wenn man die genutzt hat.

Announcement

Suche Tipps: Lange Queries modularisieren und dabei trotzdem schnell abfragen?

Suche Tipps: Lange Queries modularisieren und dabei trotzdem schnell abfragen?

Comment

Comment

Comment