Announcement

Collapse
No announcement yet.

Data-Matching und Anonymisierung

Collapse
X
  • Filter
  • Time
  • Show
Clear All
new posts

  • Data-Matching und Anonymisierung

    Hallo liebe Datenbankeexperten,

    ich würde euch gerne meine Aufgabenstellung und meine Fragen zum Thema Datenbankmodellierung beschreiben.

    Zur Aufgabenstellung:

    Modellierung einer Datenbank zum Matchen von Datensätzen aus unterschiedlichen internen (aus dem Unternehmen) und externen Quellen (andere Unternehmen) mittels personalisierender Daten sowie anonymisieren der Datensätze und Vergabe einer eindeutigen ID. Weiterer Zweck ist vorranging die Vorbereitung der Daten für statistische Analysen.

    (Ich erhalt die zu matchenden Datensätze in unterschiedlicher nicht standardisierter Form haupsachlich als *.lst, *.xls, *.txt sowie ggf. *.sav oder *.accdb (nur teilweise mit Satzstruktur und dazugehöriger Dokumentation).)

    Problemdarstellung / Fragen:

    • Welcher Modellierungsansatz ist für eine solche Datenbank sinnvoll? Als Entwicklungsumgebung soll das RDBMS 4D verwendet werden.

    • Welche Literaturquellen: Fachbücher, Fachzeitschriften, etc. kennt ihr, die eine ähnliche Aufgabenstellung abhandeln?

    • Welche Alternativen Tools gibt es? Benchmarks?

    • Entwicklertreffen in und im Hamburg bzw. Norddeutschland?

    Ich würde mich sehr über hilfreiche Anregungen für den weiteren Einstieg in diese Aufgabe freuen.

    Viele Grüße

    userinhh

  • #2
    Was ist 4D?
    Ok, ich hab gegooglet. Nicht unbedingt verbreitet.

    Zu Deiner Frage:
    Ich würde das als klassische ETL Prozesse (> Datawarehouse) bezeichnen.
    Da ich das System nicht kenne, musst Du schauen, was 4D in dem Bereich zu bieten hat.

    Nebenbei:
    Die genannten Datenquellen sehen etwas nach Microsoft Produkten aus. Ich mache ungern Werbung für MS, aber man bleibt bei der DV auch gern "in einer Welt". Wer könnte besser MS Daten laden und verarbeiten, als MS himself?
    Gruß, defo

    Comment


    • #3
      Hallo,

      vielen Dank für die hilfreiche Antwort.

      Meine Vorerfahrungen beziehen sich bislang auf MS Acess darum bin ich in diesem Aufgabengebiet noch ein Frischling und muss lernen...

      4D zu verwenden ist ein Arbeitsauftrag. Aber für eine umfassende Recherche zum Thema lohnt sich für mich dennoch ein Blick auf andere Standardtools, falls es solche für zumindest Teilschritte wie Matching oder Mapping gibt welche brauchbar für meine Aufgabenstellung sein könnten? ... Und natürlich brauchbare Fachliteratur. Welche Zeitschrift/ welches Buch würdet ihr mir empfehlen?

      Zum ELT- Prozess... Kann man denn von einem Data-Warehouse sprechen, wenn ich die Quelldaten per Mail (verschlüsselt) oder per Stick je nach Bedarf erhalte und nicht per Automatismus mittels des DBMS? (Natürlich habe ich die Quelldateien, welche ich schon erhalten habe, als Datensammlung, von Dubletten bereinigt, kategorisiert und logisch umbenannt). Einige Quellen sind reguläre... Möglich, dass ich Quelldateien erhalte, die mir jetzt noch nicht bekannt sind...

      Ich würde mich sehr über weitere hilfreiche Tipps von euch freuen.

      VG

      userinhh

      Comment


      • #4
        Originally posted by userinhh View Post
        Zum ELT- Prozess... Kann man denn von einem Data-Warehouse sprechen, wenn ich die Quelldaten per Mail (verschlüsselt) oder per Stick je nach Bedarf erhalte und nicht per Automatismus mittels des DBMS?
        Worauf willst Du hinaus? Dass die Daten unregelmäßig eintreffen?
        Oder dass Du die Emails erst händisch entschlüsslest und dann in 4d eintippst?

        Datawarehouse an sich hat mit der Form der Befüllung m.E. nicht viel zu tun. Es war auch primär der ETL (ja, ELT gibt's auch) Prozess, den ich Dir mitgeben wollte, als Suchwort für Dein System. Zuletzt Statistiken über die gesammelten (Datawarehouse-)Daten zu fahren, passt auch ins Bild.
        So wie es klingt, sind in Deinem Fall vielleicht höchstens die Datenmengen nicht so groß, wie sie in dem Bereich sein könnten.
        Das hindert ja nicht, ETL tools zu nutzen.
        Gruß, defo

        Comment

        Working...
        X