Aus dem Kurs: Datenanalyse lernen Teil 1: Grundlagen

Quelldaten und Datenquellen

Aus dem Kurs: Datenanalyse lernen Teil 1: Grundlagen

Quelldaten und Datenquellen

In diesem Video geht es um Quelldaten und Datenquellen und um die beiden Fragen: Woher stammen Ihre Daten? Und wie haben Sie sie erhalten? Die Systeme, mit denen wir im Job arbeiten, erhalten ihre Daten oft aus Datenbanken oder in den Systemen werden selbst Daten gesammelt und andere Datenbanken damit beliefert. Im Idealfall greifen Sie direkt auf die Datenquelle zu. Data Governance und Systemstruktur stehen diesem Ideal aber häufig im Weg. Die Quelldaten selbst stammen, wie der Name schon sagt, aus der originalen Quelle und die Chancen stehen gut, dass sie korrekt sind im Vergleich zu einer, sagen wir mal, Quelle aus bearbeiteter zweiter Hand. Heutzutage stammen die benötigten Quelldaten häufig aus verschiedenen Datenquellen. Sie arbeiten vielleicht mit Daten, die in einem Data Warehouse oder in einem separaten Datensystem abgelegt wurden. D.h., diese Daten kommen entweder von einer anderen Person, die Zugriff auf die originalen Quelldaten hat, oder Sie haben die Daten selbst aus dem System exportiert. In beiden Fällen handelt es sich aber um die originalen Quelldaten. Eine der wichtigsten Kompetenzen, über die Datenanalyse-Fachkräfte und eigentlich alle Leute, die mit Daten arbeiten, verfügen sollten, ist die Fähigkeit, mit verschiedenen Quellen zu arbeiten und die Daten in Analysen, Berichten und Visualisierungen zu verknüpfen. Dokumentieren Sie dabei stets, woher die Quelldaten kommen und ob sie direkt aus der originalen Quelle stammen oder ob jemand die Daten aus der Quelle zusammengestellt und an Sie weitergegeben hat. Und denken Sie stets daran, dass dieselben Daten manchmal auch an mehreren Orten gespeichert sind. Hier ein Beispiel: In einem Unternehmen gibt es zwei separate Systeme, auf der einen Seite die Personaldatenbank mit den Personaldaten und auf der anderen Seite das System für die Lohn- und Gehaltsabrechnung. Bei jeder Neueinstellung werden die Daten der neuen Personen in der Personaldatenbank erfasst. Und dort wird auch die Personal-ID generiert. Diese ID wird dann auch in anderen Systemen verwendet, z.B. für die Gehaltsabrechnung, für Arbeitgeberleistungen oder auch in der IT. In der Personaldatenbank stehen alle wichtigen Personaldaten. Sie ist für die Lohn- und Gehaltsabrechnung aber nicht spezifisch genug, sondern liefert stattdessen Daten an das Abrechnungssystem, das wiederum sicherstellt, dass alle Mitarbeitenden ihre Gehaltsabrechnung bekommen. Da die Daten für die Gehaltsabrechnungen in einem separaten System stehen, werden sie in der Personaldatenbank keine Gehaltsabrechnungsdaten finden. Aber Sie werden Personaldaten im Abrechnungssystem finden. Die Originalquelle für die Gehaltsabrechnungsdaten ist aber das Abrechnungssystem. Gehen wir noch einen Schritt weiter. In diesem Beispiel ist die Personalabteilung sowohl für alle Daten im Personalsystem als auch für die Weitergabe der benötigten Informationen an die Buchhaltung verantwortlich, die wiederum für die Abrechnungsdaten zuständig ist. Wenn Sie in keiner dieser beiden Abteilung arbeiten und einen Bericht mit Einstellungsdaten und Leistungsboni erstellen sollen, dann brauchen Sie Daten aus den beiden Quellsystemen, Personal und Gehaltsabrechnung. Diese Daten sind sensibel und daher in der Regel geschützt. Sie werden vermutlich keinen Zugriff für diese beiden Systeme erhalten. Wahrscheinlich bekommen Sie nur die benötigten Daten in Form von CSV-Dateien. Die Datenquelle für Ihren Bericht sind also die CSV-Dateien aus den beiden Abteilungen. Und die Datenquellen für die CSV-Dateien sind die beiden Quellsysteme. Nur wenn Sie die wirklichen Quellen kennen, können Sie erklären, wie Sie Ihre Daten erhalten haben und woher sie ursprünglich stammen. Und warum ist das so wichtig? Vielleicht entdecken Sie einen Fehler und wollen die Zuständigen informieren. Oder ein System-Upgrade verändert Ihre Daten und Sie müssen die Quellen benennen. Oder es fehlen Daten und Sie müssen den Fehler zurückverfolgen, um das Problem zu lösen. Also, es ist wichtig zu wissen, woher Ihre Quelldaten stammen und ob sie direkt aus der originalen Quelle stammen oder ob jemand die Daten aus der Quelle zusammengestellt und an Sie weitergegeben hat.

Inhalt