Aus dem Kurs: Datenanalyse lernen Teil 1: Grundlagen

Datenfelder und Datentypen kennenlernen

Aus dem Kurs: Datenanalyse lernen Teil 1: Grundlagen

Datenfelder und Datentypen kennenlernen

Alle Daten verfügen über drei wichtige Elemente. Sie haben einen Feldnamen, einen Datentyp und einen Datenwert. Was die meisten als Daten betrachten, sind eigentlich die konkreten Werte. Datenwerte, das ist das, was wir eingeben, exportieren und in Berichten auswerten. Wenn Sie in einem Formular Ihren Vornamen eingeben, dann geben Sie den Datenwert für Ihren Vornamen ein. In meinem Fall wäre das dann Sabine und das ist ein Textwert. Abhängig von den Werten, die in ein bestimmtes Feld eingegeben werden sollen, wird der Datentyp für das Feld definiert. In einer perfekten Welt sind die Feldnamen aussagekräftig, die Datentypen intuitiv und die Werte werden korrekt eingegeben. Aber im Alltag der Datenanalyse werden Sie schnell feststellen, dass die Welt nicht perfekt ist und dass Daten nicht immer das sind, was Sie vorgeben zu sein. Feldnamen dienen als Beschriftung der Felder, z.B. Vorname, Nachname oder Jobbezeichnung. Sie können stets nur hoffen, dass die Namen aussagekräftig sind, aber das ist leider nicht immer der Fall. Feldnamen werden auch als Spaltenbeschriftung oder Spaltenüberschrift bezeichnet. Sie stehen in der Regel in der obersten Zeile und werden meist auch hervorgehoben dargestellt, z.B. fett. Der Datentyp definiert, was Sie mit den Daten tun können und sollten. Prinzipiell gibt es erst mal drei Datentypen: Text, Zahl und Datum. Es gibt noch mehr, aber dazu später. Wenn Sie Daten aus einem System exportieren wollen, dann liegen diese Daten meist in einer Datenbank. Die Tabellen der Datenbank werden von der Person definiert, die die Datenbank entwickelt. Dabei werden auch die Feldnamen und Datentypen definiert. Sehen Sie sich das Feld mit dem langen Feldnamen "NationalitaetIDAlternateKey" an. Diesem Feld wurde der Datentyp "Kurzer Text" zugewiesen. Wenn Sie sich aber die eigentlichen Daten ansehen, dann erkennen Sie, dass in diesem Feld lauter Zahlen stehen. Aber Zahlen werden standardmäßig rechtsbündig und Text linksbündig ausgerichtet. D.h., wenn Sie, so wie hier, Zahlen sehen, die linksbündig ausgerichtet sind, dann sollten Sie davon ausgehen, dass sich diese Daten wie Text verhalten. Und wenn Sie diese Daten exportieren, dann exportieren Sie auch den hier definierten Datentyp. Sehen wir uns die exportierten Daten in Excel an. Und tatsächlich, der Inhalt der Spalte "NationalitaetIDAlternateKey" wird auch hier linksbündig ausgerichtet. Außerdem enthalten alle Zellen dieser Spalte ein kleines grünes Dreieck. Wenn Sie eine dieser Zellen markieren und dann links daneben auf die Schaltfläche klicken, dann wird angezeigt, dass hier als Text gespeicherte Zahlen enthalten sind und Sie können außerdem diesen Text in eine Zahl umwandeln. Sie werden bei Ihrer Arbeit nicht immer Zugriff auf die Originaldaten haben, aber Sie können sich die exportierten Daten ansehen und sich für einen in Ihren Augen passenden Datentyp entscheiden. Angenommen, die Spaltenbeschriftung lautet Farbe und in der ersten Datenzelle steht das Wort "Rot". Es handelt sich vermutlich um das Datenformat Text. Vielleicht haben Sie auch schon die Bezeichnung String gehört, ein Synonym für Text. Wenn in einer Spalte Zahlen stehen, wie hier in der mittleren Spalte, klar, ein Zahlenformat. Und den Eintrag 20.11.2025 in der rechten Spalte werden Sie mit Sicherheit als ein Datum identifizieren. Wenn Sie sich also Daten ansehen und überlegen, was sie bedeuten, dann denken Sie eigentlich über den Datentyp nach. Datenanalyst:innen wissen, dass das der kritische entscheidende Punkt ist. Das, was Ihre Augen sehen und das, was das Programm sieht, ist nicht immer dasselbe. Wenn Sie in Excel oder in einer Datenbank mit Daten arbeiten, die aus dem Quellsystem stammen, dann müssen die Daten, die Sie sehen, nicht unbedingt dem entsprechen, wie sie tatsächlich definiert und gespeichert wurden. Ein Beispiel: Das Datum 20.11.2025 und die Zahl 45.981 sind für Excel exakt dasselbe. Es ist die Darstellung, die den Unterschied macht. Klicken Sie auf die Zelle B2 und öffnen Sie das Listenfeld "Zahlenformat". Unter "Datum kurz" sehen Sie das Datum 20.11.2025. Vielleicht kennen Sie das ja schon. Sie geben etwas in Excel ein und Excel interpretiert Ihre Eingabe ganz anders als gedacht. Angenommen, Sie geben in eine Zelle die Bruchzahl 1/4 ein. Was passiert? Kein Aprilscherz: Excel interpretiert Ihre Eingabe als ein Datum, nämlich als den 1. April. Und deshalb stellt Excel Ihre Eingabe im Datumsformat dar. Sie geben also eine Bruchzahl ein und Excel gibt ein Datum aus. Warum passiert das? Excel interpretiert Ihre Eingabe als serielle Zahl, die es dann als Datum darstellt. Und warum? Weil Excel Datumsangaben intern als serielle fortlaufende Zahlen speichert, mit denen dann eben auch gerechnet werden kann. So entspricht der 20.11.2025 der Zahl 45.981. Was tun Sie jetzt mit dem 1. April? Sie müssen das von Excel vergebene Datumsformat händisch ändern. Sie markieren also die Zelle, öffnen das Listenfeld "Datumsformat" und wählen entweder das Format "Standard" oder "Zahlenformat". Und wenn Sie hier jetzt noch einmal den Bruch eingeben und die Eingabetaste drücken, dann stimmt das Ergebnis. Wenn Sie sich mit der Analyse von Daten beschäftigen, sollten Sie die folgenden Datentypen auf jeden Fall kennen. Text oder String, Datum und Uhrzeit, Zahlen und Boolean. Boolean hat nur zwei Werte, wahr und falsch oder ein und aus. In Access ist das -1 und 0 und in Tools wie SQL 1 oder 0. Die Art und Menge der Datentypen variieren von Programm zu Programm. In einer Access-Datenbank stehen nicht so viele Datentypen zur Verfügung wie in einer SQL-Datenbank. Aber am Ende reduziert sich alles auf der obersten Ebene auf Text, Zahl, Datum und Boolean. Im echten Leben sind Feldnamen oft nicht aussagekräftig genug. Die Datentypen entsprechen nicht immer den Erwartungen und die von Menschenhand eingegebenen Daten sind leider nicht immer korrekt. Für alle, die Daten analysieren wollen oder es bereits tun, ist das Lebensrealität und sorgt in manchen Fällen auch für Jobsicherheit.

Inhalt