Aus dem Kurs: Datenanalyse lernen Teil 1: Grundlagen

Daten mit Power Query bereinigen

Aus dem Kurs: Datenanalyse lernen Teil 1: Grundlagen

Daten mit Power Query bereinigen

Datenbereinigung wird ein wichtiger Teil Ihrer Arbeit sein, und wenn Sie erst einmal Power Query kennengelernt haben, werden Sie kein anderes Tool, wie z.B. Makros, mehr nutzen wollen. Wechseln Sie zum Übungsordner 06_03. In diesem Video möchte ich Ihnen zeigen, wie Sie in der Datei Bereinigt_Ausgabentrends eine Verbindung zur Datei Studie_Ausgabentrends herstellen. Die Studiendatei enthält stets die neuesten Originaldaten und befindet sich im selben Ordner wie die Datei mit den bereinigten Daten. Wenn Sie eine neue Datei mit aktuellen Daten bekommen, können Sie diese Datei dann gegen die alte Studiendatei austauschen oder die Verbindung zu den neuen Daten aktualisieren. Öffnen Sie die Datei Bereinigt_Ausgabentrends. Sie ist noch leer, denn hier wollen Sie ja eine Verbindung zu den Originaldaten herstellen. Wählen Sie also Daten > Daten abrufen > Aus Datei > Aus Excel-Arbeitsmappe. Wechseln Sie zum gewünschten Ordner, markieren Sie die Studiendatei und klicken Sie auf Importieren. Die Verbindung wird hergestellt und die Datei mit den Originaldaten enthält eine Tabelle mit dem Namen Originaldaten. Sobald Sie die Tabelle markieren, werden die Daten hier angezeigt. Jetzt können Sie die Daten entweder direkt laden oder Sie können die Daten transformieren, d.h. bearbeiten. Und da Sie die Daten ja bereinigen wollen, wählen Sie "Daten transformieren". Im rechten Bereich werden die Abfrageeinstellungen angezeigt. Und jeder Schritt, den Sie im Folgenden durchführen werden, wird hier in dieser Liste dokumentiert. Die hier angezeigten Schritte wurden bereits automatisch von Power Query durchgeführt. Nun zur Datenbereinigung. Als Erstes sollen die nicht benötigten Spalten entfernt werden. Dafür gibt es zwei Möglichkeiten. Sie benötigen z.B. die Spalte "Intern-ID" nicht. Sie klicken mit der rechten Maustaste in die Spaltenbeschriftung und wählen den Befehl Entfernen. Dasselbe machen Sie mit der Spalte Enddatum. Entfernen. Dann benötigen Sie hier ein paar Spalten nicht mehr. Und hier möchte ich Ihnen einen anderen Weg zeigen. Klicken Sie oben im Menüband auf "Spalten verwalten", dann auf "Spalten auswählen". Und hier können Sie die Spalten deaktivieren, die Sie nicht benötigen. Bestätigen Sie mit OK. Rechts wurden diese beiden Schritte dokumentiert, einmal mit "Entfernte Spalten". Hier oben steht, was ist passiert. "Intern-ID" und "Enddatum", die beiden Spalten wurden gelöscht. Und mit dem Schritt "Andere entfernte Spalten" wurden die übrigen Spalten entfernt. Sie können hier auf dieses Zahnrad klicken. Dann wird die Liste wieder aufgeklappt und Sie können die Einstellungen hier bei Bedarf ändern. Nun zum nächsten Bereinigungsschritt. Die Spalte Anfangsdatum enthält sowohl das Datum als auch die Uhrzeit. Die Uhrzeit benötigen Sie hier nicht. D.h., Sie ändern hier den Datentyp, klicken Sie auf das kleine Symbol und wählen Sie Datum. Dann wird hier nur noch das Datum angezeigt und rechts wird der Schritt dokumentiert, "Geänderter Typ1". Da es bereits oben den Schritt "Geänderter Typ" gibt, wird diese Art von Schritt fortlaufend durchnummeriert. Der Name ist nicht sehr aussagekräftig. Klicken Sie mit der rechten Maustaste in den Namen, wählen Sie Umbenennen und vergeben Sie einen neuen Namen, geändert "Datum ohne Uhrzeit". Nun wollen Sie die Überschriften aussagekräftiger machen. Doppelklicken Sie auf die Beschriftung "Wie alt sind Sie?" und geben Sie "Alter" ein. Dann weiter rechts soll hier die Überschrift auch geändert werden, hier soll nur Bildungsabschluss stehen. Auch diese beiden Änderungen werden rechts dokumentiert mit dem Schritt "Umbenannte Spalten". Anschließend wollen Sie zwei Spalten zusammenführen, und zwar die Spalten Männlich/Weiblich und Divers. Markieren Sie die Spalte Männlich/Weiblich, halten Sie die Steuerungstaste gedrückt und markieren Sie die Spalte Divers. Dann klicken Sie mit der rechten Maustaste in die Markierung und wählen den Befehl "Spalten zusammenführen". Hier können Sie ein Trennzeichen wählen, was hier aber nicht benötigt wird, und hier können Sie einen neuen Namen für die Spalte vergeben, benennen Sie sie Genderinfo und bestätigen Sie mit OK. Beide Spalten wurden jetzt in einer Spalte zusammengefasst und die Beschriftung für diese Spalte lautet Genderinfo. Es gibt in der Originaldatei stets zwei Überschriftszeilen und die zweite Zeile steht in der ersten Datenzeile. Diese Zeile brauchen Sie nicht und Sie können sie aus dem Ergebnis herausfiltern. Klicken Sie dazu auf den Pfeil in der ersten Spalte und deaktivieren Sie das Kontrollkästchen für die Zeile 0, das ist hier die erste Datenzeile. Bestätigen Sie mit OK und die zweite Überschriftszeile wird nicht mehr angezeigt. Dokumentiert wird dieser Schritt mit dem Namen "Gefilterte Zeilen". Benennen Sie auch diesen Schritt um, wählen Sie hier den Namen "Zweite Überschrift entfernt". Wenn Sie alle Bereinigungsarbeiten durchgeführt haben, klicken Sie links oben auf die Schaltfläche "Schließen und laden". Damit werden die Daten in das Arbeitsblatt geladen. Und zwar sind es 262 Zeilen und die Daten sind übersichtlich und aussagekräftig. Dieses leistungsstarke Tool Power Query gibt es bereits seit einigen Jahren und es steht allen zur Verfügung, die mit einer neueren Excel-Version arbeiten. Und wenn Sie Power Query in Excel bedienen können und zu Power BI wechseln, dann wissen Sie auch dort bereits Bescheid. Und wenn Sie mehr zum Thema Power Query lernen wollen, dann kann ich Ihnen den LinkedIn Learning-Kurs "Excel – Daten abrufen und transformieren mit Power Query" von meiner Kollegin Tanja Kuhn empfehlen.

Inhalt