Aus dem Kurs: Datenanalyse lernen Teil 1: Grundlagen

Aggregierte Datensets zusammenstellen

Aus dem Kurs: Datenanalyse lernen Teil 1: Grundlagen

Aggregierte Datensets zusammenstellen

Sie werden sehr häufig Daten bereinigen und transformieren, um anschließend Summen zu bilden, die Anzahl zu zählen und Mittelwerte zu berechnen. Dann senden Sie diese zusammengefassten Daten an andere Personen. Diese Art von Berechnungen können anstrengend sein, gerade wenn Sie mit sehr großen Datenmengen in Excel arbeiten. Sehen wir uns daher an, wie Sie solche Aggregatsberechnungen in Power Query durchführen können. Blenden Sie die Abfragen für diese Excel-Datei ein. Dann klicken Sie mit der rechten Maustaste auf die Abfrage Marketing und wählen Bearbeiten. Ganz rechts befindet sich die Spalte Danke-Mail. Und im M-Code kann man erkennen, wenn die Gesamtsumme größer 3000 ist, dann soll in dieser Spalte "Danke-Mail senden" stehen, ansonsten "Keine Mail". Erstellen Sie links zunächst eine Kopie der Abfrage Marketing. Klicken Sie mit der rechten Maustaste in den Text und wählen Sie Verweis. So bleiben beide Abfragen miteinander verbunden. Vergeben Sie für die Kopie einen neuen Namen, benennen Sie sie mit "Danke-Mails Anzahl". Sie wollen wissen, wie viele Danke-Mails geschrieben werden müssen. D.h., Sie müssen die Danke-Mails noch zählen. Wählen Sie oben "Transformieren" und dann "Gruppieren nach". Die Gruppe, das ist die Spalte "Danke-Mail". Dort soll die Anzahl der Zeilen gezählt werden, und mit dieser Einstellung wird gezählt, wie viele Zeilen den Eintrag "Danke-Mail senden" enthalten und wie viele den Eintrag "Keine Mail" enthalten. OK. Perfekt. Wechseln Sie links zur Abfrage AuftragZeilen und in dieser Abfrage sollen gleich mehrere Aggregatsberechnungen erstellt werden. Auch hier brauchen Sie eine Kopie. Klicken Sie mit der rechten Maustaste in die Abfrage und wählen Sie Verweis. Und auch diese Kopie soll mit dem Original in Verbindung bleiben. Benennen Sie die Abfrage um, sie soll AuftragSummen heißen. Wählen Sie auf der Registerkarte Transformieren den Befehl "Grupieren nach". Sie wollen die Auftragsanzahl zählen, aber auch die Gesamtauftragssumme und die durchschnittliche Auftragssumme berechnen, also drei Aggregatsberechnungen in einem Schritt. Aktivieren Sie daher die Option Weitere. Die erste Berechnung soll "Auftrag Anzahl" heißen und es sollen die Zeilen gezählt werden. Und dann klicken Sie auf "Aggregation hinzufügen". Diese Berechnung soll "Auftrag Gesamtsumme" heißen und hier soll die Summe gebildet werden, und zwar von der GesamtSumme. Dann fügen Sie eine weitere Aggregation hinzu. Sie soll den Namen "Auftrag Durchschnitt" haben. Es wird der Mittelwert gebildet und ebenfalls von der Gesamtsumme. Gruppiert ist das Ganze hier oben nach KundenID. Sie könnten hier jedes Feld wählen. Wenn Sie z.B. den Anzeigenamen wählen, erhalten Sie pro Anzeigenamen die Anzahl der Aufträge, die Gesamtsumme und die durchschnittliche Auftragshöhe. Sie könnten hier auch Bestell- oder Lieferdatum wählen. Bleiben wir aber einfach bei der KundenID und dann klicken Sie auf OK. Für jeden Kunden wird die Anzahl der Zeilen berechnet sowie die Gesamtsumme sowie die durchschnittliche Auftragshöhe. Vergeben Sie hier noch das Währungsformat für die letzten beiden. Wenn Sie zuerst die Mittelwerte und dann die Summe anzeigen lassen wollen, könnten Sie die Spalten hier verschieben oder Sie klicken im Schritt "Gruppierte Zeilen" auf das Zahnrad und dann klicken Sie hier unten auf die drei Punkte, die für die Schaltfläche "Mehr" stehen, und wählen den Befehl "Nach oben". Und angenommen Sie entscheiden sich, dass Sie die Auftragsanzahl doch gar nicht benötigen, dann klicken Sie in dieser Zeile auf "Mehr" und wählen "Löschen". Bestätigen Sie mit OK. Wählen Sie auf der Registerkarte Start die Schaltfläche "Schließen & laden". Im Ergebnis sehen Sie für jede KundenID die durchschnittliche Auftragshöhe und die Auftragsgesamtsumme. Wie gesagt, Sie werden vermutlich häufig Daten mithilfe von Aggregatsfunktionen zusammenfassen. Vielleicht, weil Sie die einzige Person sind, die Zugriff auf die Rohdaten hat. Und Sie werden diese Datensets an andere weitergeben. Je einfacher dieser Prozess ist, umso weniger Fehler können dabei passieren, was wiederum die Sicherheit der Datenqualität erhöht. Und wie Sie gesehen haben, ist dieser Prozess im Power Query sehr einfach und sehr intuitiv.

Inhalt