Was sind die Vorteile des Unity Catalogs von Databricks?

Databricks Unity Catalog Überblick

Der Unity Catalog ist ein von Databricks angebotenes Governance-Tool, mit welchem Sie verschiedene Ressourcen innerhalb der Databricks-Plattform verwalten können. Besonders das Workspace-übergreifende Design ermöglicht es uns Anwendern von überall je nach Adminrecht auf Daten zuzugreifen und mit ihnen zu arbeiten, weshalb der Unity Catalog viele Vorteile bringt.

In diesem kurzen Beitrag gehen wir speziell auf die Vorteile des Unity Catalog ein und zeigen Ihnen danach fünf Schritte, wie Sie den Unity Catalog in Ihrem Unternehmen verwenden können. Falls Sie wissen möchten, wie der Catalog funktioniert und wie er aufgebaut ist, dann sind Sie hier richtig: Der Databricks Unity Catalog einfach erklärt 

Lassen Sie uns starten!

Was sind die Vorteile des Databricks Unity Catalog?

Der Catalog zeichnet sich durch die Möglichkeit aus, Daten transparent gemeinsam zu nutzen. Das verringert nicht nur die Arbeitsbelastung unseres Datenteams, sondern hilft ihm auch, den Zugang zu den Daten genau zu überwachen und zu kontrollieren. Daraus ergeben sich sechs Vorteile:

  1. Zugriffskontrolle
  2. Admin-Rollen für den Unity Catalog
  3. Datenberechtigungen
  4. Cluster-Zugriffsmodi
  5. Datenabgleich
  6. Lakehouse Federation
Der Unity Catalog ermöglicht ein gemeinsames Arbeiten an den selben Daten.
Der Unity Catalog ermöglicht ein gemeinsames Arbeiten an den selben Daten.

Sehen wir uns die Vorteile im Detail an.

1.     Zugriffskontrolle

Das Identitäts- und Zugriffsverwaltungsmodell in Unity Catalog wurde mit benutzerdefinierten Privilegien entworfen, die auf verschiedenen Ebenen des dreistufigen Namespace im Metastore arbeiten. Privilegien im Unity Catalog werden in der Hierarchie der Namespaces nach unten vererbt.

Databricks verfügt über ein Berechtigungsmodell auf Arbeitsbereichsebene, mit dem Sie den Zugriff auf alle verschiedenen Datenbestände wie DLT-Pipelines, SQL-Warehouses, Notebooks usw. mithilfe von ACLs (Access Control Lists) steuern können. Diese ACLs werden von Admin-Benutzern und auch von Benutzern mit ACL-Verwaltungsrechten verwaltet.

2.     Admin-Rollen für Unity Catalog

Sie benötigen die folgenden Admin-Rollen für die Verwaltung von Unity Catalog:

  1. Account-Administratoren können Identitäten, Cloud-Ressourcen und die Erstellung von Workspaces und Unity Catalog-Metaspeichern verwalten. Sie können Workspaces für Unity Catalog aktivieren und sowohl Workspace- als auch Metastore-Administrationsrechte erteilen.
  2. Metastore-Administratoren können Berechtigungen und Eigentumsrechte für alle sicherbaren Objekte innerhalb eines Metastores verwalten, z.B. wer Kataloge erstellen oder eine Tabelle abfragen darf.
  3. Der Konto-Administrator, der den Unity Catalog-Metastore erstellt, wird zum anfänglichen Metastore-Admin. Der Metastore-Admin kann diese Rolle auch an einen anderen Benutzer oder eine Gruppe delegieren. 
  4. Arbeitsbereich-Administratoren können Benutzer zu einem Databricks-Arbeitsbereich hinzufügen, ihnen die Rolle des Arbeitsbereich-Administrators zuweisen und den Zugriff auf Objekte und Funktionen im Arbeitsbereich verwalten, wie z.B. die Möglichkeit, Cluster zu erstellen und die Eigentümerschaft von Jobs zu ändern.

3.     Datenberechtigungen in Unity Catalog

Im Unity Catalog sind die Daten standardmäßig sicher. Anfänglich haben Benutzer keinen Zugriff auf Daten in einem Metastore. Der Zugriff kann entweder von einem Metastore-Administrator, dem Eigentümer eines Objekts oder dem Eigentümer des Katalogs oder Schemas (das das Objekt enthält) gewährt werden. Sicherbare Objekte in Unity Catalog sind hierarchisch aufgebaut, und Berechtigungen werden nach unten vererbt.

Wir können Berechtigungen über den Data Explorer, SQL-Befehle oder REST-APIs zuweisen und entziehen.

4.     Cluster-Zugriffsmodi für Unity Catalog

Um auf die Daten in Unity Catalog zugreifen zu können, müssen die Cluster mit dem richtigen Zugriffsmodus konfiguriert werden. Unity Catalog ist standardmäßig sicher. Wenn ein Cluster nicht mit einem der Unity-Catalog-fähigen Zugriffsmodi konfiguriert ist (d. h. gemeinsam genutzt oder zugewiesen), kann der Cluster nicht auf Daten in Unity Catalog zugreifen.

5.     Datenabgleich für Unity Catalog

Wir können Unity Catalog verwenden, um die Datenabfolge von Abfragen in jeder Sprache, die auf einem Databricks-Cluster oder SQL-Warehouse ausgeführt werden, zur Laufzeit zu erfassen. Die Datenabfolge wird bis auf Spaltenebene erfasst und umfasst Notebooks, Workflows und Dashboards, die mit der Abfrage in Zusammenhang stehen. 

6.     Lakehouse Federation und Unity-Catalog

Lakehouse Federation ist die Abfrageverbundplattform für Databricks. Der Begriff Query Federation beschreibt eine Sammlung von Funktionen, die es Benutzern und Systemen ermöglichen, Abfragen gegen mehrere isolierte Datenquellen durchzuführen, ohne alle Daten in ein einheitliches System migrieren zu müssen.

Databricks verwendet Unity Catalog, um Query Federation zu verwalten. Mit Unity Catalog können Sie schreibgeschützte Verbindungen zu gängigen externen Datenbanksystemen konfigurieren und Fremdkataloge erstellen, die externe Datenbanken spiegeln. Die Data-Governance- und Data-Lineage-Tools von Unity Catalog stellen sicher, dass der Datenzugriff für alle föderierten Abfragen der Benutzer in Ihren Databricks-Arbeitsbereichen verwaltet und geprüft wird.

Wie richte ich Unity Catalog für meine Organisation ein?

Databricks schlägt zu diesem Zweck einen fünf-Schritte-Plan vor, um den Unity Catalog für Ihr Unternehmen einzurichten:

  1. Konfigurieren Sie einen S3-Bucket und eine IAM-Rolle, die Unity Catalog zum Speichern und Zugreifen auf Daten in Ihrem AWS-Konto verwenden kann.
  2. Erstellen Sie einen Metastore für jede Region, in der Ihre Organisation tätig ist.
  3. Hängen Sie Workspaces an den Metastore an. Jeder Workspace wird die gleiche Ansicht der Daten haben, die Sie in Unity Catalog verwalten.
  4. Wenn Sie ein neues Konto haben, fügen Sie Benutzer, Gruppen und Dienstprinzipale zu Ihrem Databricks-Konto hinzu.
  5. Als Nächstes erstellen Sie Kataloge, Schemata und Tabellen und gewähren den zuvor hinzugefügten Usern Zugriff darauf.

Eine vollständige Anleitung zur Einrichtung finden Sie bei Databricks unter Erste Schritte mit Unity Catalog.

Benötigen Sie Unterstützung?

Datasolut ist offizieller Databricks-Partner! Wir unterstützen Sie gerne.

Databricks Beratung

Fazit

Die im Unity Catalog eingebaute, eng integrierte Methode zur gemeinsamen Nutzung von Daten verringert den Aufwand und die Schwierigkeiten bei der Verwaltung von Datenberechtigungen in Ihrem Unternehmen. Die Verwendung des Catalogs ermöglicht uns somit ein Workspace-übergreifendes, transparentes und sicheres Arbeiten mit den Daten.

Sie möchten mehr über den Unity Catalog erfahren oder benötigen Unterstützung bei der Implementierung? Dann kontaktieren Sie uns gerne!

Profilbild von Vinzent Wuttke Leiter Business Development Datasolut GmbH
Vinzent Wuttke
Leiter Business
 Development

Ihr Ansprechpartner

Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.

In diesem Gespräch erfahren Sie:

  • Wie Ihr Use-Case technisch am besten umgesetzt werden kann
  • Wie wir maximal sicher mit Ihren Kundendaten umgehen
  • Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte
Termin buchen

Weiterlesen

Big DataData Engineering GrundlagenDatabricks Vor 6 Tagen

Was ist Databricks? Nutzen, Vorteile, Umgebung

Databricks ist ein Cloud-basiertes Tool, das den gesamten Prozess der Datenverarbeitung vereinfacht: von Data Engineering über Data Science bis hin zu maschinellem Lernen. Unternehmen nutzen Databricks, um große Datenmengen zu […]
Databricks Vor 6 Tagen

Recap Databricks Data + AI Summit 2024

Der diesjährige Data + AI Summit 2024 von Databricks brachte einige Neuigkeiten aus den Bereichen KI und Datananalyse mit sich. Highlights des Summits waren News zum Mosaic AI und die […]
Big DataDatabricks Vor 6 Monaten

Der Data Lakehouse Ansatz – eine moderne Cloud-Datenplattform 

Ein Data Lakehouse-Ansatz bietet die Flexibilität und Skalierbarkeit eines Data Lakes in Kombination mit hoher Datenqualität, Transaktionssicherheit und vereinfachter und vereinheitlichter Verwaltung bzw. Governance des Data Warehouse. Der Data Lakehouse […]
Databricks Unity Catalog Überblick
Databricks Vor 10 Monaten

Der Databricks Unity Catalog einfach erklärt      

Der von Databricks angebotene Unity-Catalog ist ein Governance-Tool, mit dem verschiedene Ressourcen innerhalb der Databricks-Plattform verwaltet werden können.  Mit seinen umfangreichen Funktionen ermöglicht Unity Catalog die Verwaltung zahlreicher Databricks-Ressourcen, darunter […]
Big DataData Engineering GrundlagenDatabricks Vor 1 Jahr

Snowflake vs. Databricks: Was sind die Unterschiede?

Unternehmen stehen vor der Herausforderung Daten in kürzester Zeit für Analysen wie Machine Learning, Dashboards und Auswertungen vorzubereiten. Data Warehouses und Data Lakes haben sich zwar weiterentwickelt, dennoch benötigt es […]
Data Engineering GrundlagenDatabricks Vor 1 Jahr

Kostenoptimierung bei Databricks

Das Databricks Kostenmodell basiert auf einem Pay-as-you-go Modell, deshalb ist es wichtig zu wissen, wie Sie die Ausgaben auf Databricks kontrollieren und die Kosten somit optimieren können.  In diesem Beitrag […]
Data Engineering GrundlagenDatabricks Vor 1 Jahr

Databricks: Kostenmodell einfach erklärt 

Sie möchten mit Databricks starten, sind sich aber nicht sicher, welche Kosten sich dadurch ergeben? Dieser Beitrag soll Ihnen als Guide für alle Kosten rund um Databricks dienen, damit Sie […]
Newsletter und Updates

Sie sehen gerade einen Platzhalterinhalt von HubSpot. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
Termin buchen