Daten mit Cloud Data Fusion verarbeiten

Cloud Data Fusion bietet ein Dataplex Source-Plug-in zum Lesen von Daten aus Dataplex-Entitäten (Tabellen) in Cloud Storage- oder BigQuery-Assets. Mit dem Dataplex Source-Plug-in können Sie Daten in Cloud Storage-Assets als Tabellen behandeln und die Daten mit einfachen SQL-Abfragen filtern.

Hinweise

  • Erstellen Sie eine Cloud Data Fusion-Instanz, falls Sie noch keine haben. Dieses Plug-in ist in Instanzen verfügbar, die in Cloud Data Fusion ab Version 6.6 ausgeführt werden.

  • Die Quelldaten müssen bereits Teil einer Dataplex-Zone und eines Assets sein (entweder einem Cloud Storage-Bucket oder einem BigQuery-Dataset).

  • Wenn Sie Tabellen aus Cloud Storage verwenden möchten, müssen Sie einen Metaspeicher für Ihren Lake konfigurieren.

  • Damit Daten aus Cloud Storage-Entitäten gelesen werden können, muss Dataproc Metastore an den Lake angehängt werden.

  • CSV-Daten werden in Cloud Storage-Entitäten nicht unterstützt.

  • Aktivieren Sie im Dataplex-Projekt den privater Google-Zugriff im Subnetzwerk, das normalerweise auf default festgelegt ist, oder setzen Sie internal_ip_only auf false.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für den Dataproc-Dienst-Agent und den Cloud Data Fusion-Dienst-Agent (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) zu gew��hren, um die Berechtigungen zu erhalten, die Sie zum Verwalten von Rollen benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Möglicherweise können Sie die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Beschränkungen

  • Für Cloud Storage-Assets: Dieses Plug-in unterstützt das Lesen aus CSV-Dateien nicht. Sie unterstützt das Lesen aus den Formaten JSON, Avro, Parquet und ORC.

  • Für Cloud Storage-Assets: Partition Start Date und Partition End Date sind nicht zutreffend.

Plug-in zur Pipeline hinzufügen

  1. Rufen Sie in der Google Cloud Console die Cloud Data Fusion-Seite Instanzen auf.

    Zur Seite „VM-Instanzen“

    Auf dieser Seite können Sie Ihre Instanzen verwalten.

  2. Klicken Sie auf Instanz anzeigen, um die Instanz in der Cloud Data Fusion-UI zu öffnen.

  3. Rufen Sie die Seite Studio auf, maximieren Sie das Menü Quelle und klicken Sie auf Dataplex.

Plug-in konfigurieren

Nachdem Sie der Pipeline dieses Plug-in auf der Seite Studio hinzugefügt haben, klicken Sie auf die Dataplex-Quelle, um die zugehörigen Attribute zu konfigurieren.

Weitere Informationen zu Konfigurationen finden Sie in der Referenz zur Dataplex-Quelle.

Optional: Erste Schritte mit einer Beispielpipeline

Es sind Beispielpipelines verfügbar, darunter eine SAP-Quelle zu Dataplex-Senkenpipeline und eine Dataplex-Quelle für BigQuery-Senkenpipeline.

Wenn Sie eine Beispielpipeline verwenden möchten, öffnen Sie die Instanz in der Cloud Data Fusion-UI, klicken Sie auf Hub > Pipelines und wählen Sie eine der Dataplex-Pipelines aus. Ein Dialogfeld wird geöffnet, in dem Sie die Pipeline erstellen können.

Nächste Schritte