Diese Seite wurde von der Cloud Translation API übersetzt.

Daten mit Cloud Data Fusion verarbeiten

Cloud Data Fusion bietet ein Dataplex Source-Plug-in zum Lesen von Daten aus Dataplex-Entitäten (Tabellen) in Cloud Storage- oder BigQuery-Assets. Mit dem Dataplex Source-Plug-in können Sie Daten in Cloud Storage-Assets als Tabellen behandeln und die Daten mit einfachen SQL-Abfragen filtern.

Hinweise

Erstellen Sie eine Cloud Data Fusion-Instanz, falls Sie noch keine haben. Dieses Plug-in ist in Instanzen verfügbar, die in Cloud Data Fusion ab Version 6.6 ausgeführt werden.
Die Quelldaten müssen bereits Teil einer Dataplex-Zone und eines Assets sein (entweder einem Cloud Storage-Bucket oder einem BigQuery-Dataset).
Wenn Sie Tabellen aus Cloud Storage verwenden möchten, müssen Sie einen Metaspeicher für Ihren Lake konfigurieren.
Damit Daten aus Cloud Storage-Entitäten gelesen werden können, muss Dataproc Metastore an den Lake angehängt werden.
CSV-Daten werden in Cloud Storage-Entitäten nicht unterstützt.
Aktivieren Sie im Dataplex-Projekt den privater Google-Zugriff im Subnetzwerk, das normalerweise auf default festgelegt ist, oder setzen Sie internal_ip_only auf false.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für den Dataproc-Dienst-Agent und den Cloud Data Fusion-Dienst-Agent (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) zu gew��hren, um die Berechtigungen zu erhalten, die Sie zum Verwalten von Rollen benötigen:

Dataplex-Entwickler (roles/dataplex.developer)
Dataplex-Datenleser (roles/dataplex.dataReader)
Dataproc Metastore-Metadatennutzer (roles/metastore.metadataUser)
Cloud Dataplex-Dienst-Agent (roles/dataplex.serviceAgent)
Dataplex-Metadatenleser (roles/dataplex.metadataReader)

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Möglicherweise können Sie die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Beschränkungen

Für Cloud Storage-Assets: Dieses Plug-in unterstützt das Lesen aus CSV-Dateien nicht. Sie unterstützt das Lesen aus den Formaten JSON, Avro, Parquet und ORC.
Für Cloud Storage-Assets: Partition Start Date und Partition End Date sind nicht zutreffend.

Plug-in zur Pipeline hinzufügen

Rufen Sie in der Google Cloud Console die Cloud Data Fusion-Seite Instanzen auf.

Zur Seite „VM-Instanzen“

Auf dieser Seite können Sie Ihre Instanzen verwalten.
Klicken Sie auf Instanz anzeigen, um die Instanz in der Cloud Data Fusion-UI zu öffnen.
Rufen Sie die Seite Studio auf, maximieren Sie das Menü Quelle und klicken Sie auf Dataplex.

Plug-in konfigurieren

Nachdem Sie der Pipeline dieses Plug-in auf der Seite Studio hinzugefügt haben, klicken Sie auf die Dataplex-Quelle, um die zugehörigen Attribute zu konfigurieren.

Weitere Informationen zu Konfigurationen finden Sie in der Referenz zur Dataplex-Quelle.

Optional: Erste Schritte mit einer Beispielpipeline

Es sind Beispielpipelines verfügbar, darunter eine SAP-Quelle zu Dataplex-Senkenpipeline und eine Dataplex-Quelle für BigQuery-Senkenpipeline.

Wenn Sie eine Beispielpipeline verwenden möchten, öffnen Sie die Instanz in der Cloud Data Fusion-UI, klicken Sie auf Hub > Pipelines und wählen Sie eine der Dataplex-Pipelines aus. Ein Dialogfeld wird geöffnet, in dem Sie die Pipeline erstellen können.

Nächste Schritte

Mit dem Dataplex-Senken-Plug-in Daten mit Cloud Data Fusion aufnehmen.