Cloud Data Fusion bietet ein Dataplex Source-Plug-in zum Lesen von Daten aus Dataplex-Entitäten (Tabellen) in Cloud Storage- oder BigQuery-Assets. Mit dem Dataplex Source-Plug-in können Sie Daten in Cloud Storage-Assets als Tabellen behandeln und die Daten mit einfachen SQL-Abfragen filtern.
Hinweise
Erstellen Sie eine Cloud Data Fusion-Instanz, falls Sie noch keine haben. Dieses Plug-in ist in Instanzen verfügbar, die in Cloud Data Fusion ab Version 6.6 ausgeführt werden.
Die Quelldaten müssen bereits Teil einer Dataplex-Zone und eines Assets sein (entweder einem Cloud Storage-Bucket oder einem BigQuery-Dataset).
Wenn Sie Tabellen aus Cloud Storage verwenden möchten, müssen Sie einen Metaspeicher für Ihren Lake konfigurieren.
Damit Daten aus Cloud Storage-Entitäten gelesen werden können, muss Dataproc Metastore an den Lake angehängt werden.
CSV-Daten werden in Cloud Storage-Entitäten nicht unterstützt.
Aktivieren Sie im Dataplex-Projekt den privater Google-Zugriff im Subnetzwerk, das normalerweise auf
default
festgelegt ist, oder setzen Sieinternal_ip_only
auffalse
.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für den Dataproc-Dienst-Agent und den Cloud Data Fusion-Dienst-Agent (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) zu gew��hren, um die Berechtigungen zu erhalten, die Sie zum Verwalten von Rollen benötigen:
-
Dataplex-Entwickler (
roles/dataplex.developer
) -
Dataplex-Datenleser (
roles/dataplex.dataReader
) -
Dataproc Metastore-Metadatennutzer (
roles/metastore.metadataUser
) -
Cloud Dataplex-Dienst-Agent (
roles/dataplex.serviceAgent
) -
Dataplex-Metadatenleser (
roles/dataplex.metadataReader
)
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.
Möglicherweise können Sie die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Beschränkungen
Für Cloud Storage-Assets: Dieses Plug-in unterstützt das Lesen aus CSV-Dateien nicht. Sie unterstützt das Lesen aus den Formaten JSON, Avro, Parquet und ORC.
Für Cloud Storage-Assets: Partition Start Date und Partition End Date sind nicht zutreffend.
Plug-in zur Pipeline hinzufügen
Rufen Sie in der Google Cloud Console die Cloud Data Fusion-Seite Instanzen auf.
Auf dieser Seite können Sie Ihre Instanzen verwalten.
Klicken Sie auf Instanz anzeigen, um die Instanz in der Cloud Data Fusion-UI zu öffnen.
Rufen Sie die Seite Studio auf, maximieren Sie das Menü Quelle und klicken Sie auf Dataplex.
Plug-in konfigurieren
Nachdem Sie der Pipeline dieses Plug-in auf der Seite Studio hinzugefügt haben, klicken Sie auf die Dataplex-Quelle, um die zugehörigen Attribute zu konfigurieren.
Weitere Informationen zu Konfigurationen finden Sie in der Referenz zur Dataplex-Quelle.
Optional: Erste Schritte mit einer Beispielpipeline
Es sind Beispielpipelines verfügbar, darunter eine SAP-Quelle zu Dataplex-Senkenpipeline und eine Dataplex-Quelle für BigQuery-Senkenpipeline.
Wenn Sie eine Beispielpipeline verwenden möchten, öffnen Sie die Instanz in der Cloud Data Fusion-UI, klicken Sie auf Hub > Pipelines und wählen Sie eine der Dataplex-Pipelines aus. Ein Dialogfeld wird geöffnet, in dem Sie die Pipeline erstellen können.
Nächste Schritte
- Mit dem Dataplex-Senken-Plug-in Daten mit Cloud Data Fusion aufnehmen.