Cloud Data Fusion proporciona un complemento de fuente de Dataplex para leer datos de entidades (tablas) de Dataplex que residen en recursos de Cloud Storage o BigQuery. El complemento de fuente de Dataplex te permite tratar los datos en recursos de Cloud Storage como tablas y filtrarlos con consultas en SQL simples.
Antes de comenzar
Crea una instancia de Cloud Data Fusion, si no tienes una. Este complemento está disponible en instancias que se ejecutan en la versión 6.6 o posterior de Cloud Data Fusion.
Los datos de origen ya deben ser parte de una zona de Dataplex y un recurso (ya sea un bucket de Cloud Storage o un conjunto de datos de BigQuery).
Si deseas usar tablas de Cloud Storage, debes configurar un almacén de metadatos para tu lake.
Para que los datos se lean desde las entidades de Cloud Storage, Dataproc Metastore debe conectarse al lake.
No se admiten los datos CSV en las entidades de Cloud Storage.
En el proyecto de Dataplex, habilita el Acceso privado a Google en la subred, que suele establecerse en
default
, o configurainternal_ip_only
comofalse
.
Roles obligatorios
Si deseas obtener los permisos que necesitas para administrar las funciones, pídele a tu administrador que te otorgue los siguientes roles de IAM en el agente de servicio de Dataproc y el agente de servicio de Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
-
Desarrollador de Dataplex (
roles/dataplex.developer
) -
Lector de datos de Dataplex (
roles/dataplex.dataReader
) -
Usuario de metadatos de Dataproc Metastore (
roles/metastore.metadataUser
) -
Agente de servicio de Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Lector de metadatos de Dataplex (
roles/dataplex.metadataReader
)
Si quieres obtener más información para otorgar roles, consulta Administra el acceso.
Es posible que también puedas obtener los permisos necesarios a través de funciones personalizadas o, también, otras funciones predefinidas.
Limitaciones
Para los elementos de Cloud Storage: este complemento no admite la lectura de archivos CSV. Admite la lectura de los formatos JSON, Avro, Parquet y ORC.
En el caso de los recursos de Cloud Storage, no se aplican las siguientes opciones: Fecha de inicio de la partición y Fecha de finalización de la partición.
Agrega el complemento a tu canalización
En la consola de Google Cloud, ve a la página Instancias de Cloud Data Fusion.
Esta página te permite administrar tus instancias.
Haz clic en Ver instancia para abrir tu instancia en la IU de Cloud Data Fusion.
Ve a la página de Studio, expande el menú Fuente y haz clic en Dataplex.
Cómo configurar el complemento
Después de agregar este complemento a tu canalización en la página de Studio, haz clic en la fuente de Dataplex para configurar sus propiedades.
Para obtener más información sobre las opciones de configuración, consulta la referencia de Fuente de Dataplex.
Opcional: Comienza a usar una canalización de muestra
Hay canalizaciones de muestra disponibles, incluida una canalización de fuente SAP a receptor de Dataplex y una canalización de fuente de Dataplex a receptor de BigQuery.
Para usar una canalización de muestra, abre tu instancia en la IU de Cloud Data Fusion, haz clic en Hub > Pipelines y selecciona una de las canalizaciones de Dataplex. Se abrirá un diálogo para ayudarte a crear la canalización.
¿Qué sigue?
- Transfiere datos con Cloud Data Fusion mediante el complemento de receptor de Dataplex.