Processe dados com o Cloud Data Fusion

O Cloud Data Fusion oferece um plug-in de origem do Dataplex para ler dados de entidades (tabelas) do Dataplex que residem do Cloud Storage ou do BigQuery. A fonte do Dataplex permite que você trate os dados nos recursos do Cloud Storage como tabelas e filtros os dados com consultas SQL simples.

Antes de começar

  • Crie uma instância do Cloud Data Fusion, caso ainda não tenha uma. Esse plug-in está disponível em instâncias executadas no Cloud Data Fusion versão 6.6 ou mais recente.

  • Os dados de origem já precisam fazer parte de um Dataplex zone e um asset como um bucket do Cloud Storage ou um conjunto de dados do BigQuery.

  • Para usar tabelas do Cloud Storage, configure um metastore para seu lake.

  • Para que os dados sejam lidos nas entidades do Cloud Storage, O metastore do Dataproc precisa estar anexado ao lake.

  • Os dados CSV em entidades do Cloud Storage não são compatíveis.

  • No projeto do Dataplex, ative o Acesso privado do Google na sub-rede, que geralmente é definida como default, ou internal_ip_only como false

Funções exigidas

Para ter as permissões necessárias para gerenciar papéis, peça ao administrador para conceder a você estes papéis do IAM no agente de serviço do Dataproc e no agente de serviço do Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.

Também é possível conseguir as permissões necessárias com papéis personalizados ou outros papéis predefinidos.

Limitações

  • Para recursos do Cloud Storage: este plug-in não oferece suporte à leitura de CSV. Ele é compatível com leitura nos formatos JSON, Avro, Parquet e ORC.

  • Para recursos do Cloud Storage: Partition Start Date e Partition Data de término não aplicáveis.

Adicionar o plug-in ao pipeline

  1. No console do Google Cloud, acesse a página Instâncias do Cloud Data Fusion.

    Acesse "Instâncias"

    Nesta página, você pode gerenciar suas instâncias.

  2. Clique em Ver instância para abrir sua instância no Cloud Data Fusion de ML pela UI.

  3. Acesse a página do Studio, expanda o menu Origem e clique em Dataplex.

Configurar o plug-in

Depois de adicionar esse plug-in ao pipeline na página do Studio, clique em a fonte do Dataplex para configurar as propriedades dela.

Para mais informações sobre configurações, consulte a Referência de Origem do Dataplex.

Opcional: começar com um pipeline de amostra

Há pipelines de amostra disponíveis, incluindo uma origem do SAP para um pipeline do coletor do Dataplex e uma fonte do Dataplex para pipeline do coletor do BigQuery.

Para usar um pipeline de amostra, abra sua instância na IU do Cloud Data Fusion. Clique em Hub > Pipelines e selecione um Pipelines do Dataplex. Uma caixa de diálogo é aberta para ajudar você a criar o pipeline.

A seguir