Rastrear a linhagem de dados de uma tabela do BigQuery

A linhagem de dados permite rastrear como os dados se movem pelos sistemas: de onde vêm, de onde são passados e quais transformações são aplicadas a eles.

Saiba como começar a rastrear a linhagem de dados para jobs de cópia e consulta do BigQuery:

  1. Copie duas tabelas de um conjunto de dados new_york_taxi_trips disponível publicamente.

  2. Combinar o número total de corridas de táxi das duas tabelas em uma nova tabela.

  3. Conferir um gráfico de visualização de linhagem para as três operações.

Antes de começar

Configure seu projeto:

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. Ative as APIs Data Catalog, BigQuery, and data lineage.

    Ative as APIs

  5. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  6. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  7. Ative as APIs Data Catalog, BigQuery, and data lineage.

    Ative as APIs

Funções exigidas

Para receber as permissões necessárias para visualizar os gráficos de visualização de linhagem, peça ao administrador para conceder a você os seguintes papéis do IAM:

Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.

Também é possível receber as permissões necessárias com papéis personalizados ou outros papéis predefinidos.

Adicionar um conjunto de dados público ao projeto

  1. No console do Google Cloud, acesse a página do BigQuery.

    Acessar o BigQuery

  2. No painel Explorer, clique em Adicionar.

  3. No painel Adicionar, procure Public datasets e selecione o resultado Conjuntos de dados públicos.

  4. No painel Marketplace, pesquise NYC TLC Trips e clique no resultado NYC TLC Trips.

  5. Clique em Ver conjunto de dados.

Nesta etapa, o conjunto de dados new_york_taxi_trips será adicionado ao seu projeto. O painel de detalhes mostra Informações do conjunto de dados, incluindo informações como ID do conjunto de dados, Local dos dados e Data da Última modificação.

Criar um conjunto de dados no projeto

  1. No painel Explorer, selecione o projeto em que você quer criar o conjunto de dados.

  2. Clique no ícone Ações e em Criar conjunto de dados.

  3. Na página Criar conjunto de dados, no campo ID do conjunto de dados, digite: data_lineage_demo. Não altere os valores padrão dos outros campos.

  4. Clique em Criar conjunto de dados.

  5. No painel Explorer, clique no data_lineage_demo recém-adicionado.

O painel de detalhes mostra as informações do conjunto de dados.

Copiar duas tabelas acessíveis publicamente para seu conjunto de dados

  1. Abra um editor de consultas: no painel de detalhes, ao lado da guia chamada data_lineage_demo, clique em (Criar nova consulta). Esta etapa cria uma guia chamada Untitled.

  2. No editor de consultas, copie a primeira tabela inserindo a consulta a seguir. Substitua PROJECT_ID pelo identificador do projeto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Clique em Executar. Esta etapa cria a primeira tabela, chamada nyc_green_trips_2021.

  4. No painel Resultados da consulta, clique em Ir para a tabela. Esta etapa exibe o conteúdo da primeira tabela.

  5. No editor de consultas, copie a segunda tabela substituindo a consulta anterior pela consulta a seguir. Substitua PROJECT_ID pelo identificador do projeto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Clique em Executar. Esta etapa cria a segunda tabela, chamada nyc_green_trips_2022.

  7. No painel Resultados da consulta, clique em Ir para a tabela. Essa etapa exibe o conteúdo da segunda tabela.

Agregar dados em uma nova tabela

  1. No editor de consultas, insira a consulta a seguir. Substitua PROJECT_ID pelo identificador do projeto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Clique em Executar. Nesta etapa, uma tabela combinada é criada, chamada total_green_trips_22_21.

  3. No painel Resultados da consulta, clique em Ir para a tabela. Esta etapa exibe a tabela combinada.

Conferir o gráfico de linhagem no Dataplex

  1. Abra a página de pesquisa do Dataplex.

    Abrir a pesquisa do Dataplex

  2. Em Escolher plataforma de pesquisa, selecione Data Catalog como o modo de pesquisa.

  3. Na caixa Pesquisa, digite total_green_trips_22_21 e clique em Pesquisar.

  4. Na lista de resultados, clique em total_green_trips_22_21. Esta etapa exibe a guia Detalhes da tabela do BigQuery.

  5. Clique na guia Linhagem.

Captura de tela da tabela total_green_trips_22_21 com o painel de detalhes fixado na parte de baixo.
Figura 1. Linhagem de dados com detalhes do nó

No gráfico de linhagem, cada nó retangular representa uma tabela, seja ela original, copiada ou combinada. Faça o seguinte:

  • Mostre ou oculte a origem de uma tabela clicando em + (Expandir) ou - (Recolher).

  • Mostrar informações da tabela clicando em um nó. Esta etapa exibe um painel Detalhes do nó.

  • Mostre informações do processo clicando em um ícone de processo ícone do processo de linhagem. Esta etapa exibe um painel Detalhes do processo mostrando o job que transformou uma tabela de origem em uma tabela de destino.

Captura de tela da tabela intermediária nyc_green_trips_2021 com o painel de detalhes fixado na parte de baixo.
Figura 2. Linhagem de dados com detalhes do processo

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga as etapas a seguir.

Exclua o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. No Console do Google Cloud, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Excluir o conjunto de dados

  1. Acesse a página do BigQuery.

    Acessar o BigQuery

  2. No painel Explorer, pesquise o conjunto de dados data_lineage_demo que você criou.

  3. Clique com o botão direito do mouse no conjunto de dados e selecione Excluir.

  4. Confirme a ação de exclusão.

A seguir