Rastrear a linhagem de dados de uma tabela do BigQuery
A linhagem de dados permite rastrear como os dados se movem pelos sistemas: de onde vêm, de onde são passados e quais transformações são aplicadas a eles.
Saiba como começar a rastrear a linhagem de dados para jobs de cópia e consulta do BigQuery:
Copie duas tabelas de um conjunto de dados
new_york_taxi_trips
disponível publicamente.Combinar o número total de corridas de táxi das duas tabelas em uma nova tabela.
Conferir um gráfico de visualização de linhagem para as três operações.
Antes de começar
Configure seu projeto:
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs Data Catalog, BigQuery, and data lineage.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs Data Catalog, BigQuery, and data lineage.
Funções exigidas
Para receber as permissões necessárias para visualizar os gráficos de visualização de linhagem, peça ao administrador para conceder a você os seguintes papéis do IAM:
-
Visualizador do Data Catalog (
roles/datacatalog.viewer
) no projeto de recursos do Data Catalog -
Visualizador de linhagem de dados (
roles/datalineage.viewer
) no projeto em que você usa o BigQuery -
Visualizador de dados do BigQuery (
roles/bigquery.dataViewer
) no projeto em que você usa o BigQuery
Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.
Também é possível receber as permissões necessárias com papéis personalizados ou outros papéis predefinidos.
Adicionar um conjunto de dados público ao projeto
No console do Google Cloud, acesse a página do BigQuery.
No painel Explorer, clique em Adicionar.
No painel Adicionar, procure
Public datasets
e selecione o resultado Conjuntos de dados públicos.No painel Marketplace, pesquise
NYC TLC Trips
e clique no resultado NYC TLC Trips.Clique em Ver conjunto de dados.
Nesta etapa, o conjunto de dados new_york_taxi_trips será adicionado ao seu projeto. O painel de detalhes mostra Informações do conjunto de dados, incluindo informações como ID do conjunto de dados, Local dos dados e Data da Última modificação.
Criar um conjunto de dados no projeto
No painel Explorer, selecione o projeto em que você quer criar o conjunto de dados.
Clique no ícone
Ações e em Criar conjunto de dados.Na página Criar conjunto de dados, no campo ID do conjunto de dados, digite:
data_lineage_demo
. Não altere os valores padrão dos outros campos.Clique em Criar conjunto de dados.
No painel Explorer, clique no
data_lineage_demo
recém-adicionado.
O painel de detalhes mostra as informações do conjunto de dados.
Copiar duas tabelas acessíveis publicamente para seu conjunto de dados
Abra um editor de consultas: no painel de detalhes, ao lado da guia chamada
data_lineage_demo
, clique em (Criar nova consulta). Esta etapa cria uma guia chamadaUntitled
.No editor de consultas, copie a primeira tabela inserindo a consulta a seguir. Substitua
PROJECT_ID
pelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
Clique em
Executar. Esta etapa cria a primeira tabela, chamadanyc_green_trips_2021
.No painel Resultados da consulta, clique em Ir para a tabela. Esta etapa exibe o conteúdo da primeira tabela.
No editor de consultas, copie a segunda tabela substituindo a consulta anterior pela consulta a seguir. Substitua
PROJECT_ID
pelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
Clique em
Executar. Esta etapa cria a segunda tabela, chamadanyc_green_trips_2022
.No painel Resultados da consulta, clique em Ir para a tabela. Essa etapa exibe o conteúdo da segunda tabela.
Agregar dados em uma nova tabela
No editor de consultas, insira a consulta a seguir. Substitua
PROJECT_ID
pelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_id
Clique em
Executar. Nesta etapa, uma tabela combinada é criada, chamadatotal_green_trips_22_21
.No painel Resultados da consulta, clique em Ir para a tabela. Esta etapa exibe a tabela combinada.
Conferir o gráfico de linhagem no Dataplex
Abra a página de pesquisa do Dataplex.
Em Escolher plataforma de pesquisa, selecione Data Catalog como o modo de pesquisa.
Na caixa Pesquisa, digite
total_green_trips_22_21
e clique em Pesquisar.Na lista de resultados, clique em
total_green_trips_22_21
. Esta etapa exibe a guia Detalhes da tabela do BigQuery.Clique na guia Linhagem.
![Captura de tela da tabela total_green_trips_22_21 com o painel de detalhes fixado na parte de baixo.](https://cdn.statically.io/img/cloud.google.com/static/data-catalog/images/lineage_total_end_screen.png?hl=pt-br)
No gráfico de linhagem, cada nó retangular representa uma tabela, seja ela original, copiada ou combinada. Faça o seguinte:
Mostre ou oculte a origem de uma tabela clicando em + (Expandir) ou - (Recolher).
Mostrar informações da tabela clicando em um nó. Esta etapa exibe um painel Detalhes do nó.
Mostre informações do processo clicando em um ícone de processo
. Esta etapa exibe um painel Detalhes do processo mostrando o job que transformou uma tabela de origem em uma tabela de destino.
![Captura de tela da tabela intermediária nyc_green_trips_2021 com o painel de detalhes fixado na parte de baixo.](https://cdn.statically.io/img/cloud.google.com/static/data-catalog/images/lineage_intermediary_table_screen.png?hl=pt-br)
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga as etapas a seguir.
Exclua o projeto
O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.
Para excluir o projeto:
- No Console do Google Cloud, acesse a página Gerenciar recursos.
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
- Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.
Excluir o conjunto de dados
Acesse a página do BigQuery.
No painel Explorer, pesquise o conjunto de dados
data_lineage_demo
que você criou.Clique com o botão direito do mouse no conjunto de dados e selecione Excluir.
Confirme a ação de exclusão.
A seguir
- Saiba mais sobre o Dataplex e a linhagem de dados.
- Saiba como executar consultas do BigQuery.
- Saiba como usar a linhagem de dados e acessar gráficos de linhagem de dados.
- Saiba mais sobre preços e billing do Dataplex.