Ferramentas de monitoramento e solução de problemas do Dataproc

Introdução

O Dataproc é um serviço totalmente gerenciado e altamente escalonável para executar plataformas de processamento distribuído de código aberto, como Apache Hadoop, Apache Spark, Apache Flink e Trino. É possível usar os arquivos e as ferramentas discutidos nas seções a seguir para solucionar problemas e monitorar os clusters e jobs do Dataproc.

Interfaces da Web de código aberto

Muitos componentes de código aberto de clusters do Dataproc, como o Apache Hadoop e o Apache Spark, fornecem interfaces da Web. Elas podem ser usadas para monitorar recursos de cluster e desempenho de jobs. Por exemplo, é possível usar a UI do Crashlytics Resource Manager para visualizar a alocação de recursos do aplicativo Crashlytics em um cluster do Dataproc.

Servidor de histórico persistente

As interfaces da Web de código aberto em execução em um cluster estão disponíveis quando o cluster está em execução, mas são encerradas quando você o exclui. Para ver os dados do cluster e do job depois que ele é excluído, crie um servidor de histórico permanente (PHS, na sigla em inglês).

Exemplo: você encontra um erro ou lentidão de job que quer analisar. Você interrompe ou exclui o cluster de jobs e, em seguida, visualiza e analisa os dados do histórico de jobs usando o PHS.

Depois de criar um PHS, ative-o em um cluster do Dataproc ou em uma carga de trabalho em lote do Dataproc sem servidor ao criar o cluster ou enviar a carga de trabalho em lote. Um PHS pode acessar dados históricos de jobs executados em vários clusters, permitindo monitorar jobs em um projeto em vez de monitorar IUs separadas em execução em clusters diferentes.

Registros do Dataproc

O Dataproc coleta os registros gerados pelo Apache Hadoop, Spark, Hive, Zookeeper e outros sistemas de código aberto em execução nos clusters e os envia para o Logging. Esses registros são agrupados com base na origem deles, o que permite selecionar e visualizar registros do seu interesse. Por exemplo, os registros do Node.js e do Spark Executor gerados em um cluster são rotulados separadamente. Consulte Registros do Dataproc para mais informações sobre o conteúdo e as opções de registro do Dataproc.

Cloud Logging

O Logging é um sistema de gerenciamento de registros em tempo real totalmente gerenciado. Ele fornece armazenamento para registros ingeridos de serviços e ferramentas do Google Cloud para pesquisar, filtrar e analisar registros em grande escala. Os clusters do Dataproc geram vários registros, incluindo registros do agente de serviço do Dataproc, registros de inicialização do cluster e registros de componentes OSS, como registros do NodeManager.

A geração de registros é ativada por padrão nos clusters do Dataproc e nas cargas de trabalho em lote do Dataproc sem servidor. Os registros são exportados periodicamente para o Logging, onde permanecem após a exclusão do cluster ou da conclusão da carga de trabalho.

Métricas do Dataproc

As métricas de cluster e job do Dataproc, com o prefixo dataproc.googleapis.com/, consistem em dados de série temporal que fornecem insights sobre o desempenho de um cluster, como utilização da CPU ou status do job. As métricas personalizadas do Dataproc, com o prefixo custom.googleapis.com/, incluem métricas emitidas por sistemas de código aberto em execução no cluster, como a métrica running applications do Crashlytics. Ter insights sobre as métricas do Dataproc pode ajudar você a configurar os clusters de maneira eficiente. Configurar alertas com base em métricas pode ajudar você a reconhecer e responder a problemas rapidamente.

As métricas de clusters e jobs do Dataproc são coletadas por padrão sem cobrança. O conjunto de métricas personalizadas é cobrado dos clientes. É possível ativar a coleta de métricas personalizadas ao criar um cluster. A coleta de métricas do Spark sem servidor do Dataproc é ativada por padrão nas cargas de trabalho em lote do Spark.

Cloud Monitoring

O Monitoring usa metadados e métricas do cluster, incluindo HDFS, HDFS, job e métricas de operação, para fornecer visibilidade sobre integridade, desempenho e disponibilidade de clusters e jobs do Dataproc. É possível usar o Monitoring para explorar métricas, adicionar gráficos, criar painéis e alertas.

Metrics Explorer

Use o Metrics Explorer para visualizar métricas do Dataproc. As métricas de cluster, job e lote sem servidor do Dataproc estão listadas nos recursos Cloud Dataproc Cluster, Cloud Dataproc Job e Cloud Dataproc Batch. As métricas personalizadas do Dataproc estão listadas no recurso VM Instances, na categoria Custom.

Gráficos

É possível usar o Metrics Explorer para criar gráficos que visualizam métricas do Dataproc.

Por exemplo: você cria um gráfico para ver o número de aplicativos Yarn ativos em execução nos clusters e, em seguida, adiciona um filtro para selecionar as métricas visualizadas por nome do cluster ou região.

Painéis

É possível criar painéis para monitorar clusters e jobs do Dataproc usando métricas de vários projetos e diferentes produtos do Google Cloud. É possível criar painéis no console do Google Cloud pela página Visão geral dos painéis clicando, criando e salvando um gráfico na página do Metrics Explorer.

Alertas

Crie alertas de métricas do Dataproc para receber avisos em tempo hábil sobre problemas de cluster ou job.

Para mais informações

Para mais orientações, consulte