Data Processing

Uma análise de dados simples e rápida com o Apache Spark

Quando pretende tratar os seus dados profissionais, dispõe de uma certa quantidade de informações, por um lado, e de uma questão, por outro, sob a forma de algumas linhas de código. Com o Data Processing, a OVHcloud encarrega-se de implementar em poucos minutos um cluster Apache Spark dedicado para responder à sua questão.

Iniciar agora

Paralelização dos tratamentos

O Apache Spark é o framework de referência para o tratamento maciço de dados. Permite a exploração de múltiplos nós de cálculo, ao mesmo tempo que armazena as operações em memória viva. Assim, o cliente escolhe ele próprio o nível de paralelização pretendido.

O cliente cria o código, nós implementamo-lo

Simplifique a sua vida. Somos nós que tratamos da implementação do cluster, o que permite que os nossos clientes se concentrem nas suas necessidades profissionais. Uma vez gerado o código Java ou Python, este último é executado diretamente no cluster.

Redução de custos

Em vez de conservar em permanência um cluster Apache Spark para operações de cálculo ocasionais, o Data Processing permite criar em poucos minutos um cluster dedicado sempre que o cliente precisa. Após a conclusão da análise, o cluster é libertado.

Certificações ISO/IEC 27001, 27701 e conformidade para o alojamento de dados de saúde

As nossas infraestruturas e serviços cloud têm a certificação ISO/IEC 27001, 27017, 27018 e 27701. A nossa conformidade permite-lhe alojar dados de saúde com toda a segurança.

Casos de uso da nossa solução de Data Processing

Relatórios de desempenho

Milhões de linhas de dados tabulares a tratar, milhares de tweets a analisar, vários KPI a calcular... O Data Processing permite-lhe agregar volumes maciços de informação para os seus relatórios estratégicos, utilizados, por exemplo, em Data Science.

Conhecimento dos seus clientes

Pretende conhecer as utilizações da sua clientela europeia ou os centros de interesse dos seus utilizadores? Graças à biblioteca MLib integrada no Apache Spark, pode saber mais sobre os seus clientes: percurso, hábitos, distribuição... tudo é possível.

Melhoria da experiência de compra

No setor do e-commerce, é primordial recomendar aos seus clientes todos os produtos que possam interessar-lhes. Para isso, torna-se necessário analisar a totalidade dos carrinhos de compra, para detetar serviços complementares e oferecê-los no momento apropriado.

Como funciona a solução Data Processing?

Graças a uma otimização da implementação, a OVHcloud é capaz de criar e eliminar rapidamente clusters Apache Spark utilizados para tratar grandes volumes de dados. Depois de implementado, o Spark percorre diretamente as informações, carrega-as para a memória e efetua a totalidade dos cálculos de uma só vez, antes de fornecer o resultado e libertar os recursos.

1

Início

Com os seus dados, por um lado, e o seu código, por outro, solicite a criação de um cluster cuja dimensão responda às suas necessidades.

2

Envie o seu job

O Apache Spark distribui a carga pelo cluster recém-implementado.

3

Obtenha o resultado

Depois de os cálculos estarem prontos, é possível obter o resultado da análise.

Faturação do Data Processing

Consultar a lista dos preços

Outros produtos

Object Storage

Usufrua de um armazenamento ilimitado a pedido, acessível via API S3

AI Deploy

Implemente modelos e aplicações de machine learning em produção de forma simples, crie os seus pontos de acesso API sem esforço e realize previsões eficazes.

O que é o data processing?

O data processing, ou tratamento de dados, designa o processo de análise dos dados brutos. Estas grandes quantidades de informação são, de facto, cruciais para as empresas. Uma vez tratadas, permitem uma melhor compreensão dos números de vendas, da eficácia de uma campanha de marketing ou ainda de um risco financeiro. Esta operação articula-se em várias etapas:

Recolha de dados. A quantidade de informações recolhidas influencia a qualidade do resultado. Podem ser provenientes de diferentes fontes: ficheiros de clientes, inventários, estudos anteriores, etc. Para serem utilizáveis, devem ser fiáveis. Preparação das informações. Trata-se de uma fase de "limpeza" das suas bases de dados. Tem por objetivo eliminar os elementos de má qualidade e/ou os erros. Importar os dados trabalhados e iniciar o tratamento. A automatização desta análise passa por um algoritmo de machine learning. Interpretação dos dados. Esta etapa permite-lhe libertar informações legíveis e exploráveis por todos. O armazenamento de dados. Estes poderão ser utilizados em futuros estudos.

Tenha em conta que o armazenamento de informações está sujeito à regulamentação, como por exemplo o RGPD, que exige uma solução segura e conforme para o conjunto dos seus dados.

Como implementar um cluster Spark?

Para implementar um data processing eficaz na sua empresa, pode implementar um cluster Apache Spark dedicado em alguns minutos. Para isso, aceda facilmente à Área de Cliente e implemente o seu cluster. De seguida, poderá iniciar o seu tratamento de dados.