Data Processing

L'analyse de vos données simple et rapide sur Apache Spark

Lorsque vous souhaitez traiter vos données métier, vous disposez d'une certaine quantité d'informations d'une part et d'une question d'autre part, sous la forme de quelques lignes de code. Avec Data Processing, OVHcloud s'occupe de déployer en quelques minutes un cluster Apache Spark dédié pour répondre à votre question.

Démarrer maintenant

Parallélisation des traitements

Apache Spark est le framework de référence pour le traitement massif de données. Il permet d'exploiter de multiples nœuds de calcul, tout en stockant les opérations en mémoire vive. Ainsi, vous choisissez vous-même le niveau de parallélisation souhaité.

Vous codez, nous déployons

Simplifiez-vous la vie. Nous gérons le déploiement du cluster pendant que vous vous concentrez sur vos besoins métier. Une fois votre code Java ou Python généré, celui-ci est directement exécuté sur votre cluster.

Réduction des coûts

Au lieu de conserver en permanence un cluster Apache Spark pour des opérations de calcul occasionnelles, Data Processing permet de créer en quelques minutes un cluster dédié chaque fois que vous en avez besoin. Une fois l'analyse terminée, le cluster est libéré.

Certifications ISO/IEC 27001, 27701 et HDS*

Nos infrastructures et services cloud sont certifiés ISO/IEC 27001, 27017, 27018 et 27701. Notre certification HDS* vous permet d’héberger en toute sécurité des données de santé.

* Disponible prochainement

Cas d’utilisation de notre solution de Data Processing

Reporting de performances

Des millions de lignes de données tabulaires à traiter, des milliers de tweets à analyser, des KPI à calculer… Data Processing vous permet d'agréger des informations massives pour vos rapports stratégiques, utilisés en data science ou ailleurs.

Connaissance de vos clients

Vous souhaitez mieux cerner les usages de votre clientèle européenne ou les centres d'intérêt de vos utilisateurs ? Grâce à la librairie MLib intégrée à Apache Spark, apprenez-en d’avantages sur vos clients : parcours, habitudes, répartition… tout est possible.

Amélioration de l’expérience d'achat

Dans le secteur de l'e-commerce, il est primordial de recommander à vos clients des produits pouvant les intéresser. Il devient ainsi nécessaire d'analyser la totalité des paniers d'achat, afin de détecter les services complémentaires et de les proposer au moment de la visite.

Comment fonctionne la solution de Data Processing ?

Grâce à une optimisation fine du déploiement, OVHcloud est capable de créer et détruire à la volée des clusters Apache Spark utilisés pour traiter d'importants volumes de données. Une fois déployé, Spark va directement parcourir les informations, les charger en mémoire, puis effectuer l'ensemble des calculs en une fois avant de fournir le résultat et libérer les ressources.

1

Initialisation

Avec vos données d'une part et votre code d'autre part, demandez la création d'un cluster dont la taille répond à vos besoins.

2

Soumettez votre job

Apache Spark distribuera la charge à travers le cluster fraîchement déployé.

3

Récupérez le résultat

Une fois les calculs effectués, récupérez simplement le résultat de votre analyse.

Facturation de Data Processing

Voir la liste des prix

Autres produits

Object Storage

Profitez du stockage illimité à la demande, accessible par API S3

AI Deploy

Déployez des modèles et des applications de machine learning en production simplement, créez vos points d’accès API sans effort et réalisez des prédictions efficaces.

Qu’est-ce que le data processing ?

Le data processing, ou traitement de données, désigne le processus d’analyse des données brutes. Ces vastes quantités d’informations s’avèrent en effet capitales pour les entreprises. Une fois traitées, elles permettent une meilleure compréhension des chiffres de ventes, de l’efficacité d’une campagne marketing ou encore d’un risque financier. Cette opération s’articule en plusieurs étapes :

La collecte des données. La quantité d’informations recueillies influence la qualité du résultat. Elles peuvent provenir de différentes sources : fichiers client, inventaires, études antérieures, etc. Pour être utilisables, elles doivent être fiables ; La préparation des informations. Il s’agit d’une phase de « nettoyage » de vos bases de données. Elle vise à éliminer les éléments de mauvaise qualité et/ou les erreurs ; L’importation des données travaillées et le démarrage du traitement. L’automatisation de cette analyse passe par un algorithme de machine learning ; L’interprétation des données. Cette étape vous permet dégager des informations lisibles et exploitables par tous ; Le stockage des données. Celles-ci pourront servir lors de futures études.

Notez que le stockage d’informations est soumis à la réglementation. Par exemple, le RGPD exige une solution sécurisée et conforme pour l’ensemble de vos données.

Comment déployer un cluster Spark ?

Pour mettre en place un data processing efficace dans votre entreprise, vous pouvez déployer un cluster Apache Spark dédié en quelques minutes. Pour cela, rendez-vous simplement dans votre espace client et déployez votre cluster. Vous pourrez ensuite démarrer votre traitement de données.