Data Processing Engine

Data Platform - Data Processing Engine

Service d'ingest et de transformation des données de votre Data Platform, pour automatiser l’exécution et l’orchestration de vos workflows ETL/ELT en production.

Essayer Data Platform en bêta gratuite

Traiter

Exécutez des traitements par batch pour extraire, transformer et charger des données de vos sources vers leurs destinations.

Automatiser

Créez des workflows à l'aide d'une interface low-code et planifiez leur exécution afin d'automatiser vos tâches.

Développer

Codez et exécutez n'importe quel script Python ou PySpark personnalisé et exploitez un SDK complet avec plus de 40 connecteurs.

Itérer

Organisez et versionnez votre code, via des systèmes de versioning natifs ou l'intégration Git.

Créez et personnalisez des tâches de traitement de données

Connectez-vous à n'importe quelle source de données et traitez les données vers n'importe quelle destination. Un riche catalogue de modèles de tâches prédéfinis vous permet de créer des actions pour l'extraction, le chargement, l'agrégation, le nettoyage des données ainsi que la mise à jour des métadonnées. Codez et exécutez n'importe quel script personnalisé en Python ou PySpark pour aborder des cas d'utilisation spécifiques, tout en bénéficiant d'un SDK complet avec plus de 40 connecteurs. Si vous disposez déjà des scripts de traitement de données en Python, importez-les simplement pour les centraliser et les orchestrer dans Data Platform.

Les actions personnalisées vous permettent de gérer des packages et des dépendances, y compris vos propres bibliothèques personnalisées, que vous pouvez réutiliser pour plusieurs projets. Data Processing Engine est fourni avec deux systèmes de contrôle de version pour garantir que les charges de travail critiques de production ne soient jamais affectées. Le contrôle de version de Data Platform vous permet de suivre l'évolutivité de versions simples sur la plateforme, et aux développeurs de se synchroniser avec n'importe quel référentiel Git externe.

Définissez et orchestrez les workflows

Bénéficiez de la fonctionnalité glisser-déposer de l'orchestrateur de Data Processing Engine. Celui-ci vous permet de définir, séquencer et planifier simplement les tâches et la gestion des ressources afin de les faire évoluer de manière appropriée, avec des workers que vous pouvez contrôler si nécessaire. Une interface de création intuitive vous permet de visualiser et d'exécuter votre plan sur le cloud, que vous ayez ou non de solides connaissances techniques ou le savoir-faire pour gérer une infrastructure cloud. Planifiez des déclencheurs pour automatiser l'exécution des tâches, y compris les déclencheurs CRON.

Exécutez et mettez à l’échelle des pipelines de traitement des données sur le cloud

Exécutez des actions uniques ou des workflows entiers sous forme de tâches, en un seul appel API. Data Processing Engine intègre deux moteurs au choix : un moteur Pandas (en Python 3) optimisé pour les tâches de traitement de données plus petites et un moteur Spark (en PySpark) pour les charges de travail intensives en données.

Faites évoluer vos tâches horizontalement et verticalement pour une exécution plus rapide, grâce aux ressources de calcul d’OVHcloud. Profitez de la puissance de la segmentation pour paralléliser les tâches et accélérer le traitement. Utilisez notre option de périmètre pour inclure ou exclure des points de données au-delà d'un périmètre donné.

Surveillez l’exécution et les performances des tâches

Affichez des rapports complets et détaillés sur les tâches terminées, incluant l'utilisation du CPU et de la RAM des workers au fil du temps, ainsi que les logs des tâches complétées. Dépannez vos tâches et optimisez la consommation de ressources en repérant les points de contrôle dans vos flux de travail.

Recevez une notification lorsqu'une tâche est terminée ou a échoué, ainsi que des informations sur sa durée et l'utilisation de la RAM, en intégrant le Control Center de Data Platform et en configurant des alertes sur l'exécution des tâches. Contrôlez les accès de manière précise avec l’outil de gestion des identités et des accès (Identity Access Manager ou IAM) de Data Platform.

Accéder à la documentation Data Platform

Créez vos premiers services data & analytics

Avec notre guide de démarrage rapide Data Platform, découvrez comment connectez des sources, organisez et préparez des données pour ensuite créez des requêtes, visualiser et exposer vos premiers dashboards. Et tout cela en moins d'une heure !

Essayer Data Platform en bêta gratuite

À qui s'adresse cette offre ?

Data engineers

Créez des pipelines pour extraire des données des sources de données de l'entreprise et les agréger dans les tables du data warehouse à tout moment.

MLOps Engineers

Effectuez tout le nettoyage de données et l'ingénierie des fonctionnalités nécessaires pour l’entraînement de modèles de machine learning (ML).

Software Engineers

Déployez du code exigeant en données, tel que des solveurs d'optimisation Python personnalisés, pour calculer des optimisations d'équations.

Tarification simple, transparente et à l’usage

On ne vous facture que pour les ressources que vous utilisez :

stockage haute performance, facturé par Go/mois ;
requêtes vers le Lakehouse facturées par To de données scannées ;
puissance de calcul facturée à l'heure ou au mois.

Tarification tout compris. Faites grandir vos projets de Data & Analytique sans faire exploser vos budgets.

Voir les tarifs de Data Platform

Autres produits

Lakehouse Manager

Beta

Service Data Platform de data lake et de data warehouse serverless, conçu pour organiser et stocker l'ensemble de vos données.

Data Catalog

Beta

Référentiel central de Data Platform pour la gestion de toutes les sources de données : connectez, analysez et ajoutez des règles de planification.

Analytics Manager

Beta

Analyses en libre-service et tableaux de bord Data Platform pour l'exécution de requêtes, la visualisation et le partage de données.