À propos de Vertex AI Feature Store

Vertex AI Feature Store est un service de magasin de caractéristiques cloud natif géré, qui fait partie intégrante de Vertex AI. Il simplifie la gestion de vos caractéristiques de ML et les processus de livraison en ligne en vous permettant de gérer vos données de caractéristiques dans une table ou une vue BigQuery. Vous pouvez ensuite diffuser des caractéristiques en ligne directement à partir de la source de données BigQuery.

Vertex AI Feature Store provisionne des ressources qui vous permettent de configurer la diffusion en ligne en spécifiant vos sources de données de caractéristiques. Il sert ensuite de couche de métadonnées reliant les sources de données BigQuery et diffuse les dernières valeurs de caractéristiques directement depuis BigQuery pour les prédictions en ligne à faible latence.

Dans Vertex AI Feature Store, les tables ou vues BigQuery contenant les données de caractéristiques forment collectivement le magasin hors connexion. Vous pouvez conserver les valeurs de caractéristiques, y compris les données d'historique des caractéristiques, dans le magasin hors connexion. Étant donné que toutes les données de caractéristiques sont gérées dans BigQuery, Vertex AI Feature Store n'a pas besoin de provisionner un magasin hors connexion distinct dans Vertex AI. De plus, si vous souhaitez utiliser les données du magasin hors connexion pour entraîner des modèles de ML, vous pouvez utiliser les API et les fonctionnalités de BigQuery pour exporter ou récupérer les données.

Le workflow permettant de configurer et de démarrer la diffusion en ligne à l'aide de Vertex AI Feature Store peut être résumé comme suit :

  1. Préparer votre source de données dans BigQuery

  2. Facultatif : Enregistrez vos sources de données en créant des groupes de caractéristiques et des caractéristiques.

  3. Configurer les ressources du magasin en ligne et de la vue des caractéristiques pour connecter les sources de données des caractéristiques aux clusters de livraison en ligne.

  4. Diffusez les dernières valeurs de caractéristiques en ligne à partir d'une vue des caractéristiques.

Ressources et modèle données de Vertex AI Feature Store

Cette section explique les modèles de données et les ressources associés aux aspects suivants de Vertex AI Feature Store :

Préparer la source de données dans BigQuery

Lors de la livraison en ligne, Vertex AI Feature Store utilise les données de caractéristiques provenant de sources de données BigQuery. Avant de configurer le registre de caractéristiques ou des ressources de diffusion en ligne, vous devez stocker vos données de caractéristiques dans une ou plusieurs tables ou vues BigQuery.

Dans une table ou une vue BigQuery, chaque colonne représente une caractéristique. Chaque ligne contient les valeurs de caractéristiques correspondant à un ID unique. Pour en savoir plus sur la préparation des données de caractéristiques dans BigQuery, consultez la page Préparer une source de données.

Par exemple, dans la figure 1, la table BigQuery inclut les colonnes suivantes :

  • f1 et f2 : colonnes de caractéristiques.

  • entity_id : une colonne "ID" contenant les ID uniques pour identifier chaque enregistrement de caractéristique.

  • feature_timestamp : une colonne d'horodatage.

Vue de la caractéristique contenant les caractéristiques f1 et f2 dans un format de série temporelle
Figure 1. Exemple de source de données BigQuery

Étant donné que vous préparez la source de données dans BigQuery et non dans Vertex AI, vous n'avez pas besoin de créer de ressources Vertex AI à ce stade.

Configuration du registre de caractéristiques

Une fois que vous avez préparé vos sources de données dans BigQuery, vous pouvez les enregistrer, y compris des colonnes de caractéristiques spécifiques, dans le registre de caractéristiques.

L'enregistrement de vos caractéristiques est facultatif. Vous pouvez diffuser des caractéristiques en ligne même si vous n'ajoutez pas vos sources de données BigQuery au registre de caractéristiques. Toutefois, l'enregistrement de vos caractéristiques est avantageux dans les cas suivants :

  • Vos données peuvent contenir plusieurs instances du même ID d'entité. Vous devez donc préparer vos données dans un format de série temporelle avec une colonne d'horodatage. Lorsque vous enregistrez vos caractéristiques, Vertex AI Feature Store recherche l'horodatage et ne diffuse que les dernières valeurs des caractéristiques.

  • Vous souhaitez enregistrer des colonnes de caractéristiques spécifiques à partir d'une source de données.

  • Vous souhaitez agréger des colonnes spécifiques de plusieurs sources de données pour définir une instance de vue de caractéristiques.

Ressources d'un registre de caractéristiques

Pour enregistrer vos données de caractéristiques dans le registre de caractéristiques, vous devez créer les ressources Vertex AI Feature Store suivantes :

  • Groupe de caractéristiques (FeatureGroup) : Une ressource FeatureGroup est associée à une table ou à une vue source BigQuery spécifique. Il s'agit d'un regroupement logique de colonnes de caractéristiques, représentées par des ressources Feature. Pour en savoir plus sur la création d'un groupe de caractéristiques, consultez la page Créer un groupe de caractéristiques.

  • Caractéristique (Feature): Une ressource Feature représente une colonne spécifique contenant des valeurs de caractéristiques à partir de source de données de la caractéristique associée à sa ressource FeatureGroup parente. Pour en savoir plus sur la création de caractéristiques dans un groupe de caractéristiques, consultez la page Créer une caractéristique.

Par exemple, la figure 2 illustre un groupe de caractéristiques incluant des colonnes de caractéristiques f1 et f2, provenant d'une table BigQuery associée au groupe de caractéristiques. La source de données BigQuery contient quatre colonnes de caractéristiques. Deux colonnes sont agrégées pour former le groupe de caractéristiques.

Un groupe de caractéristiques contenant les caractéristiques f1 et f2 au format de série temporelle
Figure 2. Exemple de FeatureGroup contenant deux colonnes Feature provenant d'une source de données BigQuery.

Configuration de la diffusion en ligne

Pour livrer des caractéristiques pour les prédictions en ligne, vous devez définir et configurer au moins un cluster de livraison en ligne, et l'associer à votre source de données de caractéristiques ou à vos ressources de registre de caractéristiques. Dans Vertex AI Feature Store, le cluster de livraison en ligne est appelé instance magasin en ligne. Une instance de magasin en ligne peut contenir plusieurs instances de vue de caractéristiques, chaque vue de caractéristiques étant associée à une source de données de caractéristiques.

Ressources de diffusion en ligne

Pour configurer la diffusion en ligne, vous devez créer les ressources Vertex AI Feature Store suivantes :

  • Magasin en ligne (FeatureOnlineStore) : Une ressource FeatureOnlineStore représente une instance de cluster de diffusion en ligne et contient la configuration de diffusion en ligne, telle que le nombre de nœuds de diffusion en ligne. Une instance de magasin en ligne ne spécifie pas la source des données de caractéristique, mais contient des ressources FeatureView qui spécifient les sources de données de la caractéristique dans BigQuery ou dans le registre de caractéristiques. Pour savoir comment créer une instance de magasin en ligne, consultez la page Créer une instance de magasin en ligne.

  • Vue des caractéristiques (FeatureView) : Une ressource FeatureView est un ensemble logique de caractéristiques dans une instance de magasin en ligne. Lorsque vous créez une vue de caractéristiques, vous pouvez spécifier l'emplacement de la source de données de caractéristiques de l'une des manières suivantes :

    • Associez un ou plusieurs groupes de caractéristiques et caractéristiques à partir du registre de caractéristiques. Un groupe de caractéristiques spécifie l'emplacement de la source de données BigQuery. Une caractéristique du groupe de caractéristiques pointe vers une colonne de caractéristiques spécifique dans cette source de données.

    • Vous pouvez également associer une table ou une vue source BigQuery.

    Pour en savoir plus sur la création d'instances de vue de caractéristiques dans un magasin en ligne, consultez la section Créer une vue de caractéristiques.

Par exemple, la figure 3 illustre une vue de caractéristiques composée de colonnes de caractéristiques f2 et f4, qui proviennent de deux groupes de caractéristiques distincts associés à une table BigQuery.

Vue des caractéristiques contenant les caractéristiques f2 et f4 provenant de deux groupes de caractéristiques.
Figure 3. Exemple de FeatureView contenant des caractéristiques de deux groupes de caractéristiques distincts.

Publication en ligne

Vertex AI Feature Store fournit les types de livraison en ligne suivants pour les prédictions en ligne en temps réel :

  • L'inférence en ligne Bigtable est utile pour diffuser des volumes de données importants (téraoctets de données). Elle est semblable à la diffusion en ligne dans Vertex AI Feature Store (ancien) et fournit une mise en cache améliorée pour limiter le hotspotting. La diffusion en ligne Bigtable n'est pas compatible avec les représentations vectorielles continues.

  • La diffusion en ligne optimisée vous permet de diffuser des caractéristiques en ligne avec des latences très faibles. Notez que bien que les latences d'inférence en ligne dépendent de la charge de travail, l'inférence en ligne optimisée peut fournir des latences inférieures à celles de l'inférence en ligne Bigtable. Elle est recommandée pour la plupart des scénarios. La diffusion en ligne optimisée est également compatible avec la gestion des représentations vectorielles continues. Toutefois, si vous devez diffuser de grands volumes de données fréquemment mis à jour et que vous n'avez pas besoin de diffuser des embeddings, utilisez l'inférence en ligne Bigtable.

    Pour utiliser la diffusion en ligne optimisée, vous devez configurer un point de terminaison public ou un point de terminaison Private Service Connect dédié.

Pour apprendre à configurer la livraison en ligne dans Vertex AI Feature Store après avoir configuré des caractéristiques, consultez la page Types de livraison en ligne.

Diffusion hors connexion pour les prédictions par lot ou l'entraînement de modèles

Comme vous n'avez pas besoin de copier ou d'importer vos données de caractéristiques depuis BigQuery vers un magasin hors connexion distinct dans Vertex AI, vous pouvez utiliser les fonctionnalités de gestion et d'exportation des données de BigQuery pour effectuer les opérations suivantes :

Pour en savoir plus sur le machine learning avec BigQuery, consultez la page Présentation de BigQuery ML.

Conditions d'utilisation de Vertex AI Feature Store

Ingénierie des caractéristiques
  • L'ingénierie des caractéristiques est le processus de transformation de données de machine learning (ML) brutes en caractéristiques pouvant être utilisées pour entraîner des modèles de ML ou effectuer des prédictions.

fonctionnalité
  • En machine learning (ML), une caractéristique est une caractéristique ou un attribut d'une instance ou d'une entité utilisée comme entrée pour entraîner un modèle de ML ou pour effectuer des prédictions.

Valeur de la caractéristique
  • Une valeur de caractéristique correspond à la valeur réelle et mesurable d'une caractéristique (attribut) d'une instance ou d'une entité. Une collection de valeurs de caractéristiques pour l'entité unique représente l'enregistrement de caractéristiques correspondant à l'entité.

horodatage de la caractéristique
  • Un horodatage de caractéristique indique quand l'ensemble de valeurs de caractéristiques d'un enregistrement de caractéristiques pour une entité a été généré.

enregistrement de caractéristiques
  • Un enregistrement de caractéristiques est une agrégation de toutes les valeurs de caractéristiques qui décrivent les attributs d'une entité unique à un moment donné.

Termes liés au registre de caractéristiques

Registre de caractéristiques
  • Un registre de caractéristiques est une interface centrale pour l'enregistrement des sources de données de caractéristique que vous souhaitez diffuser pour les prédictions en ligne. Pour en savoir plus, consultez la page Configurer le registre de caractéristiques.

groupe de caractéristiques
  • Un groupe de caractéristiques est une ressource de registre de caractéristiques qui correspond à une table ou à une vue source BigQuery contenant des données de caractéristiques. Une vue de caractéristiques peut contenir des caractéristiques et peut être considérée comme un regroupement logique de colonnes de caractéristiques dans la source de données.

publication de caractéristiques
  • La publication de caractéristiques consiste à exporter ou récupérer des valeurs de caractéristiques pour l'entraînement ou l'inférence. Dans Vertex AI, il existe deux types de publication de caractéristiques : la diffusion en ligne et la diffusion hors connexion. La diffusion en ligne récupère les dernières valeurs de caractéristiques d'un sous-ensemble de la source de données de caractéristiques pour les prédictions en ligne. La diffusion hors connexion ou par lot exporte d'importants volumes de données de caractéristiques pour le traitement hors connexion, comme l'entraînement de modèles de ML.

Magasin hors connexion
  • Le magasin hors connexion est une installation de stockage qui stocke des données de caractéristiques récentes et historiques, généralement utilisées pour l'entraînement des modèles de ML. Un magasin hors connexion contient également les dernières valeurs de caractéristiques, que vous pouvez diffuser pour les prédictions en ligne.

Magasin en ligne
  • Dans la gestion des caractéristiques, un magasin en ligne est une installation de stockage permettant de diffuser les dernières valeurs de caractéristiques pour les prédictions en ligne.

Vue des caractéristiques
  • Une vue de caractéristiques est une collection logique de caractéristiques matérialisées depuis une source de données BigQuery vers une instance de magasin en ligne. Une vue de caractéristiques stocke et actualise régulièrement les données des caractéristiques du client, qui sont actualisées périodiquement à partir de la source BigQuery. Une vue de caractéristique est associée au stockage de données de caractéristiques, directement ou via des associations aux ressources de registre de caractéristiques.

Contraintes de localisation

Toutes les ressources de Vertex AI Feature Store doivent être situées dans la même région ou dans le même emplacement multirégional que votre source de données BigQuery. Par exemple, si la source de données de la caractéristique se trouve dans us-central1, vous ne devez créer votre instance FeatureOnlineStore que dans la région us-central1 ou dans l'emplacement multirégional US.

Métadonnées de caractéristiques

Vertex AI Feature Store est intégré à Dataplex pour fournir des fonctionnalités de gouvernance des caractéristiques, y compris les métadonnées de caractéristiques. Les instances de magasin en ligne, les vues de caractéristiques et les groupes de caractéristiques sont automatiquement enregistrés en tant qu'éléments de données dans Data Catalog, une fonctionnalité Dataplex qui catalogue les métadonnées de ces ressources. Vous pouvez ensuite utiliser la fonctionnalité de recherche de métadonnées de Dataplex pour rechercher, afficher et gérer les métadonnées de ces ressources. Pour en savoir plus sur la recherche de ressources Vertex AI Feature Store dans Dataplex, consultez la section Rechercher des métadonnées de ressources dans Data Catalog.

Étiquettes de caractéristiques

Vous pouvez ajouter des étiquettes aux ressources pendant ou après leur création. Pour en savoir plus sur l'ajout de libellés aux ressources Vertex AI Feature Store existantes, consultez la section Mettre à jour des libellés.

Métadonnées de version des ressources

Vertex AI Feature Store n'est compatible qu'avec la version 0 pour les caractéristiques.

Gestion de l'embedding et récupération de vecteurs

La diffusion en ligne optimisée dans Vertex AI Feature Store est compatible avec la gestion des représentations vectorielles continues. Vous pouvez stocker des représentations vectorielles continues dans BigQuery sous la forme de tableaux double standards. À l'aide des fonctionnalités de gestion des représentations vectorielles continues de Vertex AI Feature Store, vous pouvez effectuer des recherches de similarités vectorielles pour récupérer les entités voisines approximatives les plus proches d'une entité ou d'une valeur de représentation spécifiée.

Pour utiliser la gestion des représentations vectorielles continues dans Vertex AI Feature Store, vous devez effectuer les opérations suivantes :

Pour en savoir plus sur la recherche de similarité vectorielle dans Vertex AI Feature Store, consultez la page Effectuer une recherche vectorielle des entités.

Conservation des données

Vertex AI Feature Store conserve les dernières valeurs de caractéristiques pour un ID unique, en fonction de l'horodatage associé aux valeurs de caractéristiques dans la source de données. Il n'y a pas de limite à la conservation des données dans la boutique en ligne.

Étant donné que le magasin hors connexion est provisionné par BigQuery, les limites de conservation des données ou les quotas de BigQuery peuvent s'appliquer à la source de données de caractéristique, y compris les valeurs de caractéristiques historiques. En savoir plus sur les quotas et les limites dans BigQuery

Quotas et limites

Vertex AI Feature Store applique des quotas et des limites pour vous aider à gérer les ressources en définissant des limites d'utilisation et pour protéger la communauté des utilisateurs de Google Cloud en empêchant les pics d'utilisation imprévus. Pour utiliser efficacement les ressources Vertex AI Feature Store sans atteindre ces contraintes, consultez les quotas et limites de Vertex AI Feature Store.

Tarifs

Pour en savoir plus sur la tarification de l'utilisation des ressources pour Vertex AI Feature Store, consultez la page Tarifs de Vertex AI Feature Store.

Tutoriels sur les notebooks

Publication des caractéristiques en ligne et récupération des données BigQuery avec Vertex AI Feature Store

Publication des caractéristiques en ligne et récupération des données BigQuery avec Vertex AI Feature Store

Dans ce notebook, vous allez apprendre à utiliser Vertex AI Feature Store pour la diffusion et la récupération en ligne de valeurs de caractéristiques dans BigQuery.

Exécuter dans Colab Afficher sur GitHub

Publication des caractéristiques en ligne et récupération vectorielle des données BigQuery avec Vertex AI Feature Store

Publication des caractéristiques en ligne et récupération vectorielle des données BigQuery avec Vertex AI Feature Store

Dans ce notebook, vous allez apprendre à utiliser Vertex AI Feature Store pour la diffusion en ligne et la récupération vectorielle de valeurs de caractéristiques dans BigQuery.

Exécuter dans Colab Afficher sur GitHub

Diffusion et récupération de caractéristiques en ligne sur des données BigQuery avec la diffusion optimisée de Vertex AI Feature Store

Livraison et récupération de caractéristiques en ligne sur des données BigQuery avec la livraison optimisée de Vertex AI Feature Store

Dans ce notebook, vous allez apprendre à utiliser la diffusion en ligne optimisée dans Vertex AI Feature Store afin de diffuser et récupérer des valeurs de caractéristiques à partir de BigQuery.

Exécuter dans Colab Afficher sur GitHub

Étapes suivantes