Visão geral das APIs de embeddings

Os embeddings são representações numéricas de textos, imagens ou vídeos que capturam as relações entre as entradas. Os modelos de machine learning, especialmente os de IA generativa, são adequados para criar embeddings identificando padrões em grandes conjuntos de dados. Os aplicativos podem usar embeddings para processar e produzir linguagem, reconhecendo significados complexos e relações semânticas específicas do seu conteúdo. Você interage com embeddings sempre que faz uma pesquisa no Google ou recebe recomendações de streaming de música.

Os embeddings funcionam convertendo texto, imagem e vídeo em matrizes de elementos flutuantes números de ponto, chamados vetores. Esses vetores são projetados para capturar o significado de textos, imagens e vídeos. O comprimento da matriz de embedding é chamado de dimensionalidade do vetor. Por exemplo, uma passagem de texto pode ser representada por um vetor com centenas de dimensões. Em seguida, ao calcular a distância numérica entre as representações vetoriais de duas partes de texto, um aplicativo pode determinar a semelhança entre os objetos.

A Vertex AI é compatível com dois tipos de modelos de embeddings: de texto e multimodal.

Casos de uso de embeddings de texto

Alguns casos de uso comuns para incorporações de texto incluem:

  • Pesquisa semântica: texto de pesquisa classificado por semelhança semântica.
  • Classificação: retorna a classe de itens com atributos de texto semelhantes ao texto fornecido.
  • Clustering: itens de cluster com atributos de texto semelhantes ao texto fornecido.
  • Detecção de outlier: retorna itens em que os atributos de texto estão menos relacionados ao texto fornecido.
  • Interface de conversa: agrupa grupos de frases que podem levar a respostas semelhantes, como em um espaço de incorporação no nível da conversa.

Exemplo de caso de uso: desenvolver um chatbot de recomendação de livros

Se você quiser desenvolver um chatbot de recomendação de livros, a primeira coisa a fazer é usar uma rede neural profunda (DNN) para converter cada livro em um vetor de embedding, em que um vetor de embedding representa um livro. É possível alimentar, como entrada da DNN, apenas o título do livro ou apenas o conteúdo de texto. Ou podemos usar ambos juntos, junto com outros metadados que descrevem o livro, como o gênero.

Os embeddings neste exemplo podem ser compostos por milhares de títulos de livros com resumos e gênero, e podem ter representações de livros como Wuthering Heights de Emily Brontë e Persuasion de Jane Austen que são semelhantes entre si (pequena distância entre a representação numérica). Já a representação numérica do livro O Grande Gatsby, de F. Scott Fitzgerald seria mais distante, porque o período, o gênero e o resumo são menos semelhantes.

As entradas são a principal influência na orientação do espaço de embedding. Por exemplo, se tivéssemos apenas entradas de título de livro, dois livros com títulos semelhantes, mas resumos muito diferentes, poderiam estar próximos. No entanto, se incluirmos o título e o resumo, esses mesmos livros serão menos semelhantes (mais distantes) no espaço de embedding.

Trabalhando com a IA generativa, esse bot de sugestão de livros pode resumir, sugerir e mostrar livros de que você pode gostar (ou não gostar), com base na sua consulta.

Casos de uso de embeddings multimodais

Alguns casos de uso comuns de embeddings multimodais são:

  • Casos de uso de imagem e texto:

    • Classificação de imagem: usa uma imagem como entrada e prevê uma ou mais classes (rótulos).
    • Pesquisa de imagens: pesquise imagens relevantes ou semelhantes.
    • Recomendações: gere recomendações de produtos ou anúncios com base em imagens.
  • Casos de uso de imagem, texto e vídeo:

    • Recomendações: gere recomendações de produtos ou publicidade com base em vídeos (pesquisa por similaridade).
    • Pesquisa de conteúdo em vídeo
    • Usando a pesquisa semântica: receba um texto como entrada e retorne um conjunto de frames classificados que correspondem à consulta.
    • Usar a pesquisa por similaridade:
      • Toma um vídeo como entrada e retorna um conjunto de vídeos correspondentes à consulta.
      • Considere uma imagem como entrada e retorne um conjunto de vídeos que correspondam à consulta.
    • Classificação de vídeo: usa um vídeo como entrada e prevê uma ou mais classes.

Exemplo de caso de uso: experiência de varejo on-line

Os varejistas on-line estão aproveitando cada vez mais os embeddings multimodais para melhorar a experiência do cliente. Sempre que você recebe recomendações personalizadas de produtos enquanto compra e recebe resultados visuais de uma pesquisa de texto, você interage com um embedding.

Se quiser criar um embedding multimodal para um caso de uso de varejo on-line, comece processando cada imagem do produto para gerar um embedding de imagem exclusivo, que é uma representação matemática do estilo visual, da paleta de cores, detalhes e mais. Ao mesmo tempo, converta descrições de produtos, avaliações e outros dados textuais relevantes em embeddings de texto que capturam significado semântico e contexto. Ao mesclar esses embeddings de imagem e texto em um mecanismo unificado de pesquisa e recomendação, a loja pode oferecer recomendações de itens visualmente semelhantes com base no histórico de navegação de um cliente e preferências. Além disso, ele permite que os clientes pesquisem produtos usando descrições de linguagem natural, e o mecanismo recupera e exibe a maioria dos itens visualmente semelhantes que correspondem à consulta de pesquisa. Por exemplo, se um clientes pesquisar "vestido de verão preto", o mecanismo de pesquisa poderá exibir vestidos que são pretos e também vestidos de verão, feitos de material leve e podem não ter mangas. Essa poderosa combinação de recursos visuais e a compreensão textual cria uma experiência de compra simplificada que melhora o engajamento e a satisfação dos clientes e, consequentemente, pode impulsionar as vendas.

A seguir