嵌入 API 概览

嵌入是文本、图片或视频的数值表示法,可捕获输入之间的关系。机器学习模型(尤其是生成式 AI 模型)适用于通过识别大型数据集中的模式来创建嵌入。应用可以使用嵌入来处理和生成语言,识别特定于内容的复杂含义和语义关系。每次完成 Google 搜索或查看音乐在线播放推荐时,您都会与嵌入进行互动。

嵌入的工作原理是将文本、图片和视频转换为浮点数组(称为向量)。这些向量旨在捕获文本、图片和视频的含义。嵌入数组的长度称为向量的维度。例如,一个文本段落可能由包含数百个维度的向量表示。然后,通过计算两段文本的向量表示法之间的数值距离,应用可以确定对象之间的相似度。

Vertex AI 支持两种类型的嵌入模型:文本和多模态。

文本嵌入用例

文本嵌入的一些常见应用场景包括:

  • 语义搜索:按语义相似度排序搜索文本。
  • 分类:返回文本属性与给定文本类似的项的类。
  • 聚类:将文本属性与给定文本类似的项聚类。
  • 离群值检测:返回文本属性与给定文本相关性最低的项。
  • 对话界面:将可能生成类似回复(例如在对话级嵌入空间中)的句子组聚类。

示例应用场景:开发图书推荐聊天机器人

如果您想开发图书推荐聊天机器人,首先需使用深度神经网络 (DNN) 将每本图书转换为嵌入向量,其中一个嵌入向量表示一本书。您只需以输入形式向 DNN 提供书名或文本内容即可。或者,您可以将这两项以及描述图书的任何其他元数据(例如类型)结合使用。

此示例中的嵌入可以由数以千计的图书及其摘要和类型组成,这些图书的表示法(例如艾米莉·勃朗特的《呼啸山庄》和简·奥斯汀的《劝导》)彼此很相似(数值表示法之间的距离近)。而弗·斯科特·菲茨杰拉德的《了不起的盖茨比》距离较远,因为时期、类型和摘要不太相似。

输入是影响嵌入空间方向的主要因素。例如,如果我们只有书名输入,则书名相似但摘要却截然不同的两本书的位置靠得很近。但是,如果添加书名和摘要,则这些相同的图书在嵌入空间中不那么相似(距离较远)。

使用生成式 AI 时,此图书推荐聊天机器人可以根据您的查询总结、推荐并向您展示您可能喜欢(或不喜欢)的图书。

多模态嵌入应用场景

多模态嵌入的一些常见应用场景包括:

  • 图片和文本应用场景:

    • 图片分类:将图片用作输入并预测一个或多个类别(标签)。
    • 图片搜索:搜索相关或类似的图片。
    • 建议:根据图片生成产品或广告推荐。
  • 图片、文本和视频应用场景:

    • 推荐:根据视频生成产品或广告推荐(相似度搜索)。
    • 视频内容搜索
    • 使用语义搜索:将文本作为输入,并返回一组与查询匹配的已排序帧。
    • 使用相似度搜索功能
      • 将视频作为输入,并返回一组与查询匹配的视频。
      • 将一张图片作为输入,并返回一组与查询匹配的视频。
    • 视频分类:将视频提取为输入并预测一个或多个类别。

示例用例:线上零售体验

线上零售商越来越多地利用多模态嵌入来提升客户体验。每次您在购物时看到个性化商品推荐,以及从文本搜索中获得视觉化结果时,您都是在与嵌入内容互动。

如果您想针对在线零售用例创建多模态嵌入,请先处理每个商品图片以生成唯一的图片嵌入,这是其视觉风格、调色板、关键细节等的数学表示法。同时,将产品说明、客户评价和其他相关文本数据转换为文本嵌入,以捕获其语义含义和上下文。通过将这些图片和文本嵌入合并到统一的搜索和推荐引擎中,商店可以根据客户的浏览历史和偏好提供视觉上相似的商品的个性化推荐。此外,它还允许客户使用自然语言描述来搜索商品,引擎会检索并显示与他们的搜索查询最匹配的视觉相似的商品。例如,如果客户搜索“黑色夏季连衣裙”,搜索引擎可以显示黑色、夏季连衣裙款式、由较轻的面料制成且可能无袖的连衣裙。这种强大的视觉和文本理解组合可打造简化后的购物体验,从而提高客户互动度和满意度,最终推动销售。

后续步骤