使用 Vertex AI for Firebase SDK 从应用中调用 Vertex AI Gemini API 时,您可以提示 Gemini 模型根据多模态输入生成文本。多模态提示可以包含多种模态(或多种输入类型),例如文本以及图片、PDF、视频和音频。
对于输入内容的非文本部分(例如媒体文件),您需要使用支持的文件类型,指定支持的 MIME 类型,并确保文件和多模态请求符合要求并遵循最佳实践。
支持的输入文件因模型而异,可能包括图片、PDF、视频和音频。
- 请注意,支持的视频输入也因模型而异,可能包括纯帧或带音频的帧。
有关输入文件和多模态请求的要求和最佳做法:
在了解 Gemini 模型中,您可以找到基于模型对受支持文件的要求(例如,文件数上限和文件大小上限)的快速摘要。
在 Google Cloud 文档中,您可以详细了解输入文件和多模态请求的要求���及最佳实践(例如,支持的 MIME 类型以及何时在请求中提供输入文件)。
针对 Vertex AI for Firebase SDK 的要求
对于 Vertex AI for Firebase SDK,请求大小上限为 20 MB。如果请求过大,您会收到 HTTP 413 错误。
如果某个文件的大小使请求的总大小超过 20 MB,请使用 Cloud Storage for Firebase 网址将该文件包含在多模态请求中。
如果文件很小,您通常可以将其作为内嵌数据直接传递。但请注意,以内嵌数据形式提供的文件在传输过程中会编码为 base64,这会增加请求的大小。如需查看有关如何将文件添加为内嵌数据的示例,请参阅使用 Gemini API 根据多模态提示生成文本。