此页面由 Cloud Translation API 翻译。

Vertex AI Gemini API 支持的输入文件和要求

使用 Vertex AI for Firebase SDK 从应用中调用 Vertex AI Gemini API 时，您可以提示 Gemini 模型根据多模态输入生成文本。多模态提示可以包含多种模态（或多种输入类型），例如文本以及图片、PDF、视频和音频。

对于输入内容的非文本部分（例如媒体文件），您需要使用支持的文件类型，指定支持的 MIME 类型，并确保文件和多模态请求符合要求并遵循最佳实践。

支持的输入文件因模型而异，可能包括图片、PDF、视频和音频。
- 请注意，支持的视频输入也因模型而异，可能包括纯帧或带音频的帧。
有关输入文件和多模态请求的要求和最佳做法：
- 在了解 Gemini 模型中，您可以找到基于模型对受支持文件的要求（例如，文件数上限和文件大小上限）的快速摘要。
- 在 Google Cloud 文档中，您可以详细了解输入文件和多模态请求的要求��及最佳实践（例如，支持的 MIME 类型以及何时在请求中提供输入文件）。

针对 Vertex AI for Firebase SDK 的要求

对于 Vertex AI for Firebase SDK，请求大小上限为 20 MB。如果请求过大，您会收到 HTTP 413 错误。

如果某个文件的大小使请求的总大小超过 20 MB，请使用 Cloud Storage for Firebase 网址将该文件包含在多模态请求中。
如果文件很小，您通常可以将其作为内嵌数据直接传递。但请注意，以内嵌数据形式提供的文件在传输过程中会编码为 base64，这会增加请求的大小。如需查看有关如何将文件添加为内嵌数据的示例，请参阅使用 Gemini API 根据多模态提示生成文本。