如何创建 Dataproc 集群
要求:
名称:集群名称必须以小写字母开头,后面最多可跟 51 个小写字母、数字和连字符,但不能以连字符结尾。
集群区域:您必须为集群指定 Compute Engine 区域(例如
us-east1
或europe-west1
),以便在该区域内隔离集群资源(例如存储在 Cloud Storage 中的虚拟机实例和集群元数据)。连接:Dataproc 集群中的 Compute Engine 虚拟机实例(包括主实例和工作器虚拟机)需要完整的内部 IP 网络跨连接。
default
VPC 网络提供此连接(请参阅 Dataproc 集群网络配置)。
gcloud
如需使用命令行创建 Dataproc 集群,请在终端窗口或 Cloud Shell 中本地运行 gcloud dataproc clusters create 命令。
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION
该命令将创建一个集群,其中包含主实例和工作器虚拟机实例的默认 Dataproc 服务设置、磁盘大小和类型、网络类型、部署集群的区域和可用区以及其他集群设置。要了解如何使用命令行标记自定义集群设置,请参阅 gcloud dataproc clusters create 命令。
使用 YAML 文件创建集群
- 运行以下
gcloud
命令将现有 Dataproc 集群的配置导出到cluster.yaml
文件中。gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- 通过导入 YAML 文件配置来创建新集群。
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
注意:在导出操作期间,特定于集群的字段(例如集群名称、仅限输出的字段和自动应用的标签)会被滤除。在用于创建集群的导入的 YAML 文件中,不允许使用这些字段。
REST
本部分介绍如何创建��用所需值和默认配置(1 个主节点,2 个工作器节点)的集群。
在使用任何请求数据之前,请先进行以下替换:
- CLUSTER_NAME:集群名称
- PROJECT:Google Cloud 项目 ID
- REGION:将在其中创建集群的可用 Compute Engine 区域。
- ZONE:所选区域中将在其中创建集群的可选地区。
HTTP 方法和网址:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
请求 JSON 正文:
{ "project_id":"PROJECT", "cluster_name":"CLUSTER_NAME", "config":{ "master_config":{ "num_instances":1, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "softwareConfig": { "imageVersion": "", "properties": {}, "optionalComponents": [] }, "worker_config":{ "num_instances":2, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "initialization_actions":[ { "executable_file":"", "execution_timeout":"" } ], "gce_cluster_config":{ "zone_uri":"ZONE" } } }
如需发送您的请求,请展开以下选项之一:
您应该收到类���以下���容的 JSON 响应:
{ "name": "projects/PROJECT/regions/REGION/operations/b5706e31......", "metadata": { "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata", "clusterName": "CLUSTER_NAME", "clusterUuid": "5fe882b2-...", "status": { "state": "PENDING", "innerState": "PENDING", "stateStartTime": "2019-11-21T00:37:56.220Z" }, "operationType": "CREATE", "description": "Create cluster with 2 workers", "warnings": [ "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ..."" ] } }
控制台
在浏览器的 Google Cloud 控制台中打开 Dataproc 创建集群页面,然后点击在 Compute Engine 上创建 Dataproc 集群页面中 Compute Engine 行的集群中的创建。选择“设置集群”面板,其中的字段填充默认值。您可以选择每个面板,然后确认或更改默认值以自定义您的集群。
单击创建以创建集群。集群名称会显示在集群页面中,预配集群后,其状态会更新为“正在运行”。点击集群名称可打开集群详情页面,您可以在其中检查集群的作业、实例和配置设置,并连接到集群上运行的网页界面。