Dataproc

启动预配置解决方案，将数据湖和数据仓库统一起来，用于存储、处理和分析结构化数据与非结构化数据。免费试用。

Dataproc

Dataproc 是一项具有高度可伸缩性的全代管式服务，用于运行 Apache Hadoop、Apache Spark、Apache Flink、Presto 等 30 多个开源工具和框架。使用 Dataproc 可以大规模实现数据湖现代化改造、ETL 和安全数据科学，并且 Dataproc 与 Google Cloud 集成，经济实惠。

免费试用 Dataproc

灵活：在 Google Compute 和 Kubernetes 上使用无服务器集群或管理集群。部署 Google 推荐的解决方案，将数据湖和数据仓库统一起来，用于存储、处理和分析结构化数据与非结构化数据
开放：大规模运行开源数据分析，并获享企业级安全保护
智能：通过与 Vertex AI、BigQuery 和 Dataplex 集成，为数据用户提供强大支持。
安全：配置高级安全设置，例如 Kerberos、Apache Ranger 和个人身份验证
经济高效：与按秒计价的本地数据湖相比，可将 TCO 降低 54%

Dataproc 图标位于以下徽标组成的环中央：Apache Spark、Presto、Hive、Jupyter、Hadoop、Flink、Apache Pig

视频

Dataproc 支持 Apache Spark、Presto、Flink 等热门 OSS。

1:23

优势

对开源数据处理进行现代化改造

无服务器部署、日志记录和监控服务让您可以专注于数据和分析，而不是基础架构。最多可将 Apache Spark 管理的 TCO 降低 54%。以快 5 倍的速度构建和训练模型。

适用于数据科学的智能无缝 OSS

让数据科学家和数据分析师能够通过与 BigQuery、Dataplex、Vertex AI 和 JupyterLab 等 OSS 笔记本的原生集成，无缝地执行数据科学作业。

与 Google Cloud 集成的企业级安全性

安全功能，例如默认静态加密、OS Login、VPC Service Controls 和客户管理的加密密钥 (CMEK)。通过添加安全配置启用基于 Kerberos 的 Hadoop 安全模式。

主要特性

全代管式自动化大数据开源软件

无服务器部署、日志记录和监控服务让您可以专注于数据和分析，而不是基础架构。最多可将 Apache Spark 管理的 TCO 降低 54%。与传统笔记本相比，可让数据科学家和工程师通过与 Vertex AI Workbench 集成，将构建和训练模型的速度加快 5 倍。Dataproc Jobs API 可让您轻松将大数据处理融入自定义应用中，而 Dataproc Metastore 可让您无需运行自己的 Hive Metastore 或目录服务。

使用 Kubernetes 将 Apache Spark 作业容器化

使用 Dataproc on Kubernetes 构建 Apache Spark 作业，以便结合使用 Dataproc 和 Google Kubernetes Engine (GKE) 来提供作业可移植性和隔离。

与 Google Cloud 集成的企业级安全性

创建 Dataproc 集群时，您可以添加安全配置以启用基于 Kerberos 的 Hadoop 安全模式。此外，Dataproc 还可以搭配部分最常用的 Google Cloud 专用安全功能，其中包括默认静态加密、OS Login、VPC Service Controls 和客户管理的加密密钥 (CMEK)。

开放源代码的优点与 Google Cloud 的优点相结合

借助 Dataproc，您可以将正在使用的开源工具、算法和编程语言轻松应用于云规模的数据集。同时，Dataproc 还可以与其他 Google Cloud 分析产品、数据库和 AI 生态系统进行开箱即用的集成。数据科学家和工程师可以快速访问数据，并构建将 Dataproc 连接到 BigQuery、Vertex AI、Spanner、Pub/Sub 或 Data Fusion 的数据应用。

查看所有功能

视频

演示：了解 Dataproc 和 Cloud Storage 如何帮助加快贷款处理速度

3:39

客户

向使用 Dataproc 的客户学习��验

Blog post

Broadcom 使用 Dataproc 对其数据湖进行现代化改造，并实现灵活的数据管理

阅读用时：5 分钟

Case study

Dataproc 帮助 Wayfair 高性能访问和轻松维护大规模非结构化数据。

阅读用时：8 分钟

Video

Vodafone Group 将 600 台本地 Apache Hadoop 服务器迁移到云端。

47:17

Case study

Twitter 将本地 Hadoop 迁移到了 Google Cloud，以便用户以更经济高效的方式存储和查询数据。

49:57

Case study

Pandora 已将 7 PB 以上的数据从本地 Hadoop 迁移到 Google Cloud 以帮助扩缩和降低费用。

50:51

Case study

启动和关闭 Dataproc 集群帮助 METRO 降低了 30% 到 50% 的基础架构费用。

阅读用时：5 分钟

查看所有客户

无服务器 Spark

提交可自动预配和自动扩缩的 Spark 作业。如需了解更多详情，请参阅下方的快速入门链接。

了解详情

APIs & Libraries

Dataproc 初始化操作

通过预建的初始化操作将其他 OSS 项目添加到您的 Dataproc 集群。

了解详情

APIs & Libraries

开源连接器

用于实现 Apache Hadoop 互操作性的库和工具。

了解详情

APIs & Libraries

Dataproc 工作流模板

Dataproc WorkflowTemplates API 为工作流的管理和执行提供了一种灵活且易用的机制。

了解详情

没有看到您需要的内容？

查看所有产品文档

版本说明

了解 Dataproc 的最新版本。

使用场景

将 Hadoop 与 Spark 集群迁移到云端

企业正纷纷将其现有的本地 Apache Hadoop 和 Spark 集群迁移到 Dataproc，以控制费用并获享弹性扩缩能力。通过 Dataproc，企业可以获得专门构建的全代管式集群，此集群可以自动扩缩以支持任意的数据或分析处理作业。

Best practice

Apache Spark 迁移指南

不必在 Google Cloud 中重写您的 Spark 代码。

了解详情

Best practice

将 HDFS 数据迁移到 Google Cloud

了解您应在何时将本地 HDFS 数据迁移到 Google Cloud Storage 以及如何迁移。

了解详情

Best practice

将安全控制机制从本地迁移到 Dataproc

将现有的安全控制机制迁移到 Dataproc，帮助实现企业和行业合规性。

了解详情

使用场景

Dataproc 上的数据科学

启用专门的 Dataproc 集群来打造理想的数据科学环境。将 Apache Spark、NVIDIA RAPIDS 和 Juypter 笔记本等开源软件与 Google Cloud AI 服务和 GPU 集成在一起，以加快机器学习和 AI 开发的速度。

Tutorial

使用 Dataproc 和 Apache Spark ML 进行机器学习

将 Dataproc 与其他 Google Cloud 服务集成，打造端到端的数据科学体验。

了解详情

Best practice

使用 Dataproc Hub 实现 IT 治理的开源数据科学

了解 Dataproc Hub 如何以 IT 治理和成本控制的方式为您的数据科学家提供所需的所有开源工具。

了解详情

Tutorial

珠联璧合：Dataproc 与 TensorFlow on YARN

了解如何利用 TonY 编排分布式 TensorFlow。

了解详情

查看所有技术指南

所有特性

无服务器 Spark	部署可自动扩缩的 Spark 应用和流水线，无需对基础架构执行任何手动预配或调整。
集群大小可调整	您可以使用多种虚拟机类型、磁盘大小、节点数和网络选项快速创建集群并调节集群规模。
自动扩缩集群	Dataproc 自动扩缩功能提供自动管理集群资源的机制，还支持自动添加和减少集群工作器（节点）。
云端集成	内置 Cloud Storage、BigQuery、Dataplex、Vertex AI、Composer、Bigtable、Cloud Logging 和 Cloud Monitoring 集成，为您提供一个更加完整而强大的数据平台。
自动或手动配置	Dataproc 可自动配置硬件和软件，但您也可以选择手动控制。
开发者工具	您可通过以下多种方法来管理集群：易于使用的网页界面、Cloud SDK、RESTful API 以及 SSH 访问等。
初始化操作	创建集群时，运行初始化操作以安装或定制您需要的设置和库。
可选组件	使用可选组件在集群上安装其他组件并进行相应配置。可选组件与 Dataproc 组件集成，可为 Zeppelin、Presto 以及与 Apache Hadoop 和 Apache Spark 生态系统相关的其他开源软件组件提供配置完善的环境。
自定义容器和映像	可以使用自定义 Docker 容器预配 Dataproc 无服务器 Spark。可以使用包含预装 Linux 操作系统软件包的自定义映像对 Dataproc 集群进行预配。
灵活的虚拟机选择	集群可以使用自定义机器类型和抢占式虚拟机来更好地满足您对计算规模的需求。
工作流模板	Dataproc 工作流模板为工作流的管理和执行提供了一种灵活且易用的机制。工作流模板是可重复使用的工作流配置，其中定义的作业图包含在哪里运行这些作业的信息。
自动化政策管理	将一组集群的安全、费用和基础架构政策标准化。您可以在项目级层创建资源管理、安全或网络政策。这使用户能够方便地使用正确的映像、组件、元数据存储区和其他外围设备，也便于您日后管理集群舰队和无服务器 Spark 政策。
智能提醒	Dataproc 建议的提醒允许客户调整预配置提醒的阈值，以获取有关空闲集群、失控集群、作业、利用率过高的集群等的提醒。客户可以进一步自定义这些提醒，甚至创建高级集群和作业管理功能。这些功能使客户能够大规模管理舰队。
Dataproc on Google Distributed Cloud (GDC)	Dataproc on GDC 使您可以在数据中心内的 GDC Edge 设备上运行 Spark。现在，您可以在 Google Cloud 上以及数据中心内的敏感数据中使用相同的 Spark 应用。
多区域 Dataproc Metastore	Dataproc Metastore 是全代管式、高可用性 Hive Metastore (HMS)，具有精��的访问权限控制。多区域 Dataproc Metastore 提供针对区域级服务中断的主动-主动灾难恢复和弹性。

价格

Dataproc 价格取决于 vCPU 的数量及运行时长。价格显示的是小时费率，但我们计费时以秒为单位，因此您只需为实际使用的资源付费。

例如：包含具有 4 个 CPU 的 6 个节点（1 个主节点 + 5 个工作器节点）的集群，每个 CPU 运行 2 小时，费用为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48

如需了解详情，请参阅价格页面。

查看价格详情

合作伙伴

Dataproc 可与主要合作伙伴的产品/服务集成，为您现有的投资和技能组合提供补充。

查看所有合作伙伴

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用��的产品，开始在 Google Cloud 上构建项目。

免费试用（产品）

不知从何入手，需要一点帮助？
与销售人员联系
与值得信赖的合作伙伴携手
寻找合作伙伴
继续浏览
查看所有产品