Dataflow(batch)でZONE_RESOURCE_POOL_EXHAUSTEDが発生した話

こんにちは。
GMO NIKKOのT.Cです。

今回は、Dataflowで、特定のゾーンにあるリソースが一時的な不足(= ZONE_RESOURCE_POOL_EXHAUSTED)により、間欠的にJobが失敗した内容について話したいと思います。

※ 本ブログで発信される情報は、個人の見解でドキュメントで直接言及されてない内容も含まれているため、実際とは異なる可能性もあるので、参考までにしてください

1日何回も、Cloud FunctionでDataflow(batch・dataflow shuffle)を動かしてGCSにあるログを処理していますが、ゾーンのリソース不足により、Jobが失敗する現象が数日にわたって間欠的に発生していました。

Startup of the worker pool in zone us-central1-a failed to bring up any of the desired x workers…(略)
ZONE_RESOURCE_POOL_EXHAUSTED_WITH_DETAILS: Instance ‘xxx’ creation failed: The zone ‘projects/xxx/zones/us-central1-b’ does not have enough resources available to fulfill the request. ‘(resource type:compute)

エラーの内容をみると、ゾーンのリソース不足でワーカーのプールのスタートアップに失敗していることがわかります。この問題は一時的に発生することで、待機してJobを再作成などの方法があり、ログは以下の箇所で確認できます。

  • Cloud Logging
  • Dataflow Console(Dataflow -> Job -> 特定Job選択 -> Jobログ)
  • Dataflow API(projects.jobs.messages.list)

以下は成功と失敗したJobのログとなります。

  • 成功したJobのログ
  • ZONE_RESOURCE_POOL_EXHAUSTEDで失敗したJob

Jobを調べた結果、今回発生したリソース不足のエラーは、全て上記と同じようにパイプラインを処理するために、最初にワーカープールを用意するところで発生(POOL_STARTUP_COMPLETEDの前)していました。

普段、Jobの失敗時にはエラー内容を確認して必要に応じて整備、Jobを再作成することで運用していて今回もゾーンに関してはDataflowで管理してくれるため、同じくJobを再作成することで対応していましたが、数日にわたって間欠的にエラーが発生して人的リソースも消費したため、まずは最初ワーカープールを用意する時にリソース不足が発生した場合のみ自動でJobを再作成することにしました。

実際には、この問題の対応中にリソース不足問題が解決されて間欠的にJobが失敗しなくなりましたが、今後再発することを考えてリソースの不足でJobがFailedしたのを検知できるまで行っておき、再発した際に自動でJobを再作成する処理を入れてみる予定です。

参考資料

GCP Document: Regional Placement, ZONE_RESOURCE_POOL_EXHAUSTED
Dataflow API: List Job Message Response