Cloud Dataflow簡介

Cloud Dataflow為執行可擴充且具有高可靠性的Data Pipeline的託管服務,開發者只需撰寫程式碼即可進行批次及串流的資料處理流程,而核心的資料處理,是以Transform為基礎的程式設計模型,讓資料可以透過Input --> Transform --> Output的方式利用雲端的資源來達到處理的目的。

Cloud Dataflow的資料化優勢

Cloud Dataflow在部署後,叢集交由Google管理,服務依據使用者的資料處理需求自動調整叢集大小。而在運作階段,是以Compute Engine執行個體運作,在Google的平台上完成整個Data Pipeline流程。

Cloud Dataflow與GCP的服務整合

Cloud Dataflow已與Cloud Storage、Cloud Pub/Sub、BigQuery、Bigtable等GCP服務整合,並且同時以Java及Python SDK之方式開放原始碼,提供開發者可以共同貢獻Dataflow的核心與相關開發工具。

Cloud Dataflow的使用案例

  • ETL(extract/transform/load)Pipeline:讓資料的轉移(Transfer)、過濾(Filter)、進階資料合成與處理等動作可以藉由Dataflow的資料流程來進行處理動作,更可以平行到Dataflow的主機中運算,提升處理效能。

  • 資料分析:透過Dataflow提供的批次運算或串流的連續運算來達到資料處理的能力。

  • 資料架構:利用Dataflow的流程來進行資料處理流程的架構,讓數個不同的處理方式可以重用在大型資料架構上。

Last updated