Cloud Dataflow簡介

Cloud Dataflow為執行可擴充且具有高可靠性的Data Pipeline的託管服務，開發者只需撰寫程式碼即可進行批次及串流的資料處理流程，而核心的資料處理，是以Transform為基礎的程式設計模型，讓資料可以透過Input --> Transform --> Output的方式利用雲端的資源來達到處理的目的。

Cloud Dataflow的資料化優勢

Cloud Dataflow在部署後，叢集交由Google管理，服務依據使用者的資料處理需求自動調整叢集大小。而在運作階段，是以Compute Engine執行個體運作，在Google的平台上完成整個Data Pipeline流程。

Cloud Dataflow與GCP的服務整合

Cloud Dataflow已與Cloud Storage、Cloud Pub/Sub、BigQuery、Bigtable等GCP服務整合，並且同時以Java及Python SDK之方式開放原始碼，提供開發者可以共同貢獻Dataflow的核心與相關開發工具。

Cloud Dataflow的使用案例

ETL（extract/transform/load）Pipeline：讓資料的轉移(Transfer)、過濾(Filter)、進階資料合成與處理等動作可以藉由Dataflow的資料流程來進行處理動作，更可以平行到Dataflow的主機中運算，提升處理效能。
資料分析：透過Dataflow提供的批次運算或串流的連續運算來達到資料處理的能力。
資料架構：利用Dataflow的流程來進行資料處理流程的架構，讓數個不同的處理方式可以重用在大型資料架構上。

PreviousCloud Dataflow Next第一個Dataflow Pipeline - 以Java為例

Last updated 7 years ago