Google Cloud Platform In Practice
  • 簡介
  • 有別於其他Cloud的想法
  • 認識Google Cloud
    • Google Cloud Platform服務介紹
      • GCP從Free Trial開始
      • 開始之前先了解線上的資源
      • Project與Billing Account
      • GCP計算機
      • Google Cloud使用者與角色
      • 透過IAM管理專案資源
      • Service Account
      • Organization Node
    • GCP指令列工具 - gcloud
      • 安裝Google Cloud SDK
      • Google Cloud SDK基本使用說明
      • 認證gcloud指令
      • 在gcloud使用service account認證
      • 查詢zone與region
      • 好用的gcloud指令
  • Google Cloud上的運算服務
    • Compute Engine
      • Compute Engine基本介紹
      • Compute Engine的主機類型選擇
      • Compute Engine硬碟的選擇
      • 動手開一台GCE主機
      • 了解GCE上的auto scale
      • 使用HTTP(S) Load Balancer
      • 使用TCP Load Balancer
      • 為您的HTTP Load Balancer建立自簽SSL憑證
      • 淺談StackDriver的監控服務
        • Cloud Logging
        • Cloud Monitor
      • 進階的GCE操作
        • GCE的Software Raid建置
        • 匯入Amazon主機Image
        • Resize Boot Disk
      • GCE進階導讀
    • App Engine
      • GAE的理念
      • Standard Environment介紹
        • 第一個GAE程式 - 以GAE Java為例
      • Flexible Environment介紹
        • 標準執行環境範例 - 以Node.js為例
        • 客製化執行環境範例 - 以Node.js為例
      • GAE進階導讀
    • Container Engine
      • 建立自己的GKE Cluster
      • 基本操作
      • 使用YAML描述部署
      • 結合NLB與HLB部署
      • GKE進階導讀
  • Google Cloud上的儲存服務
    • CloudSQL
      • CloudSQL簡介
      • 建立CloudSQL
      • 連線CloudSQL - 使用Apps Script
    • Cloud Datastore
      • Cloud Datastore簡介
      • Cloud Datastore的基本觀念
      • 簡單的Cloud Datastore範例 - 以Node.js套件為例
    • Cloud Storage
      • Cloud Storage簡介
      • 掛載GCS資料夾
      • 設定Website Bucket
      • 透過HTTP(S) Load Balancer幫GCS加上CDN
      • GCS與GCP服務的整合
      • Cloud Storage進階導讀
    • Cloud Bigtable
      • Cloud BigTable簡介
      • Cloud BigTable與GCP服務的整合
      • Cloud BigTable進階導讀
  • Google Cloud上的大資料處理服務
    • BigQuery
      • BigQuery簡介
      • BigQuery的結構
      • 指令列工具 - bq
      • 載入CSV資料到BigQuery
      • 載入JSON資料到BigQuery
      • 透過 bq 查詢資料
      • BigQuery的省錢祕技
      • BigQuery進階導讀
    • PubSub
      • PubSub簡介
      • PubSub入門
    • Cloud Dataflow
      • Cloud Dataflow簡介
      • 第一個Dataflow Pipeline - 以Java為例
      • Dataflow進階導讀
    • Datalab
      • 啟動您的Datalab
      • 深入了解datalab
      • Datalab進階導讀
    • Cloud Spanner (beta)
      • Spanner簡介
      • Spanner基本操作介紹
      • Spanner進階導讀
  • Google Cloud上的人工智慧服務
    • Cloud Machine Learning Engine
    • Vision API
    • Natual Language API
    • Speech API
    • Video Intelligence API (private beta)
  • 更多GCP學習資源
  • GCP支援服務
Powered by GitBook
On this page
  • Cloud Dataflow的資料化優勢
  • Cloud Dataflow與GCP的服務整合
  • Cloud Dataflow的使用案例
  1. Google Cloud上的大資料處理服務
  2. Cloud Dataflow

Cloud Dataflow簡介

Cloud Dataflow為執行可擴充且具有高可靠性的Data Pipeline的託管服務,開發者只需撰寫程式碼即可進行批次及串流的資料處理流程,而核心的資料處理,是以Transform為基礎的程式設計模型,讓資料可以透過Input --> Transform --> Output的方式利用雲端的資源來達到處理的目的。

Cloud Dataflow的資料化優勢

Cloud Dataflow在部署後,叢集交由Google管理,服務依據使用者的資料處理需求自動調整叢集大小。而在運作階段,是以Compute Engine執行個體運作,在Google的平台上完成整個Data Pipeline流程。

Cloud Dataflow與GCP的服務整合

Cloud Dataflow已與Cloud Storage、Cloud Pub/Sub、BigQuery、Bigtable等GCP服務整合,並且同時以Java及Python SDK之方式開放原始碼,提供開發者可以共同貢獻Dataflow的核心與相關開發工具。

Cloud Dataflow的使用案例

  • ETL(extract/transform/load)Pipeline:讓資料的轉移(Transfer)、過濾(Filter)、進階資料合成與處理等動作可以藉由Dataflow的資料流程來進行處理動作,更可以平行到Dataflow的主機中運算,提升處理效能。

  • 資料分析:透過Dataflow提供的批次運算或串流的連續運算來達到資料處理的能力。

  • 資料架構:利用Dataflow的流程來進行資料處理流程的架構,讓數個不同的處理方式可以重用在大型資料架構上。

PreviousCloud DataflowNext第一個Dataflow Pipeline - 以Java為例

Last updated 7 years ago