Links

同一フォーマットのCSVをBigQueryにSinkする

別Source上に存在する同一フォーマットのcsvデータをBigQueryへデータ更新する方法をご紹介します。

全体図

ワークフロー概要

  1. 1.
    異なる2つのデータのSourceを追加
  2. 2.
    以上のベースとなるデータに結合させるデータのSourceを追加
  3. 3.
    Analyticsの統合(Union)を使用し、2つのSourceのデータを統合
  4. 4.
    Analyticsの除外(Distinct))を使用し、重複レコードを除外
  5. 5.
    Analyticsの結合(join)を使用し、ベースとなるデータに対して、追加のデータを結合
  6. 6.
    Transformのフィールド変換を使用し、任意のフォーマットに変換
  7. 7.
    BigQueryのSinkを追加し、データを転送

Source詳細

Google Sheets

以下のように異なるデータソースから同一フォーマットの2つのデータを設定します。
▼1つ目
▼2つ目
設定完了後「設定」を選択して完了します。
Source「Google Sheets」の詳しい説明は以下ドキュメントをご確認ください。

File Upload

以下のように設定します。
設定完了後「設定」を選択して完了します。

Analytics詳細

統合(Union)

以下のように設定します。
設定完了後「設定」を選択して完了します。
Source「統合(Union)」の詳しい説明は以下ドキュメントをご確認ください。

除外(Distinct)

以下のように設定します。
設定完了後「設定」を選択して完了します。
Source「除外(Distinct)」の詳しい説明は以下ドキュメントをご確認ください。

結合(Distinct)

以下のように設定します。
設定完了後「設定」を選択して完了します。
Source「結合(Join)」の詳しい説明は以下ドキュメントをご確認ください。

Transform詳細

フィールド変換

以下のように設定します。
設定完了後「設定」を選択して完了します。
Transform「フィールド変換」の詳しい説明は以下ドキュメントをご確認ください。

Sink詳細

Google Big Query

以下のように設定します。(※予めBigQuery側で書き込みをするテーブルを用意しておく。)
設定完了後「設定」を選択して完了します。
Sink「BigQuery」の詳しい説明は以下ドキュメントをご確認ください。
それぞれのタスクを設定したらワークフローを保存します。

プレビュー結果の確認

Source/Transform/Sinkの各タスク設定完了後に「プレビュー」をクリックして実行後のプレビューが確認できます。設定に不備がない場合Completedと表示されます。
プレビューで実行結果を確認後、問題なければ「設定」を選択して完了します。
タスク間の矢印を繋ぐ前のタスクでプレビューを実行した後に繋ぐようにすると、前のタスクのデータをInput欄から引き継ぐことが可能です。(以下、参考イメージ※フィールド変換の場合。)