Links

CSVデータをBigQueryへ連携させる

CSVファイルをBigQueryにデータ転送します。CSVファイルはShift JIS形式かつ日本語フィールドを想定し、データ変換のパイプラインを作成してBigQueryにImport可能な形で格納します。

全体図

ワークフロー概要

  1. 1.
    ファイルアップロードのSourceを追加
  2. 2.
    Transformの投影を使用してカラムを変換
  3. 3.
    転送先にBigQueryを指定して、データを転送

使用するCSVファイル

上記ページの 男女別人口-全国,都道府県(大正9年~平成27年) を使用します。 ※最下部の2行のみ手動で削除しています。

事前準備

BigQuery テーブルの作成と使用 などを参考にBIgQueryで空テーブルを作成します。 Cloud Storage ストレージ バケットの作成 などを参考にCloud Storage バケットを作成します。

Source詳細

次のように設定します。
設定完了後「設定」を選択して完了します。

Transform詳細

投影

BigQueryではフィールド名に日本語が使えないため、投影という機能を使って日本語フィールドを英語フィールドに変換する処理を行います。
  • モード : 抽出
  • 抽出するフィールド : File Uploadで作成したデータの11カラム
  • フィールド名置き換え : 対応する英語のフィールド名

投影後

カラム名がフィールド名置き換えで設定したフィールド名に変換されます。
設定完了後「設定」を選択して完了します。

Sink詳細

次のように設定します。
テーブルとバケットに事前準備で作成したテーブル名、バケット名を入力します。
今回はBigQueryのEmptyなテーブルが対象なのでモードはappendを選択します。
設定完了後「設定」を選択して完了します。

データパイプラインの作成

作ったWORKFLOWを確認すると以下のようになっています。
赤カッコの部分を選択し、出てくる矢印をドラッグして連携させます。

ワークフローの実行

「名前」と「説明」を入力して「保存」を選択。
「実行」を選択します。
ジョブが問題なく完了すると「成功」となります。

BigQuery上で確認

下記のようにBigQuery上のtableにCSVファイルが吐き出されていることが確認できれば完了です。