Links

Google Cloud Storage

Sink Google Cloud Storageを使用して、Google Cloud Storageへデータを転送することができます。

SinkGoogleCloudStorage

入力例

name
required
description
json field for import
type
表示名
任意
タスクの表示名を入力します。
接続情報
必須
接続情報画面で設定した、Cloud Storageへの接続情報を選択します。
integration_name
string
バケット
必須
Cloud Storage バケットを指定します。
bucket
string
パス
必須
バケットに保存されているオブジェクトのパスを指定します。
path_prefix
string
フォーマット
必須
csv, jsonl, tsv, jsonarray, avro, parquet から選択します。
format
string
圧縮
任意
保存時の圧縮形式を選択します。フォーマットによって指定できる形式が異なります。
compression
string
タイムスタンプ
任意
フィールドのタイムスタンプを読み込んで、書き込むパスを変える機能を利用するかどうかを指定します。
use_timestamp
boolean
タイムスタンプフィールド
任意
タイムスタンプとして読み込むフィールド名を指定します。タイムスタンプが true の場合に必須です。
timestamp_field
string

フォーマットごとの指定可能な圧縮形式

フォーマット
指定可能な圧縮形式
csv, tsv, jsonl, jsonarray
なし(default), snappy, bzip2, gzip, lz4, defalte
avro
なし, snappy(default), bzip2, deflate, xz
parquet
なし, snappy(default), gzip, lzo, lz4, zstd

タイムスタンプで書き込むフォルダを変える際に指定方法

text
description
example
G
紀元
AD
y
2020, 20
M
July, Jul, 07
w
年における週
27
W
月における週
2
D
年における日
365
d
月における日
31
F
月における曜日
2
E
曜日の名前
Tuesday, Tue
u
曜日の番号(月曜が 1 で日曜が 7 になる)
1
a
午前/午後
AM, PM
H
一日における時(0 - 23)
0
k
一日における時(1 - 24)
24
K
午前/午後の時(0 - 11)
0
h
午前/午後の時(1 - 12)
12
m
30
s
55
S
ミリ秒
978

タイムスタンプで書き込むフォルダを変える機能

タイムスタンプ: true を選択した場合に タイムスタンプフィールド で指定したフィールドをタイムスタンプとして読み込み、書き込むフォルダに利用することができます。

入力データ

id
name
timestamp
1
太郎
2020-12-01 00:00:00
2
次郎
2020-12-02 00:00:00
タイムスタンプフィールドで指定される timestamp カラムは、Timestamp 型である必要があります。型変換(String 型 => Timestamp 型)が必要な場合には Transform Field Mapper を利用できます。

実行時引数

引数
表示名
Google Cloud Storage
接続情報
Google Cloud Storage sink 接続情報
バケット
sample-bucket
パス
'output'/yyyy/MM/dd/HH
フォーマット
csv
圧縮
none
タイムスタンプ
true
タイムスタンプフィールド
timestamp
タイムスタンプを利用してパスを指定する際の注意点
タイムスタンプを利用してパスに指定する場合には、タイムスタンプと関係のない文字列はシングルクォテーションで囲んでください。
複数のファイルが生成される場合
reckoner では、大量のデータを並列に処理するために Google Cloud Storage などファイル出力する sink タスクは複数のファイルを出力する場合があります。ファイルの数も workflow の内容次第にって並列度が変わり増減します。
ファイル数を指定する機能は提供していません。