Azureの小ネタ (改)

~Azureネタを中心に、色々とその他の技術的なことなどを~

Azure Data Factory のざっくり概念

Azure Data Factoryの自己学習メモです。必要なこととはすべて、 データ統合サービスである Data Factory の概要 | Microsoft Docs

に書いてあります。Azure DataFactoryを端的に説明すれば、オンプレ×クラウド、クラウド×クラウドでデータの移動と変換を制御してくれるSaaS型のサービスで、よくあるミドルウェアのようなものです。

構成要素

登場する構成要素はパイプライン、アクティビティ、データセット。関連を図示すると以下になります。

f:id:StateMachine:20170525224741p:plain

LinedService

LinkedServiceは接続先の定義をします。上記のBLOB/SQL Serverの他にも、色々と接続できるサービスが用意されています(よくあるFTPとかも)

Activity

アクティビティは、実際の振る舞いを定義します。コピーアクティビティと、データ移動アクティビティがあります。 コピー アクティビティを使用したデータの移動 | Microsoft Docs データの変換: データの処理と変換 | Microsoft Docs

カスタム .NET アクティビティ なども作成できるようです。

データセット

0個以上の入力データセットと、1つ以上の出力データセットが必要。実行する時間は出力データセット側の定義が利用されます。

ゲートウェイ

オンプレのSQL サーバーなどと接続するときは、オンプレ側ゲートウェイをインストールしておく必要があります。ダウンロードしてキーを設定するだけです。Proxyにも対応しているぽいです。

Download Microsoft Data Management Gateway from Official Microsoft Download Center

定義方法

これらは、いずれもポータルからJSONエディタで定義できます。JSONのスキーマリファレンスは以下。 Azure Data Factory - JSON スクリプトのリファレンス | Microsoft Docs

ポータル

ポータルからさくっと、作成して、パイプライン、アクティビティ、データセットなどは、ポータルのJSONエディタでゴリゴリと書く必要があります。プレビューでウィザード形式ぽいのがあるので、JSONをゴリゴリやらなくても済むようになる感じですが、それはまた別途。

f:id:StateMachine:20170526081028p:plain

現在のサポートリージョンは、米国西部、米国東部、北ヨーロッパ のみですが、これらはワークフローを作成し、各リージョンでデータコピーや変換が実されるぽいです。かならず、作成したリージョンを経由するわけではなさそうです。

とりあえず、一通りの概念を押さえておいて、チュートリアルをこなすと理解が深まる感じでしょう。

docs.microsoft.com

以上