Azure Data Factoryの自己学習メモです。必要なこととはすべて、 データ統合サービスである Data Factory の概要 | Microsoft Docs
に書いてあります。Azure DataFactoryを端的に説明すれば、オンプレ×クラウド、クラウド×クラウドでデータの移動と変換を制御してくれるSaaS型のサービスで、よくあるミドルウェアのようなものです。
構成要素
登場する構成要素はパイプライン、アクティビティ、データセット。関連を図示すると以下になります。
LinedService
LinkedServiceは接続先の定義をします。上記のBLOB/SQL Serverの他にも、色々と接続できるサービスが用意されています(よくあるFTPとかも)
Activity
アクティビティは、実際の振る舞いを定義します。コピーアクティビティと、データ移動アクティビティがあります。 コピー アクティビティを使用したデータの移動 | Microsoft Docs データの変換: データの処理と変換 | Microsoft Docs
カスタム .NET アクティビティ なども作成できるようです。
データセット
0個以上の入力データセットと、1つ以上の出力データセットが必要。実行する時間は出力データセット側の定義が利用されます。
ゲートウェイ
オンプレのSQL サーバーなどと接続するときは、オンプレ側ゲートウェイをインストールしておく必要があります。ダウンロードしてキーを設定するだけです。Proxyにも対応しているぽいです。
Download Microsoft Data Management Gateway from Official Microsoft Download Center
定義方法
これらは、いずれもポータルからJSONエディタで定義できます。JSONのスキーマリファレンスは以下。 Azure Data Factory - JSON スクリプトのリファレンス | Microsoft Docs
ポータル
ポータルからさくっと、作成して、パイプライン、アクティビティ、データセットなどは、ポータルのJSONエディタでゴリゴリと書く必要があります。プレビューでウィザード形式ぽいのがあるので、JSONをゴリゴリやらなくても済むようになる感じですが、それはまた別途。
現在のサポートリージョンは、米国西部、米国東部、北ヨーロッパ のみですが、これらはワークフローを作成し、各リージョンでデータコピーや変換が実されるぽいです。かならず、作成したリージョンを経由するわけではなさそうです。
とりあえず、一通りの概念を押さえておいて、チュートリアルをこなすと理解が深まる感じでしょう。
以上