Azure HDInsight で Rサーバーが構成可能となったようですので、以前したためておいた備忘録です。
インストール
以下に新しいポータルからの作成方法が記載されています。
現時点では、Azure Powershell での作成はサポートされていないぽいので、ARM JSON Templateを投げる必要があります。Poshからも投げられるので、作れないわけじゃないのですが。
ARM Templateは以下にあります、違いはSSHがPasswordかPublicKeyかどうかです。
- HDInsight on Linux with R Server (w/ Storage, SSH key)
- HDInsight on Linux with R Server (w/ Storage, SSH pw)
作成にはだいぶ時間がかかります、体感30分程度で、クラウスを構成するVMが出来ても、アプリの設定に時間がかかっている印象をうけます。
構成
作成すると以下のような構成です。結構大メシぐらいです。VMのインスタンスサイズを最小で構成すれば、時間250円くらいでしょうか(東日本)。また、東と西でHDInsightに使用できるVMインスタンスが微妙にことなるので要注意な感じです。なので、あえて西日本に作成するより東日本か、東アジア等につくったほうが無難です。
通常のHDInsightクラスターにくわえて、エッジノードが追加されます。
Ambari でクラスタ構成と状況を確認できます(デフォルトで構成されます)
RStudio
エッジノードにはSSH接続可能でRStuioとかインストールして開発に使えます。
HDInsight の R Server (プレビュー) に RStudio をインストールする | Microsoft Azure
実行した感じは以下です。localhostになってるのは、ssh port forwardしてるからです。
分散実行
エッジノードで開発したりローカル実行できますが、SparkやHadoop MRを使って分散実効もできます。ただし、それ対応のライブラリを使ったりスクリプトを修正する必要があります。
これらはコンピュートコンテキストと呼ばれ、
- Local
- Local 分散
- Spark
- Hadoop MR
の4つがあります。
詳細は、以下にかかれてますので、参考まで。
今回はここまで。