Azureの小ネタ (改)

~Azureネタを中心に、色々とその他の技術的なことなどを~

R Server on Spark その1

Azure HDInsight で Rサーバーが構成可能となったようですので、以前したためておいた備忘録です。

インストール

以下に新しいポータルからの作成方法が記載されています。

現時点では、Azure Powershell での作成はサポートされていないぽいので、ARM JSON Templateを投げる必要があります。Poshからも投げられるので、作れないわけじゃないのですが。

ARM Templateは以下にあります、違いはSSHがPasswordかPublicKeyかどうかです。

作成にはだいぶ時間がかかります、体感30分程度で、クラウスを構成するVMが出来ても、アプリの設定に時間がかかっている印象をうけます。

構成

作成すると以下のような構成です。結構大メシぐらいです。VMのインスタンスサイズを最小で構成すれば、時間250円くらいでしょうか(東日本)。また、東と西でHDInsightに使用できるVMインスタンスが微妙にことなるので要注意な感じです。なので、あえて西日本に作成するより東日本か、東アジア等につくったほうが無難です。

通常のHDInsightクラスターにくわえて、エッジノードが追加されます。

f:id:StateMachine:20160617103455p:plain

Ambari でクラスタ構成と状況を確認できます(デフォルトで構成されます)

f:id:StateMachine:20160621154135j:plain

RStudio

エッジノードにはSSH接続可能でRStuioとかインストールして開発に使えます。

HDInsight の R Server (プレビュー) に RStudio をインストールする | Microsoft Azure

実行した感じは以下です。localhostになってるのは、ssh port forwardしてるからです。

f:id:StateMachine:20160621153331p:plain

分散実行

エッジノードで開発したりローカル実行できますが、SparkやHadoop MRを使って分散実効もできます。ただし、それ対応のライブラリを使ったりスクリプトを修正する必要があります。

これらはコンピュートコンテキストと呼ばれ、

  • Local
  • Local 分散
  • Spark
  • Hadoop MR

の4つがあります。

詳細は、以下にかかれてますので、参考まで。

azure.microsoft.com

今回はここまで。