Azureの小ネタ (改)

~Azureネタを中心に、色々とその他の技術的なことなどを~

HDP 2.1 を試す

HDPとは、Hortonworks社(http://jp.hortonworks.com/)が提供するHadoop ディストリビューションです。正式には、Hortonworks Data Platformと言い、Azureが提供するHDInsightのベース ディストリビューションでもあります。

簡単にお試しできるよう、Sanboxとして、VMWare/Virtualbox/Hyper-Vの各イメージが公開されているのでこれを利用すると便利です。ここでは、Hyper-Vのイメージを利用してセットアップしてみようと思います。ちなみに、OSはCentOSとなっています。

コンポーネントのバージョン

インストール前にHDP2.1 の各コンポーネントバージョンを確認してみましょう。

Component VL
Hortonworks Data Platform (HDP) 2.1
HDInsight 3.1
Apache Hadoop & YARN 2.4.0
Tez 0.4.0
Apache Pig 0.12.1
Apache Hive & HCatalog 0.13.0
HBase 0.96.1
Apache Sqoop 1.4.4
Apache Oozie 4.0.0
Apache HCatalog Merged with Hive
Apache Templeton Merged with Hive
Ambari 1.5.1
Zookeeper 3.4.5
Mahout 0.9.0

詳細やHDInsightとの比較は以下のURLを参考にするといいでしょう。

イメージのダウンロード

ここ(Download Hadoop)からイメージがダウンロードできますので、ダウンロードしたあと展開しましょう。Hyper-Vイメージが取得できます。

Hypver-Vの設定

ここでは、Windows 8.1Hyper-Vを用いてセットアップします。まずは、Windowsの機能の有効化から設定しましょう。

f:id:StateMachine:20140721154140p:plain

仮想ネットワークの設定

Sandboxイメージではあらかじめ利用するネットワークが決まっているため、それに従って設定します。

Hyper-V マネージャを起動して、仮想スイッチの作成を選択します。「内部」を選択し、仮想スイッチの作成を押します。

f:id:StateMachine:20140721154856p:plain

仮想スイッチ名に「Sandbox Network」と命名します。

f:id:StateMachine:20140721155028p:plain

Ethernetのプロパティを開いて、先ほど作成した内部ネットワークを共有します。

f:id:StateMachine:20140721155502p:plain

続いて、Sandbox側のIPv4 プロパティを開いて、以下のように設定します(IPは変えないでください)

f:id:StateMachine:20140721161209p:plain

これでネットワーク設定は終わりです。

Sandboxイメージの取り込み

仮想マシンのインポートを選びます。ウィザードが起動するので、以下の手順で取り込みを行います。

f:id:StateMachine:20140721160150p:plain

f:id:StateMachine:20140721160310p:plain

f:id:StateMachine:20140721160318p:plain

f:id:StateMachine:20140721160332p:plain

仮想マシンを起動して、立ち上がれば準備完了です。

f:id:StateMachine:20140721160517p:plain

とりあえず、ここまで。