HDPとは、Hortonworks社(http://jp.hortonworks.com/)が提供するHadoop ディストリビューションです。正式には、Hortonworks Data Platformと言い、Azureが提供するHDInsightのベース ディストリビューションでもあります。
簡単にお試しできるよう、Sanboxとして、VMWare/Virtualbox/Hyper-Vの各イメージが公開されているのでこれを利用すると便利です。ここでは、Hyper-Vのイメージを利用してセットアップしてみようと思います。ちなみに、OSはCentOSとなっています。
各コンポーネントのバージョン
インストール前にHDP2.1 の各コンポーネントバージョンを確認してみましょう。
Component | VL |
---|---|
Hortonworks Data Platform (HDP) | 2.1 |
HDInsight | 3.1 |
Apache Hadoop & YARN | 2.4.0 |
Tez | 0.4.0 |
Apache Pig | 0.12.1 |
Apache Hive & HCatalog | 0.13.0 |
HBase | 0.96.1 |
Apache Sqoop | 1.4.4 |
Apache Oozie | 4.0.0 |
Apache HCatalog | Merged with Hive |
Apache Templeton | Merged with Hive |
Ambari | 1.5.1 |
Zookeeper | 3.4.5 |
Mahout | 0.9.0 |
詳細やHDInsightとの比較は以下のURLを参考にするといいでしょう。
- http://jp.hortonworks.com/products/hortonworks-sandbox/
- http://azure.microsoft.com/en-us/documentation/articles/hdinsight-component-versioning/
イメージのダウンロード
ここ(Download Hadoop)からイメージがダウンロードできますので、ダウンロードしたあと展開しましょう。Hyper-Vイメージが取得できます。
Hypver-Vの設定
ここでは、Windows 8.1のHyper-Vを用いてセットアップします。まずは、Windowsの機能の有効化から設定しましょう。
仮想ネットワークの設定
Sandboxイメージではあらかじめ利用するネットワークが決まっているため、それに従って設定します。
Hyper-V マネージャを起動して、仮想スイッチの作成を選択します。「内部」を選択し、仮想スイッチの作成を押します。
仮想スイッチ名に「Sandbox Network」と命名します。
Ethernetのプロパティを開いて、先ほど作成した内部ネットワークを共有します。
続いて、Sandbox側のIPv4 プロパティを開いて、以下のように設定します(IPは変えないでください)
これでネットワーク設定は終わりです。
Sandboxイメージの取り込み
仮想マシンのインポートを選びます。ウィザードが起動するので、以下の手順で取り込みを行います。
仮想マシンを起動して、立ち上がれば準備完了です。
とりあえず、ここまで。