「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
- Hadoopテクノロジ スタックを使用した
エンタープライズ向けデータ分析マネージド・サービス
- Hadoopテクノロジ スタック
- Hadoop
- Apache Spark
- Apache Hive
- LLAP
- Apache Kafka
- Apache Storm
- R
※ 今後、メイン・ストリームは、Azure Databricksに移って行く。
詳細 †
取り敢えず、.NET for Apache Spark ガイドのコンテンツをやってみる。
(Get started in 10 minutes)
※ 無料試用版サブスクリプションで利用可能との事。
HDInsight クラスタの作成 †
- [+ リソースの作成] を選択
- 次に、 [分析] カテゴリから [HDInsight] を選択
- [基本] の値を指定
- [ストレージ] で値を指定してBLOBコンテナをマウント
アプリの発行 †
- publishしたものをpublish.zipにまとめる。
ファイルのアップロード †
次のファイルをアップロードする。
- 発行したアプリ
- publish.zip
- input.txt
- microsoft-spark-2-4_2.11-1.0.0.jar(ローカル実行で使用したもの)
- 依存関係
- Microsoft.Spark.Worker(ローカル実行で使用したものに対応するLinux版の*.tar.gz)
- install-worker.sh
db-init.sh
実行 †
スクリプト アクションを実行 †
- クラスタで install-worker.sh スクリプトを実行($1-3をパラメタライズ)
- 約 20 分で、Linux(ubuntu)ベースのHDInsight Spark クラスタが作成される。
アプリの実行 †
- マウントされたストレージにinput.txtをアップロード
- BLOB コンテナー内の user/sshuser ディレクトリ
- エラーログを確認して、/user/sshuser/input.txtにアップロードとか...
※ wasbs://~は、
- WASB(Windows Azure Storage Blob)を参照するためのURI。
- 実際の <container_name>@<storage_account_name>に置き換える。
※ 実行に必要となる引数が存在する場合、Azure Databricksではコチラの方法で指定可能だった。
リソースのクリーンアップ †
リソース グループを削除する。
スクリプト アクション実行
≒ Azure Databricksのクラスタの作成中のdb-init.sh 設定+アプリの実行
参考 †
gihyo.jp … 技術評論社 †
クリエーションライン株式会社 †
- HadoopをMicrosoft Azure上で動かしてみる!
Microsoft Azurez †
Microsoft Docs †
Azure HDInsight †
https://docs.microsoft.com/ja-jp/azure/hdinsight/
- その他
- Runbook を使用してクラスターを作成する
- Apache Ambari のメール通知
- ETL パイプラインの作成
- サンプル
- Azure CLI のサンプル
- .NET のサンプル
- Java のサンプル
- Python のサンプル
- Azure サンプル ブラウザ
.NET、C# †
...
- チュートリアル
- .NET for Apache Spark アプリケーションをデプロイする
- Channel 9 > .NET for Apache Spark 101
Deploy .NET for Apache Spark App to
Tags: :インフラストラクチャ, :クラウド, :ビッグデータ, :Azure