マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

  • Hadoopテクノロジ スタックを使用した
    エンタープライズ向けデータ分析マネージド・サービス
  • Hadoopテクノロジ スタック
    • Hadoop
    • Apache Spark
    • Apache Hive
    • LLAP
    • Apache Kafka
    • Apache Storm
    • R

※ 今後、メイン・ストリームは、Azure Databricksに移って行く。

詳細

開発デプロイ実行

取り敢えず、.NET for Apache Spark ガイドのコンテンツをやってみる。

開発

(Get started in 10 minutes)

デプロイ

※ 無料試用版サブスクリプションで利用可能との事。

ストレージ・アカウントにアクセスする

HDInsight クラスタの作成

  • [+ リソースの作成] を選択
  • 次に、 [分析] カテゴリから [HDInsight] を選択
  • [基本] の値を指定
  • [ストレージ] で値を指定してBLOBコンテナをマウント

アプリの発行

  • ターゲットはubuntu
    >dotnet publish -c Release -f netcoreapp3.1 -r ubuntu.16.04-x64
  • publishしたものをpublish.zipにまとめる。

依存関係のダウンロード

ファイルのアップロード

次のファイルをアップロードする。

  • 発行したアプリ
    • publish.zip
    • input.txt
    • microsoft-spark-2-4_2.11-1.0.0.jar(ローカル実行で使用したもの)
  • 依存関係
    • Microsoft.Spark.Worker(ローカル実行で使用したものに対応するLinux版の*.tar.gz)
    • install-worker.sh
    • db-init.sh
  • ポイント
    • 詳細はコチラ(Azure Databricks)
    • クラスタのストレージ用に選択した BLOBコンテナにアップロード。
      • Azure Storage Explorerを開いて、
      • 左側のメニューからストレージ アカウントに移動、
      • ストレージ アカウント内の [BLOB コンテナー] で、
      • クラスターの BLOB コンテナーをドリルダウンする。

実行

スクリプト アクションを実行

  • クラスタで install-worker.sh スクリプトを実行($1-3をパラメタライズ)
  • 約 20 分で、Linux(ubuntu)ベースのHDInsight Spark クラスタが作成される。

アプリの実行

  • SSHでターミナルにログインする。
  • マウントされたストレージにinput.txtをアップロード
    • BLOB コンテナー内の user/sshuser ディレクトリ
    • エラーログを確認して、/user/sshuser/input.txtにアップロードとか...
  • spark-submit コマンドを使用して、
    HDInsight クラスタでアプリケーションを実行する。
    $SPARK_HOME/bin/spark-submit \
    --master yarn \
    --class org.apache.spark.deploy.dotnet.DotnetRunner \
    wasbs://<container_name>@<storage_account_name>.blob.core.windows.net/microsoft-spark-2-4_2.11-1.0.0.jar \
    wasbs://<container_name>@<storage_account_name>.blob.core.windows.net/publish.zip mySparkApp

※ wasbs://~は、

  • WASB(Windows Azure Storage Blob)を参照するためのURI。
  • 実際の <container_name>@<storage_account_name>に置き換える。

実行に必要となる引数が存在する場合、Azure Databricksではコチラの方法で指定可能だった。

リソースのクリーンアップ

リソース グループを削除する。

Azure Databricksとの比較

スクリプト アクション実行

≒ Azure Databricksのクラスタの作成中のdb-init.sh 設定アプリの実行

チュートリアル

参考

gihyo.jp … 技術評論社

クリエーションライン株式会社

Microsoft Azurez

Microsoft Docs

Azure HDInsight

https://docs.microsoft.com/ja-jp/azure/hdinsight/

  • チュートリアル
  • HDInsight クラスターの作成
  • HDInsight クラスターの管理
  • その他
    • Runbook を使用してクラスターを作成する
    • Apache Ambari のメール通知
    • ETL パイプラインの作成
  • サンプル
    • Azure CLI のサンプル
    • .NET のサンプル
    • Java のサンプル
    • Python のサンプル
    • Azure サンプル ブラウザ

.NET、C#

  • Apache Hadoop
  • Interactive Query
  • Apache Storm

.NET for Apache Spark ガイド

...

開発基盤部会 Wiki & Blog


Tags: :クラウド, :ビッグデータ, :Azure


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2021-09-21 (火) 17:19:58 (4d)