マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

  • Hadoop テクノロジ スタックを使用した
    エンタープライズ向けデータ分析マネージド・サービス
  • Hadoop テクノロジ スタック
    • Hadoop
    • Apache Spark
    • Apache Hive
    • LLAP
    • Apache Kafka
    • Apache Storm
    • R

詳細

取り敢えず、.NET for Apache Spark ガイドのコンテンツをやってみる。

開発

(Get started in 10 minutes)

デプロイ

※ 無料試用版サブスクリプションで利用可能との事。

ストレージ アカウントにアクセスする

  • Azure Storage Explorerを使用する。
  • 後述の「クラスタの作成」で必要になるため(≒前提)。

アプリの発行

  • ターゲットはubuntu
    >dotnet publish -c Release -f netcoreapp3.1 -r ubuntu.16.04-x64
  • publishしたものをpublish.zipにまとめる。

ワーカーの依存関係のダウンロード

次のファイルをダウンロードする。

  • Microsoft.Spark.Worker(ローカル実行で使用したものに対応するLinux版の*.tar.gz)
  • install-worker.sh

※ *.shの行の終わりは Unix 形式 (LF) であることを確認
https://github.com/dotnet/spark/tree/master/deployment

ファイルのアップロード

次のファイルをアップロードする(Azure Storage Explorer)。

  • 発行したアプリ
    • publish.zip
    • input.txt
    • microsoft-spark-2-4_2.11-1.0.0.jar(ローカル実行で使用したもの)
  • 依存関係
    • Microsoft.Spark.Worker(ローカル実行で使用したものに対応するLinux版の*.tar.gz)
    • install-worker.sh

クラスタの作成

  • HDInsight Spark クラスタを作成
  • Linux(ubuntu)ベース
  • クラスタの作成には約 20 分かかる。

スクリプト アクションを実行

クラスタで install-worker.sh スクリプトを実行($1-3をパラメタライズ)

※ install-worker.sh は、.NET for Apache Spark 依存ファイルをクラスタのノードにコピーする。

アプリの実行

  • SSHでターミナルにログインする。
  • マウントされたストレージにinput.txtをアップロード
    (エラーログを確認して、/user/sshuser/input.txtにアップロードとか...)
  • spark-submit コマンドを使用して、
    HDInsight クラスタでアプリケーションを実行する。
    $SPARK_HOME/bin/spark-submit \
    --master yarn \
    --class org.apache.spark.deploy.dotnet.DotnetRunner \
    wasbs://<container_name>@<storage_account_name>.blob.core.windows.net/microsoft-spark-2-4_2.11-1.0.0.jar \
    wasbs://<container_name>@<storage_account_name>.blob.core.windows.net/publish.zip mySparkApp
    ※ wasbs://~は、
      ・WASB(Windows Azure Storage Blob)を参照するためのURI。
      ・実際の <container_name>@<storage_account_name>に置き換える。
    ※ 多分、引数にinput.txtを足す必要があるのではないか?と。
      ・チュートリアルに寄って、input.txtが、パラメタ化されていたりいなかったりする。
      ・引数の足し方は、spark-submitの仕様を参照(ZIP利用は言語バインディングの拡張っポイ)

リソースのクリーンアップ

リソース グループを削除する。

Azure Databricksとの比較

スクリプト アクション実行

≒ Azure Databricksのクラスタの作成中のdb-init.sh 設定アプリの実行

参考

gihyo.jp … 技術評論社

クリエーションライン株式会社

Microsoft Azurez

Microsoft Docs

Azure HDInsight

https://docs.microsoft.com/ja-jp/azure/hdinsight/

  • チュートリアル
  • HDInsight クラスターの作成
  • HDInsight クラスターの管理
  • その他
    • Runbook を使用してクラスターを作成する
    • Apache Ambari のメール通知
    • ETL パイプラインの作成
  • サンプル
    • Azure CLI のサンプル
    • .NET のサンプル
    • Java のサンプル
    • Python のサンプル
    • Azure サンプル ブラウザ

.NET、C#

  • Apache Hadoop
  • Interactive Query
  • Apache Storm

.NET for Apache Spark ガイド

...

開発基盤部会 Wiki

ビッグデータ

分散処理

Hadoop


Tags: :クラウド, :Azure


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-11-20 (金) 15:05:54 (5d)