「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
- Apache Spark ベースのビッグデータ分析プラットフォーム
- Azure HDInsightとの違いは、
- Apache Sparkに特化している。
- Hadoop テクノロジ スタックをドロップ
HDFSではない、データ ソースを使用できる。
- データ レイク(Azure Blob Storage or Azure Data Lake Storage)
- その他、Azure Cosmos DB、Azure SQL Data Warehouseなど。
- ビッグデータ分析ワークロードで利用する。
- ETLのようなバッチ処理
- データ・パイプラインの過程
- データ・サイエンティスト向けのフル稼働の計算資源
には向かない(→ Data Science Virtual Machines)。
らしい。
詳細 †
取り敢えず、.NET for Apache Spark ガイドのコンテンツをやってみる。
(Get started in 10 minutes)
※ 無料試用版サブスクリプションは利用不可との事。
ワークスペースを作成 †
ワークスペースの作成には数分かかる。
ツールのインストール †
- インストールの確認
>databricks
...
設定 †
アプリの発行 †
- publishしたものをpublish.zipにまとめる。
ワーカーの依存関係のダウンロード †
次のファイルをダウンロードする。
- Microsoft.Spark.Worker
- install-worker.sh
- db-init.sh
※ *.shの行の終わりは Unix 形式 (LF) であることを確認
※ https://github.com/dotnet/spark/tree/master/deployment
ファイルのアップロード †
次のファイルをアップロードする。
- 発行したアプリ
- publish.zip
input.txt
- microsoft-spark-2-4_2.11-1.0.0.jar(ローカル実行で使用したもの)
- 依存関係
- Microsoft.Spark.Worker
- install-worker.sh
- db-init.sh
クラスタの作成 †
- Initスクリプトを db-init.sh に設定
- db-init.sh 内で install-worker.sh が構成される($1-3をパラメタライズ)。
※ install-worker.sh は、.NET for Apache Spark 依存ファイルをクラスタのノードにコピーする。
ジョブの作成 †
spark-submit を構成
アプリの実行 †
- ここで、Initスクリプトが実行される。
- ジョブのクラスタが作成されるまで数分かかる。
- 新しく構成した Spark クラスタでジョブが実行される。
リソースのクリーンアップ †
リソース グループを削除する。
クラスタの作成中のdb-init.sh 設定+アプリの実行
≒ スクリプト アクション実行
参考 †
gihyo.jp … 技術評論社 †
クリエーションライン株式会社 †
Microsoft Azure †
Microsoft Docs †
Azure Databricks のドキュメント †
https://docs.microsoft.com/ja-jp/azure/databricks/
- チュートリアル
- Docker コンテナで稼働している SQL Server に対するクエリ
- Azure Key Vault を使用したストレージへのアクセス
- Cosmos DB サービス エンドポイントの使用
- ETL 操作の実行
- Event Hubs を使用したデータのストリーミング
- Cognitive Services を使用した感情分析
.NET、C# †
...
- チュートリアル
- .NET for Apache Spark アプリケーションをデプロイする
- Channel 9 > .NET for Apache Spark 101
Deploy .NET for Apache Spark App to
Tags: :クラウド, :Azure