「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次  †
概要  †
- Apache Spark ベースのビッグデータ分析プラットフォーム
 
- Azure HDInsightとの違いは、
- Apache Sparkに特化している。
 
- Hadoop テクノロジ スタックをドロップ
HDFSではない、データ ソースを使用できる。
- データ レイク(Azure Blob Storage or Azure Data Lake Storage)
 
- その他、Azure Cosmos DB、Azure SQL Data Warehouseなど。
 
 
 
- ビッグデータ分析ワークロードで利用する。
- ETLのようなバッチ処理
 
- データ・パイプラインの過程
 
- データ・サイエンティスト向けのフル稼働の計算資源
には向かない(→ Data Science Virtual Machines)。 
 
らしい。
詳細  †
取り敢えず、.NET for Apache Spark ガイドのコンテンツをやってみる。
(Get started in 10 minutes)
※ 無料試用版サブスクリプションは利用不可との事。
ワークスペースを作成  †
ワークスペースの作成には数分かかる。
ツールのインストール  †
Databricks CLI には、Python 3.6 以降が必要
設定  †
- ホスト URLの入力
 
- ワークスペース起動
 
- トークンを
 
アプリの発行  †
- ターゲットはubuntu
 
- publishしたものをpublish.zipにまとめる。
 
ワーカーの依存関係のダウンロード  †
次のファイルをダウンロードする。
- Microsoft.Spark.Worker
 
- install-worker.sh
 
- db-init.sh
 
※ *.shの行の終わりは Unix 形式 (LF) であることを確認
※ https://github.com/dotnet/spark/tree/master/deployment
ファイルのアップロード  †
次のファイルをアップロードする。
- 発行したアプリ
- publish.zip
 
input.txt 
- microsoft-spark-2-4_2.11-1.0.0.jar(ローカル実行で使用したもの)
 
 
- 依存関係
- Microsoft.Spark.Worker
 
- install-worker.sh
 
 
- db-init.sh
 
クラスタの作成  †
- Initスクリプトを db-init.sh に設定
 
- db-init.sh 内で install-worker.sh が構成される($1-3をパラメタライズ)。
 
※ install-worker.sh は、.NET for Apache Spark 依存ファイルをクラスタのノードにコピーする。
ジョブの作成  †
spark-submit を構成
アプリの実行  †
- ここで、Initスクリプトが実行される。
 
- ジョブのクラスタが作成されるまで数分かかる。
 
- 新しく構成した Spark クラスタでジョブが実行される。
 
リソースのクリーンアップ  †
リソース グループを削除する。
クラスタの作成中のdb-init.sh 設定+アプリの実行
≒ スクリプト アクション実行
参考  †
gihyo.jp … 技術評論社  †
クリエーションライン株式会社  †
Microsoft Azure  †
Microsoft Docs  †
Azure Databricks のドキュメント  †
https://docs.microsoft.com/ja-jp/azure/databricks/
- チュートリアル
- Docker コンテナで稼働している SQL Server に対するクエリ
 
- Azure Key Vault を使用したストレージへのアクセス
 
- Cosmos DB サービス エンドポイントの使用
 
- ETL 操作の実行
 
- Event Hubs を使用したデータのストリーミング
 
- Cognitive Services を使用した感情分析
 
 
.NET、C#  †
...
- チュートリアル
- .NET for Apache Spark アプリケーションをデプロイする
 
 
- Channel 9 > .NET for Apache Spark 101
Deploy .NET for Apache Spark App to
 
Tags: :クラウド, :Azure