マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

Apache Sparkベースのビッグデータ、統合データ分析プラットフォーム

用途

ビッグデータ分析ワークロードで利用する。

コンセプト

DataとAIの⺠主化

「DataとAIの⺠主化」を実現する機能

レイクハウス

データ領域とか、そう言う概念はあるらしい。

詳細

機能

業務領域

データ種類

処理タイプ

拡張性

コラボレーション

同時編集・コメント・ロギング機能にて、チームでの開発を加速

デジタルイニシアティブ実⾏体制

⾔語

多⾔語対応にて、スキルの壁を跨いでコラボレーション

スタック

データレイク

DELTA LAKE

DELTA ENGINE

上モノ

1つのプラットフォーム上で多様なユースケース

違い

OSSとの違い

クラウド・サービスOSS
DELTA LAKEDELTA LAKE
DELTA ENGINE

Azure HDInsightとの違い

開発デプロイ

取り敢えず、.NET for Apache Spark ガイドのコンテンツをやってみる。

開発

(Get started in 10 minutes)

デプロイ

※ 無料試用版サブスクリプションは利用不可との事。

ワークスペースを作成

ワークスペースの作成には数分かかる。

ツールのインストール

設定

アプリの発行

ワーカーの依存関係のダウンロード

次のファイルをダウンロードする。

※ *.shの行の終わりは Unix 形式 (LF) であることを確認
https://github.com/dotnet/spark/tree/master/deployment

ファイルのアップロード

次のファイルをアップロードする(Databricks CLI

クラスタの作成

※ install-worker.sh は、.NET for Apache Spark 依存ファイルをクラスタのノードにコピーする。

ジョブの作成

WebのGUIを使用して、spark-submit を構成

["--class","org.apache.spark.deploy.dotnet.DotnetRunner","/dbfs/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar","/dbfs/spark-dotnet/publish.zip","mySparkApp"]

同様に、多分、引数にinput.txtを足す必要があるのではないか?と。

アプリの実行

リソースのクリーンアップ

リソース グループを削除する。

Azure HDInsightとの比較

クラスタの作成中のdb-init.sh 設定アプリの実行

スクリプト アクション実行

参考

gihyo.jp … 技術評論社

クリエーションライン株式会社

Microsoft Azure

Microsoft Docs

Azure Databricks のドキュメント

https://docs.microsoft.com/ja-jp/azure/databricks/

.NET、C#

.NET for Apache Spark ガイド

...

slideshare.net

開発基盤部会 Wiki & Blog


Tags: :クラウド, :Azure


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS