マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

Apache Sparkベースのビッグデータ、統合データ分析プラットフォーム

用途

ビッグデータ分析ワークロードで利用する。

コンセプト

DataとAIの⺠主化

「DataとAIの⺠主化」を実現する機能

レイクハウス

データ領域とか、そう言う概念はあるらしい。

詳細

機能

業務領域

データ種類

処理タイプ

拡張性

コラボレーション

同時編集・コメント・ロギング機能にて、チームでの開発を加速

デジタルイニシアティブ実⾏体制

⾔語

多⾔語対応にて、スキルの壁を跨いでコラボレーション

スタック

データレイク

DELTA LAKE

DELTA ENGINE

上モノ

違い

OSS版との違い

...

クラウド・サービスOSS
DELTA LAKEDELTA LAKE
DELTA ENGINE

Azure HDInsightとの違い

上モノ

多様なユースケース

さまざまなデータソースから集約された、
⾼品質なデータセットにアクセス可能であるため、
1つのプラットフォーム上で多様なユースケースを実現可能。

Workspace

機械学習のツールの課題に対するソリューション

MLflow

機械学習のデプロイの課題に対するソリューション

開発デプロイ

開発

.NET for Apache SparkガイドのGet started in 10 minutesをやる。

デプロイ

取り敢えず、.NET for Apache Spark ガイドのデプロイ・コンテンツをやってみる。

※ 無料試用版サブスクリプションは利用不可との事。
 ただし、従量課金制サブスクリプションで14 日間の無料の試用版を使用可能。
 ただし、Databricksユニットには課金されないが、クラスタのVMには課金される。

ワークスペースを作成

ワークスペースの作成には数分かかる。

ツールのインストール

設定

アプリの発行

ワーカーの依存関係のダウンロード

次のファイルをダウンロードする。

※ *.shの行の終わりは Unix 形式 (LF) であることを確認
https://github.com/dotnet/spark/tree/master/deployment

ファイルのアップロード

次のファイルをアップロードする(Databricks CLI

クラスタの作成

※ install-worker.sh は、.NET for Apache Spark 依存ファイルをクラスタのノードにコピーする。

ジョブの作成

WebのGUIを使用して、spark-submit を構成

["--class","org.apache.spark.deploy.dotnet.DotnetRunner","/dbfs/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar","/dbfs/spark-dotnet/publish.zip","mySparkApp"]

同様に、多分、引数にinput.txtを足す必要があるのではないか?と。

アプリの実行

リソースのクリーンアップ

リソース グループを削除する。

Azure HDInsightとの比較

クラスタの作成中のdb-init.sh 設定アプリの実行

スクリプト アクション実行

チュートリアル

参考

YouTube?

gihyo.jp … 技術評論社

クリエーションライン株式会社

Microsoft Azure

Microsoft Docs

Azure Databricks のドキュメント

https://docs.microsoft.com/ja-jp/azure/databricks/

.NET、C#

.NET for Apache Spark ガイド

...

YouTube?

slideshare.net

開発基盤部会 Wiki & Blog


Tags: :クラウド, :Azure


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS