マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

Apache Sparkベースのビッグデータ、統合データ分析プラットフォーム

用途

ビッグデータ分析ワークロードで利用する。

コンセプト

DataとAIの⺠主化

「DataとAIの⺠主化」を実現する機能

レイクハウス

データ領域とか、そう言う概念はあるらしい。

詳細

機能

業務領域

データ種類

処理タイプ

拡張性

コラボレーション

同時編集・コメント・ロギング機能にて、チームでの開発を加速

デジタルイニシアティブ実⾏体制

⾔語

多⾔語対応にて、スキルの壁を跨いでコラボレーション

アーキテクチャ

Databricks アプライアンス

サーバーレス プール

サーバーレス プールを使用することもできる。

Azure Kubernetes Service (AKS)

内部では、Azure Kubernetes Service (AKS)が使用される。

スタック

データレイク

DELTA LAKE

DELTA ENGINE

上モノ

セキュリティ

Azure Key Vault

違い

OSS版との違い

...

クラウド・サービスOSS
DELTA LAKEDELTA LAKE
DELTA ENGINE

Azure HDInsightとの違い

上モノ

多様なユースケース

さまざまなデータソースから集約された、
⾼品質なデータセットにアクセス可能であるため、
1つのプラットフォーム上で多様なユースケースを実現可能。

Workspace

機械学習のツールの課題に対するソリューション

MLflow

機械学習のデプロイの課題に対するソリューション

開発デプロイ実行

開発

.NET for Apache SparkガイドのGet started in 10 minutesをやる。

デプロイ

取り敢えず、.NET for Apache Spark ガイドのデプロイ・コンテンツをやってみる。

無料試用版

Azureの無料試用版サブスクリプションは利用不可との事。

ワークスペースを作成

ツールのインストール

ツールの設定

アプリの発行

依存関係のダウンロード

※ URL : https://github.com/dotnet/spark/tree/master/deployment

※ *.shの行の終わりは Unix 形式 (LF) であることを確認

ファイルのアップロード

次のファイルをアップロードする

実行

以下のように、ジョブの作成して実行する。

ジョブを作成する。

ワークスペース(Databricks のポータル・サイト)

spark-submitの構成

初めに、[Task]の[Type]を[Notebook]から[Spark Submit]に変更する。

クラスタ構成の設定

次に、Clusterの[Edit]を選択し、Configure New Clusterを表示させる。

※ コレにより、db-init.sh 内で install-worker.sh が構成される($1-3をパラメタライズ)。

パラメタの設定

アプリの実行

リソースのクリーンアップ

Azure HDInsightとの比較

クラスタの作成中のdb-init.sh 設定アプリの実行

スクリプト アクション実行

チュートリアル

参考

gihyo.jp … 技術評論社

クリエーションライン株式会社

ナレコムAzureレシピ

https://azure-recipe.kc-cloud.jp/category/databricks/

Microsoft Azure

Microsoft Docs

Azure Databricks のドキュメント

https://docs.microsoft.com/ja-jp/azure/databricks/

.NET for Apache Spark ガイド

...

Learn

YouTube?

slideshare.net

開発基盤部会 Wiki & Blog


Tags: :クラウド, :ビッグデータ, :Azure


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS