「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次  †
概要  †
- Apache Spark、Delta Lake、および MLflow の作成者によって設立
 
用途  †
ビッグデータ分析ワークロードで利用する。
- データ・サイエンティスト向けのフル稼働の計算資源
には向かない(→ Data Science Virtual Machines)。 
コンセプト  †
DataとAIの⺠主化  †
「DataとAIの⺠主化」を実現する機能
レイクハウス  †
データ領域とか、そう言う概念はあるらしい。
詳細  †
機能  †
業務領域  †
- ビジネス分析(BI/レポート)
 
- ⾃由検索(SQLアナリティクス)
 
- 機械学習(+深層学習)
 
データ種類  †
- 構造化(CRM(のRDB)など)
 
- 半構造化(JSON/XMLなど)
 
- ⾮構造化(画像・動画など)
 
処理タイプ  †
拡張性  †
- ストレージ拡張
 
- リソース拡張
 
- クラウド(マネージドサービス)
 
コラボレーション  †
同時編集・コメント・ロギング機能にて、チームでの開発を加速
- ビジネス・アナリスト
 
- データ・サイエンティスト
 
- データ・エンジニア
 
→ デジタルイニシアティブ実⾏体制
⾔語  †
多⾔語対応にて、スキルの壁を跨いでコラボレーション
アーキテクチャ  †
コントロール プレーン  †
- MSFTサブスクリプションにデプロイされる。
 
- クラスタを構成するドライバーとワーカー両方のノードに使用するVMを管理する。
 
データ プレーン  †
- 自サブスクリプションのVNETにデプロイされる。
- MSFTが管理するVNET
 
- 自身で管理するVNET
 
 
スタック  †
データレイク  †
DELTA LAKE  †
- ⾼信頼性
- ACIDトランザクション
 
- タイムトラベル / スナップショット
 
- バッチとストリーミング統合(Apache Spark)
 
- スキーマ妥当性検証とエボリューション
 
 
- ⾼性能
Apache Spark Optimized Engine
- インデックス
 
- コンパクション
 
- データスキッピング
 
- キャッシング
 
 
- オープンソースのオープンな形式をベース(Parquet)
 
DELTA ENGINE  †
- SQL分析・ダッシュボード(要するにウワモノ)の⾼速化を⽀える。
 
- Spark SQLとDataFrame? APIのワークロードを加速させる。
- インプットを⾃動的にキャッシュ化
 
- Apache Sparkのオプティマイザを拡張
 
- ネイティブ(C++)でベクトル化された実⾏エンジン(Photon)
 
 
セキュリティ  †
暗号化  †
- 保存時の暗号化
ストレージ系サービスの標準的な方式
- サービス マネージド キー(Microsoft が管理)
 
- ユーザー マネージド キー(Key Vaultと併用して管理)
 
 
RBAC と IAM を利用可能。
- アクセス制御
- クラスタ
 
- ノートブックとフォルダー
 
- テーブルとビュー
 
- Azure Data Lake Storage (ADLS)
 
- ジョブの実行結果
 
 
ネットワーク  †
- VNet インジェクション
- データ プレーン リソースを独自 VNet にデプロイ
 
- 以下が利用可能になる。
- 独自 VNetへのネットワーク・アクセス
 
- 独自 VNetからのネットワーク・アクセス
 
 
 
違い  †
OSS版との違い  †
...
| クラウド・サービス | OSS | 
| DELTA LAKE | DELTA LAKE | 
| DELTA ENGINE | - | 
 |  | 
 |  | 
 
上モノ  †
多様なユースケース  †
さまざまなデータソースから集約された、
⾼品質なデータセットにアクセス可能であるため、
1つのプラットフォーム上で多様なユースケースを実現可能。
Workspace  †
機械学習のツールの課題に対するソリューション
- データ・サイエンスチームの⽣産性を向上
 
- 1つのプラットフォームにて多種多様な
ツール・⾔語・フレームワークを利⽤可能 
- コラボレーション可能なノートブック
 
MLflow  †
機械学習のデプロイの課題に対するソリューション
- 標準化された機械学習ライフサイクル
モデル学習→ モデル登録→ モデル⽐較→ 承認ワークフロー→ モデルデプロイ
 
- シームレスにセキュアに機械学習モデルをステージングから本番環境へ連携可能
 
- MLflowトラッキング
- 実験のトラッキングと検索
 
- レコードとクエリの実験:コード、データ、コンフィグ、結果
 
 
- MLflowプロジェクト
- 再現可能なプロジェクト
 
- あらゆるプラットフォームで再現可能なように
パッケージ化されたデータ・サイエンス・コード 
 
- MLflowモデル・レジストリ
- モデル管理とレビュー
 
- セントラルのレポジトリーにて
モデルを保存、注釈付与、管理 
 
- MLflowモデル・サービング
- 柔軟なデプロイ⽅法
 
- 機械学習モデルを様々な環境に簡易にデプロイ可能
 
- RESTエンドポイント
 
 
参考  †
gihyo.jp … 技術評論社  †
クリエーションライン株式会社  †
ナレコムAzureレシピ  †
https://azure-recipe.kc-cloud.jp/category/databricks/
- 【はじめての Databricks】金融取引データから異常検知
 
- Databricks でワインの品質を予測するモデルを構築
 
Microsoft Azure  †
Microsoft Docs  †
Azure Databricks のドキュメント  †
https://docs.microsoft.com/ja-jp/azure/databricks/
- チュートリアル
- Docker コンテナで稼働している SQL Server に対するクエリ
 
- Azure Key Vault を使用したストレージへのアクセス
 
- Cosmos DB サービス エンドポイントの使用
 
- ETL 操作の実行
 
- Event Hubs を使用したデータのストリーミング
 
- Cognitive Services を使用した感情分析
 
 
...
- チュートリアル
- .NET for Apache Spark アプリケーションをデプロイする
 
 
- Channel 9 > .NET for Apache Spark 101
Deploy .NET for Apache Spark App to
 
Learn  †
YouTube?  †
slideshare.net  †
Tags: :インフラストラクチャ, :クラウド, :ビッグデータ, :Azure