「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
- Apache Spark、Delta Lake、および MLflow の作成者によって設立
用途 †
ビッグデータ分析ワークロードで利用する。
- データ・サイエンティスト向けのフル稼働の計算資源
には向かない(→ Data Science Virtual Machines)。
コンセプト †
DataとAIの⺠主化 †
「DataとAIの⺠主化」を実現する機能
レイクハウス †
データ領域とか、そう言う概念はあるらしい。
詳細 †
機能 †
業務領域 †
- ビジネス分析(BI/レポート)
- ⾃由検索(SQLアナリティクス)
- 機械学習(+深層学習)
データ種類 †
- 構造化(CRM(のRDB)など)
- 半構造化(JSON/XMLなど)
- ⾮構造化(画像・動画など)
処理タイプ †
拡張性 †
- ストレージ拡張
- リソース拡張
- クラウド(マネージドサービス)
コラボレーション †
同時編集・コメント・ロギング機能にて、チームでの開発を加速
- ビジネス・アナリスト
- データ・サイエンティスト
- データ・エンジニア
→ デジタルイニシアティブ実⾏体制
⾔語 †
多⾔語対応にて、スキルの壁を跨いでコラボレーション
アーキテクチャ †
コントロール プレーン †
- MSFTサブスクリプションにデプロイされる。
- クラスタを構成するドライバーとワーカー両方のノードに使用するVMを管理する。
データ プレーン †
- 自サブスクリプションのVNETにデプロイされる。
- MSFTが管理するVNET
- 自身で管理するVNET
スタック †
データレイク †
DELTA LAKE †
- ⾼信頼性
- ACIDトランザクション
- タイムトラベル / スナップショット
- バッチとストリーミング統合(Apache Spark)
- スキーマ妥当性検証とエボリューション
- ⾼性能
Apache Spark Optimized Engine
- インデックス
- コンパクション
- データスキッピング
- キャッシング
- オープンソースのオープンな形式をベース(Parquet)
DELTA ENGINE †
- SQL分析・ダッシュボード(要するにウワモノ)の⾼速化を⽀える。
- Spark SQLとDataFrame? APIのワークロードを加速させる。
- インプットを⾃動的にキャッシュ化
- Apache Sparkのオプティマイザを拡張
- ネイティブ(C++)でベクトル化された実⾏エンジン(Photon)
セキュリティ †
暗号化 †
- 保存時の暗号化
ストレージ系サービスの標準的な方式
- サービス マネージド キー(Microsoft が管理)
- ユーザー マネージド キー(Key Vaultと併用して管理)
RBAC と IAM を利用可能。
- アクセス制御
- クラスタ
- ノートブックとフォルダー
- テーブルとビュー
- Azure Data Lake Storage (ADLS)
- ジョブの実行結果
ネットワーク †
- VNet インジェクション
- データ プレーン リソースを独自 VNet にデプロイ
- 以下が利用可能になる。
- 独自 VNetへのネットワーク・アクセス
- 独自 VNetからのネットワーク・アクセス
違い †
OSS版との違い †
...
クラウド・サービス | OSS |
DELTA LAKE | DELTA LAKE |
DELTA ENGINE | - |
| |
| |
上モノ †
多様なユースケース †
さまざまなデータソースから集約された、
⾼品質なデータセットにアクセス可能であるため、
1つのプラットフォーム上で多様なユースケースを実現可能。
Workspace †
機械学習のツールの課題に対するソリューション
- データ・サイエンスチームの⽣産性を向上
- 1つのプラットフォームにて多種多様な
ツール・⾔語・フレームワークを利⽤可能
- コラボレーション可能なノートブック
MLflow †
機械学習のデプロイの課題に対するソリューション
- 標準化された機械学習ライフサイクル
モデル学習→ モデル登録→ モデル⽐較→ 承認ワークフロー→ モデルデプロイ
- シームレスにセキュアに機械学習モデルをステージングから本番環境へ連携可能
- MLflowトラッキング
- 実験のトラッキングと検索
- レコードとクエリの実験:コード、データ、コンフィグ、結果
- MLflowプロジェクト
- 再現可能なプロジェクト
- あらゆるプラットフォームで再現可能なように
パッケージ化されたデータ・サイエンス・コード
- MLflowモデル・レジストリ
- モデル管理とレビュー
- セントラルのレポジトリーにて
モデルを保存、注釈付与、管理
- MLflowモデル・サービング
- 柔軟なデプロイ⽅法
- 機械学習モデルを様々な環境に簡易にデプロイ可能
- RESTエンドポイント
参考 †
gihyo.jp … 技術評論社 †
クリエーションライン株式会社 †
ナレコムAzureレシピ †
https://azure-recipe.kc-cloud.jp/category/databricks/
- 【はじめての Databricks】金融取引データから異常検知
- Databricks でワインの品質を予測するモデルを構築
Microsoft Azure †
Microsoft Docs †
Azure Databricks のドキュメント †
https://docs.microsoft.com/ja-jp/azure/databricks/
- チュートリアル
- Docker コンテナで稼働している SQL Server に対するクエリ
- Azure Key Vault を使用したストレージへのアクセス
- Cosmos DB サービス エンドポイントの使用
- ETL 操作の実行
- Event Hubs を使用したデータのストリーミング
- Cognitive Services を使用した感情分析
...
- チュートリアル
- .NET for Apache Spark アプリケーションをデプロイする
- Channel 9 > .NET for Apache Spark 101
Deploy .NET for Apache Spark App to
Learn †
YouTube? †
slideshare.net †
Tags: :インフラストラクチャ, :クラウド, :ビッグデータ, :Azure