マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

Apache Sparkベースのビッグデータ、統合データ分析プラットフォーム

  • Apache Spark、Delta Lake、および MLflow の作成者によって設立

用途

ビッグデータ分析ワークロードで利用する。

  • ETLのようなバッチ処理
  • データ・パイプラインの過程
  • データ・サイエンティスト向けのフル稼働の計算資源
    には向かない(→ Data Science Virtual Machines)。

コンセプト

DataとAIの⺠主化

「DataとAIの⺠主化」を実現する機能

レイクハウス

  • ただ、
  • ブロンズ
  • シルバー
  • ゴールド

データ領域とか、そう言う概念はあるらしい。

詳細

機能

業務領域

  • ビジネス分析(BI/レポート)
  • ⾃由検索(SQLアナリティクス)
  • 機械学習(+深層学習)

データ種類

  • 構造化(CRM(のRDB)など)
  • 半構造化(JSON/XMLなど)
  • ⾮構造化(画像・動画など)

処理タイプ

拡張性

  • ストレージ拡張
  • リソース拡張
  • クラウド(マネージドサービス)

コラボレーション

同時編集・コメント・ロギング機能にて、チームでの開発を加速

  • ビジネス・アナリスト
  • データ・サイエンティスト
  • データ・エンジニア

デジタルイニシアティブ実⾏体制

⾔語

多⾔語対応にて、スキルの壁を跨いでコラボレーション

  • SQL
  • Python/R
  • Scala

アーキテクチャ

コントロール プレーン

  • MSFTサブスクリプションにデプロイされる。
  • クラスタを構成するドライバーとワーカー両方のノードに使用するVMを管理する。

データ プレーン

  • 自サブスクリプションのVNETにデプロイされる。
    • MSFTが管理するVNET
    • 自身で管理するVNET
  • サーバーレス プールを使用することもできる?

Azure Kubernetes Service (AKS)

スタック

データレイク

  • 多種多様な全てのデータをデータレイクに格納

DELTA LAKE

  • 以下を実現する
  • ⾼信頼性
    • ACIDトランザクション
    • タイムトラベル / スナップショット
    • バッチとストリーミング統合(Apache Spark
    • スキーマ妥当性検証とエボリューション
  • ⾼性能
    Apache Spark Optimized Engine
    • インデックス
    • コンパクション
    • データスキッピング
    • キャッシング
  • オープンソースのオープンな形式をベース(Parquet)

DELTA ENGINE

  • SQL分析・ダッシュボード(要するにウワモノ)の⾼速化を⽀える。
  • 高性能なクエリ・エンジン。
  • Spark SQLとDataFrame? APIのワークロードを加速させる。
    • インプットを⾃動的にキャッシュ化
    • Apache Sparkのオプティマイザを拡張
    • ネイティブ(C++)でベクトル化された実⾏エンジン(Photon)

上モノ

セキュリティ

暗号化

  • 保存時の暗号化
    ストレージ系サービスの標準的な方式
    • サービス マネージド キー(Microsoft が管理)
    • ユーザー マネージド キー(Key Vaultと併用して管理)

AzAD を使用

RBAC と IAM を利用可能。

  • アクセス制御
    • クラスタ
    • ノートブックとフォルダー
    • テーブルとビュー
    • Azure Data Lake Storage (ADLS)
    • ジョブの実行結果

ネットワーク

  • VNet インジェクション
    • データ プレーン リソースを独自 VNet にデプロイ
    • 以下が利用可能になる。
      • 独自 VNetへのネットワーク・アクセス
      • 独自 VNetからのネットワーク・アクセス

違い

OSS版との違い

...

クラウド・サービスOSS
DELTA LAKEDELTA LAKE
DELTA ENGINE

Azure HDInsightとの違い

上モノ

多様なユースケース

さまざまなデータソースから集約された、
⾼品質なデータセットにアクセス可能であるため、
1つのプラットフォーム上で多様なユースケースを実現可能。

  • Redash
    BI レポート&ダッシュボード

Workspace

機械学習のツールの課題に対するソリューション

  • データ・サイエンスチームの⽣産性を向上
  • 1つのプラットフォームにて多種多様な
    ツール・⾔語・フレームワークを利⽤可能
  • コラボレーション可能なノートブック

MLflow

機械学習のデプロイの課題に対するソリューション

  • 標準化された機械学習ライフサイクル

    モデル学習→ モデル登録→ モデル⽐較→ 承認ワークフロー→ モデルデプロイ

  • シームレスにセキュアに機械学習モデルをステージングから本番環境へ連携可能
  • MLflowトラッキング
    • 実験のトラッキングと検索
    • レコードとクエリの実験:コード、データ、コンフィグ、結果
  • MLflowプロジェクト
    • 再現可能なプロジェクト
    • あらゆるプラットフォームで再現可能なように
      パッケージ化されたデータ・サイエンス・コード
  • MLflowモデル・レジストリ
    • モデル管理とレビュー
    • セントラルのレポジトリーにて
      モデルを保存、注釈付与、管理
  • MLflowモデル・サービング
    • 柔軟なデプロイ⽅法
    • 機械学習モデルを様々な環境に簡易にデプロイ可能
    • RESTエンドポイント

チュートリアル

参考

gihyo.jp … 技術評論社

クリエーションライン株式会社

ナレコムAzureレシピ

https://azure-recipe.kc-cloud.jp/category/databricks/

  • Databricks でワインの品質を予測するモデルを構築

Microsoft Azure

Microsoft Docs

Azure Databricks のドキュメント

https://docs.microsoft.com/ja-jp/azure/databricks/

  • クイックスタート
    ワークスペースの作成
    • ポータル
    • Azure PowerShell
    • ARM テンプレート
    • 仮想ネットワーク
  • チュートリアル
    • Docker コンテナで稼働している SQL Server に対するクエリ
    • Azure Key Vault を使用したストレージへのアクセス
    • Cosmos DB サービス エンドポイントの使用
    • ETL 操作の実行
    • Event Hubs を使用したデータのストリーミング
    • Cognitive Services を使用した感情分析

.NET for Apache Spark ガイド

...

Learn

YouTube?

slideshare.net

開発基盤部会 Wiki & Blog


Tags: :クラウド, :ビッグデータ, :Azure


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2021-09-21 (火) 17:20:12 (4d)