Azure Databricks のバックアップ(No.43) - マイクロソフト系技術情報 Wiki

[ トップ ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- ビッグデータ処理テクノロジ
  - Azure HDInsight
  - Azure Databricks
  - Azure Data Factory
  - Elastic on Azure

ストリーム処理テクノロジ
- Azure Stream Analytics
- Azure HDInsightのHadoop、Spark、Storm
- Azure DatabricksのApache Spark
- Azure Data Factory

目次 †

目次
概要
- 用途
- コンセプト
  - DataとAIの⺠主化
  - レイクハウス
詳細
参考

概要 †

分散処理基盤であるApache Sparkベースの
ビッグデータ、統合データ分析プラットフォーム

Apache Spark、Delta Lake、および MLflow の作成者によって設立

用途 †

ビッグデータ分析ワークロードで利用する。

ETLのようなバッチ処理

データ・パイプラインの過程

データ・サイエンティスト向けのフル稼働の計算資源
には向かない（→ Data Science Virtual Machines）。

コンセプト †

DataとAIの⺠主化 †

「DataとAIの⺠主化」を実現する機能

レイクハウス †

データレイクとデータウェアハウスの特徴を併せ持つ。

ただ、

ブロンズ
シルバー
ゴールド

データ領域とか、そう言う概念はあるらしい。

詳細 †

機能 †

業務領域 †

ビジネス分析(BI/レポート)
⾃由検索(SQLアナリティクス)
機械学習(+深層学習)

データ種類 †

構造化(CRM(のRDB)など)
半構造化(JSON/XMLなど)
⾮構造化(画像・動画など)

処理タイプ †

拡張性 †

ストレージ拡張
リソース拡張
クラウド(マネージドサービス)

コラボレーション †

同時編集・コメント・ロギング機能にて、チームでの開発を加速

ビジネス・アナリスト
データ・サイエンティスト
データ・エンジニア

→ デジタルイニシアティブ実⾏体制

⾔語 †

多⾔語対応にて、スキルの壁を跨いでコラボレーション

SQL
Python/R
Scala

アーキテクチャ †

コントロールプレーン †

MSFTサブスクリプションにデプロイされる。
クラスタを構成するドライバーとワーカー両方のノードに使用するVMを管理する。

データプレーン †

自サブスクリプションのVNETにデプロイされる。
- MSFTが管理するVNET
- 自身で管理するVNET

サーバーレスプールを使用することもできる？

Azure Kubernetes Service (AKS) †

データプレーンでは、Azure Kubernetes Service (AKS)が使用される。
NvMe? SSD を使用するDv3 VM上で動作するコンテナ上で動作する。

スタック †

データレイク †

データレイクとは

多種多様な全てのデータをデータレイクに格納

その他
- Azure Cosmos DB
- Azure SQL Data Warehouse、Azure Synapse

DELTA LAKE †

⾼信頼性、⾼性能 ≒ ⾼品質なデータレイク ≒ レイクハウスの構築

以下を実現する

⾼信頼性
- ACIDトランザクション
- タイムトラベル / スナップショット
- バッチとストリーミング統合（Apache Spark）
- スキーマ妥当性検証とエボリューション

⾼性能
Apache Spark Optimized Engine
- インデックス
- コンパクション
- データスキッピング
- キャッシング

オープンソースのオープンな形式をベース(Parquet)

DELTA ENGINE †

SQL分析・ダッシュボード（要するにウワモノ）の⾼速化を⽀える。

高性能なクエリ・エンジン。

Apache Spark 3.0で開発されている。

Spark SQLとDataFrame? APIのワークロードを加速させる。
- インプットを⾃動的にキャッシュ化
- Apache Sparkのオプティマイザを拡張
- ネイティブ（C++）でベクトル化された実⾏エンジン（Photon）

上モノ †

セキュリティ †

暗号化 †

保存時の暗号化
ストレージ系サービスの標準的な方式
- サービスマネージドキー（Microsoft が管理）
- ユーザーマネージドキー（Key Vaultと併用して管理）

転送中の暗号化（TLS）
コントロールプレーン → データプレーンへのトラフィック

AzAD を使用 †

RBAC と IAM を利用可能。

アクセス制御
- クラスタ
- ノートブックとフォルダー
- テーブルとビュー
- Azure Data Lake Storage (ADLS)
- ジョブの実行結果

AzADトークンのサポート

ネットワーク †

VNet ピアリング（標準デプロイ時）

VNet インジェクション
- データプレーンリソースを独自 VNet にデプロイ
- 以下が利用可能になる。
  - 独自 VNetへのネットワーク・アクセス
  - 独自 VNetからのネットワーク・アクセス

違い †

OSS版との違い †

...

クラウド・サービス	OSS
DELTA LAKE	DELTA LAKE
DELTA ENGINE	－

Azure HDInsightとの違い †

Apache Sparkに特化している。
Hadoopテクノロジスタックをドロップ
HDFSではない、データソースを使用できる。

上モノ †

多様なユースケース †

さまざまなデータソースから集約された、
⾼品質なデータセットにアクセス可能であるため、
１つのプラットフォーム上で多様なユースケースを実現可能。

Redash
BI レポート&ダッシュボード

Workspace †

機械学習のツールの課題に対するソリューション

データ・サイエンスチームの⽣産性を向上
1つのプラットフォームにて多種多様な
ツール・⾔語・フレームワークを利⽤可能
コラボレーション可能なノートブック

MLflow †

機械学習のデプロイの課題に対するソリューション

標準化された機械学習ライフサイクル
モデル学習→ モデル登録→ モデル⽐較→ 承認ワークフロー→ モデルデプロイ

シームレスにセキュアに機械学習モデルをステージングから本番環境へ連携可能

MLflowトラッキング
- 実験のトラッキングと検索
- レコードとクエリの実験：コード、データ、コンフィグ、結果

MLflowプロジェクト
- 再現可能なプロジェクト
- あらゆるプラットフォームで再現可能なように
  パッケージ化されたデータ・サイエンス・コード

MLflowモデル・レジストリ
- モデル管理とレビュー
- セントラルのレポジトリーにて
  モデルを保存、注釈付与、管理

MLflowモデル・サービング
- 柔軟なデプロイ⽅法
- 機械学習モデルを様々な環境に簡易にデプロイ可能
- RESTエンドポイント

チュートリアル †

参考 †

gihyo.jp … 技術評論社 †

2019年10月17日　"データレイク"のスタンダードをめざす ―
Databricks，「Delta Lake」をLinux Foundationに寄贈：Linux Daily Topics
https://gihyo.jp/admin/clip/01/linux_dt/201910/17

クリエーションライン株式会社 †

Azure Databricks の紹介
'#Microsoft #Azure #DataBricks? #spark
https://www.creationline.com/blog/20865

ナレコムAzureレシピ †

https://azure-recipe.kc-cloud.jp/category/databricks/

Azure Databricksを使ってみた

Databricks Introduction について簡単にまとめてみた

Azure Databricks:
- 1. リソースの作成
- 2. Databricksの基本事項

Databricks事例紹介

【はじめての Databricks】金融取引データから異常検知

Databricks でワインの品質を予測するモデルを構築
- １
- ２

Excel / Azure Notebook / Databricks で同じことをやってみる

Microsoft Azure †

Azure Databricks
https://azure.microsoft.com/ja-jp/services/databricks/

Microsoft Docs †

Azure Databricks のドキュメント †

https://docs.microsoft.com/ja-jp/azure/databricks/

概要
https://docs.microsoft.com/ja-jp/azure/databricks/scenarios/what-is-azure-databricks

クイックスタート
ワークスペースの作成
- ポータル
- Azure PowerShell
- ARM テンプレート
- 仮想ネットワーク

チュートリアル
- Docker コンテナで稼働している SQL Server に対するクエリ
- Azure Key Vault を使用したストレージへのアクセス
- Cosmos DB サービスエンドポイントの使用
- ETL 操作の実行
- Event Hubs を使用したデータのストリーミング
- Cognitive Services を使用した感情分析

リファレンス
- Databricks CLI
  https://docs.microsoft.com/ja-jp/azure/databricks/dev-tools/cli/

.NET for Apache Spark ガイド †

...

使い方ガイド
- データーへの接続
- リモートジョブを送信する
  - Databricks にジョブを送信する
    https://docs.microsoft.com/ja-jp/dotnet/spark/how-to-guides/databricks-deploy-methods

チュートリアル
- .NET for Apache Spark アプリケーションをデプロイする
  - Azure Databricks
    https://docs.microsoft.com/ja-jp/dotnet/spark/tutorials/databricks-deployment

Channel 9 > .NET for Apache Spark 101
Deploy .NET for Apache Spark App to
- Azure Databricks [7 of 8]
  https://channel9.msdn.com/Series/NET-for-Apache-Spark-101/Deploy-NET-for-Apache-Spark-App-to-Azure-Databricks

Learn †

Azure Databricks を使用した Data Engineering
https://docs.microsoft.com/ja-jp/learn/paths/data-engineer-azure-databricks/
- Azure Databricks の説明
  https://docs.microsoft.com/ja-jp/learn/modules/describe-azure-databricks/
- Spark アーキテクチャの基礎
  https://docs.microsoft.com/ja-jp/learn/modules/spark-architecture-fundamentals/
- Azure Databricks でデータの
  読み取りと書き込みを行う
  https://docs.microsoft.com/ja-jp/learn/modules/read-write-data-azure-databricks/
- Azure Databricks におけるプラットフォーム
  アーキテクチャ、セキュリティ、データ保護について説明する
  https://docs.microsoft.com/ja-jp/learn/modules/describe-platform-architecture-security-data-protection-azure-databricks/
- Delta Lake の構築とクエリ
  https://docs.microsoft.com/ja-jp/learn/modules/build-query-delta-lake/
- Azure Data Factory を使用して
  Azure Databricks の運用ワークロードを作成する
  https://docs.microsoft.com/ja-jp/learn/modules/create-production-workloads-azure-databricks-azure-data-factory/
- Azure DevOps を使用した CI/CD の実装
  https://docs.microsoft.com/ja-jp/learn/modules/implement-ci-cd-azure-devops/
- Azure Databricks を Azure Synapse と統合する
  https://docs.microsoft.com/ja-jp/learn/modules/integrate-azure-databricks-other-azure-services/
- Azure Databricks のベストプラクティスについて説明する
  https://docs.microsoft.com/ja-jp/learn/modules/describe-azure-databricks-best-practices/

DataFrames（Spark SQL）関連

YouTube? †

はじめての Azure Databricks | 日本マイクロソフト
https://www.youtube.com/watch?v=ftoMWOzWncw
はじめての Azure Databricks ストリーム分析
https://www.youtube.com/watch?v=N8q8iCJzt34

slideshare.net †

アプリケーション開発者のためのAzure Databricks入門
https://www2.slideshare.net/yokawasa/azure-databricks-111821479
[Microsoft Tech Summit 2018] Azure Machine Learning サービスと Azure Datab…
https://www2.slideshare.net/satonaoki/20181107techsummitazuremldatabricks

開発基盤部会 Wiki & Blog †

Tags: :インフラストラクチャ, :クラウド, :ビッグデータ, :Azure