「[[マイクロソフト系技術情報 Wiki>http://techinfoofmicrosofttech.osscons.jp/]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。

-[[戻る>Azure]]
--[[ビッグデータ処理テクノロジ>Azureのビッグデータ処理テクノロジ]]
---[[Azure HDInsight]]
---Azure Databricks
---[[Azure Data Factory]]
---[[Elastic on Azure]]

--[[ストリーム処理テクノロジ>Azureのストリーム処理テクノロジ]]
---[[Azure Stream Analytics]]
---[[Azure HDInsight]]のHadoop、Spark、Storm
---Azure DatabricksのApache Spark
---[[Azure Data Factory]]

--[[AzureのAI系サービス]]
--[[AI系サービス>AzureのAI系サービス]]
---[[Azure Machine Learning]]
---Azure Databricks
---[[Azure Cognitive Services]]
---[[Azure OpenAI Service]]
---[[Azure Applied AI Services]]
---[[Azure AI インフラストラクチャ]]

* 目次 [#b3cd9b45]
#contents

*概要 [#y566e931]
-[[分散処理基盤であるApache Spark>.NET for Apache Spark#zf579f45]]ベースの~
ビッグデータ、統合データ分析プラットフォーム

-Apache Spark、Delta Lake、および MLflow の作成者によって設立

**用途 [#b0c50859]
ビッグデータ分析ワークロードで利用する。

-ETLのようなバッチ処理

-データ・パイプラインの過程

-データ・サイエンティスト向けのフル稼働の計算資源~
には向かない(→ Data Science Virtual Machines)。

**コンセプト [#kb93e337]

***DataとAIの⺠主化 [#b96b6657]
「DataとAIの⺠主化」を実現する[[機能>#l991a5dd]]

***レイクハウス [#j83930a1]
-[[データレイク>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E3%83%93%E3%82%B8%E3%83%8D%E3%82%B9%20%E3%82%A4%E3%83%B3%E3%83%86%E3%83%AA%E3%82%B8%E3%82%A7%E3%83%B3%E3%82%B9%EF%BC%88BI%EF%BC%89#w2d56f91]]と[[データウェアハウス>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E3%83%93%E3%82%B8%E3%83%8D%E3%82%B9%20%E3%82%A4%E3%83%B3%E3%83%86%E3%83%AA%E3%82%B8%E3%82%A7%E3%83%B3%E3%82%B9%EF%BC%88BI%EF%BC%89#f38a28c0]]の特徴を併せ持つ。

-ただ、

--ブロンズ
--シルバー
--ゴールド

>データ領域とか、そう言う概念はあるらしい。

*詳細 [#afef169b]

**機能 [#l991a5dd]

***業務領域 [#g23cba0c]
-ビジネス分析(BI/レポート)
-⾃由検索(SQLアナリティクス)
-機械学習(+深層学習)

***データ種類 [#l968c047]
-構造化(CRM(のRDB)など)
-半構造化(JSON/XMLなど)
-⾮構造化(画像・動画など)

***処理タイプ [#va2ed102]
-[[バッチ処理>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E5%88%86%E6%95%A3%E5%87%A6%E7%90%86%EF%BC%9A%E5%88%86%E6%95%A3%EF%BC%88%E3%83%90%E3%83%83%E3%83%81%EF%BC%89%E7%B3%BB#jb20d368]]
-[[ストリーミング処理>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E5%88%86%E6%95%A3%E5%87%A6%E7%90%86%EF%BC%9A%E3%82%B9%E3%83%88%E3%83%AA%E3%83%BC%E3%83%A0%E7%B3%BB#ef4cce53]]

***拡張性 [#rce6d352]
-ストレージ拡張
-リソース拡張
-クラウド(マネージドサービス)

***コラボレーション [#f9ea99ee]
同時編集・コメント・ロギング機能にて、チームでの開発を加速

-ビジネス・アナリスト
-データ・サイエンティスト
-データ・エンジニア

→ [[デジタルイニシアティブ実⾏体制>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E3%83%A6%E3%83%BC%E3%82%B9%E3%82%B1%E3%83%BC%E3%82%B9%E6%A4%9C%E8%A8%BC%EF%BC%88DX%E7%B3%BB%EF%BC%89#c2fbca4c]]

***⾔語 [#q263a4f6]
多⾔語対応にて、スキルの壁を跨いでコラボレーション
-SQL
-Python/R
-Scala

**アーキテクチャ [#m54b6289]

***コントロール プレーン [#c58a1cc2]
-MSFTサブスクリプションにデプロイされる。
-クラスタを構成するドライバーとワーカー両方のノードに使用するVMを管理する。

***データ プレーン [#ucce16dc]
-自サブスクリプションのVNETにデプロイされる。
--MSFTが管理するVNET
--自身で管理するVNET

-サーバーレス プールを使用することもできる?

***[[Azure Kubernetes Service (AKS)]] [#t09497e8]
-[[データ プレーン>#ucce16dc]]では、[[Azure Kubernetes Service (AKS)]]が使用される。
-NvMe SSD を使用するDv3 VM上で動作するコンテナ上で動作する。

**スタック [#q7dd27f7]

***データレイク [#idf2578e]
-[[データレイクとは>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E3%83%93%E3%82%B8%E3%83%8D%E3%82%B9%20%E3%82%A4%E3%83%B3%E3%83%86%E3%83%AA%E3%82%B8%E3%82%A7%E3%83%B3%E3%82%B9%EF%BC%88BI%EF%BC%89#w2d56f91]]

-多種多様な全てのデータをデータレイクに格納

--[[Azure Blob Storage>Azureのストレージ#w947118f]]
--[[Azure Data Lake Storage>Azure Data Lake]]

--その他
---[[Azure Cosmos DB]]
---[[Azure SQL Data Warehouse、Azure Synapse>Azure Synapse]]

***DELTA LAKE [#ca1bd94b]
-[[⾼信頼性、⾼性能 ≒ ⾼品質なデータレイク ≒ レイクハウス>#j83930a1]]の構築

-以下を実現する

--⾼信頼性
---ACIDトランザクション
---タイムトラベル / スナップショット
---バッチとストリーミング統合([[Apache Spark>.NET for Apache Spark#zf579f45]])
---スキーマ妥当性検証とエボリューション

--⾼性能~
[[Apache Spark>.NET for Apache Spark#zf579f45]] Optimized Engine
---インデックス
---コンパクション
---データスキッピング
---キャッシング

--オープンソースのオープンな形式をベース(Parquet)

***DELTA ENGINE [#f58ecd98]
-SQL分析・ダッシュボード(要するにウワモノ)の⾼速化を⽀える。

-高性能なクエリ・エンジン。

--[[Apache Spark>.NET for Apache Spark#zf579f45]] 3.0で開発されている。

--Spark SQLとDataFrame APIのワークロードを加速させる。
---インプットを⾃動的にキャッシュ化
---[[Apache Spark>.NET for Apache Spark#zf579f45]]のオプティマイザを拡張
---ネイティブ(C++)でベクトル化された実⾏エンジン(Photon)

***[[上モノ>#wc8ad36f]] [#ue991f43]

**セキュリティ [#k6fe9cbd]

***暗号化 [#ubc5a413]
-保存時の暗号化~
ストレージ系サービスの標準的な方式
--サービス マネージド キー(Microsoft が管理)
--ユーザー マネージド キー([[Key Vault]]と併用して管理)

-転送中の暗号化([[TLS>SSL/TLS]])~
[[コントロール プレーン>#c58a1cc2]] → [[データ プレーン>#ucce16dc]]へのトラフィック

***[[AzAD>Azure Active Directory]] を使用 [#p82be925]
[[RBAC>Role Based Access Control (RBAC)]] と IAM を利用可能。

-アクセス制御
--クラスタ
--ノートブックとフォルダー
--テーブルとビュー
--Azure Data Lake Storage (ADLS)
--ジョブの実行結果

-[[AzADトークンのサポート>Microsoft Azure Active Directory#he1b97f0]]

***ネットワーク [#q021b5f2]
-[[VNet ピアリング>Azureの仮想ネットワーク ピアリング]](標準デプロイ時)

-VNet インジェクション
--[[データ プレーン>#ucce16dc]] リソースを独自 VNet にデプロイ
--以下が利用可能になる。
---独自 VNetへのネットワーク・アクセス
---独自 VNetからのネットワーク・アクセス

**違い [#r7bb634f]

***OSS版との違い [#c54edad8]
...

|クラウド・サービス|OSS|h
|DELTA LAKE|DELTA LAKE|
|DELTA ENGINE|-|
|||
|||

***[[Azure HDInsight]]との違い [#p816d80e]
-[[Apache Spark>.NET for Apache Spark#zf579f45]]に特化している。
-[[Hadoop>.NET for Apache Spark#zf579f45]]テクノロジ スタックをドロップ~
HDFSではない、[[データ ソース>#idf2578e]]を使用できる。~

**上モノ [#wc8ad36f]

***多様なユースケース [#obdccdb9]
さまざまなデータソースから集約された、~
⾼品質なデータセットにアクセス可能であるため、~
1つのプラットフォーム上で多様なユースケースを実現可能。

-Redash~
BI レポート&ダッシュボード

***Workspace [#ge2cf6f2]
[[機械学習のツールの課題>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%EF%BC%88machine%20learning%EF%BC%89#k8891d05]]に対するソリューション

-データ・サイエンスチームの⽣産性を向上
-1つのプラットフォームにて多種多様な~
ツール・⾔語・フレームワークを利⽤可能
-コラボレーション可能な[[ノートブック>Azure DatabricksのNotebook]]

***MLflow [#d551b469]
[[機械学習のデプロイの課題>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%EF%BC%88machine%20learning%EF%BC%89#xb2b49c0]]に対するソリューション

-標準化された機械学習ライフサイクル
>モデル学習→ モデル登録→ モデル⽐較→ 承認ワークフロー→ モデルデプロイ

-シームレスにセキュアに機械学習モデルをステージングから本番環境へ連携可能

--MLflowトラッキング
---実験のトラッキングと検索
---レコードとクエリの実験:コード、データ、コンフィグ、結果

--MLflowプロジェクト
---再現可能なプロジェクト
---あらゆるプラットフォームで再現可能なように~
パッケージ化されたデータ・サイエンス・コード

--MLflowモデル・レジストリ
---モデル管理とレビュー
---セントラルのレポジトリーにて~
モデルを保存、注釈付与、管理

--MLflowモデル・サービング
---柔軟なデプロイ⽅法
---機械学習モデルを様々な環境に簡易にデプロイ可能
---RESTエンドポイント

**[[チュートリアル>Azure Databricksチュートリアル]] [#td9a437e]

*参考 [#rb721d92]
**gihyo.jp … 技術評論社 [#f10e8ecf]
-2019年10月17日 "データレイク"のスタンダードをめざす ―~
Databricks,「Delta Lake」をLinux Foundationに寄贈:Linux Daily Topics~
https://gihyo.jp/admin/clip/01/linux_dt/201910/17

**クリエーションライン株式会社 [#zab22aab]
-Azure Databricks の紹介~
'#Microsoft #Azure #DataBricks #spark~
https://www.creationline.com/blog/20865

**ナレコムAzureレシピ [#g8816121]
https://azure-recipe.kc-cloud.jp/category/databricks/

-[[Azure Databricksを使ってみた>https://azure-recipe.kc-cloud.jp/2018/08/azure-databricks/]]

-[[Databricks Introduction について簡単にまとめてみた>https://azure-recipe.kc-cloud.jp/2020/05/databricks-introduction-%e3%81%ab%e3%81%a4%e3%81%84%e3%81%a6%e7%b0%a1%e5%8d%98%e3%81%ab%e3%81%be%e3%81%a8%e3%82%81%e3%81%a6%e3%81%bf%e3%81%9f/]]

-Azure Databricks:
--[[1. リソースの作成>https://azure-recipe.kc-cloud.jp/2019/07/azure-databricks-1-%e3%83%aa%e3%82%bd%e3%83%bc%e3%82%b9%e3%81%ae%e4%bd%9c%e6%88%90/]]
--[[2. Databricksの基本事項>https://azure-recipe.kc-cloud.jp/2019/07/azure-databricks-2-databricks%e3%81%ae%e5%9f%ba%e6%9c%ac%e4%ba%8b%e9%a0%85/]]

-Databricks事例紹介
--[[~金融編~>https://azure-recipe.kc-cloud.jp/2020/09/databricks-%E4%BA%8B%E4%BE%8B%E7%B4%B9%E4%BB%8B%E3%80%80%E9%87%91%E8%9E%8D%E7%B7%A8/]]
--[[~医療編~>https://azure-recipe.kc-cloud.jp/2020/09/databricks%e4%ba%8b%e4%be%8b%e7%b4%b9%e4%bb%8b%e3%80%80%ef%bd%9e%e5%8c%bb%e7%99%82%e7%b7%a8%ef%bd%9e/]]
--[[~教育編~>https://azure-recipe.kc-cloud.jp/2020/09/databrciks-%e4%ba%8b%e4%be%8b%e7%b4%b9%e4%bb%8b%e3%80%80%e6%95%99%e8%82%b2%e7%b7%a8/]]
--[[~コンシューマー編~>https://azure-recipe.kc-cloud.jp/2020/09/databricks%e4%ba%8b%e4%be%8b%e7%b4%b9%e4%bb%8b-%e3%82%b3%e3%83%b3%e3%82%b7%e3%83%a5%e3%83%bc%e3%83%9e%e3%83%bc%e7%b7%a8/]]
--[[~メディア編~>https://azure-recipe.kc-cloud.jp/2020/09/databricks%E4%BA%8B%E4%BE%8B%E7%B4%B9%E4%BB%8B%E3%80%80%EF%BD%9E%E3%83%A1%E3%83%87%E3%82%A3%E3%82%A2%E7%B7%A8%EF%BD%9E/]]

-【はじめての Databricks】金融取引データから異常検知
--[[#1 導入/環境構築>https://azure-recipe.kc-cloud.jp/2020/09/%e3%80%90%e3%81%af%e3%81%98%e3%82%81%e3%81%a6%e3%81%ae-databricks%e3%80%91%e9%87%91%e8%9e%8d%e5%8f%96%e5%bc%95%e3%83%87%e3%83%bc%e3%82%bf%e3%81%8b%e3%82%89%e7%95%b0%e5%b8%b8%e6%a4%9c%e7%9f%a5-1/]]
--[[#2 データ可視化>https://azure-recipe.kc-cloud.jp/2020/09/%e3%80%90%e3%81%af%e3%81%98%e3%82%81%e3%81%a6%e3%81%ae-databricks%e3%80%91%e9%87%91%e8%9e%8d%e5%8f%96%e5%bc%95%e3%83%87%e3%83%bc%e3%82%bf%e3%81%8b%e3%82%89%e7%95%b0%e5%b8%b8%e6%a4%9c%e7%9f%a5-2/]]
--[[#3 Anomaly Detector>https://azure-recipe.kc-cloud.jp/2020/09/%e3%80%90%e3%81%af%e3%81%98%e3%82%81%e3%81%a6%e3%81%ae-databricks%e3%80%91%e9%87%91%e8%9e%8d%e5%8f%96%e5%bc%95%e3%83%87%e3%83%bc%e3%82%bf%e3%81%8b%e3%82%89%e7%95%b0%e5%b8%b8%e6%a4%9c%e7%9f%a5-3-anoma/]]
--[[#4 初期モデル構築>https://azure-recipe.kc-cloud.jp/2020/09/%e3%80%90%e3%81%af%e3%81%98%e3%82%81%e3%81%a6%e3%81%ae-databricks%e3%80%91%e9%87%91%e8%9e%8d%e5%8f%96%e5%bc%95%e3%83%87%e3%83%bc%e3%82%bf%e3%81%8b%e3%82%89%e7%95%b0%e5%b8%b8%e6%a4%9c%e7%9f%a5-4/]]
--[[#5 リモデル/モデル比較>https://azure-recipe.kc-cloud.jp/2020/09/%e3%80%90%e3%81%af%e3%81%98%e3%82%81%e3%81%a6%e3%81%ae-databricks%e3%80%91%e9%87%91%e8%9e%8d%e5%8f%96%e5%bc%95%e3%83%87%e3%83%bc%e3%82%bf%e3%81%8b%e3%82%89%e7%95%b0%e5%b8%b8%e6%a4%9c%e7%9f%a5-5/]]

-Databricks でワインの品質を予測するモデルを構築
--[[1>https://azure-recipe.kc-cloud.jp/2020/09/databricks-%e3%81%a7%e3%83%af%e3%82%a4%e3%83%b3%e3%81%ae%e5%93%81%e8%b3%aa%e3%82%92%e4%ba%88%e6%b8%ac%e3%81%99%e3%82%8b%e3%83%a2%e3%83%87%e3%83%ab%e3%82%92%e6%a7%8b%e7%af%89-2/]]
--[[2>https://azure-recipe.kc-cloud.jp/2020/09/databricks-%e3%81%a7%e3%83%af%e3%82%a4%e3%83%b3%e3%81%ae%e5%93%81%e8%b3%aa%e3%82%92%e4%ba%88%e6%b8%ac%e3%81%99%e3%82%8b%e3%83%a2%e3%83%87%e3%83%ab%e3%82%92%e6%a7%8b%e7%af%89-2/]]

-[[Excel / Azure Notebook / Databricks で同じことをやってみる>Azure DatabricksのNotebook#e1edc0f2]]

**Microsoft Azure [#p2e0aecc]
-Azure Databricks~
https://azure.microsoft.com/ja-jp/services/databricks/

**Microsoft Docs [#g14ff8ee]

***Azure Databricks のドキュメント [#ff0425ed]
https://docs.microsoft.com/ja-jp/azure/databricks/

-概要~
https://docs.microsoft.com/ja-jp/azure/databricks/scenarios/what-is-azure-databricks

-クイックスタート~
ワークスペースの作成
--ポータル
--Azure PowerShell
--ARM テンプレート
--仮想ネットワーク

-チュートリアル
--Docker コンテナで稼働している SQL Server に対するクエリ
--Azure Key Vault を使用したストレージへのアクセス
--Cosmos DB サービス エンドポイントの使用
--ETL 操作の実行
--Event Hubs を使用したデータのストリーミング
--Cognitive Services を使用した感情分析

-リファレンス
--Databricks CLI~
https://docs.microsoft.com/ja-jp/azure/databricks/dev-tools/cli/

***[[.NET for Apache Spark ガイド>.NET for Apache Spark#w086a731]] [#qb9ddd3a]
...

-使い方ガイド
--[[データーへの接続>.NET for Apache Sparkチュートリアル#zd2d65ee]]
--リモート ジョブを送信する
---Databricks にジョブを送信する~
https://docs.microsoft.com/ja-jp/dotnet/spark/how-to-guides/databricks-deploy-methods

-[[チュートリアル>.NET for Apache Sparkチュートリアル#zd2d65ee]]
--.NET for Apache Spark アプリケーションをデプロイする~
---Azure Databricks~
https://docs.microsoft.com/ja-jp/dotnet/spark/tutorials/databricks-deployment

-Channel 9 > .NET for Apache Spark 101~
Deploy .NET for Apache Spark App to
--Azure Databricks [7 of 8]~
https://channel9.msdn.com/Series/NET-for-Apache-Spark-101/Deploy-NET-for-Apache-Spark-App-to-Azure-Databricks

***Learn [#kc5cc4cf]
-Azure Databricks を使用した Data Engineering~
https://docs.microsoft.com/ja-jp/learn/paths/data-engineer-azure-databricks/
--Azure Databricks の説明~
https://docs.microsoft.com/ja-jp/learn/modules/describe-azure-databricks/
--Spark アーキテクチャの基礎~
https://docs.microsoft.com/ja-jp/learn/modules/spark-architecture-fundamentals/
--Azure Databricks でデータの~
読み取りと書き込みを行う~
https://docs.microsoft.com/ja-jp/learn/modules/read-write-data-azure-databricks/
--Azure Databricks におけるプラットフォーム~
アーキテクチャ、セキュリティ、データ保護について説明する~
https://docs.microsoft.com/ja-jp/learn/modules/describe-platform-architecture-security-data-protection-azure-databricks/
--Delta Lake の構築とクエリ~
https://docs.microsoft.com/ja-jp/learn/modules/build-query-delta-lake/
--Azure Data Factory を使用して~
Azure Databricks の運用ワークロードを作成する~
https://docs.microsoft.com/ja-jp/learn/modules/create-production-workloads-azure-databricks-azure-data-factory/
--Azure DevOps を使用した CI/CD の実装~
https://docs.microsoft.com/ja-jp/learn/modules/implement-ci-cd-azure-devops/
--Azure Databricks を Azure Synapse と統合する~
https://docs.microsoft.com/ja-jp/learn/modules/integrate-azure-databricks-other-azure-services/
--Azure Databricks のベスト プラクティスについて説明する~
https://docs.microsoft.com/ja-jp/learn/modules/describe-azure-databricks-best-practices/

--[[DataFrames(Spark SQL)関連>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?Spark%20SQL#k9380484]]

**YouTube [#v0862266]
-はじめての Azure Databricks | 日本マイクロソフト~
https://www.youtube.com/watch?v=ftoMWOzWncw
-はじめての Azure Databricks ストリーム分析~
https://www.youtube.com/watch?v=N8q8iCJzt34

**slideshare.net [#n69e6bdc]
-アプリケーション開発者のためのAzure Databricks入門~
https://www2.slideshare.net/yokawasa/azure-databricks-111821479
-[Microsoft Tech Summit 2018] Azure Machine Learning サービスと Azure Datab…~
https://www2.slideshare.net/satonaoki/20181107techsummitazuremldatabricks

**[[開発基盤部会 Wiki & Blog>.NET for Apache Spark#zf579f45]] [#i55f4082]

----
Tags: [[:インフラストラクチャ]], [[:クラウド]], [[:ビッグデータ]], [[:Azure]]

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS