「[[マイクロソフト系技術情報 Wiki>http://techinfoofmicrosofttech.osscons.jp/]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。 -[[戻る>Azure]] --[[ビッグデータ処理テクノロジ>Azureのビッグデータ処理テクノロジ]] ---[[Azure HDInsight]] ---Azure Databricks ---[[Azure Data Factory]] ---[[Elastic on Azure]] --[[ストリーム処理テクノロジ>Azureのストリーム処理テクノロジ]] ---[[Azure Stream Analytics]] ---[[Azure HDInsight]]のHadoop、Spark、Storm ---Azure DatabricksのApache Spark ---[[Azure Data Factory]] --[[AzureのAI系サービス]] --[[AI系サービス>AzureのAI系サービス]] ---[[Azure Machine Learning]] ---Azure Databricks ---[[Azure Cognitive Services]] ---[[Azure OpenAI Service]] ---[[Azure Applied AI Services]] ---[[Azure AI インフラストラクチャ]] * 目次 [#b3cd9b45] #contents *概要 [#y566e931] -[[分散処理基盤であるApache Spark>.NET for Apache Spark#zf579f45]]ベースの~ ビッグデータ、統合データ分析プラットフォーム -Apache Spark、Delta Lake、および MLflow の作成者によって設立 **用途 [#b0c50859] ビッグデータ分析ワークロードで利用する。 -ETLのようなバッチ処理 -データ・パイプラインの過程 -データ・サイエンティスト向けのフル稼働の計算資源~ には向かない(→ Data Science Virtual Machines)。 **コンセプト [#kb93e337] ***DataとAIの⺠主化 [#b96b6657] 「DataとAIの⺠主化」を実現する[[機能>#l991a5dd]] ***レイクハウス [#j83930a1] -[[データレイク>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E3%83%93%E3%82%B8%E3%83%8D%E3%82%B9%20%E3%82%A4%E3%83%B3%E3%83%86%E3%83%AA%E3%82%B8%E3%82%A7%E3%83%B3%E3%82%B9%EF%BC%88BI%EF%BC%89#w2d56f91]]と[[データウェアハウス>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E3%83%93%E3%82%B8%E3%83%8D%E3%82%B9%20%E3%82%A4%E3%83%B3%E3%83%86%E3%83%AA%E3%82%B8%E3%82%A7%E3%83%B3%E3%82%B9%EF%BC%88BI%EF%BC%89#f38a28c0]]の特徴を併せ持つ。 -ただ、 --ブロンズ --シルバー --ゴールド >データ領域とか、そう言う概念はあるらしい。 *詳細 [#afef169b] **機能 [#l991a5dd] ***業務領域 [#g23cba0c] -ビジネス分析(BI/レポート) -⾃由検索(SQLアナリティクス) -機械学習(+深層学習) ***データ種類 [#l968c047] -構造化(CRM(のRDB)など) -半構造化(JSON/XMLなど) -⾮構造化(画像・動画など) ***処理タイプ [#va2ed102] -[[バッチ処理>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E5%88%86%E6%95%A3%E5%87%A6%E7%90%86%EF%BC%9A%E5%88%86%E6%95%A3%EF%BC%88%E3%83%90%E3%83%83%E3%83%81%EF%BC%89%E7%B3%BB#jb20d368]] -[[ストリーミング処理>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E5%88%86%E6%95%A3%E5%87%A6%E7%90%86%EF%BC%9A%E3%82%B9%E3%83%88%E3%83%AA%E3%83%BC%E3%83%A0%E7%B3%BB#ef4cce53]] ***拡張性 [#rce6d352] -ストレージ拡張 -リソース拡張 -クラウド(マネージドサービス) ***コラボレーション [#f9ea99ee] 同時編集・コメント・ロギング機能にて、チームでの開発を加速 -ビジネス・アナリスト -データ・サイエンティスト -データ・エンジニア → [[デジタルイニシアティブ実⾏体制>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E3%83%A6%E3%83%BC%E3%82%B9%E3%82%B1%E3%83%BC%E3%82%B9%E6%A4%9C%E8%A8%BC%EF%BC%88DX%E7%B3%BB%EF%BC%89#c2fbca4c]] ***⾔語 [#q263a4f6] 多⾔語対応にて、スキルの壁を跨いでコラボレーション -SQL -Python/R -Scala **アーキテクチャ [#m54b6289] ***コントロール プレーン [#c58a1cc2] -MSFTサブスクリプションにデプロイされる。 -クラスタを構成するドライバーとワーカー両方のノードに使用するVMを管理する。 ***データ プレーン [#ucce16dc] -自サブスクリプションのVNETにデプロイされる。 --MSFTが管理するVNET --自身で管理するVNET -サーバーレス プールを使用することもできる? ***[[Azure Kubernetes Service (AKS)]] [#t09497e8] -[[データ プレーン>#ucce16dc]]では、[[Azure Kubernetes Service (AKS)]]が使用される。 -NvMe SSD を使用するDv3 VM上で動作するコンテナ上で動作する。 **スタック [#q7dd27f7] ***データレイク [#idf2578e] -[[データレイクとは>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E3%83%93%E3%82%B8%E3%83%8D%E3%82%B9%20%E3%82%A4%E3%83%B3%E3%83%86%E3%83%AA%E3%82%B8%E3%82%A7%E3%83%B3%E3%82%B9%EF%BC%88BI%EF%BC%89#w2d56f91]] -多種多様な全てのデータをデータレイクに格納 --[[Azure Blob Storage>Azureのストレージ#w947118f]] --[[Azure Data Lake Storage>Azure Data Lake]] --その他 ---[[Azure Cosmos DB]] ---[[Azure SQL Data Warehouse、Azure Synapse>Azure Synapse]] ***DELTA LAKE [#ca1bd94b] -[[⾼信頼性、⾼性能 ≒ ⾼品質なデータレイク ≒ レイクハウス>#j83930a1]]の構築 -以下を実現する --⾼信頼性 ---ACIDトランザクション ---タイムトラベル / スナップショット ---バッチとストリーミング統合([[Apache Spark>.NET for Apache Spark#zf579f45]]) ---スキーマ妥当性検証とエボリューション --⾼性能~ [[Apache Spark>.NET for Apache Spark#zf579f45]] Optimized Engine ---インデックス ---コンパクション ---データスキッピング ---キャッシング --オープンソースのオープンな形式をベース(Parquet) ***DELTA ENGINE [#f58ecd98] -SQL分析・ダッシュボード(要するにウワモノ)の⾼速化を⽀える。 -高性能なクエリ・エンジン。 --[[Apache Spark>.NET for Apache Spark#zf579f45]] 3.0で開発されている。 --Spark SQLとDataFrame APIのワークロードを加速させる。 ---インプットを⾃動的にキャッシュ化 ---[[Apache Spark>.NET for Apache Spark#zf579f45]]のオプティマイザを拡張 ---ネイティブ(C++)でベクトル化された実⾏エンジン(Photon) ***[[上モノ>#wc8ad36f]] [#ue991f43] **セキュリティ [#k6fe9cbd] ***暗号化 [#ubc5a413] -保存時の暗号化~ ストレージ系サービスの標準的な方式 --サービス マネージド キー(Microsoft が管理) --ユーザー マネージド キー([[Key Vault]]と併用して管理) -転送中の暗号化([[TLS>SSL/TLS]])~ [[コントロール プレーン>#c58a1cc2]] → [[データ プレーン>#ucce16dc]]へのトラフィック ***[[AzAD>Azure Active Directory]] を使用 [#p82be925] [[RBAC>Role Based Access Control (RBAC)]] と IAM を利用可能。 -アクセス制御 --クラスタ --ノートブックとフォルダー --テーブルとビュー --Azure Data Lake Storage (ADLS) --ジョブの実行結果 -[[AzADトークンのサポート>Microsoft Azure Active Directory#he1b97f0]] ***ネットワーク [#q021b5f2] -[[VNet ピアリング>Azureの仮想ネットワーク ピアリング]](標準デプロイ時) -VNet インジェクション --[[データ プレーン>#ucce16dc]] リソースを独自 VNet にデプロイ --以下が利用可能になる。 ---独自 VNetへのネットワーク・アクセス ---独自 VNetからのネットワーク・アクセス **違い [#r7bb634f] ***OSS版との違い [#c54edad8] ... |クラウド・サービス|OSS|h |DELTA LAKE|DELTA LAKE| |DELTA ENGINE|-| ||| ||| ***[[Azure HDInsight]]との違い [#p816d80e] -[[Apache Spark>.NET for Apache Spark#zf579f45]]に特化している。 -[[Hadoop>.NET for Apache Spark#zf579f45]]テクノロジ スタックをドロップ~ HDFSではない、[[データ ソース>#idf2578e]]を使用できる。~ **上モノ [#wc8ad36f] ***多様なユースケース [#obdccdb9] さまざまなデータソースから集約された、~ ⾼品質なデータセットにアクセス可能であるため、~ 1つのプラットフォーム上で多様なユースケースを実現可能。 -Redash~ BI レポート&ダッシュボード ***Workspace [#ge2cf6f2] [[機械学習のツールの課題>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%EF%BC%88machine%20learning%EF%BC%89#k8891d05]]に対するソリューション -データ・サイエンスチームの⽣産性を向上 -1つのプラットフォームにて多種多様な~ ツール・⾔語・フレームワークを利⽤可能 -コラボレーション可能な[[ノートブック>Azure DatabricksのNotebook]] ***MLflow [#d551b469] [[機械学習のデプロイの課題>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%EF%BC%88machine%20learning%EF%BC%89#xb2b49c0]]に対するソリューション -標準化された機械学習ライフサイクル >モデル学習→ モデル登録→ モデル⽐較→ 承認ワークフロー→ モデルデプロイ -シームレスにセキュアに機械学習モデルをステージングから本番環境へ連携可能 --MLflowトラッキング ---実験のトラッキングと検索 ---レコードとクエリの実験:コード、データ、コンフィグ、結果 --MLflowプロジェクト ---再現可能なプロジェクト ---あらゆるプラットフォームで再現可能なように~ パッケージ化されたデータ・サイエンス・コード --MLflowモデル・レジストリ ---モデル管理とレビュー ---セントラルのレポジトリーにて~ モデルを保存、注釈付与、管理 --MLflowモデル・サービング ---柔軟なデプロイ⽅法 ---機械学習モデルを様々な環境に簡易にデプロイ可能 ---RESTエンドポイント **[[チュートリアル>Azure Databricksチュートリアル]] [#td9a437e] *参考 [#rb721d92] **gihyo.jp … 技術評論社 [#f10e8ecf] -2019年10月17日 "データレイク"のスタンダードをめざす ―~ Databricks,「Delta Lake」をLinux Foundationに寄贈:Linux Daily Topics~ https://gihyo.jp/admin/clip/01/linux_dt/201910/17 **クリエーションライン株式会社 [#zab22aab] -Azure Databricks の紹介~ '#Microsoft #Azure #DataBricks #spark~ https://www.creationline.com/blog/20865 **ナレコムAzureレシピ [#g8816121] https://azure-recipe.kc-cloud.jp/category/databricks/ -[[Azure Databricksを使ってみた>https://azure-recipe.kc-cloud.jp/2018/08/azure-databricks/]] -[[Databricks Introduction について簡単にまとめてみた>https://azure-recipe.kc-cloud.jp/2020/05/databricks-introduction-%e3%81%ab%e3%81%a4%e3%81%84%e3%81%a6%e7%b0%a1%e5%8d%98%e3%81%ab%e3%81%be%e3%81%a8%e3%82%81%e3%81%a6%e3%81%bf%e3%81%9f/]] -Azure Databricks: --[[1. リソースの作成>https://azure-recipe.kc-cloud.jp/2019/07/azure-databricks-1-%e3%83%aa%e3%82%bd%e3%83%bc%e3%82%b9%e3%81%ae%e4%bd%9c%e6%88%90/]] --[[2. Databricksの基本事項>https://azure-recipe.kc-cloud.jp/2019/07/azure-databricks-2-databricks%e3%81%ae%e5%9f%ba%e6%9c%ac%e4%ba%8b%e9%a0%85/]] -Databricks事例紹介 --[[~金融編~>https://azure-recipe.kc-cloud.jp/2020/09/databricks-%E4%BA%8B%E4%BE%8B%E7%B4%B9%E4%BB%8B%E3%80%80%E9%87%91%E8%9E%8D%E7%B7%A8/]] --[[~医療編~>https://azure-recipe.kc-cloud.jp/2020/09/databricks%e4%ba%8b%e4%be%8b%e7%b4%b9%e4%bb%8b%e3%80%80%ef%bd%9e%e5%8c%bb%e7%99%82%e7%b7%a8%ef%bd%9e/]] --[[~教育編~>https://azure-recipe.kc-cloud.jp/2020/09/databrciks-%e4%ba%8b%e4%be%8b%e7%b4%b9%e4%bb%8b%e3%80%80%e6%95%99%e8%82%b2%e7%b7%a8/]] --[[~コンシューマー編~>https://azure-recipe.kc-cloud.jp/2020/09/databricks%e4%ba%8b%e4%be%8b%e7%b4%b9%e4%bb%8b-%e3%82%b3%e3%83%b3%e3%82%b7%e3%83%a5%e3%83%bc%e3%83%9e%e3%83%bc%e7%b7%a8/]] --[[~メディア編~>https://azure-recipe.kc-cloud.jp/2020/09/databricks%E4%BA%8B%E4%BE%8B%E7%B4%B9%E4%BB%8B%E3%80%80%EF%BD%9E%E3%83%A1%E3%83%87%E3%82%A3%E3%82%A2%E7%B7%A8%EF%BD%9E/]] -【はじめての Databricks】金融取引データから異常検知 --[[#1 導入/環境構築>https://azure-recipe.kc-cloud.jp/2020/09/%e3%80%90%e3%81%af%e3%81%98%e3%82%81%e3%81%a6%e3%81%ae-databricks%e3%80%91%e9%87%91%e8%9e%8d%e5%8f%96%e5%bc%95%e3%83%87%e3%83%bc%e3%82%bf%e3%81%8b%e3%82%89%e7%95%b0%e5%b8%b8%e6%a4%9c%e7%9f%a5-1/]] --[[#2 データ可視化>https://azure-recipe.kc-cloud.jp/2020/09/%e3%80%90%e3%81%af%e3%81%98%e3%82%81%e3%81%a6%e3%81%ae-databricks%e3%80%91%e9%87%91%e8%9e%8d%e5%8f%96%e5%bc%95%e3%83%87%e3%83%bc%e3%82%bf%e3%81%8b%e3%82%89%e7%95%b0%e5%b8%b8%e6%a4%9c%e7%9f%a5-2/]] --[[#3 Anomaly Detector>https://azure-recipe.kc-cloud.jp/2020/09/%e3%80%90%e3%81%af%e3%81%98%e3%82%81%e3%81%a6%e3%81%ae-databricks%e3%80%91%e9%87%91%e8%9e%8d%e5%8f%96%e5%bc%95%e3%83%87%e3%83%bc%e3%82%bf%e3%81%8b%e3%82%89%e7%95%b0%e5%b8%b8%e6%a4%9c%e7%9f%a5-3-anoma/]] --[[#4 初期モデル構築>https://azure-recipe.kc-cloud.jp/2020/09/%e3%80%90%e3%81%af%e3%81%98%e3%82%81%e3%81%a6%e3%81%ae-databricks%e3%80%91%e9%87%91%e8%9e%8d%e5%8f%96%e5%bc%95%e3%83%87%e3%83%bc%e3%82%bf%e3%81%8b%e3%82%89%e7%95%b0%e5%b8%b8%e6%a4%9c%e7%9f%a5-4/]] --[[#5 リモデル/モデル比較>https://azure-recipe.kc-cloud.jp/2020/09/%e3%80%90%e3%81%af%e3%81%98%e3%82%81%e3%81%a6%e3%81%ae-databricks%e3%80%91%e9%87%91%e8%9e%8d%e5%8f%96%e5%bc%95%e3%83%87%e3%83%bc%e3%82%bf%e3%81%8b%e3%82%89%e7%95%b0%e5%b8%b8%e6%a4%9c%e7%9f%a5-5/]] -Databricks でワインの品質を予測するモデルを構築 --[[1>https://azure-recipe.kc-cloud.jp/2020/09/databricks-%e3%81%a7%e3%83%af%e3%82%a4%e3%83%b3%e3%81%ae%e5%93%81%e8%b3%aa%e3%82%92%e4%ba%88%e6%b8%ac%e3%81%99%e3%82%8b%e3%83%a2%e3%83%87%e3%83%ab%e3%82%92%e6%a7%8b%e7%af%89-2/]] --[[2>https://azure-recipe.kc-cloud.jp/2020/09/databricks-%e3%81%a7%e3%83%af%e3%82%a4%e3%83%b3%e3%81%ae%e5%93%81%e8%b3%aa%e3%82%92%e4%ba%88%e6%b8%ac%e3%81%99%e3%82%8b%e3%83%a2%e3%83%87%e3%83%ab%e3%82%92%e6%a7%8b%e7%af%89-2/]] -[[Excel / Azure Notebook / Databricks で同じことをやってみる>Azure DatabricksのNotebook#e1edc0f2]] **Microsoft Azure [#p2e0aecc] -Azure Databricks~ https://azure.microsoft.com/ja-jp/services/databricks/ **Microsoft Docs [#g14ff8ee] ***Azure Databricks のドキュメント [#ff0425ed] https://docs.microsoft.com/ja-jp/azure/databricks/ -概要~ https://docs.microsoft.com/ja-jp/azure/databricks/scenarios/what-is-azure-databricks -クイックスタート~ ワークスペースの作成 --ポータル --Azure PowerShell --ARM テンプレート --仮想ネットワーク -チュートリアル --Docker コンテナで稼働している SQL Server に対するクエリ --Azure Key Vault を使用したストレージへのアクセス --Cosmos DB サービス エンドポイントの使用 --ETL 操作の実行 --Event Hubs を使用したデータのストリーミング --Cognitive Services を使用した感情分析 -リファレンス --Databricks CLI~ https://docs.microsoft.com/ja-jp/azure/databricks/dev-tools/cli/ ***[[.NET for Apache Spark ガイド>.NET for Apache Spark#w086a731]] [#qb9ddd3a] ... -使い方ガイド --[[データーへの接続>.NET for Apache Sparkチュートリアル#zd2d65ee]] --リモート ジョブを送信する ---Databricks にジョブを送信する~ https://docs.microsoft.com/ja-jp/dotnet/spark/how-to-guides/databricks-deploy-methods -[[チュートリアル>.NET for Apache Sparkチュートリアル#zd2d65ee]] --.NET for Apache Spark アプリケーションをデプロイする~ ---Azure Databricks~ https://docs.microsoft.com/ja-jp/dotnet/spark/tutorials/databricks-deployment -Channel 9 > .NET for Apache Spark 101~ Deploy .NET for Apache Spark App to --Azure Databricks [7 of 8]~ https://channel9.msdn.com/Series/NET-for-Apache-Spark-101/Deploy-NET-for-Apache-Spark-App-to-Azure-Databricks ***Learn [#kc5cc4cf] -Azure Databricks を使用した Data Engineering~ https://docs.microsoft.com/ja-jp/learn/paths/data-engineer-azure-databricks/ --Azure Databricks の説明~ https://docs.microsoft.com/ja-jp/learn/modules/describe-azure-databricks/ --Spark アーキテクチャの基礎~ https://docs.microsoft.com/ja-jp/learn/modules/spark-architecture-fundamentals/ --Azure Databricks でデータの~ 読み取りと書き込みを行う~ https://docs.microsoft.com/ja-jp/learn/modules/read-write-data-azure-databricks/ --Azure Databricks におけるプラットフォーム~ アーキテクチャ、セキュリティ、データ保護について説明する~ https://docs.microsoft.com/ja-jp/learn/modules/describe-platform-architecture-security-data-protection-azure-databricks/ --Delta Lake の構築とクエリ~ https://docs.microsoft.com/ja-jp/learn/modules/build-query-delta-lake/ --Azure Data Factory を使用して~ Azure Databricks の運用ワークロードを作成する~ https://docs.microsoft.com/ja-jp/learn/modules/create-production-workloads-azure-databricks-azure-data-factory/ --Azure DevOps を使用した CI/CD の実装~ https://docs.microsoft.com/ja-jp/learn/modules/implement-ci-cd-azure-devops/ --Azure Databricks を Azure Synapse と統合する~ https://docs.microsoft.com/ja-jp/learn/modules/integrate-azure-databricks-other-azure-services/ --Azure Databricks のベスト プラクティスについて説明する~ https://docs.microsoft.com/ja-jp/learn/modules/describe-azure-databricks-best-practices/ --[[DataFrames(Spark SQL)関連>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?Spark%20SQL#k9380484]] **YouTube [#v0862266] -はじめての Azure Databricks | 日本マイクロソフト~ https://www.youtube.com/watch?v=ftoMWOzWncw -はじめての Azure Databricks ストリーム分析~ https://www.youtube.com/watch?v=N8q8iCJzt34 **slideshare.net [#n69e6bdc] -アプリケーション開発者のためのAzure Databricks入門~ https://www2.slideshare.net/yokawasa/azure-databricks-111821479 -[Microsoft Tech Summit 2018] Azure Machine Learning サービスと Azure Datab…~ https://www2.slideshare.net/satonaoki/20181107techsummitazuremldatabricks **[[開発基盤部会 Wiki & Blog>.NET for Apache Spark#zf579f45]] [#i55f4082] ---- Tags: [[:インフラストラクチャ]], [[:クラウド]], [[:ビッグデータ]], [[:Azure]]