「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
- Apache Spark ベースのビッグデータ分析プラットフォーム
- Azure HDInsightとの違いは、
- Apache Sparkに特化している。
- Hadoop テクノロジ スタックをドロップ
HDFSではない、データ ソースを使用できる。
- データ レイク(Azure Blob Storage or Azure Data Lake Storage)
- その他、Azure Cosmos DB、Azure SQL Data Warehouseなど。
- ビッグデータ分析ワークロードで利用する。
- ETLのようなバッチ処理
- データ・パイプラインの過程
- データ・サイエンティスト向けのフル稼働の計算資源
には向かない(→ Data Science Virtual Machines)。
らしい。
詳細 †
取り敢えず、.NET for Apache Spark ガイドのコンテンツをやってみる。
(Get started in 10 minutes)
ワークスペースを作成 †
ツールのインストール †
Databricks CLI には、Python 3.6 以降が必要
設定 †
- ホスト URLの入力
- ワークスペース起動
- トークンを
ワーカーの依存関係のダウンロード †
アプリの発行 †
ファイルのアップロード †
ジョブの作成 †
クラスタの作成 †
アプリの実行 †
リソースのクリーンアップ †
参考 †
gihyo.jp … 技術評論社 †
クリエーションライン株式会社 †
Microsoft Azure †
Microsoft Docs †
Azure Databricks のドキュメント †
https://docs.microsoft.com/ja-jp/azure/databricks/
- チュートリアル
- Docker コンテナで稼働している SQL Server に対するクエリ
- Azure Key Vault を使用したストレージへのアクセス
- Cosmos DB サービス エンドポイントの使用
- ETL 操作の実行
- Event Hubs を使用したデータのストリーミング
- Cognitive Services を使用した感情分析
.NET、C# †
Tags: :クラウド, :Azure