Azure Databricks のバックアップ(No.13)

「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- Azure HDInsight
- Azure Databricks

目次 †

↑

概要 †

Apache Spark ベースのビッグデータ分析プラットフォーム

Azure HDInsightとの違いは、
- Apache Sparkに特化している。
- Hadoop テクノロジスタックをドロップ
  HDFSではない、データソースを使用できる。
  - データレイク（Azure Blob Storage or Azure Data Lake Storage）
  - その他、Azure Cosmos DB、Azure SQL Data Warehouseなど。

ビッグデータ分析ワークロードで利用する。
- ETLのようなバッチ処理
- データ・パイプラインの過程
- データ・サイエンティスト向けのフル稼働の計算資源
  には向かない（→ Data Science Virtual Machines）。

Databricksは、何気に、スタック上では
YARN、Memosと同じレイヤにあるリソース管理基盤システム

らしい。

↑

詳細 †

取り敢えず、.NET for Apache Spark ガイドのコンテンツをやってみる。

↑

開発 †

（Get started in 10 minutes）

↑

デプロイ †

※ 無料試用版サブスクリプションは利用不可との事。

↑

ワークスペースを作成 †

ワークスペースの作成には数分かかる。

↑

ツールのインストール †

Databricks CLIには、
Python 3.6 以降が必要
https://www.python.org/ftp/python/3.7.4/python-3.7.4.exe

インストールの確認
```
>python
...
```

Databricks CLIのインストール
```
>pip3 install databricks-cli
```

インストールの確認
```
>databricks
...
```

↑

設定 †

認証の詳細を設定
```
>databricks configure --token
```

ホスト URLの入力

Databricks Host (should begin with https://): https://<Location>.azuredatabricks.net

ワークスペース起動
ユーザー設定
トークンを生成
- 取得
- 入力
```
Token: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
```

↑

アプリの発行 †

ターゲットはubuntu

>dotnet publish -c Release -f netcoreapp3.1 -r ubuntu.16.04-x64

publishしたものをpublish.zipにまとめる。

↑

ワーカーの依存関係のダウンロード †

次のファイルをダウンロードする。

Microsoft.Spark.Worker
install-worker.sh
db-init.sh

※ *.shの行の終わりは Unix 形式 (LF) であることを確認
※ https://github.com/dotnet/spark/tree/master/deployment

↑

ファイルのアップロード †

次のファイルをアップロードする。

発行したアプリ
- publish.zip
- ~~input.txt~~
- microsoft-spark-2-4_2.11-1.0.0.jar（ローカル実行で使用したもの）
依存関係
- Microsoft.Spark.Worker
- install-worker.sh
db-init.sh

↑

クラスタの作成 †

Initスクリプトを db-init.sh に設定
db-init.sh 内で install-worker.sh が構成される（$1-3をパラメタライズ）。

※ install-worker.sh は、.NET for Apache Spark 依存ファイルをクラスタのノードにコピーする。

↑

ジョブの作成 †

spark-submit を構成

↑

アプリの実行 †

ここで、Initスクリプトが実行される。
ジョブのクラスタが作成されるまで数分かかる。
新しく構成した Spark クラスタでジョブが実行される。

↑

リソースのクリーンアップ †

リソースグループを削除する。

↑

Azure HDInsightとの比較 †

クラスタの作成中のdb-init.sh 設定＋アプリの実行

≒ スクリプトアクション実行

↑

参考 †

↑

gihyo.jp … 技術評論社 †

2019年10月17日　"データレイク"のスタンダードをめざす ―
Databricks，「Delta Lake」をLinux Foundationに寄贈：Linux Daily Topics
https://gihyo.jp/admin/clip/01/linux_dt/201910/17

↑

クリエーションライン株式会社 †

Azure Databricks の紹介
'#Microsoft #Azure #DataBricks? #spark
https://www.creationline.com/blog/20865

↑

クイックスタート
ワークスペースの作成
- ポータル
- Azure PowerShell
- ARM テンプレート
- 仮想ネットワーク

チュートリアル
- Docker コンテナで稼働している SQL Server に対するクエリ
- Azure Key Vault を使用したストレージへのアクセス
- Cosmos DB サービスエンドポイントの使用
- ETL 操作の実行
- Event Hubs を使用したデータのストリーミング
- Cognitive Services を使用した感情分析