Azure Databricksチュートリアルのバックアップ(No.15)

「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- Azure Databricksチュートリアル
- Azure DatabricksのNotebook

目次 †

↑

概要 †

Azure Databricksのチュートリアル。
IDには、OsscJpDevInfra?を使用する。

↑

.NET for Apache Spark †

.NET for Apache SparkガイドのGet started in 10 minutesの周辺を処理してみる。

ビルドしたモノをZIPして、spark-submitするのでローカル環境構築が必要。

↑

準備 †

↑

契約 †

Azureの契約

Databricksの契約
- Azureの無料試用版サブスクリプションは利用不可との事。

ただし、
- Azureの従量課金制サブスクリプションで
  Databricksの14日間の無料試用版を使用可能。
- 無料の Azure アカウントと Azure Databricks ユニット | Microsoft Azure
  https://azure.microsoft.com/ja-jp/free/services/databricks/
  既存のサブスクリプションで試用版を使用する場合、
  ワークスペース作成の価格レベルで試用版を選択する。

ただし、
- Databricksユニットには課金されないが、
- クラスタのVMには課金されるので注意する。

↑

環境 †

ワークスペース
- ポータルで [リソースの作成] > [分析] > [Azure Databricks] の順に選択
- 若しくは、[Azure Databricks | Microsoft Azure] の
  [Already an Azure customer? Get started]を押下。
  https://portal.azure.com/#create/Microsoft.Databricks

値を指定

ワークスペース名

サブスクリプション
任意の値

リソースグループ
既定値は、ワークスペース名に、prefixとしてdatabricks-rg-が付与されたもの。
databricksXXXと入力すると、databricks-rg-databricksXXX-XXXXになってしまう。

場所（リージョン）
任意の値（東日本にした

価格レベル
試用版を選択できる。

Virtual Network
以下の項目は、共に「いいえ」を選択した。
・Secure Cluster Connectivity による...デプロイ (パブリック IP なし)
・自分の仮想ネットワーク (VNet) に...デプロイします

ワークスペースの作成には数分かかる。
- 「デプロイが完了しました」が表示されたら、
- [リソースに移動]ボタンを押下する。
- [ワークスペースの起動]ボタンを押下する。
- Databricks のポータル・サイトに移動する。

ツール

...のイントール

Databricks CLIには、Python 3.6 以降が必要

Pythonのインストール

Databricks CLIのインストール
pip3を使用してインストール
```
>pip3 install databricks-cli
```

インストールの確認

>databricks
Usage: databricks [OPTIONS] COMMAND [ARGS]...

Options:
  -v, --version   0.14.3
  ...

...の設定
```
>databricks configure --token
```

ホスト URLの入力

Databricks Host (should begin with https://): https://<Location>.azuredatabricks.net

トークンの取得

トークンの入力
```
Token: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
```

以下のようになる（Tokenの所は入力が表示されない）。

>databricks configure --token
Databricks Host (should begin with https://): https://.....azuredatabricks.net/
Token:

>

↑

Get started in 10 minutes †

以前開発したサンプルの動作確認を行い、

実際に発行＆アップロード＆実行してみる。

↑

アプリの発行 †

ターゲットはubuntu

>dotnet publish -c Release -f netcoreapp3.1 -r ubuntu.16.04-x64

publishしたものをpublish.zipにまとめる。
Windowsなので、PowerShellを使用してみる。
```
powershell compress-archive publish ..\publish.zip
```

↑

依存関係のダウンロード †

依存関係ファイルをダウンロードする。

※ URL : https://github.com/dotnet/spark/tree/master/deployment

Microsoft.Spark.Worker
ローカル実行で使用したものに対応するLinux版の*.tar.gz
https://github.com/dotnet/spark/releases/download/v1.0.0/Microsoft.Spark.Worker.netcoreapp3.1.linux-x64-1.0.0.tar.gz

install-worker.sh
Apache Spark クラスタに Worker バイナリをインストール

db-init.sh
- ワーカーとアプリの依存関係を Databricks Spark クラスタにインストール。
- DOTNET_SPARK_RELEASEを修正するという手順があるが、コレは不要らしい。

※ *.shの行の終わりは Unix 形式 (LF) であることを確認

↑

ファイルのアップロード †

次のファイルをアップロードする

アプリケーション

一式

publish.zip
発行したアプリ

input.txt
自分は、input.txtをプロジェクト出力に含めていたのでpublishに同梱されているが、
カレント・ディレクトリが異なるため別途アップロードが必要らしい（根拠は以下のエラー・メッセージ）。
```
Microsoft.Spark.JvmException: org.apache.spark.sql.AnalysisException: Path does not exist: dbfs:/input.txt;
```

microsoft-spark-2-4_2.11-1.0.0.jar
ローカル実行で使用したもの（publish中で使用したバージョン）

dbfsにアップロード
Databricks CLIを使って。

databricks fs cp input.txt dbfs:/input.txt
databricks fs cp publish.zip dbfs:/spark-dotnet/publish.zip
databricks fs cp microsoft-spark-2-4_2.11-1.0.0.jar dbfs:/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar

※ input.txtがZIPに同梱されていても、カレント・ディレクトリが異なるのでアップロードが必要。

依存関係

前述の一式

Microsoft.Spark.Worker
install-worker.sh
db-init.sh

dbfsにアップロード
Databricks CLIを使って。

databricks fs cp Microsoft.Spark.Worker.netcoreapp3.1.linux-x64-1.0.0.tar.gz dbfs:/spark-dotnet/Microsoft.Spark.Worker.netcoreapp3.1.linux-x64-1.0.0.tar.gz
databricks fs cp install-worker.sh dbfs:/spark-dotnet/install-worker.sh
databricks fs cp db-init.sh dbfs:/spark-dotnet/db-init.sh

参考
- DBFS CLI-Azure Databricks - Workspace | Microsoft Docs
  https://docs.microsoft.com/ja-jp/azure/databricks/dev-tools/cli/dbfs-cli

↑

ジョブを作成して実行 †

ジョブを作成する。
ワークスペース（Databricks のポータル・サイト）の
- 左メニュー中の [Job] アイコンを選択し、
- 次に[+ Create Job] を選択して、Job名を入力、

以下、UIが変更されているので、以下を参考にする。
- ジョブ - Azure Databricks | Microsoft Docs
  https://docs.microsoft.com/ja-jp/azure/databricks/jobs

spark-submitの構成
初めに、[Task]の[Type]を[Notebook]から[Spark Submit]に変更する。

クラスタ構成の設定
次に、Clusterの[Edit]を選択し、Configure New Clusterを表示させる。

Databricks Runtime Versionを選択
- Spark 2.4.1が無かったので、最も近い、
- Runtime: 5.5 LTS (Scala 2.11, Spark 2.4.3)に変更。

Initスクリプトを db-init.sh に設定
- Advanced optionsを展開する。
- [Init Scripts]タブを選択する。
- [Destination]ドロップダウンリストでDBFSを選択する。
- [Init Script Path]に以下を入力する。
```
dbfs:/spark-dotnet/db-init.sh
```
- [Confirm]を押下する。

※ コレにより、db-init.sh 内で install-worker.sh が構成される（$1-3をパラメタライズ）。

パラメタの設定

パラメタに次の文字列を貼り付ける。

["--class","org.apache.spark.deploy.dotnet.DotnetRunner","/dbfs/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar","/dbfs/spark-dotnet/publish.zip","mySparkApp"]

自分は、

mySparkApp? → MySparkApp? としていたので、その様に変更した。

実行に必要となる引数が存在する場合、spark-submitでは、以下のように指定できる模様。
.NET for Apache Spark ジョブを Databricks に送信する | Microsoft Docs
https://docs.microsoft.com/ja-jp/dotnet/spark/how-to-guides/databricks-deploy-methods

...と言う事で、実際、パラメタには、次の文字列を貼り付けた。

["--class","org.apache.spark.deploy.dotnet.DotnetRunner","/dbfs/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar","/dbfs/spark-dotnet/publish.zip","MySparkApp", "input.txt"]

[Create]を押下する。

アプリの実行

ここで、Initスクリプトが実行される。

ジョブのクラスタが作成されるまで数分かかる。
（リソース・グループを確認するとクラスタのリソース増が確認できる）

Job名の横にある [Run Now] ボタンをクリックする。

Jobで構成した Spark クラスタでJobが実行される。

実行結果は、Completed Runs表中のSpark列に表示されるLogsから確認できる。

リソースのクリーンアップ
- リソース・グループを確認するとクラスタのリソース減が確認できる
- 必要に応じて、（ワークスペースとクラスタの）リソース・グループを削除する。

↑

参考 †

Azure HDInsightとの比較

クラスタの作成中のdb-init.sh 設定＋アプリの実行

≒ スクリプトアクション実行

エラー

１
Azureのクォータ制限を解除する。

Cluster:

Driver: Standard_DS3_v2,
Workers: Standard_DS3_v2,
8 workers, 5.5 LTS (includes Apache Spark 2.4.3, Scala 2.11)

Message:

Unexpected failure while waiting for the cluster (...) to be ready.
Cause Unexpected state for cluster (...):
AZURE_QUOTA_EXCEEDED_EXCEPTION(CLIENT_ERROR):~
azure_error_code : QuotaExceeded,~
azure_error_message :
  Operation could not be completed as it results in exceeding approved Total Regional Cores quota.
  Additional details -
  Deployment Model: Resource Manager,
  Location: japaneast,
  Current Limit: 10,
  Current Usage: 4,
  Additional Required: 28,
  (Minimum) New Limit Required: 32.
  Submit a request for Quota increase at
  https://aka.ms/ProdportalCRP/?#create/Microsoft.Support/Parameters/%7B%22subId%22:%2232e43be6-1930-4982-a62c-a259327e5c77%22,%22pesId%22:%2206bfd9d3-516b-d5c6-5802-169c800dec89%22,%22supportTopicId%22:%22e12e3d1d-7fa0-af33-c6d0-3c50df9658a3%22%7D
  by specifying parameters listed in the 'Details' section for deployment to succeed.
  Pleas ... ***WARNING: message truncated. Skipped 964 bytes of output**

クォータ制限を解除する。
以下のクォータを32に設定する。
・Total Regional vCPUsのクォータ
・Standard_DS3_v2 → DSv2 シリーズ(Standard DSv2 Promo Family vCPUs)のクォータ

２
input.txtの扱いについて、

ZIP同梱していても、別途アップロードが必要になる。
また、コマンド引数でファイル名を渡している場合、spark-submitのパラメタで設定可能。

↑

上記と同様に行ってみる例 †

ワークスペースをクリーンナップするか新規作成する必要があるので、
１つのバッチにまとめて、コマンドライン引数で切り替えるのが良いかも。

↑

バッチ処理 †

アプリ

publish.zipの発行とアップロード

cd ...\DotNet4ApacheSpark\mySparkBatchApp\mySparkBatchApp
dotnet publish -c Release -f netcoreapp3.1 -r ubuntu.16.04-x64
cd ...\mySparkBatchApp\bin\Release\netcoreapp3.1\ubuntu.16.04-x64
powershell compress-archive publish ..\publish.zip
cd ..
databricks fs rm dbfs:/spark-dotnet/publish.zip
databricks fs cp publish.zip dbfs:/spark-dotnet/publish.zip

projects_smaller.csvのアップロード

databricks fs cp projects_smaller.csv dbfs:/projects_smaller.csv

spark-submitのパラメタ設定

["--class","org.apache.spark.deploy.dotnet.DotnetRunner","/dbfs/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar","/dbfs/spark-dotnet/publish.zip","mySparkBatchApp", "projects_smaller.csv"]

エラー
何故か、最後のDataFrame?.Showでエラーになって
4つ目の結果セットが表示されなかった（原因不明）。

↑

構造化ストリーミング †

パッシブ・オープンした通信先をAzure Databricksからアクティブ・オープンする。
ただ、Azure Databricksからアクティブ・オープンする通信先を用意できないので現時点ではパス。
- 他のサンプルは、kafkaをsubscribeするなどしている。
- Azure Event Hubsなどで書き換えてみると良いかもしれない。

↑