Azure Databricks のバックアップ(No.32)

ただし、
- Azureの従量課金制サブスクリプションで
- Databricksの14日間の無料試用版を使用可能。
  - 無料の Azure アカウントと Azure Databricks ユニット | Microsoft Azure
    https://azure.microsoft.com/ja-jp/free/services/databricks/
  - 既存のサブスクリプションで試用版を使用する場合、
    ワークスペース作成の価格レベルで試用版を選択する。

ただし、
- Databricksユニットには課金されないが、
- クラスタのVMには課金されるので注意する。

↑

ワークスペースを作成 †

ポータルで [リソースの作成] > [分析] > [Azure Databricks] の順に選択
若しくは、[Azure Databricks | Microsoft Azure] の
[Already an Azure customer? Get started]を押下。
https://portal.azure.com/#create/Microsoft.Databricks

値を指定

ワークスペース名

サブスクリプション
任意の値

リソースグループ
既定値は、ワークスペース名に、prefixとしてdatabricks-rg-が付与されたもの。
databricksXXXと入力すると、databricks-rg-databricksXXX-XXXXになってしまう。

場所（リージョン）
任意の値（東日本にした

価格レベル
試用版を選択できる。

Virtual Network
以下の項目は、共に「いいえ」を選択した。
- Secure Cluster Connectivity による...デプロイ (パブリック IP なし)
- 自分の仮想ネットワーク (VNet) に...デプロイします

ワークスペースの作成には数分かかる。
- 「デプロイが完了しました」が表示されたら、
- [リソースに移動]ボタンを押下する。
- [ワークスペースの起動]ボタンを押下する。
- Databricks のポータル・サイトに移動する。

↑

ツールのインストール †

Databricks CLIには、
Python 3.6 以降が必要

Pythonのインストール

Databricks CLIのインストール

pip3を使用してインストール
```
>pip3 install databricks-cli
```

インストールの確認

>databricks
Usage: databricks [OPTIONS] COMMAND [ARGS]...

Options:
  -v, --version   0.14.3
  ...

↑

ツールの設定 †

認証の詳細を設定
```
>databricks configure --token
```

ホスト URLの入力

Databricks Host (should begin with https://): https://<Location>.azuredatabricks.net

トークンの入力

取得
#ref(): File not found: "無題1.png" at page "Azure Databricks"

入力
```
Token: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
```

以下のようになる（Tokenの所は入力が表示されない）。

>databricks configure --token
Databricks Host (should begin with https://): https://.....azuredatabricks.net/
Token:

>

↑

アプリの発行 †

ターゲットはubuntu

>dotnet publish -c Release -f netcoreapp3.1 -r ubuntu.16.04-x64

publishしたものをpublish.zipにまとめる。
Windowsなので、PowerShellを使用してみる。
```
powershell compress-archive publish ..\publish.zip
```

↑

依存関係のダウンロード †

依存関係ファイルをダウンロードする。

※ URL : https://github.com/dotnet/spark/tree/master/deployment

Microsoft.Spark.Worker
ローカル実行で使用したものに対応するLinux版の*.tar.gz
https://github.com/dotnet/spark/releases/download/v1.0.0/Microsoft.Spark.Worker.netcoreapp3.1.linux-x64-1.0.0.tar.gz

install-worker.sh
Apache Spark クラスタに Worker バイナリをインストール

db-init.sh
- ワーカーとアプリの依存関係を Databricks Spark クラスタにインストール。
- DOTNET_SPARK_RELEASEを修正するという手順があるが、コレは不要らしい。

※ *.shの行の終わりは Unix 形式 (LF) であることを確認

↑

ファイルのアップロード †

次のファイルをアップロードする

アプリケーション

一式

publish.zip
発行したアプリ

input.txt
自分は、input.txtをプロジェクト出力に含めていたのでpublishに同梱されているが、
カレント・ディレクトリが異なるため別途アップロードが必要らしい（根拠は以下のエラー・メッセージ）。
```
Microsoft.Spark.JvmException: org.apache.spark.sql.AnalysisException: Path does not exist: dbfs:/input.txt;
```

microsoft-spark-2-4_2.11-1.0.0.jar
ローカル実行で使用したもの（publish中で使用したバージョン）

dbfsにアップロード
Databricks CLIを使って。

databricks fs cp input.txt dbfs:/input.txt
databricks fs cp publish.zip dbfs:/spark-dotnet/publish.zip
databricks fs cp microsoft-spark-2-4_2.11-1.0.0.jar dbfs:/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar

※ input.txtがZIPに同梱されていても、カレント・ディレクトリが異なるのでアップロードが必要。

依存関係

前述の一式

Microsoft.Spark.Worker
install-worker.sh
db-init.sh

dbfsにアップロード
Databricks CLIを使って。

databricks fs cp Microsoft.Spark.Worker.netcoreapp3.1.linux-x64-1.0.0.tar.gz dbfs:/spark-dotnet/Microsoft.Spark.Worker.netcoreapp3.1.linux-x64-1.0.0.tar.gz
databricks fs cp install-worker.sh dbfs:/spark-dotnet/install-worker.sh
databricks fs cp db-init.sh dbfs:/spark-dotnet/db-init.sh

参考
- DBFS CLI-Azure Databricks - Workspace | Microsoft Docs
  https://docs.microsoft.com/ja-jp/azure/databricks/dev-tools/cli/dbfs-cli

↑

実行 †

以下のように、ジョブの作成して実行する。

↑

ジョブを作成する。 †

ワークスペース（Databricks のポータル・サイト）の

左メニュー中の [Job] アイコンを選択し、
次に[+ Create Job] を選択して、Job名を入力、

以下、UIが変更されているので、以下を参考にする。
- ジョブ - Azure Databricks | Microsoft Docs
  https://docs.microsoft.com/ja-jp/azure/databricks/jobs

↑

spark-submitの構成 †

初めに、[Task]の[Type]を[Notebook]から[Spark Submit]に変更する。

↑

クラスタ構成の設定 †

次に、Clusterの[Edit]を選択し、Configure New Clusterを表示させる。

Databricks Runtime Versionを選択
- Spark 2.4.1が無かったので、最も近い、
- Runtime: 5.5 LTS (Scala 2.11, Spark 2.4.3)に変更。

Initスクリプトを db-init.sh に設定
- Advanced optionsを展開する。
- [Init Scripts]タブを選択する。
- [Destination]ドロップダウンリストでDBFSを選択する。
- [Init Script Path]に以下を入力する。
```
dbfs:/spark-dotnet/db-init.sh
```
- [Confirm]を押下する。

※ コレにより、db-init.sh 内で install-worker.sh が構成される（$1-3をパラメタライズ）。

↑

パラメタの設定 †

パラメタに次の文字列を貼り付ける。

["--class","org.apache.spark.deploy.dotnet.DotnetRunner","/dbfs/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar","/dbfs/spark-dotnet/publish.zip","mySparkApp"]

自分は、
- mySparkApp? → MySparkApp? としていたので、その様に変更した。
- 実行に必要となる引数が存在する場合、spark-submitでは、以下のように指定できる模様。
  - .NET for Apache Spark ジョブを Databricks に送信する | Microsoft Docs
    https://docs.microsoft.com/ja-jp/dotnet/spark/how-to-guides/databricks-deploy-methods
- ...と言う事で、実際、パラメタには、次の文字列を貼り付けた。
```
["--class","org.apache.spark.deploy.dotnet.DotnetRunner","/dbfs/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar","/dbfs/spark-dotnet/publish.zip","MySparkApp", "input.txt"]
```

[Create]を押下する。

↑

アプリの実行 †

ここで、Initスクリプトが実行される。

ジョブのクラスタが作成されるまで数分かかる。
（リソース・グループを確認するとクラスタのリソース増が確認できる）

Job名の横にある [Run Now] ボタンをクリックする。

Jobで構成した Spark クラスタでJobが実行される。

実行結果は、Completed Runs表中のSpark列に表示されるLogsから確認できる。
#ref(): File not found: "無題2.png" at page "Azure Databricks"

↑

リソースのクリーンアップ †

リソース・グループを確認するとクラスタのリソース減が確認できる
必要に応じて、（ワークスペースとクラスタの）リソース・グループを削除する。

↑

Azure HDInsightとの比較 †

クラスタの作成中のdb-init.sh 設定＋アプリの実行

≒ スクリプトアクション実行

↑

チュートリアル †

↑

参考 †

↑

YouTube? †

↑

gihyo.jp … 技術評論社 †

2019年10月17日　"データレイク"のスタンダードをめざす ―
Databricks，「Delta Lake」をLinux Foundationに寄贈：Linux Daily Topics
https://gihyo.jp/admin/clip/01/linux_dt/201910/17

↑

クリエーションライン株式会社 †

Azure Databricks の紹介
'#Microsoft #Azure #DataBricks? #spark
https://www.creationline.com/blog/20865

↑

クイックスタート
ワークスペースの作成
- ポータル
- Azure PowerShell
- ARM テンプレート
- 仮想ネットワーク

チュートリアル
- Docker コンテナで稼働している SQL Server に対するクエリ
- Azure Key Vault を使用したストレージへのアクセス
- Cosmos DB サービスエンドポイントの使用
- ETL 操作の実行
- Event Hubs を使用したデータのストリーミング
- Cognitive Services を使用した感情分析