Azure Databricksチュートリアルのバックアップ(No.25)

「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- Azure Databricksチュートリアル
- Azure DatabricksのNotebook

目次 †

目次
概要
準備
- 契約
  - Azureの契約
  - Databricksの契約
- 環境
  - ワークスペース
  - ツール
Scala
Python (PySpark)
.NET
- Get started in 10 minutes
- 上記と同様に行ってみる例
Java
参考

↑

概要 †

Azure Databricksのチュートリアル。

↑

準備 †

↑

契約 †

↑

Azureの契約 †

↑

Databricksの契約 †

Azureの無料試用版サブスクリプションは利用不可との事。

ただし、

Azureの従量課金制サブスクリプションで
Databricksの14日間の無料試用版を使用可能。

無料の Azure アカウントと Azure Databricks ユニット | Microsoft Azure
https://azure.microsoft.com/ja-jp/free/services/databricks/
既存のサブスクリプションで試用版を使用する場合、
ワークスペース作成の価格レベルで試用版を選択する。

ただし、

Databricksユニットには課金されないが、

クラスタのVMには課金されるので注意する。

↑

環境 †

↑

ワークスペース †

作成方法

ポータルで [リソースの作成] > [分析] > [Azure Databricks] の順に選択

若しくは、[Azure Databricks | Microsoft Azure] の
[Already an Azure customer? Get started]を押下。
https://portal.azure.com/#create/Microsoft.Databricks

値を指定

ワークスペース名

サブスクリプション
任意の値

リソースグループ
既定値は、ワークスペース名に、prefixとしてdatabricks-rg-が付与されたもの。
databricksXXXと入力すると、databricks-rg-databricksXXX-XXXXになってしまう。

場所（リージョン）
- データ・パープライン系は「West US 2」辺りが良いかも。
- リージョン別の Azure 製品 | Microsoft Azure
  https://azure.microsoft.com/ja-jp/global-infrastructure/services/?products=databricks

価格レベル
試用版を選択できる。

Virtual Network
以下の項目は、共に「いいえ」を選択した。
- Secure Cluster Connectivity による...デプロイ (パブリック IP なし)
- 自分の仮想ネットワーク (VNet) に...デプロイします

ワークスペースの作成には数分かかる。
- 「デプロイが完了しました」が表示されたら、
- [リソースに移動]ボタンを押下する。
- [ワークスペースの起動]ボタンを押下する。
- Databricks のポータル・サイトに移動する。

IPアドレス制限
プレミアム・ライセンスが必要

エンドポイント

<databricks-instance> = adb-<workspace-id>.<random-number>.azuredatabricks.net

トークンの設定
```
$ export DATABRICKS_TOKEN=xxxxxx
```

有効化(WSLで)

$ curl -X PATCH https://<databricks-instance>/api/2.0/workspace-conf \
--header "Authorization: Bearer $DATABRICKS_TOKEN" \
-d '{
  "enableIpAccessLists": "true"
}'

付与(WSLで)

$ curl -X POST https://<databricks-instance>/api/2.0/ip-access-lists
--header "Authorization: Bearer $DATABRICKS_TOKEN" \
-d '{
  "label": "office",
  "list_type": "ALLOW",
  "ip_addresses": [
    "xxx.xxx.xxx.xxx"
  ]
}'

IaC化

Azure CLIで
- 現時点でクイックスタート情報なし。

PowerShellで

クイックスタート - PowerShell を使用して Azure Databricks ワークスペースを作成する | Microsoft Docs
https://docs.microsoft.com/ja-jp/azure/databricks/scenarios/quickstart-create-databricks-workspace-powershell

>Connect-AzAccount
>Set-AzContext -SubscriptionId ...
>Register-AzResourceProvider -ProviderNamespace Microsoft.Databricks
>New-AzDatabricksWorkspace -Name [名称] -ResourceGroupName [既存のRG名] -Location [場所（リージョン）] -ManagedResourceGroupName [ManagedRG名] -Sku [sku]

参考
- DatabricksへのアクセスをIP制限する - 雲のメモ帳
  https://www.cloudnotes.tech/entry/databricks_iprestrict
- Azure Databricks 個人用アクセストークンを使用した認証-Azure Databricks - Workspace | Microsoft Docs
  https://docs.microsoft.com/ja-jp/azure/databricks/dev-tools/api/latest/authentication

↑

ツール †

...のイントール

Databricks CLIには、Python 3.6 以降が必要

Pythonのインストール

Databricks CLIのインストール
pip3を使用してインストール
```
>pip3 install databricks-cli
```

インストールの確認

>databricks
Usage: databricks [OPTIONS] COMMAND [ARGS]...

Options:
  -v, --version   0.14.3
  ...

...の設定
```
>databricks configure --token
```

ホスト URLの入力

Databricks Host (should begin with https://): https://<Location>.azuredatabricks.net

トークンの取得

トークンの入力
```
Token: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
```

以下のようになる（Tokenの所は入力が表示されない）。

>databricks configure --token
Databricks Host (should begin with https://): https://.....azuredatabricks.net/
Token:

>

↑

Scala †

Notebookのセルに記述可能。

↑

ETL のチュートリアル †

参考中の「...データの抽出、変換、読み込みを行う」

↑

Event Hubsと組み合わせるチュートリアル †

参考中の「Event Hubs を使用して...ストリーム配信する」

↑

感情分析のチュートリアル †

参考中の「Azure Databricks を使用したストリーミングデータに対する感情分析」

↑

参考 †

Microsoft Docs、Qiita

↑

Python (PySpark) †

Notebookのセルに記述可能。

↑

クイックスタート †

参考中のクイックスタート。
Docsの説明が雑なので以下、注釈を加えてみる。

↑

Parquetファイル †

CSVやTSVファイルのような行指向ファイル形式
に対し効率的で高性能な列指向ストレージ形式。

ダウンロード先がイマイチ不明なので、以下から取得する。
https://github.com/Teradata/kylo/tree/master/samples/sample-data/parquet

先ずは、Jupyter Notebookでローカルから読込。

読込

parquet_df = spark.read.parquet("path/to/userdata1.parquet")

表示
```
parquet_df.show()
```

結果

+-------------------+---+----------+---------+--------------------+------+---------------+-------------------+--------------------+----------+---------+--------------------+--------------------+
|  registration_dttm| id|first_name|last_name|               email|gender|     ip_address|                 cc|             country| birthdate|   salary|               title|            comments|
+-------------------+---+----------+---------+--------------------+------+---------------+-------------------+--------------------+----------+---------+--------------------+--------------------+
|2016-02-03 16:55:29|  1|    Amanda|   Jordan|    ajordan0@com.com|Female|    1.197.201.2|   6759521864920116|           Indonesia|  3/8/1971| 49756.53|    Internal Auditor|               1E+02|
...

一応、Spark SQLを実行してみる。

Spark SQL

parquet_df.createOrReplaceTempView('source')
parquet_df = spark.sql('SELECT * FROM source LIMIT 10')

表示

print('Displaying top 10 rows: ')
parquet_df.show()

結果

Displaying top 10 rows: 
上記が10行に絞られた結果

↑

Azureストレージへアクセス †

その次に、Azureストレージから読込んでみる。

上記をAzureストレージに配置
- 作成のスクリプトはコチラ
- ファイルはポータルからアップロード可能

Python (PySpark)上から読込んでみる。

実行

from pyspark.sql import SparkSession
spark: SparkSession = SparkSession.builder.appName("SimpleApp").getOrCreate()

blob_account_name = "osscjpdevinfra"
blob_container_name = "container1"
blob_relative_path = "userdata1.parquet"
blob_sas_token = r"?st=xxxxxxxxxxxxxxxxxxxx"

wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set('fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name), blob_sas_token)

print('Remote blob path: ' + wasbs_path)

parquet_df = spark.read.parquet(wasbs_path)
parquet_df.show()

結果
ライブラリが足りないもよう。

Class org.apache.hadoop.fs.azure.NativeAzureFileSystem$Secure not found

↑

Azure Databricks上で実行 †

ライブラリが足りないので、Azure Databricks上で実行してみる。

ワークスペースの作成（作成のスクリプトはコチラ

手順に従いClusterを作成する

[New Cluster]を押下

入力
- Cluster Name : mysparkcluster
- Cluster Mode : Standard
- Pool : None
- Runtime : 6.4 -> 7.3 LTS
- Autopilot Options
  ・☑ Enable autoscaling
  ・☑ Terminate after 20 minutes of inactivity
  ・Worker Type Standard_DS3_v2 Min Workers 2 Max Workers 8 ☑ Spot instances
  ・Driver Type Same as worker

[Create Cluster]ボタンを押下
※ この手順では、クォータ制限の問題は発生しなかった。

手順に従いNotebookを作成する

[New Notebook]を押下

入力
- Name : mynotebook
- Language : Python
- Cluster : mysparkcluster

[Create]ボタンを押下

先程のコードを実行する。

Clusterを開始する。

左上のドロップダウン・リストから作成したClusterを選択し、

そこから[Start Cluster]を選択して押下する。

先程のコードをセルに貼り付ける。

Shift + Enter キーを使用してコードを実行

無事、実行されたことを確認したら以下のようにコードを変更して再実行する。

変更前
```
parquet_df.show()
```

変更後
```
display(parquet_df)
```

データの視覚的な表現を作成する。
displayで表示された形式の出力の一番下から、
[Plot Options]をクリックし、以下のようにする。

Clusterを停止する。

Clusterを開始した際に使ったドロップダウン・リストからCluster管理画面へ飛ぶ。
Cluster管理画面で、Terminate or Deleteを選択する。
課金がアレなので、
・PoCならリソース・グループごと削除しておいた方が良い。
・と言うのも、リソース・グループを見るとClusterのリソースが大量に。

↑

KcMichael? - Qiita †

参考中の...

↑

SQL Serverと組み合わせるチュートリアル †

参考中の「...ノートブックから...SQL Server Linux Docker コンテナーのクエリを実行する」

↑

ちょっと古いのか？アカンやつ。 †

↑

Azure Databricksを使ってみた †

参考中の「Azure Databricksを使ってみた」

...ちと古いし、他にも色々アレなので、パス。

↑

Azure Data Lake のチュートリアル †

参考中の

「チュートリアル:Azure Data Lake Storage Gen2、Azure Databricks、および Spark」

...フライトデータのダウンロードができない。

↑

参考 †

Microsoft Docs、Qiita

↑

.NET †

（.NET for Apache Spark）

.NET for Apache SparkガイドのGet started in 10 minutesの周辺を処理してみる。

ビルドしたモノをZIPして、spark-submitするのでローカル環境構築が必要。

↑

Get started in 10 minutes †

以前開発したサンプルの動作確認を行い、

実際に発行＆アップロード＆実行してみる。

↑

アプリの発行 †

ターゲットはubuntu

>dotnet publish -c Release -f netcoreapp3.1 -r ubuntu.16.04-x64

publishしたものをpublish.zipにまとめる。
Windowsなので、PowerShellを使用してみる。
```
powershell compress-archive publish ..\publish.zip
```

↑

依存関係のダウンロード †

依存関係ファイルをダウンロードする。

※ URL : https://github.com/dotnet/spark/tree/master/deployment

Microsoft.Spark.Worker
ローカル実行で使用したものに対応するLinux版の*.tar.gz
https://github.com/dotnet/spark/releases/download/v1.0.0/Microsoft.Spark.Worker.netcoreapp3.1.linux-x64-1.0.0.tar.gz

install-worker.sh
Apache Spark クラスタに Worker バイナリをインストール

db-init.sh
- ワーカーとアプリの依存関係を Databricks Spark クラスタにインストール。
- DOTNET_SPARK_RELEASEを修正するという手順があるが、コレは不要らしい。

※ *.shの行の終わりは Unix 形式 (LF) であることを確認

↑

ファイルのアップロード †

次のファイルをアップロードする

アプリケーション

一式

publish.zip
発行したアプリ

input.txt
自分は、input.txtをプロジェクト出力に含めていたのでpublishに同梱されているが、
カレント・ディレクトリが異なるため別途アップロードが必要らしい（根拠は以下のエラー・メッセージ）。
```
Microsoft.Spark.JvmException: org.apache.spark.sql.AnalysisException: Path does not exist: dbfs:/input.txt;
```

microsoft-spark-2-4_2.11-1.0.0.jar
ローカル実行で使用したもの（publish中で使用したバージョン）

dbfsにアップロード
Databricks CLIを使って。

databricks fs cp input.txt dbfs:/input.txt
databricks fs cp publish.zip dbfs:/spark-dotnet/publish.zip
databricks fs cp microsoft-spark-2-4_2.11-1.0.0.jar dbfs:/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar

※ input.txtがZIPに同梱されていても、カレント・ディレクトリが異なるのでアップロードが必要。

依存関係

前述の一式

Microsoft.Spark.Worker
install-worker.sh
db-init.sh

dbfsにアップロード
Databricks CLIを使って。

databricks fs cp Microsoft.Spark.Worker.netcoreapp3.1.linux-x64-1.0.0.tar.gz dbfs:/spark-dotnet/Microsoft.Spark.Worker.netcoreapp3.1.linux-x64-1.0.0.tar.gz
databricks fs cp install-worker.sh dbfs:/spark-dotnet/install-worker.sh
databricks fs cp db-init.sh dbfs:/spark-dotnet/db-init.sh

参考
- DBFS CLI-Azure Databricks - Workspace | Microsoft Docs
  https://docs.microsoft.com/ja-jp/azure/databricks/dev-tools/cli/dbfs-cli

↑

ジョブを作成して実行 †

ジョブを作成する。
ワークスペース（Databricks のポータル・サイト）の
- 左メニュー中の [Job] アイコンを選択し、
- 次に[+ Create Job] を選択して、Job名を入力、

以下、UIが変更されているので、以下を参考にする。
- ジョブ - Azure Databricks | Microsoft Docs
  https://docs.microsoft.com/ja-jp/azure/databricks/jobs

spark-submitの構成
初めに、[Task]の[Type]を[Notebook]から[Spark Submit]に変更する。

クラスタ構成の設定
次に、Clusterの[Edit]を選択し、Configure New Clusterを表示させる。

Databricks Runtime Versionを選択
- Spark 2.4.1が無かったので、最も近い、
- Runtime: 5.5 LTS (Scala 2.11, Spark 2.4.3)に変更。

Initスクリプトを db-init.sh に設定
- Advanced optionsを展開する。
- [Init Scripts]タブを選択する。
- [Destination]ドロップダウンリストでDBFSを選択する。
- [Init Script Path]に以下を入力する。
```
dbfs:/spark-dotnet/db-init.sh
```
- [Confirm]を押下する。

※ コレにより、db-init.sh 内で install-worker.sh が構成される（$1-3をパラメタライズ）。

パラメタの設定

パラメタに次の文字列を貼り付ける。

["--class","org.apache.spark.deploy.dotnet.DotnetRunner","/dbfs/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar","/dbfs/spark-dotnet/publish.zip","mySparkApp"]

自分は、

mySparkApp? → MySparkApp? としていたので、その様に変更した。

実行に必要となる引数が存在する場合、spark-submitでは、以下のように指定できる模様。
.NET for Apache Spark ジョブを Databricks に送信する | Microsoft Docs
https://docs.microsoft.com/ja-jp/dotnet/spark/how-to-guides/databricks-deploy-methods

...と言う事で、実際、パラメタには、次の文字列を貼り付けた。

["--class","org.apache.spark.deploy.dotnet.DotnetRunner","/dbfs/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar","/dbfs/spark-dotnet/publish.zip","MySparkApp", "input.txt"]

[Create]を押下する。

アプリの実行

ここで、Initスクリプトが実行される。

ジョブのクラスタが作成されるまで数分かかる。
（リソース・グループを確認するとクラスタのリソース増が確認できる）

Job名の横にある [Run Now] ボタンをクリックする。

Jobで構成した Spark クラスタでJobが実行される。

実行結果は、Completed Runs表中のSpark列に表示されるLogsから確認できる。

リソースのクリーンアップ
- リソース・グループを確認するとクラスタのリソース減が確認できる
- 必要に応じて、（ワークスペースとクラスタの）リソース・グループを削除する。

↑

参考 †

Azure HDInsightとの比較

クラスタの作成中のdb-init.sh 設定＋アプリの実行

≒ スクリプトアクション実行

エラー

１
Azureのクォータ制限を解除する。

Cluster:

Driver: Standard_DS3_v2,
Workers: Standard_DS3_v2,
8 workers, 5.5 LTS (includes Apache Spark 2.4.3, Scala 2.11)

Message:

Unexpected failure while waiting for the cluster (...) to be ready.
Cause Unexpected state for cluster (...):
AZURE_QUOTA_EXCEEDED_EXCEPTION(CLIENT_ERROR):~
azure_error_code : QuotaExceeded,~
azure_error_message :
  Operation could not be completed as it results in exceeding approved Total Regional Cores quota.
  Additional details -
  Deployment Model: Resource Manager,
  Location: japaneast,
  Current Limit: 10,
  Current Usage: 4,
  Additional Required: 28,
  (Minimum) New Limit Required: 32.
  Submit a request for Quota increase at
  https://aka.ms/ProdportalCRP/?#create/Microsoft.Support/Parameters/%7B%22subId%22:%2232e43be6-1930-4982-a62c-a259327e5c77%22,%22pesId%22:%2206bfd9d3-516b-d5c6-5802-169c800dec89%22,%22supportTopicId%22:%22e12e3d1d-7fa0-af33-c6d0-3c50df9658a3%22%7D
  by specifying parameters listed in the 'Details' section for deployment to succeed.
  Pleas ... ***WARNING: message truncated. Skipped 964 bytes of output**

クォータ制限を解除する。
以下のクォータを32に設定する。
・Total Regional vCPUsのクォータ
・Standard_DS3_v2 → DSv2 シリーズ(Standard DSv2 Promo Family vCPUs)のクォータ

２
input.txtの扱いについて、

ZIP同梱していても、別途アップロードが必要になる。
また、コマンド引数でファイル名を渡している場合、spark-submitのパラメタで設定可能。

↑

上記と同様に行ってみる例 †

ワークスペースをクリーンナップするか新規作成する必要があるので、
１つのバッチにまとめて、コマンドライン引数で切り替えるのが良いかも。

↑

バッチ処理 †

アプリ

publish.zipの発行とアップロード

cd ...\DotNet4ApacheSpark\mySparkBatchApp\mySparkBatchApp
dotnet publish -c Release -f netcoreapp3.1 -r ubuntu.16.04-x64
cd ...\mySparkBatchApp\bin\Release\netcoreapp3.1\ubuntu.16.04-x64
powershell compress-archive publish ..\publish.zip
cd ..
databricks fs rm dbfs:/spark-dotnet/publish.zip
databricks fs cp publish.zip dbfs:/spark-dotnet/publish.zip

projects_smaller.csvのアップロード

databricks fs cp projects_smaller.csv dbfs:/projects_smaller.csv

spark-submitのパラメタ設定

["--class","org.apache.spark.deploy.dotnet.DotnetRunner","/dbfs/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar","/dbfs/spark-dotnet/publish.zip","mySparkBatchApp", "projects_smaller.csv"]

エラー
何故か、最後のDataFrame?.Showでエラーになって
4つ目の結果セットが表示されなかった（原因不明）。

↑

構造化ストリーミング †

パッシブ・オープンした通信先をAzure Databricksからアクティブ・オープンする。
ただ、Azure Databricksからアクティブ・オープンする通信先を用意できないので現時点ではパス。
- 他のサンプルは、kafkaをsubscribeするなどしている。
- Azure Event Hubsなどで書き換えてみると良いかもしれない。

↑

ML.NETでの感情分析 †

↑

Java †

可能らしいがサンプルが無いのは、Scalaでやるから？

↑

参考 †

Azure Databricksを使ってみた – ナレコムAzureレシピ | AIに強い情報サイト
https://azure-recipe.kc-cloud.jp/2018/08/azure-databricks/

↑

databricks.com †

Apache Spark チュートリアル: Apache Spark チュートリアルを開始する
https://databricks.com/jp/spark/getting-started-with-apache-spark

↑

microsoft.com †

↑

Scala †

チュートリアル
- Azure Databricks を使用してデータの抽出、変換、読み込みを行う
  https://docs.microsoft.com/ja-jp/azure/databricks/scenarios/databricks-extract-load-sql-data-warehouse

Event Hubs を使用してデータを Azure Databricks にストリーム配信する
https://docs.microsoft.com/ja-jp/azure/databricks/scenarios/databricks-stream-from-eventhubs

Azure Databricks を使用したストリーミングデータに対する感情分析
https://docs.microsoft.com/ja-jp/azure/databricks/scenarios/databricks-sentiment-analysis-cognitive-services

↑

Python (PySpark?) †

クイックスタート
- Azure portal を使用して Azure Databricks ワークスペースで Spark ジョブを実行する
  https://docs.microsoft.com/ja-jp/azure/databricks/scenarios/quickstart-create-databricks-workspace-portal
- PowerShell を使用して Azure Databricks ワークスペースを作成する
  https://docs.microsoft.com/ja-jp/azure/databricks/scenarios/quickstart-create-databricks-workspace-powershell

チュートリアル:Azure Databricks ノートブックから
仮想ネットワーク内の SQL Server Linux Docker コンテナーのクエリを実行する
https://docs.microsoft.com/ja-jp/azure/databricks/scenarios/vnet-injection-sql-server

チュートリアル:Azure Data Lake Storage Gen2、Azure Databricks、および Spark
https://docs.microsoft.com/ja-jp/azure/storage/blobs/data-lake-storage-use-databricks-spark

↑

Azure Databricksチュートリアル のバックアップ(No.25)

目次 †

概要 †

準備 †

契約 †

Azureの契約 †

Databricksの契約 †

環境 †

ワークスペース †

ツール †

Scala †

ETL のチュートリアル †

Event Hubsと組み合わせるチュートリアル †

感情分析のチュートリアル †

参考 †

Python (PySpark) †

クイック スタート †

Parquetファイル †

Azureストレージへアクセス †

Azure Databricks上で実行 †

KcMichael? - Qiita †

SQL Serverと組み合わせるチュートリアル †

ちょっと古いのか？アカンやつ。 †

Azure Databricksを使ってみた †

Azure Data Lake のチュートリアル †

参考 †

.NET †

Get started in 10 minutes †

アプリの発行 †

依存関係のダウンロード †

ファイルのアップロード †

ジョブを作成して実行 †

参考 †

上記と同様に行ってみる例 †

バッチ処理 †

構造化ストリーミング †

ML.NETでの感情分析 †

Java †

参考 †

databricks.com †

microsoft.com †

Scala †

Python (PySpark?) †

Qiita †

Scala †

Python (PySpark?) †

クイックスタート †