「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
らしい。
取り敢えず、.NET for Apache Spark ガイドのコンテンツをやってみる。
(Get started in 10 minutes)
※ 無料試用版サブスクリプションは利用不可との事。
ワークスペースの作成には数分かかる。
>python ...
>pip3 install databricks-cli
>databricks ...
>databricks configure --token
Databricks Host (should begin with https://): https://<Location>.azuredatabricks.net
Token: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
>dotnet publish -c Release -f netcoreapp3.1 -r ubuntu.16.04-x64
次のファイルをダウンロードする。
※ *.shの行の終わりは Unix 形式 (LF) であることを確認
※ https://github.com/dotnet/spark/tree/master/deployment
次のファイルをアップロードする(Databricks CLI)
databricks fs cp input.txt dbfs:/input.txt databricks fs cp publish.zip dbfs:/spark-dotnet/publish.zip databricks fs cp microsoft-spark-2-4_2.11-1.0.0.jar dbfs:/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar
databricks fs cp Microsoft.Spark.Worker.netcoreapp3.1.linux-x64-1.0.0.tar.gz dbfs:/spark-dotnet/Microsoft.Spark.Worker.netcoreapp3.1.linux-x64-1.0.0.tar.gz databricks fs cp install-worker.sh dbfs:/spark-dotnet/install-worker.sh databricks fs cp db-init.sh dbfs:/spark-dotnet/db-init.sh
※ install-worker.sh は、.NET for Apache Spark 依存ファイルをクラスタのノードにコピーする。
WebのGUIを使用して、spark-submit を構成
["--class","org.apache.spark.deploy.dotnet.DotnetRunner","/dbfs/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar","/dbfs/spark-dotnet/publish.zip","mySparkApp"]
※ 同様に、多分、引数にinput.txtを足す必要があるのではないか?と。
リソース グループを削除する。
https://docs.microsoft.com/ja-jp/azure/databricks/
...