「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
Apache Sparkベースのビッグデータ、統合データ分析プラットフォーム
ビッグデータ分析ワークロードで利用する。
「DataとAIの⺠主化」を実現する機能
データ領域とか、そう言う概念はあるらしい。
同時編集・コメント・ロギング機能にて、チームでの開発を加速
多⾔語対応にて、スキルの壁を跨いでコラボレーション
...
クラウド・サービス | OSS |
DELTA LAKE | DELTA LAKE |
DELTA ENGINE | - |
さまざまなデータソースから集約された、
⾼品質なデータセットにアクセス可能であるため、
1つのプラットフォーム上で多様なユースケースを実現可能。
機械学習のツールの課題に対するソリューション
機械学習のデプロイの課題に対するソリューション
モデル学習→ モデル登録→ モデル⽐較→ 承認ワークフロー→ モデルデプロイ
.NET for Apache SparkガイドのGet started in 10 minutesをやる。
取り敢えず、.NET for Apache Spark ガイドのデプロイ・コンテンツをやってみる。
Azureの無料試用版サブスクリプションは利用不可との事。
>pip3 install databricks-cli
>databricks Usage: databricks [OPTIONS] COMMAND [ARGS]... Options: -v, --version 0.14.3 ...
>databricks configure --token
Databricks Host (should begin with https://): https://<Location>.azuredatabricks.net
#ref(): File not found: "無題1.png" at page "Azure Databricks"
Token: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
>databricks configure --token Databricks Host (should begin with https://): https://.....azuredatabricks.net/ Token: >
>dotnet publish -c Release -f netcoreapp3.1 -r ubuntu.16.04-x64
powershell compress-archive publish ..\publish.zip
※ URL : https://github.com/dotnet/spark/tree/master/deployment
※ *.shの行の終わりは Unix 形式 (LF) であることを確認
次のファイルをアップロードする
Microsoft.Spark.JvmException: org.apache.spark.sql.AnalysisException: Path does not exist: dbfs:/input.txt;
databricks fs cp input.txt dbfs:/input.txt databricks fs cp publish.zip dbfs:/spark-dotnet/publish.zip databricks fs cp microsoft-spark-2-4_2.11-1.0.0.jar dbfs:/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar※ input.txtがZIPに同梱されていても、カレント・ディレクトリが異なるのでアップロードが必要。
databricks fs cp Microsoft.Spark.Worker.netcoreapp3.1.linux-x64-1.0.0.tar.gz dbfs:/spark-dotnet/Microsoft.Spark.Worker.netcoreapp3.1.linux-x64-1.0.0.tar.gz databricks fs cp install-worker.sh dbfs:/spark-dotnet/install-worker.sh databricks fs cp db-init.sh dbfs:/spark-dotnet/db-init.sh
以下のように、ジョブの作成して実行する。
ワークスペース(Databricks のポータル・サイト)の
初めに、[Task]の[Type]を[Notebook]から[Spark Submit]に変更する。
次に、Clusterの[Edit]を選択し、Configure New Clusterを表示させる。
dbfs:/spark-dotnet/db-init.sh
※ コレにより、db-init.sh 内で install-worker.sh が構成される($1-3をパラメタライズ)。
["--class","org.apache.spark.deploy.dotnet.DotnetRunner","/dbfs/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar","/dbfs/spark-dotnet/publish.zip","mySparkApp"]
["--class","org.apache.spark.deploy.dotnet.DotnetRunner","/dbfs/spark-dotnet/microsoft-spark-2-4_2.11-1.0.0.jar","/dbfs/spark-dotnet/publish.zip","MySparkApp", "input.txt"]
#ref(): File not found: "無題2.png" at page "Azure Databricks"
https://docs.microsoft.com/ja-jp/azure/databricks/
...