「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
チュートリアル †
以下のチュートリアルを実施してみた。
Get started in 10 minutes
≒ .NET for Apache Spark 101-α
≒ .NET for Apache Spark ガイド-α
≠ github.com...README.md#get-started
前提 †
情報源 †
- 2020/11の情報
- Microsoft Docsベース
ローカル †
- ランタイム
- .NET:netcoreapp3.1
- Java:jdk-8u201-windows-x64.exe
- winutils.exe
Windowsで利用できるHadoopバイナリ
詳細 †
開発 †
- コピペ用CMD
- Apache Spark
- HOMEの指定
setx /M HADOOP_HOME C:\prog\spark\spark-2.4.1-bin-hadoop2.7\
setx /M SPARK_HOME C:\prog\spark\spark-2.4.1-bin-hadoop2.7\
setx /M PATH "%PATH%;%HADOOP_HOME%;%SPARK_HOME%\bin"
- 動作確認
>spark-submit --version
Welcome to
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 2.4.1
/_/
Using Scala version 2.11.12, Java HotSpot(TM) 64-Bit Server VM, 1.8.0_201
Branch
Compiled by user on 2019-03-26T22:44:44Z
Revision
Url
Type --help for more information.
バッチ処理 †
- デモを見た限り、入力はCSVファイルで集計処理を行う。
構造化ストリーミング †
(別名、マイクロ・バッチ)
- デモを見た限り、入力はNetcatからのテキスト行で、変換処理を行う。
- なお、ストリーミング処理では、ループを書くのではなく、StreamingQuery?を使用する模様。
- これは、Spark SQL エンジンに基づいた、Structured Streamingによる。
- StreamingQuery?のStartでアプリケーションが開始する。
- StreamingQuery?のAwaitTermination?でアプリケーションが外部から停止されるまで実行。
- デモを見た限り、入力はyelptest.csvで、感情分析を行う。
- なお、学習は、yelptrain.csvを使用して行う。
- 学習の結果、XXXXML.Modelプロジェクトが生成されるので、参照を追加する。
- ML処理を呼出すUDFをクエリ構文のSpark SQLから利用する。
デプロイ †
リンク先を読むと解るが差は僅か。
分散環境での入出力 †
分散環境 †
入出力 †
遅延評価で実現されること。 †
参考 †
msdn.com †
Channel 9 > .NET for Apache Spark 101 †
「.NET for Apache Spark ガイドのチュートリアル部」を動画化してある。
- Sentiment Analysis with .NET for Apache Spark and ML.NET
- Deploy .NET for Apache Spark App to
microsoft.com †
Get started in 10 minutes †
https://dotnet.microsoft.com/learn/data/spark-tutorial/intro
- その他のチュートリアル
.NET for Apache Spark
- .NET for Apache Spark アプリケーションをデプロイする
Tags: :クラウド, :Azure, :.NET開発, :.NET Core, :.NET Standard