「[[マイクロソフト系技術情報 Wiki>http://techinfoofmicrosofttech.osscons.jp/]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。

-[[戻る>.NET for Apache Spark]]

* 目次 [#je3d6ac1]
#contents

*概要 [#ee897365]
チュートリアルを実施してみた。

**チュートリアル [#cbcd8222]
以下のチュートリアルを実施してみた。
>[[Get started in 10 minutes>#g7fce881]]~
≒ [[.NET for Apache Spark 101>#vf8b2398]]+α~
≒ [[.NET for Apache Spark ガイド>#zd2d65ee]]+α~
≒ [[.NET for Apache Spark 101>#vf8b2398]]-α~
≒ [[.NET for Apache Spark ガイド>#zd2d65ee]]-α~
≠ github.com...README.md#get-started

**前提 [#s695f3aa]
-2020/11/18
-Microsoft Docsベース
-ローカルはWindows
-netcoreapp3.1を使用

*詳細 [#oa8d7c9e]

**開発 [#le456446]

***Get started [#s680c185]
-デモを見た限り、入力はTXTファイルで単語を数える。
-[[メソッド構文のSpark SQL>.NET for Apache Spark#x77ba954]]で単語を数える(いきなりハードル高い)。
-分散環境では、どのように入力を取得するのか?

***バッチ処理 [#l7b4829d]
-デモを見た限り、入力はCSVファイルで集計処理を行う。

-集計処理は以下の2つ
--[[メソッド構文のSpark SQL>.NET for Apache Spark#x77ba954]]で言語毎のフォークの平均回数を降順に並べる。
--[[UDF>.NET for Apache Spark#w1fa929a]]を[[メソッド構文のSpark SQL>.NET for Apache Spark#x77ba954]]から利用し、指定の日付以降の更新日付を示す。

-同様に、分散環境では、どのように入力を取得するのか?

***構造化ストリーミング [#v2288c2e]
(別名、マイクロ・バッチ)

-デモを見た限り、入力はNetcatからのテキスト行で、変換処理を行う。
-[[UDF>.NET for Apache Spark#w1fa929a]]を[[メソッド構文のSpark SQL>.NET for Apache Spark#x77ba954]]から利用し、エンリッチメントする。
-同様に、分散環境では、どのように入力を取得するのか?

***[[ML.NET]] での感情分析 [#bb5afcf2]

-デモを見た限り、入力はyelptest.csvで、感情分析を行う。
-なお、学習は、yelptrain.csvを使用して行う。
-学習の結果、XXXXML.Modelプロジェクトが生成されるので、参照を追加する。
-ML処理を呼出す[[UDF>.NET for Apache Spark#w1fa929a]]を[[クエリ構文のSpark SQL>.NET for Apache Spark#x77ba954]]から利用する。
-同様に、分散環境では、どのように入力を取得するのか?

**デプロイ [#b151a3cc]
***[[Azure HDInsight>Azure HDInsight#g5c4a9f0]] [#y2aa662f]
***[[Azure Databricks>Azure Databricks#e7380cc6]] [#afd6d3ae]

*参考 [#g102834f]

**msdn.com [#y8581d41]

***Channel 9 > .NET for Apache Spark 101 [#vf8b2398]
https://channel9.msdn.com/Series/NET-for-Apache-Spark-101

-What is .NET for Apache Spark? [1 of 8]~
https://channel9.msdn.com/Series/NET-for-Apache-Spark-101/What-is-NET-for-Apache-Spark

-Run Your First .NET for Apache Spark App [2 of 8]~
https://channel9.msdn.com/Series/NET-for-Apache-Spark-101/Run-Your-First-NET-for-Apache-Spark-App

-Batch Processing with .NET for Apache Spark [3 of 8]~
https://channel9.msdn.com/Series/NET-for-Apache-Spark-101/Batch-Processing-with-NET-for-Apache-Spark

-Structured Streaming with .NET for Apache Spark [4 of 8]~
https://channel9.msdn.com/Series/NET-for-Apache-Spark-101/Structured-Streaming-with-NET-for-Apache-Spark

-Sentiment Analysis with .NET for Apache Spark and ML.NET
--Part 1 [5 of 8]~
https://channel9.msdn.com/Series/NET-for-Apache-Spark-101/Sentiment-Analysis-with-NET-for-Apache-Spark-and-MLNET-Part-1
--Part 2 [6 of 8]~
https://channel9.msdn.com/Series/NET-for-Apache-Spark-101/Sentiment-Analysis-with-NET-for-Apache-Spark-and-MLNET-Part-2

-Deploy .NET for Apache Spark App to
--Azure Databricks [7 of 8]~
https://channel9.msdn.com/Series/NET-for-Apache-Spark-101/Deploy-NET-for-Apache-Spark-App-to-Azure-Databricks
--Azure HDInsight [8 of 8]~
https://channel9.msdn.com/Series/NET-for-Apache-Spark-101/Deploy-NET-for-Apache-Spark-App-to-Azure-HDInsight

**microsoft.com [#x7a1c48d]

***Get started in 10 minutes [#g7fce881]
https://dotnet.microsoft.com/learn/data/spark-tutorial/intro

-Install .NET~
https://dotnet.microsoft.com/learn/data/spark-tutorial/install-dotnet
-Install Prerequisites~
https://dotnet.microsoft.com/learn/data/spark-tutorial/install-pre-reqs
-Install Apache Spark~
https://dotnet.microsoft.com/learn/data/spark-tutorial/install-spark
-Install .NET for Apache Spark~
https://dotnet.microsoft.com/learn/data/spark-tutorial/install-worker
-Create your app~
https://dotnet.microsoft.com/learn/data/spark-tutorial/create
-Install NuGet package~
https://dotnet.microsoft.com/learn/data/spark-tutorial/install-package
-Add data file~
https://dotnet.microsoft.com/learn/data/spark-tutorial/data
-Code your app~
https://dotnet.microsoft.com/learn/data/spark-tutorial/code
-Run your app~
https://dotnet.microsoft.com/learn/data/spark-tutorial/run

***[[.NET for Apache Spark ガイド>.NET for Apache Spark#w086a731]] [#zd2d65ee]
-.NET for Apache Spark の概要(作業開始)~
https://docs.microsoft.com/ja-jp/dotnet/spark/tutorials/get-started

-その他のチュートリアル
.NET for Apache Spark~
--...を使用したバッチ処理のチュートリアル~
https://docs.microsoft.com/ja-jp/dotnet/spark/tutorials/batch-processing
--...を使用した構造化ストリーミングのチュートリアル~
https://docs.microsoft.com/ja-jp/dotnet/spark/tutorials/streaming
--...と ML.NET での感情分析のチュートリアル~
https://docs.microsoft.com/ja-jp/dotnet/spark/tutorials/ml-sentiment-analysis

-.NET for Apache Spark アプリケーションをデプロイする~
--Azure HDInsight~
https://docs.microsoft.com/ja-jp/dotnet/spark/tutorials/hdinsight-deployment
--Azure Databricks~
https://docs.microsoft.com/ja-jp/dotnet/spark/tutorials/databricks-deployment

----
Tags: [[:クラウド]], [[:Azure]], [[:.NET開発]], [[:.NET Core]], [[:.NET Standard]]


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS