.NET for Apache Sparkのデータ接続
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
「[[マイクロソフト系技術情報 Wiki>http://techinfoofmicros...
-[[戻る>.NET for Apache Spark]]
--[[.NET for Apache Sparkチュートリアル]]
--.NET for Apache Sparkのデータ接続
--[[.NET for Apache SparkのSQL]]
* 目次 [#l6fd2e48]
#contents
*概要 [#cc875afc]
.NET で Spark の実装ができる for Apache Spark。
*詳細 [#x9270354]
Sparkの仕様なので、[[Azure HDInsight]]・[[Azure Databrick...
**ファイルの場合 [#la597a33]
***ローカル [#h77d6861]
ローカル・ファイルを読むこともできる。
***[[Azure HDInsight]] [#k6dae843]
[[マウントされたストレージに直接アップロード>Azure HDInsi...
***[[Azure Databricks]] [#jcd6adda]
[[Databricks CLIを使用してアップロード>Azure Databricks#u...
***WASB or ABFS [#t901d2aa]
下記に対するURLを使用することも出来る。
-WASB[S]: Azure storage.~
wasb://<container_name>@<storage_account_name>.blob.core....
-ABFS[S]: Azure Data Lake Storage Gen2.~
abfs://<file_system>@<account_name>.dfs.core.windows.net
**Clientの場合 [#ac6faf6f]
-SparkSessionのReadStreamメソッドでDataFrameを読み込む。
-[[LoopではなくStreamingQueryを使用して実装する。>.NET fo...
***TCP/IPソケット [#y3026999]
.Format("socket")
-ホスト名~
.Option("host", hostname)
-ポート番号~
.Option("port", port)
***[[Azure Event Hubs]] [#g36a8526]
[[コチラ>Azure Databricksチュートリアル#y4d4dbfd]]が参考...
***Apache Kafka [#efb0d878]
正確には、[[Azure Event HubsのKafka エンドポイント>Azure ...
-受信処理(DataFrameのReadStream)の結果をDataFrame.Show(...
-なお、送信処理(DataFrameのWriteStream)もサポートしてい...
-送受信処理の実装
--パラメタの初期化(共通)~
[[SASトークン>#y03d6018]]を使用する場合の設定例
string BOOTSTRAP_SERVERS = "hostname:9093"; // 9093 is t...
string EH_SASL = "org.apache.kafka.common.security.plain...
--ReadStream
SparkSession spark = SparkSession
.Builder()
.AppName("Connect Event Hub")
.GetOrCreate();
DataFrame df = spark
.ReadStream()
.Format("kafka")
.Option("kafka.bootstrap.servers", BOOTSTRAP_SERVERS)
.Option("subscribe", "spark-test")
.Option("kafka.sasl.mechanism", "PLAIN")
.Option("kafka.security.protocol", "SASL_SSL")
.Option("kafka.sasl.jaas.config", EH_SASL)
.Option("kafka.request.timeout.ms", "60000")
.Option("kafka.session.timeout.ms", "60000")
.Option("failOnDataLoss", "false")
.Load();
DataFrame dfWrite = df
.WriteStream()
.OutputMode("append")
.Format("console")
.Start();
--WriteStream
df.WriteStream()
.Format("kafka")
.Option("topic", topics)
.Option("kafka.bootstrap.servers", BOOTSTRAP_SERVERS)
.Option("kafka.sasl.mechanism", "PLAIN")
.Option("kafka.security.protocol", "SASL_SSL")
.Option("kafka.sasl.jaas.config", EH_SASL)
.Option("checkpointLocation", "./checkpoint")
.Start();
-チュートリアルの書き換え~
[[.NET for Apache Sparkの構造化ストリーミングのチュートリ...
--書換
// Create initial DataFrame
string BOOTSTRAP_SERVERS = "xxxx.servicebus.windows.net:...
string CONNECTION_STRING = "Endpoint=sb://xxxx.servicebu...
string EH_SASL = $"org.apache.kafka.common.security.plai...
DataFrame lines = spark
.ReadStream()
.Format("kafka")
.Option("subscribe", "test")
.Option("kafka.bootstrap.servers", BOOTSTRAP_SERVERS)
.Option("kafka.sasl.mechanism", "PLAIN")
.Option("kafka.security.protocol", "SASL_SSL")
.Option("kafka.sasl.jaas.config", EH_SASL)
.Option("kafka.request.timeout.ms", "60000")
.Option("kafka.session.timeout.ms", "60000")
.Option("kafka.group.id", "$Default")
.Option("failOnDataLoss", "false")
.Load();
--実行
>spark-submit ^
--class org.apache.spark.deploy.dotnet.DotnetRunner ^
--master local ^
microsoft-spark-3-0_2.12-2.0.0.jar ^
dotnet mySparkStreamingApp.dll
※ エラー発生中(調査中
**Serverの場合 [#g40c913e]
サーバーにはならない
*参考 [#o8fa57c9]
**microsoft.com [#pe74c5ab]
***[[Microsoft Docs > .NET for Apache Spark ガイド>.NET f...
-使い方ガイド > データーへの接続
--Azure Data Lake Storage Gen 2 または WASB アカウントに...
https://docs.microsoft.com/ja-jp/dotnet/spark/how-to-guid...
--.NET for Apache Spark を Azure Event Hubs に接続する~
https://docs.microsoft.com/ja-jp/dotnet/spark/how-to-guid...
--.NET for Apache Spark を MongoDB に接続する~
https://docs.microsoft.com/ja-jp/dotnet/spark/how-to-guid...
--.NET for Apache Spark を SQL Server に接続する~
https://docs.microsoft.com/ja-jp/dotnet/spark/how-to-guid...
----
Tags: [[:クラウド]], [[:Azure]], [[:.NET開発]], [[:.NET C...
終了行:
「[[マイクロソフト系技術情報 Wiki>http://techinfoofmicros...
-[[戻る>.NET for Apache Spark]]
--[[.NET for Apache Sparkチュートリアル]]
--.NET for Apache Sparkのデータ接続
--[[.NET for Apache SparkのSQL]]
* 目次 [#l6fd2e48]
#contents
*概要 [#cc875afc]
.NET で Spark の実装ができる for Apache Spark。
*詳細 [#x9270354]
Sparkの仕様なので、[[Azure HDInsight]]・[[Azure Databrick...
**ファイルの場合 [#la597a33]
***ローカル [#h77d6861]
ローカル・ファイルを読むこともできる。
***[[Azure HDInsight]] [#k6dae843]
[[マウントされたストレージに直接アップロード>Azure HDInsi...
***[[Azure Databricks]] [#jcd6adda]
[[Databricks CLIを使用してアップロード>Azure Databricks#u...
***WASB or ABFS [#t901d2aa]
下記に対するURLを使用することも出来る。
-WASB[S]: Azure storage.~
wasb://<container_name>@<storage_account_name>.blob.core....
-ABFS[S]: Azure Data Lake Storage Gen2.~
abfs://<file_system>@<account_name>.dfs.core.windows.net
**Clientの場合 [#ac6faf6f]
-SparkSessionのReadStreamメソッドでDataFrameを読み込む。
-[[LoopではなくStreamingQueryを使用して実装する。>.NET fo...
***TCP/IPソケット [#y3026999]
.Format("socket")
-ホスト名~
.Option("host", hostname)
-ポート番号~
.Option("port", port)
***[[Azure Event Hubs]] [#g36a8526]
[[コチラ>Azure Databricksチュートリアル#y4d4dbfd]]が参考...
***Apache Kafka [#efb0d878]
正確には、[[Azure Event HubsのKafka エンドポイント>Azure ...
-受信処理(DataFrameのReadStream)の結果をDataFrame.Show(...
-なお、送信処理(DataFrameのWriteStream)もサポートしてい...
-送受信処理の実装
--パラメタの初期化(共通)~
[[SASトークン>#y03d6018]]を使用する場合の設定例
string BOOTSTRAP_SERVERS = "hostname:9093"; // 9093 is t...
string EH_SASL = "org.apache.kafka.common.security.plain...
--ReadStream
SparkSession spark = SparkSession
.Builder()
.AppName("Connect Event Hub")
.GetOrCreate();
DataFrame df = spark
.ReadStream()
.Format("kafka")
.Option("kafka.bootstrap.servers", BOOTSTRAP_SERVERS)
.Option("subscribe", "spark-test")
.Option("kafka.sasl.mechanism", "PLAIN")
.Option("kafka.security.protocol", "SASL_SSL")
.Option("kafka.sasl.jaas.config", EH_SASL)
.Option("kafka.request.timeout.ms", "60000")
.Option("kafka.session.timeout.ms", "60000")
.Option("failOnDataLoss", "false")
.Load();
DataFrame dfWrite = df
.WriteStream()
.OutputMode("append")
.Format("console")
.Start();
--WriteStream
df.WriteStream()
.Format("kafka")
.Option("topic", topics)
.Option("kafka.bootstrap.servers", BOOTSTRAP_SERVERS)
.Option("kafka.sasl.mechanism", "PLAIN")
.Option("kafka.security.protocol", "SASL_SSL")
.Option("kafka.sasl.jaas.config", EH_SASL)
.Option("checkpointLocation", "./checkpoint")
.Start();
-チュートリアルの書き換え~
[[.NET for Apache Sparkの構造化ストリーミングのチュートリ...
--書換
// Create initial DataFrame
string BOOTSTRAP_SERVERS = "xxxx.servicebus.windows.net:...
string CONNECTION_STRING = "Endpoint=sb://xxxx.servicebu...
string EH_SASL = $"org.apache.kafka.common.security.plai...
DataFrame lines = spark
.ReadStream()
.Format("kafka")
.Option("subscribe", "test")
.Option("kafka.bootstrap.servers", BOOTSTRAP_SERVERS)
.Option("kafka.sasl.mechanism", "PLAIN")
.Option("kafka.security.protocol", "SASL_SSL")
.Option("kafka.sasl.jaas.config", EH_SASL)
.Option("kafka.request.timeout.ms", "60000")
.Option("kafka.session.timeout.ms", "60000")
.Option("kafka.group.id", "$Default")
.Option("failOnDataLoss", "false")
.Load();
--実行
>spark-submit ^
--class org.apache.spark.deploy.dotnet.DotnetRunner ^
--master local ^
microsoft-spark-3-0_2.12-2.0.0.jar ^
dotnet mySparkStreamingApp.dll
※ エラー発生中(調査中
**Serverの場合 [#g40c913e]
サーバーにはならない
*参考 [#o8fa57c9]
**microsoft.com [#pe74c5ab]
***[[Microsoft Docs > .NET for Apache Spark ガイド>.NET f...
-使い方ガイド > データーへの接続
--Azure Data Lake Storage Gen 2 または WASB アカウントに...
https://docs.microsoft.com/ja-jp/dotnet/spark/how-to-guid...
--.NET for Apache Spark を Azure Event Hubs に接続する~
https://docs.microsoft.com/ja-jp/dotnet/spark/how-to-guid...
--.NET for Apache Spark を MongoDB に接続する~
https://docs.microsoft.com/ja-jp/dotnet/spark/how-to-guid...
--.NET for Apache Spark を SQL Server に接続する~
https://docs.microsoft.com/ja-jp/dotnet/spark/how-to-guid...
----
Tags: [[:クラウド]], [[:Azure]], [[:.NET開発]], [[:.NET C...
ページ名: