「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
- .NET の経験あるいはコード ベースを持つ開発者が、
ビッグ データ分析の世界へ参入できるように支援する。
- C# や F# のような使い慣れた言語を使いたい
- 言語統合クエリ(LINQ)のような機能のサポート
- リモートSparkクラスタへのアプリの送信や.NETアプリのデバッグ
- Microsoftと.NET Foundationが開発
- 2019/4に最初のバージョンが公開
- 2020/10/27に1.0がリリース
- .NET Standard 2.0以降をターゲット
(.NET Core 3.1以降を推奨)
- GitHub ページや NuGet から入手可能
- 以下の機能をサポートしている。
- Apache Sparkクラウドサービス等で利用可能
- コミュニティが提供する
- すぐに実行できる Dockerイメージ
- .NET for Apache Sparkのドキュメントの更新
- デプロイメントオプション
- CI/CD デップスパイプラインとの統合
- Visual Studioから直接ジョブを発行
詳細 †
経緯 †
- Apache Spark用のバインディングであるPySpark?(Python)やSparkR(R)と、
同じ方式で実装された、Mobiusと言うC# と F# の言語バインディングを起点に開発された。
- Apache Arrow や Pyrolite によってJVMと.NET CLRの間の相互運用性を高めている。
- Apache Arrowは、言語に依存しないカラム状のメモリフォーマットを定義
- Pyroliteは、Javaや.NETとPythonを接続するのに良い選択
機能 †
Spark DataFrame? APIへのアクセス †
ユーザー定義関数(UDF)作成 †
API拡張フレームワーク †
- Linux Foundation Delta Lake
- Microsoft OSS Hyperspace
- MLlib、ML.NET
参考 †
github.com †
microsoft.com †
.NET Blog †
.NET > .NET for Apache Spark †
Microsoft Docs > .NET for Apache Spark ガイド †
- データへの接続
- Azure Storage
- Event Hubs
- Mongo DB
- SQL Server
- リモート ジョブを送信する
- Azure Synapse Analytics にジョブを送信する
- Databricks にジョブを送信する
- HDInsight にジョブを送信する
- ユーザー定義関数 (UDF)
- UDF ガイド
- .NET での Java UDF
- .NET Interactive での UDF
- ワーカーおよび UDF のバイナリを展開する
- Jupyter Notebook の使用
- 配信ガイド
- アプリケーションをデバッグする
- Azure HDInsight に対話型ノートブックをインストールする
Tags: :クラウド, :Azure, :.NET開発, :.NET Core, :.NET Standard