マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

Azure Databricksのチュートリアル。

準備

契約

Azureの契約

Databricksの契約

環境

ワークスペース

クラスタ

手順に従いClusterを作成する

Notebook

ツール

Scala

Notebookのセルに記述可能。

ETL のチュートリアル

参考中の「...データの抽出、変換、読み込みを行う」

Event Hubsと組み合わせるチュートリアル

参考中の「Event Hubs を使用して...ストリーム配信する」

感情分析のチュートリアル

参考中の「Azure Databricks を使用したストリーミング データに対する感情分析」

参考

Microsoft DocsQiita

Python (PySpark)

Notebookのセルに記述可能。

Docsのクイック スタート

Parquetファイル

Azureストレージへアクセス

その次に、Azureストレージから読込んでみる。

Azure Databricks上で実行

ライブラリが足りないので、Azure Databricks上で実行してみる。

PySparkチュートリアル

クイック スタートも終わったので、PySparkチュートリアルを、Azure Databricksで動かしてみる。

on Jupyter Notebook on Docker

DataFrameに対する様々な操作

静的ファイルで構造化ストリーミングをエミュレート

databricks.comのApache Spark チュートリアル(ストリーミング)を、Azure Databricksで動かしてみる。

環境準備

作成のスクリプトは以下

エミュレート

readStreamでinputPathをmaxFilesPerTrigger?で読む...みたいな感じになる。

from pyspark.sql.functions import *

# Similar to definition of staticInputDF above, just using `readStream` instead of `read`
streamingInputDF = (
  spark
    .readStream
    .schema(jsonSchema)               # Set the schema of the JSON data
    .option("maxFilesPerTrigger", 1)  # Treat a sequence of files as a stream by picking one file at a time
    .json(inputPath)
)

# Same query as staticInputDF
streamingCountsDF = (
  streamingInputDF
    .groupBy(
      streamingInputDF.action, 
      window(streamingInputDF.time, "1 hour"))
    .count()
)

出力方法

インタラクティブにやる場合、

みたいな方法になる。

EventHubsのKafkaと構造化ストリーミング

PySparkチュートリアル中の構造化ストリーミング入力のKafka化ができなかった
(コンテナのJupyter NotebookからコンテナのKafkaに接続できなかった)ので、

Azure Databricksでリトライ。

環境準備

作成のスクリプトは以下

送受信

その他

KcMichael? - Qiita

参考中の...

SQL Serverと組み合わせるチュートリアル

参考中の「...ノートブックから...SQL Server Linux Docker コンテナーのクエリを実行する」

古い?

ちょっと古いのか?アカンやつ。

Azure Databricksを使ってみた

参考中の「Azure Databricksを使ってみた」

...ちと古いし、他にも色々アレなので、パス。

Azure Data Lake のチュートリアル

参考中の

「チュートリアル:Azure Data Lake Storage Gen2、Azure Databricks、および Spark」

...フライト データのダウンロードができない。

参考

Microsoft DocsQiita

.NET

(.NET for Apache Spark)

Get started in 10 minutes

アプリの発行

依存関係のダウンロード

※ URL : https://github.com/dotnet/spark/tree/master/deployment

※ *.shの行の終わりは Unix 形式 (LF) であることを確認

ファイルのアップロード

次のファイルをアップロードする

ジョブを作成して実行

※ コレにより、db-init.sh 内で install-worker.sh が構成される($1-3をパラメタライズ)。

参考

上記と同様に行ってみる例

ワークスペースをクリーンナップするか新規作成する必要があるので、
1つのバッチにまとめて、コマンドライン引数で切り替えるのが良いかも。

バッチ処理

構造化ストリーミング

未実施

ML.NETでの感情分析

未実施

Java

可能らしいがサンプルが無いのは、Scalaでやるから?

...

参考

databricks.com

Apache Spark チュートリアル: Apache Spark チュートリアルを開始する

microsoft.com

Scala

Python (PySpark?)

Getting Started

Perform Data Science - Learn

構造化ストリーミング

Qiita

Scala

Python (PySpark?)


Tags: :クラウド, :ビッグデータ, :Azure


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS