「[[マイクロソフト系技術情報 Wiki>http://techinfoofmicrosofttech.osscons.jp/]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。

-[[戻る>データアクセスのいろいろ]]
-[[戻る>大量データの処理方式]]
--[[大量データの処理方式1]]
--[[大量データの処理方式2]]
--大量データの処理方式3

* 目次 [#jadeb250]
#contents

*概要 [#h7e77da2]
大量データ向けのプロダクトを使用した処理方式についてまとめる予定。

-RDB
--インメモリデータベース
--SSDアプライアンス、インスタンス
--Elastic DB

-非RDB
--DWH
--Hadoop
--NoSQL 
--分散処理系

等を組み合わせた大量データの処理方式についてまとめる予定です。

*RDB [#ke8f89d5]
-[[.NETでバッチは書けるか?]]
-[[SQL Server 大量データ処理時の性能問題]]

**インメモリデータベース [#q3bc3fe5]
***[[メモリ最適化データベースエンジン]] [#xdd3edcd]

**SSDアプライアンス、インスタンス [#pef5e572]
SQL Server 2014 の[[バッファー プール拡張]]のようなテンポラリの領域として如何に使用する。

***SQL Server SSD Appliance [#fe304178]
-SQL Server SSD Appliance、まずは6社から一斉に提供開始 - @IT~
http://www.atmarkit.co.jp/ait/articles/1212/17/news062.html
-圧倒的なパフォーマンスを、アプライアンスの手軽さで 200 万円台から [SQL Server SSD Appliance] | MSBC - MSBC~
https://www.microsoft.com/japan/msbc/Express/campaign/SSD/

***SSD 付きインスタンス D シリーズ [#ee857be0]
-仮想マシンに SSD 付きインスタンス D シリーズが追加されたのでディスク性能を測定してみました at SE の雑記~
http://blog.engineer-memo.com/2014/09/23/%E4%BB%AE%E6%83%B3%E3%83%9E%E3%82%B7%E3%83%B3%E3%81%AB-ssd-%E4%BB%98%E3%81%8D%E3%82%A4%E3%83%B3%E3%82%B9%E3%82%BF%E3%83%B3%E3%82%B9-d-%E3%82%B7%E3%83%AA%E3%83%BC%E3%82%BA%E3%81%8C%E8%BF%BD%E5%8A%A0/

**Elastic DB [#u1ee768f]
-RDBには、トランザクション処理の信頼性を保証するために求められる性質(ACID)を実装するためスケールアウトが困難。

-Elastic DBは以下を組み合わせた機能。
--複数DBインスタンスのプールを管理する機能
--分割キーにより複数DBインスタンスへの水平分散
--分散トランザクション

***[[Elastic Scale, Elastic Database Pool]] [#fd9276d0]

*非RDB [#z052c2b3]
**参考 [#xd2cd155]
***[[.NETでバッチは書けるか?]] [#wbedba94]
***[[SQL Server 大量データ処理時の性能問題]] [#le94e9c4]

*not RDB [#z052c2b3]

**DWH [#z4630407]

***重視するもの [#e1284126]
-構造化データ
-非ビッグデータ
-バッチ処理(分析集計)

***[[SSAS]] [#mcdb5c33]
***プロダクト [#mcdb5c33]
-[[SSAS]]
-[[Azure Synapse]]
-[[Azure Analysis Services>Azureのデータ・ストア#e9d77e54]]

**Hadoop [#qcfb44a7]
***重視するもの [#ea9e58fd]
**[[NoSQL>http://dotnetdevelopmentinfrastructure.osscons.jp/index.php?NoSQL]] [#eaff1e8c]

***重視するもの [#bc94bcb1]
-非構造化データ
-ビッグデータ
-バッチ処理(分析集計)
--ペタバイト級のデータを数十台で並列分散する。
--事前にファイルを分散ファイルシステムHadoop HDFSに格納する
--データに対して関数(map関数とreduce関数)を渡して、分散計算する
-オンライン処理

***Hadoop HDFS [#yeae0196]
***[[プロダクト>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?NoSQL#rf480bb4]] [#h4750070]

***map関数とreduce関数 [#j7249d40]
-MapReduce - Wikipedia~
https://ja.wikipedia.org/wiki/MapReduce
**[[分散処理>https://dotnetdevelopmentinfrastructure.osscons.jp:443/index.php?%E5%88%86%E6%95%A3%E5%87%A6%E7%90%86]] [#tacb6326]

**[[NoSQL>http://dotnetdevelopmentinfrastructure.osscons.jp/index.php?NoSQL]] [#eaff1e8c]
***重視するもの [#bc94bcb1]
***重視するもの [#ea9e58fd]
-非構造化データ
-ビッグデータ
-オンライン処理

***[[プロダクト>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?%E5%88%86%E6%95%A3%E5%87%A6%E7%90%86#yc726057]] [#sac6a4ae]

*クエリ [#if0cf7a9]
プロダクト毎に様々なクエリがある。
-元来、SQLはRDB向けのクエリを意味する。
-昨今、RDBではないNoSQLのクエリにもSQLと言う文言が利用されている。

**SQL [#c70ea2ed]
最も代表的で標準化されているRDB向けのクエリ。

**Spark SQL [#j6d9bbfd]
[[Spark>.NET for Apache Spark]]向けのクエリ。

**HiveQL [#ab2ad5b5]
[[Apache Hive>https://dotnetdevelopmentinfrastructure.osscons.jp/index.php?Apache%20Hive]]のクエリ。

**PolyBase [#nec23aa5]
[[SQL Server]]のNoSQLのクエリ。

**SQL-H [#y2db9326]
Teradata の SQL-H

**Apache [#a790e7ce]

***Drill [#e4bc5b99]

***Sqoop [#tebf0d93]

**Cloudera Impala [#cd85d3ea]

----
Tags: [[:データアクセス]]
Tags: [[:データアクセス]], [[:ビッグデータ]]


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS