「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
基本情報 †
ADO.NETのデータプロバイダを使用する.NETプログラムでは、
大量データを処理するバッチ開発に適合しないケースがある。
機能 †
- ADO.NETのデータプロバイダでは以下の機能がサポートされていないケースがある。
#JDBCなどのデータプロバイダには標準で実装されている機能
- フェッチ・サイズ指定(フェッチ)
- 配列バインド(バッチ更新)
- Oracle、HiRDBのデータプロバイダについてはサポートされているものもある。
- ODP.NET
- フェッチ・サイズ指定(フェッチ)
- 配列バインド(バッチ更新)
- HiRDB.NET
SQLを連続して記述 †
DBによるが、INSERT、UPDATEなどのSQLを連続して記述することは可能。
- 以下は、SQL Serverの例
INSERT INTO XXXX(xxx, yyy, zzz) VALUES(xxx, yyy, zzz);
INSERT INTO XXXX(xxx, yyy, zzz) VALUES(xxx, yyy, zzz);
INSERT INTO XXXX(xxx, yyy, zzz) VALUES(xxx, yyy, zzz);
・・・
UPDATE SET xxx=xxx, yyy=yyy, zzz=zzz, WHERE id = 1;
UPDATE SET xxx=xxx, yyy=yyy, zzz=zzz, WHERE id = 2;
UPDATE SET xxx=xxx, yyy=yyy, zzz=zzz, WHERE id = 3;
・・・
- ただし、バインド変数の数に制約があるため、
パラメタライズド・クエリでの「パラメタ」を設定し難い。
SQL CLR †
概要 †
- SQL Server 2005からサポートされた機能。
- .NETではSQL CLRと言う機構も用意されているが、
- インプロセスで動作するものの
- カーソル操作をサポートしない
ため、バッチ処理の用途では、あまり魅力的なものでは無い。
- また、同様にサポートされているデータプロバイダが限られる。
- SQL Server(SQL CLR)
- ODP.NET(.NETストアド・プロシージャ)
SQL Server2008 †
INSERT ステートメントで複数の行の値を指定 †
- INSERTで複数の値を指定することが可能となった(UPDATEは非対応)。
- 同様に、バインド変数の数に制約があるため、
パラメタライズド・クエリでの「パラメタ」を設定し難い。
テーブル値パラメタ †
- SQL Server 2008から、テーブル値パラメタというパラメタを設定可能になっている。
- テーブル値パラメタは、以下の型として、プログラム側から指定できる。
- .NET
- DataTable?
- DbDataReader?
- IEnumerable<T>
検証 †
「フェッチ機能の代替」処理方式の検証
処理方式 †
- フェッチ機能を代替するために、はじめに主キー・セットだけを取得し、
コミット・インターバル分、IN句に主キーを指定して結果セットを分割取得
することでフェッチ機能の代替とする方式もある。
- ただし、この際の検索処理性能を考慮すると、
参照元テーブルにインデックスが貼られている必要があるなど、
本処理方式(疑似フェッチ方式)を採用する上での制約もある。
検証結果 †
- 100万件のデータのSELECT → INSERT処理を上記の疑似フェッチ方式で記述した場合、
Transact-SQLでは15分程度であった処理が、.NETでもほぼ≒の時間で処理が完了した。
- まずまずの性能であり、この方式が採用できる条件下であれば
処理データ量が中規模のバッチであっても.NETで実装可能と考える。
検証環境 †
- また上記は、.NETのバッチプログラムをネットワーク上ではなく、
DBサーバ上に直接配置した場合の性能情報である。
- ネットワーク経由の場合は、特に更新ラウンド・トリップのため低速になり、
ネットワークの使用状況によっては非常に低速になる事もあるため注意が必要である。
結論 †
.NET+データプロバイダ †
.NETプログラムでも、大量データを処理可能
(ただし、ネットワーク経由はオーバーヘッドが大きいので注意)。
SQL CLR †
SQL CLRの採用も考えられるが、採用例が少ないので、
- 基本的には、
- SQL ServerであればTransact-SQL
- OracleであればPL/SQL
が良いと考える(処理方式統一の標準化の意味も含めて)。
- 文字列処理等にアドバンテージがあると言われているが、
カーソル操作をサポートしていない点が大きな欠点となっている。
参考情報 †
他言語との比較 †
実績の多い言語 †
- COBOL(昔から使われており実績が多い)
- 各種ストアド(速度重視、大量データ)
Javaとの比較 †
Javaや.NETでの実績は上記に比べると多くは無いと思いますが、
最近は、Spring BatchなどのBatch Frameworkの登場で、
Javaでもバッチが書かれることが増えてきてています。
- Java
- 多重化
- 基本マルチスレッド化で多重化。
- メモリ使用量(制限)の関係で、マルチスレッド化ではなく
プロセスの多重起動で対応することもあるようです。
- Batch Framework
ただ、Batch Frameworkが、少々オーバースペックの様で
これをを理解して使いこなすのが難しいらしいです。
- .NET
- 多重化
- マルチスレッド化、EXE多重起動の、両方が可能です。
- .NETだと、EXE多重起動の方が一般的だと思います。
マルチスレッド化が必要となるケースは、あまり思いつきません。
Tags: :データアクセス, :ADO.NET, :Entity Framework, :性能