戻る
目次 †
概要 †
日本の文字コード(JIS文字・漢字コード)について纏める。
JISコード †
- 文字集合
- JIS X 0211のC0集合(制御文字)
- JIS X 0201のラテン文字集合
- ISO 646の国際基準版図形文字
- JIS X 0208の1978年版 (JIS C 6226-1978) 1983年および1990年版
- JIS X 0201の片仮名文字集合は利用できない。
JIS文字コード †
JIS漢字コード †
http://ja.wikipedia.org/wiki/JIS%E6%BC%A2%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89
- 収録
- JIS X 0208の6,879字
- 第3水準の漢字1,259字(うち、10字は2004年の改定時に追加)
- 第4水準の漢字2,436字
- 非漢字659字
- 通称:JIS拡張漢字、2000JIS、JIS第3水準・第4水準漢字
通称 †
通称1 †
- 78JISまたはJIS78
1978年に制定されたJIS C 6226:1978
- 83JISまたはJIS83:
1983年に制定されたJIS C 6226:1983(JIS X 0208:1983)
- 90JISまたはJIS90:
1990年に制定されたJIS X 0208:1990(JIS X 0212:1990を含める場合もある)
- 97JISまたはJIS97:
1997年に制定されたJIS X 0208:1997
- 2000JISまたはJIS2000:
2000年に制定されたJIS X 0213:2000
- 2004JISまたはJIS2004:
2004年に制定されたJIS X 0213:2004
通称2 †
- JIS X 0208
- JIS漢字コード
- JIS漢字
- JIS第1第2水準漢字
- JIS X 0213
- JIS拡張漢字
- 2000JIS
- JIS第3水準・第4水準漢字
JIS2004関連 †
JIS2004(JIS X 0213:2004)
JIS2004はJIS X 0208:1997(いわゆるJIS97)を拡張し、
JIS第三水準文字・JIS第四水準文字を含む4344文字を追加した文字コード。
サロゲート ペア文字、結合文字 †
追加されたJIS2004拡張文字のセット、
907文字のうち304文字がサロゲート ペア文字である。
UTF-8、UTF-16で表現可能な
- サロゲート ペア文字は4バイト
- 結合文字は4バイト以上
で表現される。
APIやDBMSの使い方によって、
- 1文字として扱えるか
- 2バイト毎にバラバラに扱うか
動作が変わる。
以下に一例を示す。
- .NET FrameworkのAPI
- System.Globalization.StringInfo?は、1文字と認識する。
- System.Stringは、1文字と認識しない。
- SQL Serverの照合順序
- Japanese_90,Japanese_100は、1文字と認識する。
- Japaneseは、1文字と認識しない。
- Oracleの部分検索
- LIKECは、1文字と認識する。
- LIKEは、1文字と認識しない。
※サロゲート ペア文字のことを、サロゲートコード、補助文字とも呼ぶ。
※結合文字のことを、結合済み文字、合成文字、合成済み文字とも呼ぶ。
※Shift-JIS、EUC-JP、Big5などではサロゲート ペア文字、結合文字を表現できない
参考 †
参考 †