マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

JIS2004(JIS X 0213:2004)

  • JIS2004はJIS X 0208:1997(いわゆるJIS97)を拡張し、
    JIS第三水準文字・JIS第四水準文字を含む4344文字を追加した文字コード。
  • Windows Vista / Windows Server 2008(以下、Vista/2008と略す)でサポートされた。

問題

JIS2004の導入の問題には以下のものがあるが、現存するシステムの殆どは、
JIS2004の導入前からキャラクタ セット、文字コードについて同様の問題を持っている。
(例えば、JIS X 0208 → JIS X 0212時の補助漢字の追加、エンコーディングの問題など)。

  • このため、JIS2004以降に、新たにJIS漢字が追加された場合も同様の方法で対処することができると考える。
  • また、JIS2004導入に於ける特段新しい注意点(観点)は朱書きにしてある。

※ エンコードしないで入出力する場合は、連携先で問題点1、2を解決すれば良い。
JIS2004導入に於ける特段新しい注意点(観点)は問題点3の一点だけである。

拡張文字セットの追加

JIS2004拡張文字のセットが907文字(うち304文字がサロゲート ペア文字)、追加された。
Vista/2008以外の現行OSはJIS2004の拡張文字セットに未対応(拡張文字セットは、現状、Vista/2008の機種依存文字となっている)。

  • 問題点1:フォントが無い場合、JIS2004拡張文字が表示されない。
  • 問題点2:マシンのIMEが未対応の場合、JIS2004拡張文字を入力できない。
  • 問題点3:サロゲート ペア文字・結合文字は、Lengthチェックなどに影響を与える。

[参考]:マイクロソフト サポート オンライン > Windows Vista で拡張された文字について
http://support.microsoft.com/kb/927488/ja

標準フォント デザインの変更

字形変更文字(標準フォントデザインが変更)が168字。

  • 問題点4:マシンによっては、字形変更文字の表示や印刷が異なる。

エンコーディングの問題

エンコーディング処理に問題がある可能性がある。

  • 問題点5:他の環境へ(Unicodeからそれ以外の文字コードに)エンコード出力できない可能性。
  • 問題点6:他の環境から(Unicodeからそれ以外の文字コードに)エンコード入力できない可能性。

対応方法

JIS2004に対応させる

  • 以下は、WindowsOSでの対応方法。
  • Mac、UNIX、Linux、その他携帯端末などの他機種についても同様に調査が必要。
  • ただし、文字の表示が不要なサーバOSについては調査不要(エンコーディングの問題が起きない場合)。

JIS2004 対応の日本語フォントのインストール

Windows XP / Windows Server 2003(以下、XP/2003と略す)でも、
パッチさえ当てれば、JIS2004に対応した日本語フォントを利用可能になる。

フォントをインストールしたら、フォントを使用できるアプリケーションで確認する。
(フォントを使用のに設定が必要なアプリケーションもあるし、フォントを使用できないアプリケーションもある)

JIS2004 対応のIMEのインストール

  • Office2007(に同梱されるIME2007)をインストールすることで、XP/2003でもJIS2004の拡張文字セットの文字入力が可能になる。
    Office2007はインターネットから、試用版(無料で60日試用可能)がダウンロードできる。
  • ちなみに、IME2007のみをインストールした状態では、フォントがないため、IMEが入力したデータを参照することができないと言う現象が発生する。
    この場合、前述の手順に従い、JIS2004に対応した日本語フォントをインストールすることで、この問題を解決する。

JIS90の設定に戻す

  • Vista/2008では、JIS2004に対応した日本語フォントを搭載している。一部の文字(168字)で標準フォント デザインが変更されるため、
    人名、地名など字形に敏感なシステムには影響が出る可能性がある(この影響とは、顧客要件に因るところが大きい)。
  • これを問題と捉えるならば、Vista/2008のフォント、IMEをJIS90に対応させる必要がある。また、このような問題は、画面上の表示だけでなく、帳票印刷(プリンタ)なども含む。
  • [参考]:マイクロソフト サポート オンライン > フォントなどのJIS2004文字セットをサポートするドキュメントをVista/2008で印刷すると、
    デバイス フォントを使用するようにプリンタが構成されていてもドキュメントがTrueType?フォントで印刷されることがある。
    http://support.microsoft.com/kb/931478/ja

日本語フォントをJIS90 対応のフォントに変更

Vista/2008で2000/XP互換フォントを利用する場合、2000/XPと同じデザインのJIS90互換MSゴシック・明朝フォントがダウンロード提供されているのでこれをインストールする。

[参考]:Windowsホーム > 製品情報 > Windows Vista
JIS X 0213:2004 対応と新日本語フォント「メイリオ」について
Vista / 2008向けJIS90互換MSゴシック・明朝フォントパッケージについて
http://www.microsoft.com/japan/windows/products/windowsvista/jp_font/jis90/default.mspx

Vista/2008でJIS90互換MSゴシック・明朝フォントをインストールする前、インストールした後で、「鰯」などの文字のフォント デザインが以下のように変更される。

日本語フォントをJIS90 対応のフォントに変更

Vista/2008のIMEをJIS90に設定

Vista/2008のIME設定を変更することでJIS2004の拡張文字セットの入力を禁止することができる。

Vista/2008向け JIS90 互換 MS ゴシック・明朝フォントパッケージのインストール後、日本語入力IMEでの変換対象を「JIS90」に限定する設定をすることで、拡張文字セット入力を不可能にすることができる。

言語バーにある、プロパティから、[Microsoft IMEのプロパティ]ダイアログを起動、[変換]タブの[変換文字制限]ボタンを押下し、[Microsoft IME 変換文字制限]ダイアログで[JISX0208文字で構成された単語/文字のみ変換候補に表示する]チェック ボタンをオンにして、[OK]ボタンを2回押下して元に戻る。

日本語フォントをJIS90 対応のフォントに変更(Vista/2008)

上記のJIS2004の拡張文字セット入力を不可能にする設定を”する前”と、”した後”の比較を以下に示す。確かに、JIS2004の拡張文字セットを入力できなくなっている。

JIS90に対応した[[IME]]設定に変更した結果(Vista/2008)

[参考]:マイクロソフト サポート オンライン > Vista/2008でIMEの変換候補に表示する文字を制限する方法
http://support.microsoft.com/kb/934715/ja

JIS90 対応のIMEのインストール

また、XP/2003でOffice2007(に同梱されるIME2007)をインストールして、JIS2004の拡張文字セットの文字入力が可能にした場合も、IME設定を変更することでJIS2004の拡張文字セットの入力を禁止することができる。

言語バーにある、プロパティから、[Microsoft Office IME 2007のプロパティ]ダイアログを起動、[変換]タブの[詳細設定]ボタンを押下し、[変換]ダイアログで[JISX0208文字で構成された単語/文字のみ変換候補に表示する]オプション ボタンをオンにして、[OK]ボタンを2回押下して元に戻る。

日本語フォントをJIS90 対応のフォントに変更(XP/2003)

上記のJIS2004の拡張文字セット入力を不可能にする設定をする前と、した後の比較を以下に示す。確かに、JIS2004の拡張文字セットを入力できなくなっている。

JIS90に対応したIME設定に変更した結果(XP/2003)

サロゲート ペア文字、結合文字

  • UTF-8、UTF-16で表現可能
  • Shift-JIS、EUC-JP、Big5などでは表現できない

サロゲート ペア文字

追加されたJIS2004拡張文字のセット、907文字のうち304文字がサロゲート ペア文字である。サロゲート ペア文字のことを、サロゲートコード、補助文字とも呼ぶ。

サロゲート ペア文字は4バイトで表現される。

U+2000B:𠀋U+2123D:𡈽U+2131B:𡌛U+2146E:𡑮U+218BD:𡢽U+20B9F:𠮟U+216B4:𡚴
U+21E34:𡸴U+231C4:𣇄U+235C4:𣗄U+2373F:𣜿U+23763:𣝣U+23CFE:𣳾U+247F1:𤟱
U+2548E:𥒎U+2550E:𥔎U+25771:𥝱U+259C4:𥧄U+25DA1:𥶡U+26AFF:𦫿U+26E40:𦹀
U+270F4:𧃴U+27684:𧚄U+28277:𨉷U+283CD:𨏍U+2A190:𪆐U+20089:𠂉U+200A2:𠂢
U+200A4:𠂤U+201A2:𠆢U+20213:𠈓U+2032B:𠌫U+20381:𠎁U+20371:𠍱U+203F9:𠏹
U+2044A:𠑊U+20509:𠔉U+205D6:𠗖U+20628:𠘨U+2074F:𠝏U+20807:𠠇U+2083A:𠠺
U+208B9:𠢹U+2097C:𠥼U+2099D:𠦝U+20AD3:𠫓U+20B1D:𠬝U+20D45:𠵅U+20DE1:𠷡
U+20E95:𠺕U+20E6D𠹭U+20E64:𠹤U+20F5F:𠽟U+21201:𡈁U+21255:𡉕U+2127B:𡉻
U+21274:𡉴U+212E4:𡋤U+212D7:𡋗U+212FD:𡋽U+21336:𡌶U+21344:𡍄U+213C4:𡏄
U+2146D:𡑭U+215D7:𡗗U+26C29:𦰩U+21647:𡙇U+21706:𡜆U+21742:𡝂U+219C3:𡧃
U+21C56:𡱖U+21D2D:𡴭U+21D45:𡵅U+21D78:𡵸U+21D62:𡵢U+21DA1:𡶡U+21D9C:𡶜
U+21D92:𡶒U+21DB7:𡶷U+21DE0:𡷠U+21E33:𡸳U+21F1E:𡼞U+21F76:𡽶U+21FFA:𡿺
U+2217B:𢅻U+2231E:𢌞U+223AD:𢎭U+226F3:𢛳U+2285B:𢡛U+228AB:𢢫U+2298F:𢦏
U+22AB8:𢪸U+22B4F:𢭏U+22B50:𢭐U+22B46:𢭆U+22C1D:𢰝U+22BA6:𢮦U+22C24:𢰤
U+22DE1:𢷡U+231C3:𣇃U+231F5:𣇵U+231B6:𣆶U+23372:𣍲U+233D3:𣏓U+233D2:𣏒
U+233D0:𣏐U+233E4:𣏤U+233D5:𣏕U+233DA:𣏚U+233DF:𣏟U+2344A:𣑊U+23451:𣑑
U+2344B:𣑋U+23465:𣑥U+234E4:𣓤U+2355A:𣕚U+23594:𣖔U+23639:𣘹U+23647:𣙇
U+23638:𣘸U+2363A:𣘺U+2371C:𣜜U+2370C:𣜌U+23764:𣝤U+237FF:𣟿U+237E7:𣟧
U+23824:𣠤U+2383D:𣠽U+23A98:𣪘U+23C7F:𣱿U+23D00:𣴀U+23D40:𣵀U+23DFA:𣷺
U+23DF9:𣷹U+23DD3:𣷓U+23F7E:𣽾U+24096:𤂖U+24103:𤄃U+241C6:𤇆U+241FE:𤇾
U+243BC:𤎼U+24629:𤘩U+246A5:𤚥U+24896:𤢖U+24A4D:𤩍U+24B56:𤭖U+24B6F:𤭯
U+24C16:𤰖U+24D14:𤴔U+24E0E:𤸎U+24E37:𤸷U+24E6A:𤹪U+24E8B:𤺋U+2504A:𥁊
U+25055:𥁕U+25122:𥄢U+251A9:𥆩U+251E5:𥇥U+251CD:𥇍U+2521E:𥈞U+2524C:𥉌
U+2542E:𥐮U+254D9:𥓙U+255A7:𥖧U+257A9:𥞩U+257B4:𥞴U+259D4:𥧔U+25AE4:𥫤
U+25AE3:𥫣U+25AF1:𥫱U+25BB2:𥮲U+25C4B:𥱋U+25C64:𥱤U+25E2E:𥸮U+25E56:𥹖
U+25E65:𥹥U+25E62:𥹢U+25ED8:𥻘U+25EC2:𥻂U+25EE8:𥻨U+25F23:𥼣U+25F5C:𥽜
U+25FE0:𥿠U+25FD4:𥿔U+2600C:𦀌U+25FFB:𥿻U+26017:𦀗U+26060:𦁠U+260ED:𦃭
U+26270:𦉰U+26286:𦊆U+2634C:𦍌U+23D0E:𣴎U+26402:𦐂U+2667E:𦙾U+266B0:𦚰
U+2671D:𦜝U+268DD:𦣝U+268EA:𦣪U+26951:𦥑U+2696F:𦥯U+269DD:𦧝U+26A1E:𦨞
U+26A58:𦩘U+26A8C:𦪌U+26AB7:𦪷U+26C73:𦱳U+26CDD:𦳝U+26E65:𦹥U+26F94:𦾔
U+26FF8:𦿸U+26FF6:𦿶U+26FF7:𦿷U+2710D:𧄍U+27139:𧄹U+273DB:𧏛U+273DA:𧏚
U+273FE:𧏾U+27410:𧐐U+27449:𧑉U+27615:𧘕U+27614:𧘔U+27631:𧘱U+27693:𧚓
U+2770E:𧜎U+27723:𧜣U+27752:𧝒U+27985:𧦅U+27A84:𧪄U+27BB3:𧮳U+27BBE:𧮾
U+27BC7:𧯇U+27CB8:𧲸U+27DA0:𧶠U+27E10:𧸐U+27FB7:𧾷U+2808A:𨂊U+280BB:𨂻
U+28282:𨊂U+282F3:𨋳U+2840C:𨐌U+28455:𨑕U+2856B:𨕫U+285C8:𨗈U+285C9:𨗉
U+286D7:𨛗U+286FA:𨛺U+28949:𨥉U+28946:𨥆U+2896B:𨥫U+28987:𨦇U+28988:𨦈
U+289BA:𨦺U+289BB:𨦻U+28A1E:𨨞U+28A29:𨨩U+28A71:𨩱U+28A43:𨩃U+28A99:𨪙
U+28ACD:𨫍U+28AE4:𨫤U+28ADD:𨫝U+28BC1:𨯁U+28BEF:𨯯U+28D10:𨴐U+28D71:𨵱
U+28DFB:𨷻U+28E1F:𨸟U+28E36:𨸶U+28E89:𨺉U+28EEB:𨻫U+28F32:𨼲U+28FF8:𨿸
U+292A0:𩊠U+292B1:𩊱U+29490:𩒐U+295CF:𩗏U+2967F:𩙿U+296F0:𩛰U+29719:𩜙
U+29750:𩝐U+298C6:𩣆U+29A72:𩩲U+29DDB:𩷛U+29E3D:𩸽U+29E15:𩸕U+29E8A:𩺊
U+29E49:𩹉U+29EC4:𩻄U+29EE9:𩻩U+29EDB:𩻛U+29FCE:𩿎U+2A02F:𪀯U+2A01A:𪀚
U+2A0F9:𪃹U+2A082:𪂂U+22218:𢈘U+2A38C:𪎌U+2A437:𪐷U+2A5F1:𪗱U+2A602:𪘂
U+2A61A:𪘚U+2A6B2:𪚲

結合文字

結合文字のことを、結合済み文字、合成文字、合成済み文字とも呼ぶ。

結合文字は4バイト以上で表現される。

結合文字は、言語バーにある、IMEパッドから、「ふ」+「゚」=「ぷ」と入力することで、入力できる。下記の図は、通常の文字の「ぷ」と、結合文字の「ぷ」を入力したところ。

結合文字の入力

また結合文字は、縦書きにすると、正しく結合されないという問題がある。

結合文字の縦書き

文字の扱いの違い

APIやDBMSの使い方によって、

  • 1文字として扱えるか
  • 2バイト毎にバラバラに扱うか

動作が変わる。

以下に一例を示す。

.NET FrameworkのAPI

  • System.Globalization.StringInfo?は、1文字と認識する。
  • System.Stringは、1文字と認識しない。

SQL Serverの照合順序

  • Japanese_90,Japanese_100は、1文字と認識する。
  • Japaneseは、1文字と認識しない。

Oracleの部分検索

  • LIKECは、1文字と認識する。
  • LIKEは、1文字と認識しない。

参考


Tags: :.NET開発, :国際化対応, :文字コード


添付ファイル: fileCombiningCharacter_VerticalWriting.png 286件 [詳細] fileCombiningCharacter_Input.png 319件 [詳細] filejis90_ime_result1.png 267件 [詳細] filejis90_ime_config1.png 273件 [詳細] filejis90_ime_result2.png 284件 [詳細] filejis90_ime_config2.png 279件 [詳細] filejis90_font.png 284件 [詳細]

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2018-03-20 (火) 12:52:11 (520d)