特開2023-156212 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-156212文字コード判別装置及び文字コード判別方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023156212

(43)【公開日】2023-10-24

(54)【発明の名称】文字コード判別装置及び文字コード判別方法

(51)【国際特許分類】

G06F 40/126 20200101AFI20231017BHJP

G06F 40/216 20200101ALI20231017BHJP

G06F 40/242 20200101ALI20231017BHJP

【ＦＩ】

G06F40/126

G06F40/216

G06F40/242

【審査請求】有

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2022065957

(22)【出願日】2022-04-12

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110001689

【氏名又は名称】青稜弁理士法人

(72)【発明者】

【氏名】林洋史

(72)【発明者】

【氏名】前田新吾

【テーマコード（参考）】

5B091

5B109

【Ｆターム（参考）】

5B091EA01

5B109TA11

(57)【要約】

【課題】シフトコードが使用されていないテーブルデータに含まれる文字を表すコードの文字コードを簡単に特定できる文字コード判別装置及び文字コード判別方法を提供する。
【解決手段】メインフレームシステムは、第１情報処理装置を含む文字コード判別装置を含む。第１情報処理装置は、マイグレーション対象のメインフレームテーブルに対して、機械的判定、及び、頻出辞書判定の少なくとも一つを行うことにより、メインフレームテーブルに含まれるコード値の文字コードを列単位で特定するように構成される。
【選択図】図１

【特許請求の範囲】

【請求項1】

第１システムから第２システムにマイグレーションする対象の表形式のテーブルデータの処理を行う情報処理装置を備えた文字コード判別装置であって、
前記情報処理装置は、
判定プログラムにより、前記テーブルデータの各フィールドに格納された文字列に対応するコード値が、前記テーブルデータで使われている文字コードに対して有効であるか否かの判定を行い、当該判定の結果に基づいて、前記テーブルデータに含まれる前記コード値の前記文字コードを列単位で特定する機械的判定、
及び、
少なくとも登録コード値と当該登録コード値の文字コードとが対応付けられて登録された頻出辞書に基づいて、前記テーブルデータの各フィールドに格納された文字列に対応する前記コード値が前記登録コード値として前記頻出辞書に登録されているか否かを判定し、当該判定の結果に基づいて、前記テーブルデータに含まれる前記コード値の前記文字コードを列単位で特定する頻出辞書判定、
の少なくとも一つを実行する、
ように構成された、
文字コード判別装置。

【請求項2】

請求項１に記載の文字コード判別装置において、
前記情報処理装置は、
前記機械的判定及び前記頻出辞書判定の両方を実行する、
ように構成された、
文字コード判別装置。

【請求項3】

請求項１に記載の文字コード判別装置において、
前記情報処理装置は、
前記機械的判定及び前記頻出辞書判定の何れか一つを実行する、
ように構成された、
文字コード判別装置。

【請求項4】

請求項１に記載の文字コード判別装置において、
前記情報処理装置は、
前記機械的判定において、前記判定の結果を示す情報をフィールド毎に取得し、列単位の前記判定の結果を示す情報に基づいて、前記テーブルデータに含まれる前記コード値の前記文字コードを列単位で特定する、
ように構成された、
文字コード判別装置。

【請求項5】

請求項１に記載の文字コード判別装置において、
前記情報処理装置は、
前記機械的判定において、前記判定の結果を示すビット情報をフィールド毎に取得し、列単位で前記ビット情報の論理積を計算し、計算した前記論理積に基づいて、前記テーブルデータに含まれる前記コード値の前記文字コードを列単位で特定する、
ように構成された、
文字コード判別装置。

【請求項6】

請求項１に記載の文字コード判別装置において、
前記情報処理装置は、
前記頻出辞書判定において、前記判定の結果を示す情報をフィールド毎に取得し、列単位の前記判定の結果を示す情報に基づいて、前記テーブルデータに含まれる前記コード値の前記文字コードを列単位で特定する、
ように構成された、
文字コード判別装置。

【請求項7】

請求項１に記載の文字コード判別装置において、
前記情報処理装置は、
前記頻出辞書判定において、前記判定の結果を示すビット情報をフィールド毎に取得し、列単位で前記ビット情報の論理積を計算し、計算した前記論理積に基づいて、前記テーブルデータに含まれる前記コード値の前記文字コードを列単位で特定する、
ように構成された、
文字コード判別装置。

【請求項8】

請求項２に記載の文字コード判別装置において、
前記情報処理装置は、
前記機械的判定を実行した後、前記頻出辞書判定を実行し、
前記機械的判定によって前記文字コードを特定できなかった列が存在する場合、当該特定できなかった列について、前記頻出辞書判定を実行する、
ように構成された、
文字コード判別装置。

【請求項9】

請求項１に記載の文字コード判別装置において、
前記頻出辞書が記憶された記憶装置を備え、
前記情報処理装置は、前記機械的判定及び前記頻出辞書判定の少なくとも一つの判定により前記文字コードが特定された前記コード値について、当該コード値と前記文字コードとを対応付けて前記頻出辞書に登録する、
ように構成された、
文字コード判別装置。

【請求項10】

請求項１に記載の文字コード判別装置において、
前記頻出辞書には、前記登録コード値が当該登録コード値に対応付けられた前記文字コードである確定度の程度を示す確定度高及び確定度低の何れかの情報が、前記登録コード値及び前記文字コードに更に対応付けて登録され、
前記情報処理装置は、
前記頻出辞書判定において、
前記テーブルデータの各フィールドに格納された文字列に対応する前記コード値が、前記確定度高の前記登録コード値として前記頻出辞書に登録されているか否かを判定する、
ように構成された、
文字コード判別装置。

【請求項11】

請求項１０に記載の文字コード判別装置において、
前記頻出辞書が記憶された記憶装置を備え、
前記情報処理装置は、前記機械的判定及び前記頻出辞書判定の少なくとも一つの判定により前記文字コードが特定されたコード値について、
前記文字コードが特定されたコード値が、前記頻出辞書に既に登録された前記登録コード値であるか否かを判定し、
前記文字コードが特定されたコード値が、前記頻出辞書に既に登録された前記登録コード値ではない場合、当該コード値と前記文字コードと出現回数の初期値と前記確定度低とを対応付けて前記頻出辞書に登録し、
前記文字コードが特定されたコード値が、前記頻出辞書に既に登録された前記登録コード値である場合、当該登録コード値に対応する前記出現回数を所定回数だけ増加させることにより、前記頻出辞書を更新し、
更新した前記出現回数が、所定の閾値回数以上である場合、前記登録コード値に対応付けて登録されている前記確定度低を前記確定度高に更新する、
ように構成された、
文字コード判別装置。

【請求項12】

請求項１に記載の文字コード判別装置において、
画面を表示可能な表示装置を更に備え、
前記情報処理装置は、前記機械的判定及び頻出辞書判定の少なくとも一つによって、前記文字コードを特定できなかった列が存在する場合、当該特定できなかった列について、
前記コード値を候補文字コードで変換した結果を含み、当該特定できなかった列に対する前記文字コードを特定するための入力情報を入力するためのＧＵＩ画面を前記表示装置に表示し、
前記ＧＵＩ画面を介して、前記情報処理装置に入力された前記入力情報に基づいて、前記特定できなかった列に対する文字コードを特定する、
ように構成された、
文字コード判別装置。

【請求項13】

請求項１に記載の文字コード判別装置において、
前記第１システムは、メインフレームシステムであり、前記第２システムは、ＯＰＥＮ系システムである、
文字コード判別装置。

【請求項14】

第１システムから第２システムにマイグレーションする対象の表形式のテーブルデータの処理を行う情報処理装置を用いた文字コード判別方法であって、
前記情報処理装置によって、
判定プログラムにより、前記テーブルデータの各フィールドに格納された文字列に対応するコード値が、前記テーブルデータで使われている文字コードに対して有効であるか否かの判定を行い、前記判定の結果に基づいて、前記テーブルデータに含まれる前記コード値の前記文字コードを列単位で特定する機械的判定、
及び、
少なくとも登録コード値と当該登録コード値の文字コードとが対応付けられて登録された頻出辞書に基づいて、前記テーブルデータに含まれる前記コード値の前記文字コードを列単位で特定する頻出辞書判定、
の少なくとも一つを行う
文字コード判別方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文字コード判別装置及び文字コード判別方法に関する。

【背景技術】

【0002】

文字を表すコードの文字コードを判別する従来技術として、特許文献１の技術（以下、「従来技術１」と称呼される。）及び特許文献２の技術（以下、「従来技術２」と称呼される。）が存在する。

【0003】

従来技術１は、多種多様な言語で記載されたテキスト文書の言語及び文字コードを識別する。従来技術１は、対象言語／文字コード系毎に出現する可能性のある規定長のバイト列のリストを予め作成する。従来技術１は、リストに既に存在する規定長バイト列が判別対象のテキスト文書に含まれる個数の割合（出現率）を算出し、割合に基づいて、判別対象となるテキスト文書で使用されている一つの言語／文字コード系を特定する。

【0004】

従来技術２は、文字列データの記述に用いたバイナリ値について、機械的解析により各文字コードに機械的評価値を付与し、統計的解析により、各文字コードに統計的評価値を付与し、機械的評価値及び統計的評価値の合計値に基づいて、最終的な文字コードを特定する。従来技術２は、機械的解析では、例えば、各種の文字コードが有する固有のマッピング（使用バイト数及びバイト表現範囲）に着目し、解析対象のバイナリ値のマッピングを解析する。従来技術２は、統計的解析では、複数種類の文字コードを用いて、解析対象のバイナリ値を文字列に変換し、変換された文字列を対象として、統計的な解析を行う。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】国際公開第０２／０９５６１４号

【特許文献2】特開２０１０－１７６２３７号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

メインフレームで管理されているテーブルデータを、ＯＰＥＮ系で取り扱うために、メインフレームからＯＰＥＮ系にテーブルデータをマイグレーションすることが行われている。テーブルデータは、文字を表すコード（例えば、１６進数のコード）を含む。テーブルデータでは、列毎の文字を表すコードの文字コードが、異なる場合がある（例えば、ある列の英数字を表すコードの文字コードが、EBCDIKであり、ある列とは違う列の漢字を表すコードの文字コードが、KEISである場合がある。）。この場合において、文字を表すコードの文字コードが、何であるかを判別するため、文字コードの適用開始位置及び適用終了位置を表すコードであるシフトコードが、使用される。しかし、メインフレームで管理されているテーブルデータには、シフトコードが使用されていない場合がある。

【0007】

シフトコードが使用されていないテーブルデータを、メインフレームからＯＰＥＮ系にマイグレーションする場合、文字を表すコードの文字コードが、テーブルデータに列単位で混在する複数の文字コードのうちのどの文字コードであるかを判別できない場合がある。従って、この場合、文字を表すコードの文字コードを特定（判別）するために、一旦、文字を表すコードを各文字コードによって文字に変換し、文字化けするか否かを確認し、文字を表すコードの文字コードを特定することが行われる。

【0008】

このような面倒な文字コード特定工程を軽減するために、シフトコードが使用されていないテーブルデータを、メインフレームからＯＰＥＮ系にマイグレーションする際、テーブルデータに含まれる文字を表すコードの文字コードを特定することが求められる。

【0009】

しかし、従来技術１では、解析対象をある列の文字列とした場合、解析対象となる文字列の長さが、解析に必要な規定数に達しない場合がある。従って、従来技術１では、テーブルデータの文字を表すコードの文字コードを特定することができない場合がある。

【0010】

従来技術２では、統計的解析において、複数種類の文字コードを用いて、解析対象のバイナリ値を文字列に変換し、変換した文字列を対象として、統計的な解析を行う必要があるため、面倒な工程が常に生じてしまう。

【0011】

本発明は上記課題を解決するためになされた。即ち、本発明の目的の一つは、シフトコードが使用されていないテーブルデータに含まれる文字を表すコードの文字コードを簡単に特定できる文字コード判別装置及び文字コード判別方法を提供することにある。

【課題を解決するための手段】

【0012】

上記課題を解決するために、本発明の文字コード判別装置は、第１システムから第２システムにマイグレーションする対象の表形式のテーブルデータの処理を行う情報処理装置を備えた文字コード判別装置であって、前記情報処理装置は、判定プログラムにより、前記テーブルデータの各フィールドに格納された文字列に対応するコード値が、前記テーブルデータで使われている文字コードに対して有効であるか否かの判定を行い、当該判定の結果に基づいて、前記テーブルデータに含まれる前記コード値の前記文字コードを列単位で特定する機械的判定、及び、少なくとも登録コード値と当該登録コード値の文字コードとが対応付けられて登録された頻出辞書に基づいて、前記テーブルデータの各フィールドに格納された文字列に対応する前記コード値が前記登録コード値として前記頻出辞書に登録されているか否かを判定し、当該判定の結果に基づいて、前記テーブルデータに含まれる前記コード値の前記文字コードを列単位で特定する頻出辞書判定、の少なくとも一つを実行する、ように構成されている。

【0013】

本発明の文字コード判別方法は、第１システムから第２システムにマイグレーションする対象の表形式のテーブルデータの処理を行う情報処理装置を用いた文字コード判別方法であって、前記情報処理装置によって、判定プログラムにより、前記テーブルデータの各フィールドに格納された文字列に対応するコード値が、前記テーブルデータで使われている文字コードに対して有効であるか否かの判定を行い、前記判定の結果に基づいて、前記テーブルデータに含まれる前記コード値の前記文字コードを列単位で特定する機械的判定、及び、少なくとも登録コード値と当該登録コード値の文字コードとが対応付けられて登録された頻出辞書に基づいて、前記テーブルデータに含まれる前記コード値の前記文字コードを列単位で特定する頻出辞書判定、の少なくとも一つを行う。

【発明の効果】

【0014】

本発明によれば、シフトコードが使用されていないテーブルデータに含まれる文字を表すコードの文字コードを簡単に特定できる。

【図面の簡単な説明】

【0015】

【図1】図１は本発明の第１実施形態に係る文字コード判別装置を含むシステムの構成例を示す構成図である。

【図2】図２はメインフレームテーブルを説明するための図である。

【図3】図３はＯＰＥＮ系テーブルを説明するための図である。

【図4】図４は頻出辞書を説明するための図である。

【図5】図５は文字コードの判定方法を説明するための図である。

【図6】図６は判定フィールドに格納されるビットを説明するための図である。

【図7】図７は判定フィールド及び論理積フィールドに格納される２桁のビットの状態を説明するための図である。

【図8】図８はマイグレーションプログラムが実行する処理フローを示すフローチャートである。

【図9】図９はマイグレーションプログラムが実行する処理フローを示すフローチャートである。

【図10】図１０はマイグレーションプログラムが実行する処理フローを示すフローチャートである。

【図11】図１１はマイグレーションプログラムが実行する処理フローを示すフローチャートである。

【図12】図１２は本発明の第２実施形態に係る文字コード判別装置のマイグレーションプログラムが実行する処理フローを示すフローチャートである。

【図13】図１３は手動判定処理で表示されるＧＵＩ画面を示す図である。

【発明を実施するための形態】

【0016】

以下、本発明の各実施形態について図面を参照しながら説明する。なお、以下の説明では、「テーブル」、「レコード」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されてもよい。更に、識別情報について説明する際、「番号」、「名称」等の表現を用いるが、これらについては互いに置換が可能である。更に、以下の説明では、「プログラム」や機能ブロックを主語として処理を説明する場合があるが、プログラムは、ＣＰＵによって実行されることで、定められた処理を行うため、処理の主語が、プログラムや機能ブロックに代えて、ＣＰＵ又は情報処理装置とされてもよい。

【0017】

更に、以下の説明では、文字を表すコードは、「コード値」又は「文字を表すコード値」と称呼される。「文字コード」は、デジタル機器で文字を扱うためのルールを定めた規格を意味する。表形式のテーブルデータの一つの行は、「レコード」と称呼される。一つのレコード（行）の各列は、「フィールド（要素）」とも称呼される。表形式のテーブルデータの一つの列の複数の行は、「列単位のレコードのセット」と称呼される。

【0018】

<<第１実施形態>>
＜構成＞
図１は、本発明の第１実施形態に係る文字コード判別装置を含むシステムの構成例を示す。システムは、第１情報処理装置１００と、補助記憶装置１３０と、第２情報処理装置２００と、補助記憶装置２３０と、を含む。これらは互いに情報を送受信可能に接続されている。第１情報処理装置１００には、入力装置１４０及びディスプレイ１５０が接続されている。第１情報処理装置１００、補助記憶装置１３０、入力装置１４０及びディスプレイ１５０を含む装置が、本発明の第１実施形態に係る「文字コード判別装置」に対応する。なお、文字コード判別装置は、少なくとも第１情報処理装置１００を含んでいればよい。

【0019】

本例において、第１情報処理装置１００は、メインフレーム（「大型汎用機」又は「大型コンピュータ」とも称呼される。）であり、第２情報処理装置２００は、ＯＰＥＮ系のコンピュータである。第１情報処理装置１００及び補助記憶装置１３０を含むシステムは、「メインフレームシステム」と称呼され、第２情報処理装置２００及び補助記憶装置２３０を含むシステムは、「ＯＰＥＮ系システム」と称呼される。

【0020】

第１情報処理装置１００は、ＣＰＵ１１０及び主記憶装置１２０を含む。主記憶装置１２０は、プログラムとして、マイグレーションプログラム１２１、及び、業務アプリケーション１２２を含む。ＣＰＵ１１０は、主記憶装置１２０に格納されたマイグレーションプログラム１２１を実行することにより、マイグレーション機能を実現することができる。マイグレーション機能は、メインフレームシステムが管理（保持、記憶）しているデータを処理して、ＯＰＥＮ系システムに移行する。マイグレーション機能は、データに対する処理として、機械的判定及び頻出辞書判定を含む文字コード判定、頻出辞書登録、並びに、文字コード変換を実行する。更に、ＣＰＵ１１０は、主記憶装置１２０に格納された業務アプリケーション１２２を実行することにより、業務を処理する機能を実現することができる。

【0021】

補助記憶装置１３０には、メインフレームテーブルＴＢ１と、ＯＰＥＮ系テーブルＴＢ１１と、頻出辞書１３１と、メインフレームテーブルＴＢ１のテーブルの列の区切りを示す情報である区切り情報１３２と、が格納（保持、記憶）されている。入力装置１４０は、キーボード、マウスなどの操作デバイスである。ディスプレイ１５０は、画面（画像）を表示可能な表示装置である。

【0022】

第２情報処理装置２００は、ＣＰＵ２１０及び主記憶装置２２０を含む。主記憶装置２２０は、プログラムとして、業務アプリケーション２２１を含む。ＣＰＵ２１０は、主記憶装置２２０に格納された業務アプリケーション２２１を実行することにより、業務を処理する機能を実現することができる。

【0023】

図２は、メインフレームテーブルＴＢ１を説明するための図である。メインフレームテーブルＴＢ１は、表形式のテーブルデータである。表は行と列とから構成され、表の横方向は行と称呼され、表の縦方向は列と称呼される。なお、以下、メインフレームテーブルＴＢ１は、「テーブルＴＢ１」と称呼される。

【0024】

図２に示すように、テーブルＴＢ１は、情報（値（数値、文字列など））を格納する列（カラム）として、社員番号３０１と、部署３０２と、氏名３０３と、年齢３０４と、内部データ３０５と、住所３０６と、を含む。

【0025】

テーブルＴＢ１には、各列に対応する情報（値（数値、文字列など））が、互いに対応付けられて行単位のレコード（情報）として格納されている。一つのレコード（行）の各列は、「フィールド（要素）」とも称呼される。即ち、一つのレコード（行）は、一つのレコード（行）の複数の列に対応する複数のフィールド（要素）から構成される。

【0026】

なお、説明の便宜上、テーブルＴＢ１の２行目に、各列で使用されている文字コード、数値を表現する形式などを示し、これは、テーブルＴＢ１に実際には含まれない。更に、各フィールドの値（文字列、数値）の下のかっこ書き内に、フィールドの値に対応するコード値を示している。実際には、テーブルＴＢ１には、各フィールドの値（文字列、数値）に対応するコード値が格納されている。更に、テーブルＴＢ１の１行目の各列のデータ項目の名称の下のかっこ書き内には、各列の区切りを示す情報（即ち、各列に格納されるコード値のデータ長（データ量））を示している。これは、テーブルＴＢ１に関連付けられた区切り情報１３２である。更に、本実施形態では、数値を記述するためのパック形式及びゾーン形式のコード値は、１まとめにバイナリ扱いとし、文字コード変換の対象外とする。

【0027】

図３は、ＯＰＥＮ系テーブルＴＢ１１を説明するための図である。ＯＰＥＮ系テーブルＴＢ１１は、図２のテーブルＴＢ１の文字コードの変換対象となるコード値が、ＯＰＥＮ系システムで使用可能な文字コード（例えば、Shift-JISなど）に対応するコード値に変換された表形式のテーブルデータである。なお、以下、ＯＰＥＮ系テーブルＴＢ１１は、「テーブルＴＢ１１」と称呼される。

【0028】

テーブルＴＢ１１は、情報（値（数値、文字列など））を格納する列（カラム）として、社員番号４０１と、部署４０２と、氏名４０３と、年齢４０４と、内部データ４０５と、住所４０６と、を含む。テーブルＴＢ１１には、各列に対応する情報（値（数値、文字列など））が、互いに対応付けられて行単位のレコード（情報）として格納されている。

【0029】

なお、説明の便宜上、テーブルＴＢ１１の２行目に、各列で使用されている文字コード、数値を表現する形式などを示し、これは、テーブルデータの定義情報として、テーブルＴＢ１１に含まれていてもいなくてもよい。更に、各フィールドの値（文字列、数値）の下のかっこ書き内に、フィールドの値に対応するコード値を示している。実際には、テーブルＴＢ１１には、各フィールドの値（文字列、数値）に対応するコード値が格納されている。更に、テーブルＴＢ１１の１行目の各列のデータ項目の名称の下のかっこ書き内には、各列の区切りを示す情報（即ち、各列に格納されるコード値のデータ長（データ量））を示している。これは、テーブルＴＢ１１に関連付けられたデータ（区切り情報１３２）であり、テーブルＴＢ１とは別のデータであってもよいし、テーブルデータの定義情報として、テーブルＴＢ１１に含まれていてもよい。

【0030】

図４は、頻出辞書１３１を説明するための図である。頻出辞書１３１は、表形式のテーブルデータであり、情報（値（数値、文字列など））を格納する列（カラム）として、文字列１３１ａと、文字コード１３１ｂと、バイト長１３１ｃと、出現回数１３１ｄと、確定度１３１ｅと、を含む。頻出辞書１３１には、各列に対応する情報（値（数値、文字列など））が、互いに対応付けられて行単位のレコード（情報）として格納されている。

【0031】

具体的に述べると、文字列１３１ａには、文字列に対応するコード値（文字列の下のかっこ書き内に示すコード値）が格納されている。文字コード１３１ｂには、文字コードの名称が格納されている。バイト長１３１ｃには、文字列を表すコード値のデータ長（バイト長）が格納されている。出現回数１３１ｄには、後述の頻出辞書登録で文字コードが特定する毎に「１」（所定回数）だけ増加される出現回数が格納される。確定度１３１ｅには、２段階の確定度（高／低）が格納される。即ち、確定度１３１ｅには、頻出辞書１３１の同行の対応するコード値が同行の対応する文字コードである可能性が高いことを示す「高」、及び、同行の対応するコード値が同行の対応する文字コードである可能性はあるが、その可能性が「高」が示す可能性より低いことを示す「低」が格納されている。

【0032】

＜概要＞
本発明の理解を容易にするため、本発明の概要について説明する。テーブルＴＢ１（メインフレームテーブルＴＢ１）は、シフトコード（文字コードの適用開始位置及び適用終了位置を表すコード値）が含まれていないテーブルデータである。このようなシフトコードが保存されていないテーブルデータがメインフレームシステムには、存在している。

【0033】

長年にわたり、メインフレームシステムで実行される業務アプリケーション１２２は、テーブルＴＢ１の構造を理解する（どの列にどの文字コードが使用されているかを理解する）ためのプログラムを含んでいる。従って、メインフレームシステムでは、業務アプリケーション１２２が、テーブルＴＢ１にシフトコードを付加することが可能である。よって、業務アプリケーション１２２は、テーブルＴＢ１のコード値に対応する適切な文字コードを理解できるので、例えば、文字化けすることなくコード値を文字に変換して、テーブルＴＢ１を画面に出力するなどの業務に関する処理を、支障なく行うことができる。

【0034】

一方、メインフレームシステムの業務アプリケーション１２２が利用するシフトコードが含まれていないテーブルＴＢ１を何ら処理することなくそのままＯＰＥＮ系システムにマイグレーションする場合、メインフレーム上、あるいは、ＯＰＥＮ系のコンピュータで動作するマイグレーションを実行するプログラムがテーブルＴＢ１のコード値を正しく解釈することができない場合がある。更に、ＯＰＥＮ系システムの第２情報処理装置２００（業務アプリケーション２２１）は、テーブルＴＢ１のコード値の文字コードに対応していない。このため、ＯＰＥＮ系システムでは、キーボードからテーブルデータ（テーブルＴＢ１）にデータを追加することやテーブルデータを画面に出力することなどのテーブルデータに対する基本的な入出力すら行うこともできず、業務に支障が生じてしまう。

【0035】

そこで、テーブルＴＢ１をＯＰＥＮ系システムにマイグレーションする場合、テーブルＴＢ１をＯＰＥＮ系システムの文字コードに対応したテーブルデータに変換することが必要となる。

【0036】

ところが、シフトコードが保存されていないテーブルＴＢ１では、コード値の文字コードが、テーブルＴＢ１に列単位で混在して使用されている複数の文字コードのうちのどの文字コードであるかを判別できない場合がある。

【0037】

この場合、従来では、コード値の文字コードを特定（判別）するために、一旦、文字を表すコード値を各文字コードによって文字に変換し、文字化けするか否かを確認し、コード値の文字コードを特定（判別）することが行われていた。しかし、このような文字コード特定工程は面倒であるという問題が生じている。

【0038】

このような問題に対して、本発明の第１実施形態に係る文字コード判別装置は、メインフレームからＯＰＥＮ系にマイグレーションする際、機械的判定及び頻出辞書判定により、テーブルＴＢ１に含まれるコード値の文字コードを特定する。これにより、本発明の第１実施形態に係る文字コード判別装置は、上記文字コード特定工程を行うことなく、テーブルＴＢ１の文字を表すコード値の文字コードを簡単に特定できる。

【0039】

＜作動の概要＞
本発明の第１実施形態に係る文字コード判別装置の作動の概要について説明する。文字コード判別装置に含まれる第１情報処理装置１００は、テーブルＴＢ１に含まれるコード値の文字コードを判別する。第１情報処理装置１００は、テーブルＴＢ１の文字コードの判別結果１１ａを用いて、図１の矢印ａ１に示すように、テーブルＴＢ１のコード値を、ＯＰＥＮ系システムで使用される文字コードに対応するコード値に変換したＯＰＥＮ系テーブルＴＢ１１に変換する。第１情報処理装置１００は、図１の矢印ａ２に示すように、ＯＰＥＮ系テーブルＴＢ１１をバイナリ転送によりＯＰＥＮ系システムにマイグレーションする。

【0040】

第１情報処理装置１００の動作は、準備フェーズと、入力フェーズと、判定フェーズと、文字コード変換フェーズとを含む。以下、各フェーズの動作について説明する。

【0041】

（準備フェーズ）
準備フェーズでは、「EBCDIKコードの設定」、「頻出辞書の登録」、及び、「頻出辞書の文字列と閾値の設定」が実行される。

【0042】

「EBCDIKコードの設定」
EBCDIKには、半角カナなど使用頻度が小さいコード値がある。EBCDIKコードの設定では、変換対象テーブル（例えば、テーブルＴＢ１）において、EBCDIKとして使用しないコード値がわかっている場合、そのコード値を、「EBCDIKではないコード値」として、後述の判別プログラムに対して、設定する。判別プログラムによる判定において、「EBCDIKではないコード値」が出現した場合、且つ、KEISとして有効であると判定された場合、その「EBCDIKではないコード値」はKEISであると確定することができる。これにより、EBCDIKとして使用しないコード値が多いほど、判定プログラムによる判定や頻出辞書による判定の正確性を向上できる。

【0043】

「頻出辞書の登録」
メインフレームシステムで多用されるある程度長さのある文字列（コード値）が存在する（わかっている）場合には、その文字列に関する情報（コード値及び文字コードなど）を、図４の頻出辞書１３１の文字列１３１ａ、文字コード１３１ｂ、バイト長１３１ｃ、出現回数１３１ｄ、確定度１３１ｅに登録する。なお、このとき出現回数１３１ｄには、「１」が登録され、確定度１３１ｅには、「高」が登録される。

【0044】

「頻出辞書の文字列長と閾値の設定」
文字列長と閾値の設定では、後述の頻出辞書登録処理で使用する以下の値を設定する。
・確定度「高」で登録するとの判定の基準となる文字列長である第１文字列長Ｌ
・確定度「低」で登録するとの判定の基準となる文字列長である第２文字列長Ｓ（なお、第２文字列長Ｓは、第１文字列長Ｌより小さい値が設定される。）
・確定度「低」から確定度「高」に切り替える判定の基準となる出現回数の閾値（閾値Ｔ（閾値回数））

【0045】

（入力フェーズ）
入力フェーズでは、変換対象テーブル（テーブルＴＢ１）及び変換対象テーブル（テーブルＴＢ１）の列の区切り情報１３２を入力し、補助記憶装置１３０に格納する。補助記憶装置１３０に格納された変換対象テーブル（テーブルＴＢ１）の区切り情報１３２が、補助記憶装置１３０から第１情報処理装置１００に入力され、後述の文字コード判定に使用される。なお、列の区切り情報１３２は、入力装置１４０から第１情報処理装置１００に直接入力された区切り情報１３２が、文字コード判定に使用されてもよい。

【0046】

（判定フェーズ）
判定フェーズでは、文字コード判定として、機械的判定及び頻出辞書判定が順に実行される。まず機械的判定について説明すると、機械的判定では、図５に示すように、変換対象のテーブルＴＢ１の各レコードの各列（即ち、各フィールド）に対して、判定フィールドＦｄ１が設定され、太枠点線Ｌ１で示した列単位のレコードのセットに対して論理積フィールドＦｄ２が設定される。

【0047】

判定フィールドＦｄ１には、図６の表６０１に示す２桁のビット（ビット０及びビット１）が格納される。２桁のビットは、便宜上、「ビット情報」とも称呼される。論理積フィールドＦｄ２には、同列に対して設定された複数の判定フィールドＦｄ１の２桁のビットの論理積の計算結果が、格納される。

【0048】

なお、図５において、判定フィールドＦｄ１及び論理積フィールドＦｄ２のそれぞれに格納される２桁のビットの状態を数値「０」、「１」、「２」及び「３」で表している。即ち、図６の表６０１に示すように、数値「０」は、ビット０及びビット１の何れもが「ＯＦＦ」の状態（「０」の状態）を表す。数値「１」は、ビット０が「ＯＦＦ」の状態（「０」の状態）であり、且つ、ビット１が「ＯＮ」の状態（「１」の状態）を表す。数値「２」は、ビット０が「ＯＮ」の状態であり、且つ、ビット１が「ＯＦＦ」の状態を表す。数値「３」は、ビット０及びビット１の何れもが「ＯＮ」の状態を表す。

【0049】

機械的判定は、まず、テーブルＴＢ１の一つのレコード（行）の各列（即ち、各フィールド）毎に、一つのレコードの各列に格納された文字列（文字列に対応するコード値）に対して、判定プログラムによる判定を行う。そして、機械的判定は、判定プログラムによる判定結果に応じて、ビット０及びビット１のそれぞれを「ＯＦＦ」から「ＯＮ」の状態に設定する。

【0050】

判定プログラムとしては、「コード値がKEISとして有効であるか否かを判定可能なプログラム」及び「コード値がEBCDIKとして有効であるか否かを判定可能なプログラム」を用いる。このような判定プログラムは、周知であるので詳細な説明を省略する。この判定プログムによる判定では、一つのレコードの各列のコード値が、KEISとして有効であるか否かが判定され、一つのレコードの各列のコード値が、EBCDIKとして有効であるか否かが判定される。

【0051】

図７は、判定プログラムによる判定結果に応じた、判定フィールドＦｄ１及び論理積フィールドＦｄ２に格納される２桁のビットの状態を説明するための図である。図７の表７０１に示すように、ビット０は、コード値がKEISとして有効であるか否かの判定結果に応じて変更（設定）されるビットである。ビット１は、コード値がEBCDIKとして有効であるか否かの判定結果に応じて変更（設定）されるビットである。

【0052】

判定前の初期状態では、ビット０及びビット１の何れもが「ＯＦＦ」の状態に設定されている。判定プログラムにより、コード値がKEISとして有効であると判定されると、ビット０が「ＯＮ」の状態に設定される。判定プログラムにより、コード値がEBCDIKとして有効であると判定されると、ビット１が「ＯＮ」の状態に設定される。

【0053】

従って、判定プログラムによる各フィールドのコード値の判定の結果、判定対象のフィールドのコード値がKEISのみ有効であると判定された場合、そのフィールドに対する判定フィールドＦｄ１のビット０のみが「ＯＮ」の状態になる。

【0054】

判定プログラムによる判定の結果、判定対象のフィールドのコード値がEBCDIKのみ有効であると判定された場合、そのフィールドに対する判定フィールドＦｄ１のビット１のみが「ＯＮ」の状態になる。

【0055】

判定プログラムによる判定の結果、判定対象のフィールドのコード値がKEISとして有効であり、且つ、当該コード値がEBCDIKとして有効であると判定された場合、そのフィールドに対する判定フィールドＦｄ１のビット０及びビット１の何れもが「ＯＮ」の状態になる。

【0056】

判定プログラムによる判定の結果、判定対象のフィールドのコード値がKEISとして有効ではなく、且つ、当該コード値がEBCDIKとしても有効ではないと判定された場合、そのフィールドに対する判定フィールドＦｄ１のビット０及びビット１の何れもが「ＯＦＦ」の状態になる。

【0057】

機械的判定は、各レコードの各列（各フィールド）の全てについて、判定プログラムによる判定を行った後、列単位で、各フィールドに対する判定フィールドＦｄ１のビット０及びビット１の論理積を計算して、論理積フィールドＦｄ２に格納する。

【0058】

計算した結果、矢印（１）が示す列の論理積の結果が示すように、論理積フィールドＦｄ２に格納されたビット０及びビット１の何れもが「ＯＦＦ」の状態である場合、機械的判定は、当該列の文字コードがバイナリであると判定（特定）する（図７を参照。）。

【0059】

計算した結果、矢印（２）が示す列の論理積の結果が示すように、論理積フィールドＦｄ２に格納されたビット１のみが「ＯＮ」の状態である場合、機械的判定は、当該列の文字コードがEBCDIKであると判定（特定）する（図７を参照。）。

【0060】

矢印（３）が示す列のように、テーブルＴＢ１の最終列のみ可変長を許可し、計算した結果、矢印（３）が示す列の論理積の結果が示すように、論理積フィールドＦｄ２に格納されたビット０のみが「ＯＮ」の状態である場合、機械的判定は、当該列の文字コードがKEISであると判定（特定）する（図７を参照。）。

【0061】

計算した結果、矢印（４）が示す列の論理積の結果が示すように、論理積フィールドＦｄ２に格納されたビット０及びビット１の何れもが「ＯＮ」の状態である場合、機械的判定は、文字コードの判定を保留する（図７を参照。）。

【0062】

次に、頻出辞書判定について説明する。頻出辞書判定では、機械的判定が判定を保留した列について、頻出辞書１３１に基づいて文字コードを判定する。具体的に述べると、まず、頻出辞書判定は、判定対象の列の各行（即ち、各フィールド）に、確定度「高」且つ「KEIS」で頻出辞書１３１に登録されたコード値が含まれているか否かを判定する。その結果、判定対象のフィールドに、確定度「高」且つ「KEIS」で登録されたコード値が含まれている場合、頻出辞書判定は、そのフィールドに対する判定フィールドＦｄ１に格納されたビット０及びビット１を、ビット０のみ「ＯＮ」の状態（即ち、ビット０が「ＯＮ」且つビット１が「ＯＦＦ」の状態）に変更する。

【0063】

更に、頻出辞書判定は、判定対象の列の各行（即ち、各フィールド）に、確定度「高」且つ「EBCDIK」で登録されたコード値が含まれているか否かを判定する。その結果、判定対象のフィールドに、確定度「高」且つ「EBCDIK」で頻出辞書１３１に登録されたコード値が含まれている場合、頻出辞書判定は、そのフィールドに対する判定フィールドＦｄ１に格納されたビット０及びビット１を、ビット１のみ「ＯＮ」の状態（即ち、ビット０が「ＯＦＦ」且つビット１が「ＯＮ」の状態）に変更する。

【0064】

頻出辞書判定は、機械的判定が判定を保留した列について、機械的判定同様、列単位で、各フィールドに対する判定フィールドＦｄ１のビット０及びビット１の論理積を計算して、論理積フィールドＦｄ２に格納する。論理積フィールドＦｄ２に格納されたビット０及びビット１の状態に基づいて、各列の文字コードを判定（特定）する。

【0065】

そして、機械的判定及び頻出辞書判定が終了すると、文字コード判定は、機械的判定及び頻出辞書判定による各列の文字コードの判定結果に基づいて、テーブルＴＢ１の各列単位の文字コードを示す情報及びバイナリ扱いとすることを示す情報を含む判別結果１１ａを出力する。
なお、機械的判定及び頻出辞書判定による文字コードの特定結果に基づいて、頻出辞書１３１の更新（頻出辞書登録）も行う。この処理については、後述する。

【0066】

（文字コード変換フェーズ）
文字コード変換は、判別結果１１ａに基づいて、変換対象テーブル（テーブルＴＢ１）の先頭のレコードから順に、KEIS及びEBCDIKの何れかに判定した列を文字コードの変換対象列として、変換対象列のコード値を、移行後のOPEN系で使用可能な文字コードに対応したコード値に変換する。この文字コードの変換は、変換対象として、第１情報処理装置１００に入力された変換対象テーブル（テーブルＴＢ１）について行う。

【0067】

なお、変換対象として、第１情報処理装置１００に入力された対象テーブル（テーブルＴＢ１）が複数存在する場合、複数の対象テーブルの全てについて、上述した準備フェーズと、入力フェーズと、判定フェーズと、文字コード変換フェーズを行う。以上が本発明の第１実施形態に係る文字コード判別装置の作動の概要である。

【0068】

＜具体的作動＞
以下、上述した機械的判定、頻出辞書判定、及び、頻出辞書登録（頻出辞書登録処理）について説明する。

【0069】

図８はマイグレーションプログラム１２１（以下、「ＭＰＧＭ１２１」と称呼される。）が実行する機械的判定の処理フローを示すフローチャートである。ＭＰＧＭ１２１は、図８のステップ８００から処理を開始してループ１の始点のステップ８０１に進み、ステップ８０１乃至ステップ８１４のループ１の実行を開始する。このループ１は、ループ１の終了条件（変換対象テーブルの全てについてループ１の処理が実行される）が成立するまで繰り返し実行される。

【0070】

ＭＰＧＭ１２１は、ステップ８０２に進み、判定フィールドＦｄ１を初期化（ビット０及びビット１の何れも「ＯＦＦ」の状態に設定）した後、ループ２の始点のステップ８０３に進み、ステップ８０３乃至ステップ８１１のループ２の実行を開始する。このループ２は、ループ２の終了条件（変換対象テーブルの最終レコードまでコード値を読み込む）が成立するまで、繰り返し実行される。

【0071】

ＭＰＧＭ１２１は、ループ３の始点のステップ８０４に進み、ステップ８０４乃至ステップ８１０のループ３の実行を開始する。このループ３は、ループ３の終了条件（最終列のレコードの区切りまでコード値を読み込む）が成立するまで、繰り返し実行される。

【0072】

ＭＰＧＭ１２１は、ステップ８０５に進み、コード値をレコードの区切りまで読み込み、ステップ８０６に進む。
ＭＰＧＭ１２１は、ステップ８０６に進むと、判定プログラムによる判定を行うことにより、読み込んだコード値が、KEISとして有効なコード値であるか否かを判定する。

【0073】

読み込んだコード値が、KEISとして有効なコード値である場合、ＭＰＧＭ１２１は、ステップ８０６にて「ＹＥＳ」と判定してステップ８０７に進み、読み込んだコード値に対応する判定フィールドＦｄ１のビット０を「ＯＮ」に設定した後、ステップ８０８に進む。

【0074】

読み込んだコード値が、KEISとして有効なコード値ではないと判定した場合、ＭＰＧＭ１２１は、ステップ８０６にて「ＮＯ」と判定してステップ８０８に直接進む。

【0075】

ＭＰＧＭ１２１は、ステップ８０８に進むと、判定プログラムによる判定を行うことにより、読み込んだコード値が、EBCDIKとして有効なコード値であるか否かを判定する。

【0076】

読み込んだコード値が、EBCDIKとして有効なコード値である場合、ＭＰＧＭ１２１は、ステップ８０８にて「ＹＥＳ」と判定してステップ８０９に進み、読み込んだコード値に対応する判定フィールドＦｄ１のビット１を「ＯＮ」に設定して、ループ３の終点のステップ８１０に進む。

【0077】

読み込んだコード値が、EBCDIKとして有効なコード値ではない場合、ＭＰＧＭ１２１は、ステップ８０８にて「ＮＯ」と判定して、ループ３の終点のステップ８１０に直接進む。

【0078】

ＭＰＧＭ１２１は、ループ３の終点のステップ８１０にてループ３の終了条件（最終列のレコードの区切りまでコード値を読む）が成立していない場合、ループ３の始点８０４に戻る。一方、ＭＰＧＭ１２１は、ループ３の終点のステップ８１０にてループ３の終了条件（最終列のレコードの区切りまでコード値を読む）が成立している場合、ループ３を終了し、ループ２の終点のステップ８１１に進む。

【0079】

ＭＰＧＭ１２１は、ループ２の終点のステップ８１１にてループ２の終了条件（変換対象テーブルの最終レコードまでコード値を読み込む）が成立していない場合、ループ２の始点のステップ８０３に戻る。一方、ＭＰＧＭ１２１は、ループ２の終点のステップ８１１にてループ２の終了条件（変換対象テーブルの最終レコードまでコード値を読み込む）が成立している場合、ループ２を終了し、ステップ８１２に進む。

【0080】

ＭＰＧＭ１２１は、ステップ８１２に進むと、上述したように、各列単位で、全行の判定フィールドＦｄ１のビット０及びビット１の論理積を計算し、計算した論理積に基づいて、各列の文字コードを決定（特定）する。

【0081】

その後、ＭＰＧＭ１２１は、ステップ８１３に進み、頻出辞書登録処理を実行して、ループ１の終点のステップ８１４に進む。なお、この頻出辞書登録処理の詳細は、後述する。

【0082】

ＭＰＧＭ１２１は、ループ１の終点のステップ８１４にてループ１の終了条件（変換対象テーブルの全てについてループ１の処理が実行される）が成立していない場合、ループ１の始点８０１に戻る。一方、ＭＰＧＭ１２１は、ループ１の終点のステップ８１４にてループ１の終了条件（変換対象テーブルの全てについてループ１の処理が実行される）が成立している場合、ループ１を終了し、ステップ８９５に進んで本処理フローを一旦終了する。

【0083】

図９は、ＭＰＧＭ１２１が実行する頻出辞書判定の処理フローを示すフローチャートである。ＭＰＧＭ１２１は、機械的判定が終了すると、図９のステップ９００から処理を開始して、ループ１の始点のステップ９０１に進み、ステップ９０１乃至ステップ９１３のループ１の実行を開始する。このループ１は、ループ１の終了条件（変換対象テーブルの全てについてループ１の処理が実行される）が成立するまで繰り返し実行される。

【0084】

ＭＰＧＭ１２１は、ループ２の始点のステップ９０２に進み、ステップ９０２乃至ステップ９１０のループ２の実行を開始する。このループ２は、ループ２の終了条件（変換対象テーブルの最終レコードまでコード値を読み込む）が成立するまで、繰り返し実行される。

【0085】

ＭＰＧＭ１２１は、ループ３の始点のステップ９０３に進み、ステップ９０３乃至ステップ９０９のループ３の実行を開始する。このループ３は、ループ３の終了条件（不明な列を全て読む）が成立するまで、繰り返し実行される。

【0086】

ＭＰＧＭ１２１は、ステップ９０４に進み、機械的判定が終了した後の変換対象テーブルにおいて、文字コードが不明な列まで読み込み開始位置をずらし、コード値をレコードの区切りまで読み込み、ステップ９０５に進む。

【0087】

ＭＰＧＭ１２１は、ステップ９０５に進むと、読み込んだコード値に、確定度「高」、且つ、文字コードがKEISで頻出辞書１３１に登録されたコード値が、含まれているか否かを判定する。

【0088】

読み込んだコード値に、確定度「高」、且つ、文字コードがKEISで頻出辞書１３１に登録されたコード値が、含まれている場合、ＭＰＧＭ１２１は、ステップ９０５にて「ＹＥＳ」と判定してステップ９０６に進む。ＭＰＧＭ１２１は、ステップ９０６に進むと、読み込んだコード値に対応する判定フィールドＦｄ１のビット０及びビット１のうち、ビット０のみが「ＯＮ」の状態に変更して、ループ３の終点のステップ９０９に進む。

【0089】

読み込んだコード値に、確定度「高」、且つ、文字コードがKEISで頻出辞書１３１に登録されたコード値が、含まれていない場合、ＭＰＧＭ１２１は、ステップ９０５にて「ＮＯ」と判定してステップ９０７に進む。

【0090】

ＭＰＧＭ１２１は、ステップ９０７に進むと、読み込んだコード値に、確定度「高」、且つ、文字コードがEBCDIKで頻出辞書１３１に登録されたコード値が、含まれているか否かを判定する。

【0091】

読み込んだコード値に、確定度「高」、且つ、文字コードがEBCDIKで頻出辞書１３１に登録されたコード値が、含まれている場合、ＭＰＧＭ１２１は、ステップ９０７にて「ＹＥＳ」と判定してステップ９０８に進む。ＭＰＧＭ１２１は、ステップ９０８に進むと、読み込んだコード値に対応する判定フィールドＦｄ１のビット０及びビット１のうち、ビット１のみが「ＯＮ」の状態に変更して、ループ３の終点のステップ９０９に進む。

【0092】

読み込んだコード値に、確定度「高」、且つ、文字コードがEBCDIKで頻出辞書１３１に登録されたコード値が、含まれていない場合、ＭＰＧＭ１２１は、ステップ９０７にて「ＮＯ」と判定してループ３の終点のステップ９０９に進む。

【0093】

ＭＰＧＭ１２１は、ループ３の終点のステップ９０９にてループ３の終了条件（不明な列を全て読む）が成立していない場合、ループ３の始点のステップ９０３に戻る。

【0094】

ＭＰＧＭ１２１は、ループ３の終点のステップ９０９にてループ３の終了条件（不明な列を全て読む）が成立している場合、ステップ９１０に進む。

【0095】

ＭＰＧＭ１２１は、ループ２の終点のステップ９１０にてループ２の終了条件（変換対象テーブルの最終レコードまでコード値を読み込む）が成立していない場合、ループ２の始点のステップ９０２に戻る。

【0096】

ＭＰＧＭ１２１は、ループ２の終点のステップ９１０にてループ２の終了条件（変換対象テーブルの最終レコードまでコード値を読み込む）が成立している場合、ステップ９１１に進む。

【0097】

ＭＰＧＭ１２１は、ステップ９１１に進むと、上述したように、文字コードが不明な列について、各列単位で、全行の判定フィールドＦｄ１のビット０及びビット１の論理積を計算し、計算した論理積に基づいて、各列の文字コードを決定（特定）する。

【0098】

その後、ＭＰＧＭ１２１は、ステップ９１２に進み、頻出辞書登録処理を実行して、ループ１の終点のステップ９１３に進む。なお、この頻出辞書登録処理の詳細は、後述する。

【0099】

ＭＰＧＭ１２１は、ループ１の終点のステップ９１３にてループ１の終了条件（変換対象テーブルの全てについてループ１の処理が実行される）が成立していない場合、ループ１の始点９０１に戻る。一方、ＭＰＧＭ１２１は、ループ１の終点のステップ９１３にてループ１の終了条件（変換対象テーブルの全てについてループ１の処理が実行される）が成立している場合、ループ１を終了し、ステップ９９５に進んで本処理フローを一旦終了する。

【0100】

上述したステップ８１３及びステップ９１２のそれぞれで実行される頻出辞書登録処理の詳細について説明する。図１０及び図１１は、ＭＰＧＭ１２１が実行する頻出辞書登録処理の処理フローを示すフローチャートである。

【0101】

ＭＰＧＭ１２１は、図１０のステップ１０００から処理を開始してループ１の始点のステップ１００１に進み、ステップ１００１乃至ステップ１０３２（図１１）のループ１の実行を開始する。このループ１は、ループ１の終了条件（変換対象テーブルの最終レコードまでコード値を読み込む）が成立するまで繰り返し実行される。

【0102】

ＭＰＧＭ１２１は、ループ２の始点のステップ１００２に進み、ステップ１００２乃至ステップ１０３１（図１１）のループ２の実行を開始する。このループ２は、ループ２の終了条件（最終列のレコードの区切りまでコード値を読む）が成立するまで繰り返し実行される。

【0103】

ＭＰＧＭ１２１は、ステップ１００３に進むと、KEISかEBCDIKで確定している列（フィールド）まで読み込み開始位置をずらして、列に格納された文字列に対応するコード値を読み込み、ステップ１００４に進む。

【0104】

ＭＰＧＭ１２１は、ステップ１００４に進み、読み込んだコード値の文字列長（データ長）が第１文字列長Ｌ以上であるか否かを判定する。

【0105】

読み込んだコード値の文字列長（データ長）が第１文字列長Ｌ以上である場合、ＭＰＧＭ１２１は、ステップ１００４にて「ＹＥＳ」と判定してステップ１００５に進み、コード値が頻出辞書１３１に登録済みであるか否かを判定する。

【0106】

コード値が頻出辞書１３１に登録済みではない場合、ＭＰＧＭ１２１は、ステップ１００５にて「ＮＯ」と判定して以下に述べるステップ１００６及びステップ１００７の処理を順に実行した後、ステップ１００８に進む。

【0107】

ステップ１００６：ＭＰＧＭ１２１は、確定度「高」でコード値及び文字コードを頻出辞書１３１に登録する。

【0108】

ステップ１００７：ＭＰＧＭ１２１は、出現回数を「１」で初期化する（出現回数を「１」で頻出辞書１３１に登録する。）。

【0109】

コード値が頻出辞書１３１に登録済みである場合、ＭＰＧＭ１２１は、ステップ１００５にて「ＹＥＳ」と判定してステップ１００９に進み、出現回数を「１」だけ増加させた後、ステップ１００８に進む。

【0110】

一方、ステップ１００４の処理にて、読み込んだコード値の文字列長（データ長）が第１文字列長Ｌより小さい場合、ＭＰＧＭ１２１は、ステップ１００４にて「ＮＯ」と判定してステップ１０１０に進み、文字列長が第２文字列長Ｓ以上であるか否かを判定する。なお、上述したように、第２文字列長Ｓは、第１文字列長Ｌより小さい値に設定されている。

【0111】

読み込んだコード値の文字列長が第２文字列長Ｓ以上である場合、ＭＰＧＭ１２１は、ステップ１０１０にて「ＹＥＳ」と判定してステップ１０１１に進み、読み込んだコード値が頻出辞書１３１に登録済みであるか否かを判定する。

【0112】

読み込んだコード値が頻出辞書１３１に登録済みではない場合、ＭＰＧＭ１２１は、ステップ１０１１にて「ＮＯ」と判定して以下に述べるステップ１０１２及びステップ１０１３の処理を順に実行した後、ステップ１００８に進む。

【0113】

ステップ１０１２：ＭＰＧＭ１２１は、確定度「低」で読み込んだコード値及び文字コードを頻出辞書１３１に登録する。

【0114】

ステップ１０１３：ＭＰＧＭ１２１は、出現回数を「１」で初期化する（出現回数を「１」で頻出辞書１３１に登録する。）。

【0115】

これに対し、読み込んだコード値が頻出辞書１３１に登録済みである場合、ＭＰＧＭ１２１は、ステップ１０１１にて「ＹＥＳ」と判定してステップ１０１４に進み、頻出辞書１３１に登録済みのコード値に対応する出現回数を「１」だけ増加させた後、ステップ１０１５に進む。

【0116】

ＭＰＧＭ１２１は、ステップ１０１５に進むと、頻出辞書１３１に登録済みのコード値に対応する出現回数が閾値Ｔ以上であるか否かを判定する。

【0117】

出現回数が閾値Ｔ以上である場合、ＭＰＧＭ１２１は、ステップ１０１５にて「ＹＥＳ」と判定してステップ１０１６に進み、頻出辞書１３１に登録済みのコード値に対応する確定度を「低」から「高」に変更した後、ステップ１００８に進む。

【0118】

頻出辞書１３１に登録済みのコード値に対応する出現回数が閾値Ｔより小さい場合、ＭＰＧＭ１２１は、ステップ１０１５にて「ＮＯ」と判定してステップ１００８に進む。

【0119】

ステップ１０１０の処理にて、読み込んだコード値の文字列長が第２文字列長Ｓより小さい場合、ＭＰＧＭ１２１は、ステップ１０１０にて「ＮＯ」と判定してステップ１００８に直接進む。

【0120】

ＭＰＧＭ１２１は、ステップ１００８に進むと、読み込んだコード値に対応する文字列を形態素解析で単語に分解する。その後、ＭＰＧＭ１２１は、図１１のループ３の始点１０１７に進み、ステップ１０１７乃至ステップ１０２２のループ３の実行を開始する。このループ３は、ループ３の終了条件（分解した単語の全てについてループ３の処理を実行するまで）が成立するまで繰り返し実行される。

【0121】

ＭＰＧＭ１２１は、ステップ１０１８に進み、単語に対応するコード値の文字列長が第１文字列長Ｌ以上であるか否かを判定する。

【0122】

単語に対応するコード値の文字列長が第１文字列長Ｌ以上である場合、ＭＰＧＭ１２１は、ステップ１０１８にて「ＹＥＳ」と判定してステップ１０１９に進み、単語に対応するコード値が頻出辞書１３１に登録済みであるか否かを判定する。

【0123】

単語に対応するコード値が頻出辞書１３１に登録済みではない場合、ＭＰＧＭ１２１は、ステップ１０１９にて「ＮＯ」と判定して、以下に述べるステップ１０２０及びステップ１０２１の処理を順に実行した後、ループ３の終点の１０２２に進む。

【0124】

ステップ１０２０：ＭＰＧＭ１２１は、確定度「高」で単語に対応するコード値及び文字コードを頻出辞書１３１に登録する。

【0125】

ステップ１０２１：ＭＰＧＭ１２１は、出現回数を「１」で初期化する（出現回数を「１」で頻出辞書１３１に登録する。）。

【0126】

単語に対応するコード値が頻出辞書１３１に登録済みである場合、ＭＰＧＭ１２１は、ステップ１０１９にて「ＹＥＳ」と判定してステップ１０２３に進み、頻出辞書１３１に登録済みのコード値に対応する出現回数を「１」だけ増加させた後、ループ３の終点のステップ１０２２に進む。

【0127】

ステップ１０１８の処理にて、単語に対応するコード値の文字列長が第１文字列長Ｌより小さい場合、ＭＰＧＭ１２１は、ステップ１０１８にて「ＮＯ」と判定してステップ１０２４に進み、単語に対応するコード値の文字列長が第２文字列長Ｓ以上であるか否かを判定する。

【0128】

単語に対応するコード値の文字列長が第２文字列長Ｓ以上である場合、ＭＰＧＭ１２１は、ステップ１０２４にて「ＹＥＳ」と判定してステップ１０２５に進み、単語に対応するコード値が頻出辞書１３１に登録済みであるか否かを判定する。

【0129】

単語に対応するコード値が頻出辞書１３１に登録済みではない場合、ＭＰＧＭ１２１は、ステップ１０２５にて「ＮＯ」と判定して以下に述べるステップ１０２６及びステップ１０２７の処理を順に実行した後、ループ３の終点のステップ１０２２に進む。

【0130】

ステップ１０２６：ＭＰＧＭ１２１は、確定度「低」で単語に対応するコード値及び文字コードを頻出辞書１３１に登録する。

【0131】

ステップ１０２７：ＭＰＧＭ１２１は、出現回数を「１」で初期化する（出現回数を「１」で頻出辞書１３１に登録する。）。

【0132】

単語に対応するコード値が頻出辞書１３１に登録済みである場合、ＭＰＧＭ１２１は、ステップ１０２５にて「ＹＥＳ」と判定してステップ１０２８に進み、頻出辞書１３１に登録済みのコード値に対応する出現回数を「１」だけ増加させた後、ステップ１０２９に進み、出現回数が閾値Ｔ以上であるか否かを判定する。

【0133】

出現回数が閾値Ｔ以上である場合、ＭＰＧＭ１２１は、ステップ１０２９にて「ＹＥＳ」と判定してステップ１０３０に進み、頻出辞書１３１に登録済みのコード値に対応する確定度を「低」から「高」に変更した後、ループ３の終点のステップ１０２２に進む。
出現回数が閾値Ｔより小さい場合、ＭＰＧＭ１２１は、ステップ１０２９にて「ＮＯ」と判定してループ３の終点のステップ１０２２に進む。

【0134】

ステップ１０２４の処理にて、読み込んだコード値の文字列長が第２文字列長Ｓより小さい場合、ＭＰＧＭ１２１は、ステップ１０２４にて「ＮＯ」と判定してループ３の終点のステップ１０２２に直接進む。

【0135】

ＭＰＧＭ１２１は、ループ３の終点のステップ１０２２にてループ３の終了条件（分解した単語の全てについてループ３の処理を実行するまで）が成立していない場合、ループ３の始点１０１７に戻る。

【0136】

ＭＰＧＭ１２１は、ループ３の終点のステップ１０２２にてループ３の終了条件（分解した単語の全てについてループ３の処理を実行するまで）が成立している場合、ループ３を終了して、ループ２の終点のステップ１０３１に進む。

【0137】

ＭＰＧＭ１２１は、ループ２の終点のステップ１０３１にてループ２の終了条件（最終列のレコードの区切りまでコード値を読む）が成立していない場合、ループ２の始点のステップ１００２に戻る。

【0138】

ＭＰＧＭ１２１は、ループ２の終点のステップ１０３１にてループ２の終了条件（最終列のレコードの区切りまでコード値を読む）が成立している場合、ループ２を終了して、ループ１の終点のステップ１０３２に進む。

【0139】

ＭＰＧＭ１２１は、ループ１の終点のステップ１０３２にてループ１の終了条件（変換対象テーブルの最終レコードまでコード値を読み込む）が成立していない場合、ループ１の始点のステップ１００１に戻る。

【0140】

ＭＰＧＭ１２１は、ループ１の終点のステップ１０３２にてループ１の終了条件（変換対象テーブルの最終レコードまでコード値を読み込む）が成立している場合、ループ１を終了してステップ１０９５に進み、本処理フローを一旦終了する。

【0141】

＜効果＞
以上説明したように、本発明の第１実施形態に係る文字コード判別装置は、一旦、文字を表すコードを各文字コードによって文字に変換し、文字化けするか否かを確認し、文字を表すコードの文字コードを特定することを行う必要がない。従って、この文字コード判別装置は、シフトコードが使用されていないテーブルデータに含まれる文字を表すコード値の文字コードを簡単に特定できる。更に、この文字コード判別装置は、頻出辞書登録処理を実行することにより、頻出辞書１３１に「高」として登録されるコード値が増加していくことで、頻出辞書判定による文字コードの特定精度を向上できるので、文字コード判定による文字コードの特定精度をより向上できる。

【0142】

<<第２実施形態>>
本発明の第２実施形態に係る文字コード判別装置について説明する。この文字コード判別装置は、以下の点のみにおいて、第１実施形態に係る文字コード判別装置と相違点を有する。
・この文字コード判別装置は、機械的判定及び頻出辞書判定に加えて、手動判定処理を実行可能に構成される。

【0143】

以下、相違点を中心に説明する。

【0144】

図１２は、第２実施形態に係る文字コード判別装置のＭＰＧＭ１２１が実行する処理フローを示すフローチャートである。ＭＰＧＭ１２１は、図９のステップ９０１乃至ステップ９１３のループ１が終了すると、ステップ１２０１に進んで、ループ４の始点のステップ１２０１に進み、ステップ１２０１乃至ステップ１２０４のループ４の実行を開始する。このループ４は、ループ４の終了条件（変換対象テーブルの全てについてループ４の処理が実行される）が成立するまで繰り返し実行される。

【0145】

ＭＰＧＭ１２１は、ステップ１２０２に進むと、機械的判定及び頻出辞書判定が終了した変換対象テーブルにおいて、判定保留の列があるか否かを判定する。判定保留の列がない場合、ＭＰＧＭ１２１は、ステップ１２０２にて「ＮＯ」と判定してループ４の終点のステップ１２０４に進む。

【0146】

一方、判定保留の列がある場合、ＭＰＧＭ１２１は、ステップ１２０２にて「ＹＥＳ」と判定してステップ１２０３に進み、手動判定処理を行う。ＭＰＧＭ１２１は、全ての判定保留の列に対して、手動判定処理を行う。これにより、判定保留の列について、文字コードを判定（特定）していく。なお、手動判定処理の詳細は、後述する。その後、ＭＰＧＭ１２１は、ループ４の終点のステップ１２０４に進む。

【0147】

ＭＰＧＭ１２１は、ループ４の終点のステップ１２０４にて、ループ４の終了条件（変換対象テーブルの全てについてループ４の処理が実行される）が成立していない場合、ループ４の始点１２０１に戻る。

【0148】

ＭＰＧＭ１２１は、ループ４の終点のステップ１２０４にてループ４の終了条件（変換対象テーブルの全てについてループ４の処理が実行される）が成立している場合、ループ４を終了して、ステップ１２９５に進んで、本処理フローを一旦終了する。

【0149】

上述した手動判定処理の詳細について説明する。ＭＰＧＭ１２１は、図１３のＧＵＩ画面ＧＭ１をディスプレイ１５０に表示する。図１３に示すように、ＧＵＩ画面ＧＭ１には、判定対象の列の任意の一つのフィールドに格納されたコード値をKEISとして文字列に変換した場合の変換結果が表示される。更に、ＧＵＩ画面ＧＭ１には、当該コード値をEBCDIKとして文字列に変換した場合の変換結果が表示される。更に、ＧＵＩ画面ＧＭ１には、当該コード値がバイナリとして表示される。ユーザは、ＧＵＩ画面ＧＭ１を目視で確認して、ＧＵＩ画面ＧＭ１を介して、文字コードを選択入力することにより、判定対象の列の文字コードを判定（特定）する。

【0150】

図１３の例では、判定対象の列の任意の一つのフィールドに格納されたコード値がKEISであることがわかるので、ユーザによって、判定対象の列がKEISであることが、ＧＵＩ画面ＧＭ１を介して、第１情報処理装置１００に選択入力される。即ち、ユーザは、入力装置１４０を操作することによって、ＧＵＩ画面ＧＭ１の「１:KEIS」を選択入力する。これにより、第１情報処理装置１００に文字コード（KEIS）が入力されると、ＭＰＧＭ１２１は、入力された文字コード（本例において、「KEIS」）を判定対象の列の文字コードとして判定（特定）する。ＭＰＧＭ１２１は、このような手動判定処理を、機械的判定及び頻出辞書判定が終了した変換対象テーブルにおいて文字コードの判定が保留となっていた全ての列について行う。

【0151】

＜効果＞
以上説明したように、本発明の第２実施形態に係る文字コード判別装置は、文字コードの判定が保留になった列に格納されたコード値についてのみ、コード値を各文字コードによって文字に変換し、文字化けするか否かを確認し、コード値の文字コードを特定する手動判定処理を実行する。従って、本発明の第２実施形態に係る文字コード判別装置は、常に全てのコード値について手動判定処理を行う場合に比べて、シフトコードが使用されていないテーブルデータに含まれるコード値の文字コードを簡単に特定できる。更に、手動判定処理は、文字コードの判定が保留となっていた列の一つのフィールドについてのみ行えばよい。従って、文字コードの判定が保留となっていた列の全てのフィールドについて、手動判定処理を行う場合に比べて、シフトコードが使用されていないテーブルデータに含まれるコード値の文字コードを簡単に特定できる。更に、本発明の第２実施形態に係る文字コード判別装置は、機械的判定及び頻出辞書判定により文字コード特定できなかった列についても、コード値の文字コードを特定できる。

【0152】

<<第３実施形態>>
本発明の第３実施形態に係る文字コード判別装置について説明する。この文字コード判別装置は、以下の点のみにおいて、第１実施形態に係る文字コード判別装置と相違点を有する。
・この文字コード判別装置は、上述した機械的判定及び頻出辞書判定のうちの機械的判定のみを行うように構成される。従って、この文字コード判別装置は、図８、図１０及び図１１に示したフローチャートを実行するように構成される。

【0153】

＜効果＞
本発明の第３実施形態に係る文字コード判別装置は、シフトコードが使用されていないテーブルデータに含まれる文字を表すコード値の文字コードを簡単に特定できる。

【0154】

<<第４実施形態>>
本発明の第４実施形態に係る文字コード判別装置について説明する。この文字コード判別装置は、以下の点のみにおいて、第１実施形態に係る文字コード判別装置と相違点を有する。
・この文字コード判別装置は、上述した機械的判定及び頻出辞書判定のうちの頻出辞書判定のみを行うように構成される。
・第１実施形態では、機械的判定が判定を保留した列について、頻出辞書１３１に基づいて文字コード判定を行ったが、第４実施形態では、全ての列について、頻出辞書１３１に基づいて文字コード判定を行う。
・文字コード判別装置は、「図９のループ３の終了条件を「テーブルの全ての列を読むまで」に変更したフローチャート」、図１０及び図１１に示したフローチャートを実行するように構成される。

【0155】

＜効果＞
本発明の第４実施形態に係る文字コード判別装置は、シフトコードが使用されていないテーブルデータに含まれる文字を表すコード値の文字コードを簡単に特定できる。

【0156】

<<変形例>>
本発明は上記各実施形態に限定されることなく、本発明の範囲内において種々の変形例を採用することができる。更に、上記各実施形態は、本発明の範囲を逸脱しない限り、互いに組み合わせることが可能である。

【0157】

例えば、上記各実施形態において、文字コードとして、KEIS、EBCDIK及びShift-JISを例に挙げて説明したが、各実施形態における文字コードは、これらに限定されず、KEIS、EBCDIK及びShift-JIS以外の文字コードであってもよい。

【0158】

上記各実施形態において、第２情報処理装置２００が、テーブルＴＢ１を取得し、テーブルＴＢ１の文字コードを特定してＯＰＥＮ系テーブルＴＢ１１に変換するようにしてもよい。更に、メインフレームシステム及びマイグレーション先のＯＰＥＮ系システム以外に存在する他の情報処理装置が、テーブルＴＢ１を取得し、テーブルＴＢ１の文字コードを特定してＯＰＥＮ系テーブルＴＢ１１に変換するようにしてもよい。

【0159】

上記各実施形態において、頻出辞書１３１は、出現回数１３１ｄ及び確定度１３１ｅを含まなくてもよい。上記各実施形態において、図９のステップ９０５において、確定度を考慮しないで、単に、コード値に、文字コードがKEISで頻出辞書１３１に登録されたコード値が含まれているか否かを判定するようにしてもよい。上記各実施形態において、図９のステップ９０７において、確定度を考慮しないで、単に、コード値に、文字コードがEBCDIKで頻出辞書１３１に登録されたコード値が含まれているか否かを判定するようにしてもよい。

【符号の説明】

【0160】

１００…第１情報処理装置、１１０，２１０…ＣＰＵ、１２０，２２０…主記憶装置、１２１…マイグレーションプログラム、１２２，２２１…業務アプリケーション、１３０，２３０…補助記憶装置、１３１…頻出辞書、１４０…入力装置、１５０…ディスプレイ、２００…第２情報処理装置、ＴＢ１…メインフレームテーブル、ＴＢ１１…ＯＰＥＮ系テーブル

【図1】