特許7410532 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社佐賀電算センターの特許一覧

特許7410532文字判定装置及び文字判定プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-26

(45)【発行日】2024-01-10

(54)【発明の名称】文字判定装置及び文字判定プログラム

(51)【国際特許分類】

G06V 30/24 20220101AFI20231227BHJP

【ＦＩ】

G06V30/24 640Z

【請求項の数】 10

(21)【出願番号】P 2023035443

(22)【出願日】2023-03-08

(65)【公開番号】P2023168224

(43)【公開日】2023-11-24

【審査請求日】2023-03-08

(31)【優先権主張番号】P 2022078214

(32)【優先日】2022-05-11

(33)【優先権主張国・地域又は機関】JP

【新規性喪失の例外の表示】特許法第３０条第２項適用地方自治情報化推進フェア２０２２（令和４年１１月１～２日）で発表

【新規性喪失の例外の表示】特許法第３０条第２項適用令和４年１１月１５日に株式会社ＹＣＣ情報システムに販売

【新規性喪失の例外の表示】特許法第３０条第２項適用令和４年１２月２日に株式会社デンサンに販売

【新規性喪失の例外の表示】特許法第３０条第２項適用令和５年１月６日、令和５年２月１６日に福井システムズ株式会社に販売

【新規性喪失の例外の表示】特許法第３０条第２項適用令和５年１月２５日に豊中市に販売

【早期審査対象出願】

(73)【特許権者】

【識別番号】517143115

【氏名又は名称】株式会社佐賀電算センター

(74)【代理人】

【識別番号】100099634

【弁理士】

【氏名又は名称】平井安雄

(72)【発明者】

【氏名】新名玄

(72)【発明者】

【氏名】大石雅人

【審査官】佐藤実

(56)【参考文献】

【文献】特開２０２１－０９６６３４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／００－３０／４２４

Ｇ０６Ｆ４０／１０

Ｇ０６Ｆ３／１４－３／１５３

(57)【特許請求の範囲】

【請求項1】

処理対象となる文字を構成する文字構成情報及び当該文字構成情報を表現する文字表現情報に基づいて、文字表現であるデザイン上の違いは共通化して吸収しつつ文字構成としての違いは差異として明確化するように前記文字の画像情報を正規化する正規化手段と、
正規化された前記文字の特徴を抽出し、その特徴ベクトルを対象特徴ベクトルとして抽出する特徴抽出手段と、
変換予定の文字フォントに登録されている登録文字コードについて、前記文字構成情報及び前記文字表現情報に基づいて、前記正規化手段と同じ基準で前記登録文字コードを正規化し、正規化された当該登録文字コードの特徴ベクトルを抽出して登録特徴ベクトルとして記憶する登録特徴ベクトル記憶手段と、
前記対象特徴ベクトルと前記登録特徴ベクトルとを比較し、類似する文字の文字コードを前記登録特徴ベクトル記憶手段から抽出する類似抽出手段と、
前記類似抽出手段が抽出した文字コードに対応する文字の画像情報を前記文字の変換候補として出力する出力制御手段とを備えることを特徴とする文字判定装置。

【請求項2】

請求項１に記載の文字判定装置において、
前記対象特徴ベクトル及び前記登録特徴ベクトルに基づく特徴画像を、それぞれの特徴ベクトルごとに生成する特徴画像生成手段と、
前記対象特徴ベクトルに基づいて生成された対象特徴画像と前記登録特徴ベクトルに基づいて生成された登録特徴画像との差異に基づく重要箇所を算出する重要箇所算出手段と、
算出された前記重要箇所の差異の情報に基づいて変換候補の優先度を算出する優先度算出手段とを備え、
前記出力制御手段が、前記類似抽出手段が抽出した文字コードに対応する文字の画像情報と共に、前記優先度算出手段が算出した優先度を出力することを特徴とする文字判定装置。

【請求項3】

請求項２に記載の文字判定装置において、
前記重要箇所算出手段が、前記対象特徴画像と前記登録特徴画像との重要な相違箇所を抽出し、前記出力制御手段が、前記類似抽出手段が抽出した文字コードに対応する文字の画像情報に対して前記相違箇所を強調して表示することを特徴とする文字判定装置。

【請求項4】

請求項３に記載の文字判定装置において、
前記重要箇所算出手段が抽出する前記相違箇所について、前記文字表現情報の相違に対して前記文字構成情報の相違が優先して抽出されることを特徴とする文字判定装置。

【請求項5】

請求項１ないし４のいずれかに記載の文字判定装置において、
前記出力制御手段が出力した前記変換候補のうち、最終的に確定された変換後の文字コードと処理対象となる前記文字との差異情報に基づいてフィードバックを行うフィードバック手段を備えることを特徴とする文字判定装置。

【請求項6】

処理対象となる文字を構成する文字構成情報及び当該文字構成情報を表現する文字表現情報に基づいて、文字表現であるデザイン上の違いは共通化して吸収しつつ文字構成としての違いは差異として明確化するように前記文字の画像情報を正規化する正規化処理手段、
正規化された前記文字の特徴を抽出し、その特徴ベクトルを対象特徴ベクトルとして抽出する特徴抽出手段、
変換予定の文字フォントに登録されている登録文字コードについて、前記文字構成情報及び前記文字表現情報に基づいて、前記正規化処理手段と同じ基準で前記登録文字コードを正規化し、正規化された当該登録文字コードの特徴ベクトルを抽出して登録特徴ベクトルとして記憶する登録特徴ベクトル記憶手段、
前記対象特徴ベクトルと前記登録特徴ベクトルとを比較し、類似する文字の文字コードを前記登録特徴ベクトル記憶手段から抽出する類似抽出手段、
前記類似抽出手段が抽出した文字コードに対応する文字の画像情報を前記文字の変換候補として出力する出力制御手段としてコンピュータを機能させることを特徴とする文字判定プログラム。

【請求項7】

処理対象となる文字に対して一の種別の文字を構成する文字構成情報及び当該文字構成情報を表現する文字表現情報に基づいて、文字表現であるデザイン上の違いは共通化して吸収しつつ文字構成としての違いは差異として明確化するように前記文字の画像情報を正規化する一の正規化手段と、
前記一の正規化手段で正規化された前記文字の特徴を抽出し、その特徴ベクトルを一の対象特徴ベクトルとして抽出する一の特徴抽出手段と、
処理対象となる前記文字に対して他の種別の文字を構成する文字構成情報及び当該文字構成情報を表現する文字表現情報に基づいて、文字表現であるデザイン上の違いは共通化して吸収しつつ文字構成としての違いは差異として明確化するように前記文字の画像情報を正規化する他の正規化手段と、
前記他の正規化手段で正規化された前記文字の特徴を抽出し、その特徴ベクトルを他の対象特徴ベクトルとして抽出する他の特徴抽出手段と、
変換予定の文字フォントに登録されている登録文字コードについて、前記文字構成情報及び前記文字表現情報に基づいて、文字の種別に応じた前記一の正規化手段又は前記他の正規化手段と同じ基準で前記登録文字コードを正規化し、正規化された当該登録文字コードの特徴ベクトルを抽出して登録特徴ベクトルとして記憶する登録特徴ベクトル記憶手段と、
前記一の対象特徴ベクトルと前記登録特徴ベクトルとを比較して類似度が高い順に複数の登録特徴ベクトルからなる一の登録特徴ベクトル群を登録特徴ベクトル記憶手段から抽出し、前記他の対象特徴ベクトルと前記登録特徴ベクトルとを比較して類似度が高い順に複数の登録特徴ベクトルからなる他の登録特徴ベクトル群を登録特徴ベクトル記憶手段から抽出し、前記一の登録特徴ベクトル群から算出される当該一の登録特徴ベクトル群の代表値を類似態様を示すパラメータとして、当該一の登録特徴ベクトル群に含まれる各登録特徴ベクトルの類似度を補正し、前記他の登録特徴ベクトル群から算出される当該他の登録特徴ベクトル群の代表値を類似態様を示すパラメータとして、当該他の登録特徴ベクトル群に含まれる各登録特徴ベクトルの類似度を補正し、補正後の類似度が高い順に複数の登録文字コードを抽出する類似抽出手段と、
前記類似抽出手段が抽出した文字コードに対応する文字の画像情報を前記文字の変換候補として出力する出力制御手段とを備えることを特徴とする文字判定装置。

【請求項8】

請求項７に記載の文字判定装置において、
処理対象となる文字に対して、予め設定された文字種別ごとの特徴に合致する合致度合いを算出する識別手段を備え、
前記類似抽出手段が、前記識別手段で算出された合致度合いをパラメータとして前記類似度を補正することを特徴とする文字判定装置。

【請求項9】

請求項８に記載の文字判定装置において、
前記一の種別が漢字であり、前記他の種別が変体仮名文字であり、
前記識別手段が、前記文字の曲線及び線の繋がり具合いに応じたスコアから合致度合いを算出することを特徴とする文字判定装置。

【請求項10】

処理対象となる文字に対して一の種別の文字を構成する文字構成情報及び当該文字構成情報を表現する文字表現情報に基づいて、文字表現であるデザイン上の違いは共通化して吸収しつつ文字構成としての違いは差異として明確化するように前記文字の画像情報を正規化する一の正規化手段、
前記一の正規化手段で正規化された前記文字の特徴を抽出し、その特徴ベクトルを一の対象特徴ベクトルとして抽出する一の特徴抽出手段、
処理対象となる前記文字に対して他の種別の文字を構成する文字構成情報及び当該文字構成情報を表現する文字表現情報に基づいて、文字表現であるデザイン上の違いは共通化して吸収しつつ文字構成としての違いは差異として明確化するように前記文字の画像情報を正規化する他の正規化手段、
前記他の正規化手段で正規化された前記文字の特徴を抽出し、その特徴ベクトルを他の対象特徴ベクトルとして抽出する他の特徴抽出手段、
変換予定の文字フォントに登録されている登録文字コードについて、前記文字構成情報及び前記文字表現情報に基づいて、文字の種別に応じた前記一の正規化手段又は前記他の正規化手段と同じ基準で前記登録文字コードを正規化し、正規化された当該登録文字コードの特徴ベクトルを抽出して登録特徴ベクトルとして記憶する登録特徴ベクトル記憶手段、
前記一の対象特徴ベクトルと前記登録特徴ベクトルとを比較して類似度が高い順に複数の登録特徴ベクトルからなる一の登録特徴ベクトル群を登録特徴ベクトル記憶手段から抽出し、前記他の対象特徴ベクトルと前記登録特徴ベクトルとを比較して類似度が高い順に複数の登録特徴ベクトルからなる他の登録特徴ベクトル群を登録特徴ベクトル記憶手段から抽出し、前記一の登録特徴ベクトル群から算出される当該一の登録特徴ベクトル群の代表値を類似態様を示すパラメータとして、当該一の登録特徴ベクトル群に含まれる各登録特徴ベクトルの類似度を補正し、前記他の登録特徴ベクトル群から算出される当該他の登録特徴ベクトル群の代表値を類似態様を示すパラメータとして、当該他の登録特徴ベクトル群に含まれる各登録特徴ベクトルの類似度を補正し、補正後の類似度が高い順に複数の登録文字コードを抽出する類似抽出手段、
前記類似抽出手段が抽出した文字コードに対応する文字の画像情報を前記文字の変換候補として出力する出力制御手段としてコンピュータを機能させることを特徴とする文字判定プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文字の外形を判定する文字判定装置及び文字判定プログラムに関する。

【背景技術】

【0002】

政府の情報システムについて、共通的な基盤・機能を提供する複数のクラウドサービスの利用環境としてガバメントクラウドの整備・運用が進められている。自治体の情報システムについても、それぞれが運用する基幹系情報システムを国が策定する標準仕様に準拠したシステムに移行することとなる。

【0003】

しかしながら、例えば自治体独自に使用している外字は上記の標準仕様に合わないため、外字の同定作業が必須となっている。ここで、外字とは、パソコンなどの文字入力ソフトに登録されていない文字で、利用者や開発者が独自に追加した文字である。特殊な漢字や記号など、パソコンに登録されていない場合には、文字作画ソフト等を使用して登録することが可能となっている。特に自治体などにおいては、パソコンがない時代の戸籍（住所，氏名）に多く使用されており、現行のシステムにおいては自治体ごとに独自でフォントを作成していることが多い。

【0004】

図１４に自治体独自で登録された文字の一例を示す。「邊」という文字について、一見すると相違がわからないような多数の文字コードが登録されており、厳密に使い分けられている。これらの文字を標準仕様（例えば、ＩＰＡｍｊフォントやその他のフォント）に合わせるために上記の同定作業が必須となるが、図１４からわかる通り、この同定作業には極めて多くの時間と労力を要してしまうという問題がある。そのため、この同定作業をできる限り自動化することが望まれる。

【0005】

上記問題に関連し、文字同定や文字認識に関する技術が例えば特許文献１、２に開示されている。特許文献１に示す技術は、ＯＣＲ認識部が、外字のドットパターンと文字のドットパターンとに基づいて、処理対象である外字を同定する第１の候補文字を抽出し、表示用候補文字リスト生成部が、字形要素辞書に格納された文字についての部首の字形要素情報と、外字字形要素格納ファイルに格納された外字についての部首の字形要素情報とに基づいて、処理対象である外字を同定する第２の候補文字を抽出し、字形要素辞書に格納された文字についての部分の字形要素情報と、外字字形要素格納ファイルに格納された外字についての部分の字形要素情報とに基づいて、処理対象である外字を同定する第３の候補文字を抽出するものである。

【0006】

特許文献２に示す技術は、帳票の記入項目に対応させて当該記入項目に外字が含まれるか否かに関する情報を保持した文字認識装置を用いて、電子ペンから送られる帳票に記入された筆記情報を、記入項目ごとにイメージデータに変換して、標準の文字が格納された辞書を参照してこのイメージデータを文字コードに変換し、このとき文字コードに変換されないイメージデータがある場合は、この未変換のイメージデータに対応する記入項目に外字が含まれるか否かを判定し、外字が含まれると判定した場合は、標準の文字以外の外字が格納された外字辞書を参照してこの未変換のイメージデータを文字コードに変換するものである。

【先行技術文献】

【特許文献】

【0007】

【文献】特開２０１１－１２８６８８号公報

【文献】特開２００５－２０９０７６号公報

【発明の概要】

【発明が解決しようとする課題】

【0008】

しかしながら、図１０に示したように、自治体によってはほとんど区別が付かないような文字が登録されていたり、またフォントの違いにより同じ文字コードでも異なるデザインで表現されているものがあるため、厳密に文字を認識したり同定するのは極めて困難である。仮に特許文献１、２に示す技術を用いた場合であっても、これらの外字を厳密に判別するのは困難であるという課題を有する。

【0009】

本発明は上記課題を解決するためになされたものであり、処理対象となる文字に対して文字構成の違いと文字表現の違いとを考慮して特徴を抽出することで、文字の変換候補を高精度に提示することができる文字判定装置及び文字判定プログラムを提供することを目的とする。

【課題を解決するための手段】

【0010】

本発明に係る文字判定装置は、処理対象となる文字を構成する文字構成情報及び当該文字構成情報を表現する文字表現情報に基づいて前記文字の画像情報を正規化する正規化手段と、正規化された前記文字の特徴を抽出し、その特徴ベクトルを対象特徴ベクトルとして抽出する特徴抽出手段と、変換予定の文字フォントに登録されている登録文字コードについて、前記文字構成情報及び前記文字表現情報に基づいて前記登録文字コードを正規化し、正規化された当該登録文字コードの特徴ベクトルを抽出して登録特徴ベクトルとして記憶する登録特徴ベクトル記憶手段と、前記対象特徴ベクトルと前記登録特徴ベクトルとを比較し、類似する文字の文字コードを前記登録特徴ベクトル記憶手段から抽出する類似抽出手段と、前記類似抽出手段が抽出した文字コードに対応する文字の画像情報を前記文字の変換候補として出力する出力制御手段とを備えるものである。

【0011】

このように、本発明に係る文字判定装置においては、処理対象となる文字を構成する文字構成情報及び当該文字構成情報を表現する文字表現情報に基づいて前記文字の画像情報を正規化し、正規化された前記文字の特徴を抽出し、その特徴ベクトルを対象特徴ベクトルとして抽出し、変換予定の文字フォントに登録されている登録文字コードについて、文字構成情報及び文字表現情報に基づいて登録文字コードを正規化し、正規化された当該登録文字コードの特徴ベクトルを抽出して登録特徴ベクトルとして記憶し、対象特徴ベクトルと登録特徴ベクトルとを比較し、類似する文字の文字コードを登録特徴ベクトル記憶手段から抽出し、抽出した文字コードに対応する文字の画像情報を前記文字の変換候補として出力するため、フォントによる文字表現情報の違い、すなわち単なるデザイン上の違いと、文字自体を構成する文字構成情報の違い、すなわち文字の字形自体の違いとを考慮して類似する文字を抽出することが可能となり、変換候補となる適正な文字を使用者に提示することができるという効果を奏する。

【図面の簡単な説明】

【0012】

【図1】第１の実施形態に係る文字判定装置のシステム構成を示す図である。

【図2】第１の実施形態に係る文字判定装置の構成を示す機能ブロック図である。

【図3】第１の実施形態に係る文字判定装置の正規化処理部及び特徴抽出部（ＡＩ処理部）の処理を示す図である。

【図4】第１の実施形態に係る文字判定装置の類似抽出部の処理を示す図である。

【図5】第１の実施形態に係る文字判定装置の特徴画像生成部の処理を示す図である。

【図6】第１の実施形態に係る文字判定装置の重要箇所算出部及び優先度算出部の処理を示す図である。

【図7】第１の実施形態に係る文字判定装置の出力制御部が出力する確認リストの一例を示す図である。

【図8】第１の実施形態に係る文字判定装置の動作を示すフローチャートである。

【図9】第２の実施形態に係る文字判定装置の構成を示す機能ブロック図である。

【図10】第３の実施形態に係る文字判定装置において漢字を判定する場合と変体仮名を判定する場合の一例を示す図である。

【図11】第３の実施形態に係る文字判定装置の構成を示す機能ブロック図である。

【図12】第３の実施形態に係る文字判定装置において変体仮名のスコアを演算する処理を説明する図である。

【図13】第３の実施形態に係る文字判定装置の動作を示すフローチャートである。

【図14】自治体独自で登録された文字の一例を示す図である。

【発明を実施するための形態】

【0013】

以下、本発明の実施の形態を説明する。本実施形態の全体を通して同じ要素には同じ符号を付けている。

【0014】

（本発明の第１の実施形態）
本実施形態に係る文字判定装置について、図１ないし図８を用いて説明する。本実施形態に係る文字判定装置は、例えば自治体などが独自のフォントで登録した文字であり、パソコンがない時代の戸籍（住所や氏名）等に使用されている外字を標準準拠システムなどで使用できる標準のフォントに変換する際に作業者の負担を軽減する支援装置である。これ以外にも、例えば画像データとして記憶されている文字情報や、看板・製品ラベルなどに記載されているようなデザイナーが独自に作成したような文字情報を他の一般的なフォント等に変換する場合の支援装置である。特に、独自フォントの文字をＯＣＲで認識するような場合には、前後の単語から推定することで文字同定の精度を上げることが行われているが、上記のような看板や製品ラベルなどの固有名詞の場合にはこのような推定が難しいため、特に本願の文字判定装置の適用が効果的である。なお、本実施形態においては、外字を他の共通のフォント（例えばＩＰＡｍｊフォント）に変換する場合を例に挙げて説明する。

【0015】

図１は、本実施形態に係る文字判定装置のシステム構成を示す図である。図１において、文字判定システム１は、文字判定装置１０が、各自治体ごとの独自の外字が記載されている外字情報ファイル２を読み込んで、処理対象となる外字の変換候補が記載された確認リスト３を出力する。確認リスト３に記載されている変換候補について作業者の確認により変換文字コードが決定され、文字判定装置１０が、その変換情報が記載されたコード変換リスト４を出力する。処理対象となる外字が標準準拠システム５などで使用される場合には、変換リスト４にしたがって文字コードが変換されて使用される。

【0016】

図２は、本実施形態に係る文字判定装置の構成を示す機能ブロック図である。文字判定装置１０は、入力される処理対象となる外字の外字情報２に基づいて、当該外字を構成する文字構成情報及び当該文字構成情報を表現する文字表現情報を考慮した正規化処理を行う正規化処理部１１と、正規化した文字情報の特徴ベクトル（以下、対象特徴ベクトルという）を抽出する特徴抽出部１２と、変換対象となるフォントの文字コードに対応付けてそれぞれの特徴ベクトル（以下、登録特徴ベクトルという）が予め記憶されている登録特徴ベクトル記憶部１４から、特徴抽出部１２で抽出した対象特徴ベクトルに類似する登録特徴ベクトルを抽出する類似抽出部１３と、特徴抽出部１２が抽出した対象特徴ベクトルに基づく特徴画像（以下、対象特徴画像という）を生成すると共に、類似抽出部１３が抽出した登録特徴ベクトルに基づく特徴画像（以下、登録特徴画像という）を生成する特徴画像生成部１５と、対象特徴画像及び登録特徴画像の差分から重要箇所を算出する重要箇所算出部１６と、算出された重要箇所からその重要性の優先度を算出する優先度算出部１７と、処理対象となる外字の変換候補を上記の重要箇所及び優先度と共に確認リスト３として出力する出力制御部１８と、確認リスト３を作業者が確認した結果情報を入力し、確定した変換後の文字コードをコード変換リスト４に出力するコード変換リスト作成部１９とを備える。

【0017】

なお、上記における文字構成情報とは文字の構成自体を示す情報であり、例えば文字を構成する線の本数、長さ、位置等や点の数、位置等の情報である。一方、文字表現情報とは文字を構成する各部のデザインを示す情報であり、例えばはねの角度、はらいの角度、線の太さ等の情報である。すなわち、文字構成情報は文字自体の構成を示すものであるため字形情報として比較的重要性が高い情報であり、文字表現情報は単に表現手法（デザイン）の違いであるため字形情報として重要性は低いものである。

【0018】

また、図２において正規化処理部１１、特徴抽出部１２及び／又は特徴画像生成部１５は、それぞれを一体的な構成とするＡＩ処理部（ディープラーニング等の機械学習による人工知能）２０として構成されてもよい。

【0019】

図２における正規化処理部１１、特徴抽出部１２、類似抽出部１３、特徴画像生成部１５、重要箇所算出部１６、優先度算出部１７、出力制御部１８及びコード変換リスト作成部１９は、コンピュータのＣＰＵを文字判定プログラムがそれぞれの処理部として機能させることで実現される。また、登録特徴ベクトル記憶部１４は、コンピュータのメモリやハードディスク等に記憶されるデータ部である。

【0020】

各処理部の処理内容について詳細に説明する。図３は、本実施形態に係る文字判定装置の正規化処理部及び特徴抽出部（ＡＩ処理部）の処理を示す図である。図３において、例えばフォント「にゃしぃフォント改二」の「瀁」が処理対象となる外字として正規化処理部１１に入力される。正規化処理部１１では、様々なフォントに対して単なるデザイン上の違いは共通化して吸収しつつ、文字構成としての違いは明確な差異として認識できるように正規化する処理が行われる。

【0021】

例えば図３に示した「瀁」の文字について、同じ文字コードであってもフォントが違うものがある。この場合、文字の構成は同じであるがデザインによる見た目の違いがある。具体的には「とめ、はね、はらい」や「斜体、ボールド体」といった文字の変形がある。すなわち、画像処理する場合に単に形状をそのまま比較してしまうと、同じ文字コードであっても違う文字として認識してしまうことになる。そのため、上記のように正規化処理部１１が正規化処理を行うことで、処理対象となる外字の情報を重要視する必要がある本質的な字形情報に集約して変換する。特徴抽出部１２は、正規化された重要性が高い字形情報についてその対象特徴ベクトルv_inputを抽出する。

【0022】

図４は、本実施形態に係る文字判定装置の類似抽出部の処理を示す図である。類似抽出部１３は、特徴抽出部１２で抽出された処理対象となる外字の情報を正規化した特徴ベクトルv_inputに類似する登録特徴ベクトルを登録特徴ベクトル記憶部１４から抽出する。登録特徴ベクトル記憶部１４には処理対象となる外字の変換予定となるフォント（例えば、ＩＰＡｍｊフォント）に登録されている文字コードに応じた登録特徴ベクトル（v₁，v₂，v₃，・・・）が予め記憶されている。この登録特徴ベクトル（v₁，v₂，v₃，・・・）は、後の処理において説明するように、特徴画像同士を比較する際に同じ基準で正規化処理されている画像同士で比較する必要がある。そのため、変換予定となるフォントの文字コードの字形情報に対して正規化処理部１１及び特徴抽出部１２で抽出した特徴ベクトルが登録特徴ベクトル（v₁，v₂，v₃，・・・）として記憶されている。

【0023】

類似抽出部１３は、処理対象となる外字から得られた対象特徴ベクトル（v_input）と登録特徴ベクトル記憶部１４に記憶されている登録特徴ベクトル（v₁，v₂，v₃，・・・）とを比較して、類似している登録特徴ベクトルを１又は複数抽出する。図４においては、登録特徴ベクトルv₇₀₀₁とv_{7001_E102}が類似する登録特徴ベクトルとして抽出されている。

【0024】

なお、登録特徴ベクトル記憶部１４に記憶されているフォントは１つに限定されるものではなく、複数のフォントについて各文字コードの登録特徴ベクトルが記憶されるようにしてもよい。この場合は、変換予定となるフォントを利用者側で自由に選択できるようにするのが望ましい。

【0025】

また、図４においては、類似する登録特徴ベクトルを２つ抽出しているが、抽出する登録特徴ベクトルの個数はいくつでもよく、ベクトルの大きさや角度の差に応じて抽出する特徴ベクトルの個数を任意に設定してもよい。

【0026】

図５は、本実施形態に係る文字判定装置の特徴画像生成部の処理を示す図である。特徴画像生成部１５は、特徴抽出部１２で抽出された対象特徴ベクトルに基づいた対象特徴画像１５ａ（図５（Ａ）の画像vg_input）を生成すると共に、類似抽出部１３で抽出された登録特徴ベクトルに基づいた登録特徴画像１５ｂ（図５（Ｂ）の画像vg₇₀₀₁,vg_{7001_E102}）を生成する。これらの特徴画像は、上述したように、いずれも正規化処理部１１及び特徴抽出部１２で抽出された特徴ベクトルを元に生成されるものであるため、共通の処理により同一の次元の情報に変換されたものとなる。

【0027】

図６は、本実施形態に係る文字判定装置の重要箇所算出部及び優先度算出部の処理を示す図である。重要箇所算出部１６は、特徴画像生成部１５で生成された対象特徴画像１５ａと登録特徴画像１５ｂとを比較する。このとき、対象特徴画像１５ａに対して、登録特徴画像１５１、１５２のそれぞれとの比較が行われる。図６に示す写真は実際に画像を比較した結果を示すものであり、写真（Ａ）及び（Ｃ）は対象特徴画像１５ａと登録特徴画像１５１とを比較した結果、写真（Ｂ）及び（Ｄ）は対象特徴画像１５ａと登録特徴画像１５２とを比較した結果を示している。また、写真（Ａ）及び（Ｂ）はそれぞれの画像の差分を示しており、写真（Ｃ）及び（Ｄ）はそれぞれの画像の差分のうち差が大きい箇所を抽出して表示したものである。図６の場合、重要箇所算出部１６が比較処理を行った結果、対象特徴画像１５ａと登録特徴画像１５１との間では所定の大きさを超える差分が２箇所算出され（写真（Ｃ））、登録特徴画像１５２との間では所定の大きさを超える差分が１箇所算出されている（写真（Ｄ））。

【0028】

優先度算出部１７は、重要箇所算出部１６で算出された差分の情報から変換候補の優先度を算出する。変換候補の優先度は、例えば差分箇所の個数（差分箇所が少ないほど変換候補としての優先度を高く算出）、１箇所の差分の大きさ（１箇所の差分箇所の面積が小さいほど変換候補としての優先度を高く算出）、差分箇所の位置（差分箇所が文字の中央、外側等に応じて変換候補としての優先度を算出）、差分の長さ（差分箇所の長さが短いほど変換候補としての優先を高く算出）、差分の太さ（差分箇所の太さが細いほど変換候補としての優先度を高く算出）、差分の角度（はね、はらいなどの角度の違いにより変換候補としての優先度を算出）、差分箇所の部首（差分箇所がへん、つくりなどのいずれの部分に存在するかに応じて変換候補としての優先度を算出）等のパラメータを用いて算出することができる。なお、これらのパラメータの１つ又は複数を組み合わせて総合的に判断するようにしてもよい。

【0029】

図７は、本実施形態に係る文字判定装置の出力制御部が出力する確認リストの一例を示す図である。文字判定装置１０は前述したように、処理対象となる外字に対してその変換候補を抽出し、それぞれの変換候補の優先度を算出するが、最終的に変換先となる１つの最適な文字コードを決定するのは作業者に委ねる必要がある。そのため、作業者の作業の手間を低減するために、例えば図７に示すような変換候補が記載された確認リスト３や各文字ごとの差分箇所が明示された比較情報が出力される。この出力は、最終的にディスプレイ上に表示されるようにしてもよいし、紙に印刷されるようにしてもよい。また、複数の担当者で分担する場合には、それぞれの担当者の端末に送信するようにしてもよい。

【0030】

図７（Ａ）のリストには、左端に処理対象となる外字が記載され、右側に優先度が高い順にその優先度（最大１００％）と共に変換候補となる文字コードが５つ記載されている。作業者はこれらのリストを参照して、変換候補として最適と思われる文字コードを抽出して変換先として特定する。このとき、例えば処理対象となる外字と第１候補の文字や第２候補の文字とを見比べて、作業者の目（人間の目）にはその差分が一瞬で見分けが付かない場合がある。そのような場合には、これらの文字をディスプレイ上で選択することで図７（Ｂ）に示すような差分箇所が明示された比較情報が表示される。ここでは「瀁」の文字について第１候補の文字と第２候補の文字とを一例として示している。図７（Ｂ）では、重要箇所算出部１６が算出した差分箇所が明示されている。作業者は、処理対象となる外字とこれらの差分箇所とを確認し、より適正な変換候補を１つ特定する。

【0031】

なお、発明者らが実際に検証を行った結果、確認リスト３に表示する変換候補となる文字コードの数は５つで十分であると判断されるが、使用環境や状況に応じて表示数を任意に変更することが可能である。このとき、一律に文字数を固定するだけではなく、例えば「優先度が６０％以上の候補を全て」といった設定も可能である。

【0032】

また、図７（Ｂ）の差分箇所の比較情報は、上述したように、作業者の選択により表示されるようにしてもよいし、図７（Ａ）のリストの変換候補の表示において差分箇所の比較情報が併せて表示されるようにしてもよい。

【0033】

作業者により最適な変換候補の文字コードが１つ特定されると、処理対象となる外字の文字コードを変換候補の文字コードに変更するためのコード変換リスト４がコード変換リスト作成部１９により作成される。標準準拠システムなどのシステムでは、コード変換リスト４を利用し、処理対象となる外字の文字コードを変換候補の文字コードに変換する。

【0034】

なお、図２に示す機能ブロック図において、特徴画像生成部１５、重要箇所算出部１６及び優先度算出部１７の構成は必須ではなく、特徴抽出部１２の処理結果と類似抽出部１３の処理結果がそのまま出力制御部１８により出力されるようにしてもよい。

【0035】

次に、本実施形態に係る文字判定装置の動作について説明する。図８は、本実施形態に係る文字判定装置の動作を示すフローチャートである。まず、正規化処理部１１が処理対象となる外字の外字情報２を読み込み（Ｓ１）、正規化処理を行う（Ｓ２）。上述したように、この正規化処理によりフォント間のデザイン上の見た目の差異が可能な限り吸収されて共通化されつつ、文字自体の構成は明確化されたものとなる。特徴抽出部１２が正規化された外字の特徴ベクトルを対象特徴ベクトルとして抽出する（Ｓ３）。類似抽出部１３が、登録特徴ベクトル記憶部１４に記憶されている変換先のフォントの文字コードに対応する登録特徴ベクトルの中から、対象特徴ベクトルに類似する登録特徴ベクトルを抽出する（Ｓ４）。特徴画像生成部１５が、特徴抽出部１２が抽出した対象特徴ベクトルに基づく対象特徴画像、及び類似抽出部１３が抽出した登録特徴ベクトルに基づく登録特徴画像を生成する（Ｓ５）。重要箇所算出部１６が対象特徴画像と登録特徴画像との差分箇所を重要箇所として算出する（Ｓ６）。優先度算出部１７が重要箇所として算出された差分情報から、上記で例示したような所定のパラメータに基づいて変換候補としての優先度を算出する（Ｓ７）。出力制御部１８が処理対象となる外字、抽出された変換候補をその優先度と共に確認リスト３に出力する（Ｓ８）。作業者が確認リスト３を確認した結果、変換先の文字コードが特定され、その情報がコード変換リスト作成部１９に入力される。コード変換リスト作成部１９は、標準準拠システムなどのシステムで利用される文字コードのコード変換リスト４を生成して出力し（Ｓ９）、処理を終了する。

【0036】

このように、本実施形態に係る文字判定装置１０においては、処理対象となる文字を構成する文字構成情報及び当該文字構成情報を表現する文字表現情報に基づいて外字情報２を正規化し、正規化された外字の特徴を対象特徴ベクトルとして抽出し、変換予定の文字フォントに登録されている登録文字コードについて、文字構成情報及び文字表現情報に基づいて登録文字コードを正規化し、正規化された当該登録文字コードの特徴ベクトルを抽出して登録特徴ベクトルとして記憶し、対象特徴ベクトルと登録特徴ベクトルとを比較し、類似する文字の文字コードを登録特徴ベクトル記憶部１４から抽出し、抽出した文字コードに対応する文字の画像情報を外字の変換候補として出力するため、フォントによる文字表現情報の違い、すなわち単なるデザイン上の違いと、文字自体を構成する文字構成情報の違い、すなわち文字の字形自体の違いとを考慮して類似する文字を抽出することが可能となり、変換候補となる適正な文字を使用者に提示することができる。

【0037】

また、対象特徴ベクトル及び登録特徴ベクトルに基づく特徴画像を、それぞれの特徴ベクトルごとに生成し、対象特徴ベクトルに基づいて生成された対象特徴画像と登録特徴ベクトルに基づいて生成された登録特徴画像との差異に基づく重要箇所を算出し、算出された重要箇所の差異の情報に基づいて変換候補の優先度を算出し、変換候補の画像情報と共に優先度を出力することで、作業者が変換候補の判定を画像化された状態で行うことが可能になる。

【0038】

さらに、対象特徴画像と登録特徴画像との重要な相違箇所を抽出し、抽出した文字コードに対応する文字の画像情報に対して相違箇所を強調して表示するため、作業者が文字の相違箇所を視覚的に瞬時に認識して変換候補となる文字を効率よく特定することができる。

【0039】

さらにまた、重要箇所算出部が抽出する前記相違箇所について、文字表現情報の相違に対して文字構成情報の相違が優先して抽出されるため、デザインとしての外形の差異による類似度の判断をできるだけ排除しつつ、文字自体の構成としての外形の差異による類似度の判断を優先して実行することで、変換候補となる文字を適正に抽出することができる。

【0040】

（本発明の第２の実施形態）
本実施形態に係る文字判定装置について、図９を用いて説明する。本実施形態に係る文字判定装置は、第１の実施形態に係る文字判定装置の機能を拡張したものであり、最終的に作業者に特定された変換先の文字コードについてフィードバックを行うことで、正規化処理で重要とする要素をより正確に学習するものである。なお、本実施形態において前記第１の実施形態と重複する説明は省略し、ここでも外字を他の共通のフォント（例えばＩＰＡｍｊフォント）に変換する場合を例に挙げて説明する。

【0041】

図９は、本実施形態に係る文字判定装置の構成を示す機能ブロック図である。図９において、確認リスト３を作業者が確認し、変換先の文字コードが１つ特定され、その情報がコード変換リスト作成部１９に入力されると共に、フィードバック処理部２１に入力される。フィードバック処理部２１は、最終的に作業者が特定した変換先の文字コードに対応する登録特徴ベクトル（及び／又は登録特徴画像）をＡＩ処理部２０に入力する。ＡＩ処理部２０では、フィードバック処理部２１から入力された作業者の評価結果と、処理対象であった外字の対象特徴ベクトル（及び／又は対象特徴画像）とを学習することで、正規化処理を行う際に重要となる差分要素（例えば、文字構成情報及び文字表現情報の重要度やそのバランス等）をより正確に行うことを可能とする。

【0042】

なお、フィードバック処理部２１は、最終的に作業者が特定した変換先の文字コードに対応する登録特徴ベクトル（及び／又は登録特徴画像）以外にも、類似抽出部１３で抽出された類似の登録特徴ベクトルやその登録特徴画像、重要箇所算出部１６が算出した結果、優先度算出部１７が算出した結果なども含めてフィードバックを行うようにしてもよい。

【0043】

このように、本実施形態に係る文字判定装置においては、出力された変換候補のうち、最終的に確定された変換先の文字コードの特徴ベクトルと処理対象となる外字の特徴ベクトルとの情報に基づいてフィードバックを行うため、正規化処理の精度を向上させて、最適化された処理を行うことが可能になる。

【0044】

（本発明の第３の実施形態）
上記各実施形態に係る文字判定装置においては、文字構成情報及び文字表現情報に基づいて処理対象となる文字情報を正規化することで、デザインの違いによる文字の揺らぎを吸収すると共に、文字構成上の違いは厳格に区別して文字判定を可能としている。具体的には、例えば、はね、はらい、線などの角度の違いを正規化することである程度共通化する、点の大きさ、線の太さなどの違いを正規化することで共通化する、ドット文字のように線が荒い場合についても適切に色を補完、修正等を行って線の輪郭を共通化する、解像度の違いを共通化する、全体的な文字の大きさを共通化する、その際に、線の繋がり方、点の配置といった線や点の相対的な位置関係を保持しながら、文字の大きさを共通化する、といったようなデザインの違いに着目した正規化処理が行われる。

【0045】

一方、処理対象となる文字の中には、平仮名、片仮名、ローマ字、変体仮名、くずし字等の漢字とは異なる種別の文字が含まれる場合がある。図１０は、漢字を判定する場合と変体仮名を判定する場合の一例を示す図である。図１０（Ａ）が漢字を判定する場合の一例、図１０（Ｂ）が変体仮名を判定する場合の一例である。漢字の場合は、上述したようにデザイン上の違いを吸収する一方で文字の構成（とめ、はね、はらい、線の突き抜け等の有無）については厳格に区別する。図１０（Ａ）の例では、左と真ん中の２つはデザイン上の違いはあっても同じ文字構成となっており、右は「夕」の線が突き抜けていることから文字構成が異なるものである。そのため、上記各実施形態に係る文字判定装置１０は、左と真ん中は同じ文字、右は異なる文字として判定結果を出力する。これに対して、図１０（Ｂ）の例では、本来であれば全て同じ文字として判定するのが正解であるが、字形の自由度が漢字に比べて非常に高く、とめ、はね、はらい、線の突き抜け等を漢字と同じレベルで厳密に判定した場合には異なる文字として区別されるケースがあり得る。

【0046】

そこで、本実施形態に係る文字判定装置は、文字の種別に応じた正規化処理を行うと共に、抽出される複数の類似している文字コードのベクトル群における類似性を考慮した類似度を求めることで、種別が異なる文字であっても正確な文字判定を可能とする。また、文字の種別に応じた特徴の有無により、文字種別の確率も併せて考慮することで正確な文字判定が可能となる。

【0047】

なお、本実施形態において前記各実施形態と重複する説明は省略し、ここでも外字を他の共通のフォント（例えばＩＰＡｍｊフォント）に変換する場合を例に挙げて説明する。また、本実施形態においては、漢字と変体仮名を判定する場合を例に説明する。

【0048】

図１１は、本実施形態に係る文字判定装置の構成を示す機能ブロック図である。文字判定装置１０は、入力される処理対象となる外字の外字情報２に基づいて、当該外字を構成する文字構成情報及び当該文字構成情報を表現する文字表現情報を考慮した漢字専用の正規化処理を行う第１正規化処理部１１ａと、第１正規化処理部１１ａで正規化した文字情報の特徴ベクトル（以下、第１対象特徴ベクトルという）を抽出する第１特徴抽出部１２ａと、外字情報２に基づいて当該外字を構成する文字構成情報及び文字表現情報を考慮した変体仮名専用の正規化処理を行う第２正規化処理部１１ｂと、第２正規化処理部１１ｂで正規化した文字情報の特徴ベクトル（以下、第２対象特徴ベクトルという）を抽出する第２特徴抽出部１２ｂと、外字情報２の文字種別ごとの確率（ここでは変体仮名である確率）を求める識別部３０と、変換対象となるフォントの文字コードに対応付けた登録特徴ベクトルが予め記憶されている登録特徴ベクトル記憶部１４と、第１特徴抽出部１２ａで抽出した第１対象特徴ベクトル、及び第２特徴抽出部１２ｂで抽出した第２対象特徴ベクトルに類似する複数の登録特徴ベクトルを抽出する類似抽出部１３と、第１対象特徴ベクトル及び第２対象特徴ベクトルに基づく対象特徴画像を生成すると共に、類似抽出部１３が抽出した登録特徴ベクトルに基づく登録特徴画像を生成する特徴画像生成部１５と、対象特徴画像及び登録特徴画像の差分から重要箇所を算出する重要箇所算出部１６と、算出された重要箇所からその重要性の優先度を算出する優先度算出部１７と、処理対象となる外字の変換候補を上記の重要箇所及び優先度と共に確認リスト３として出力する出力制御部１８と、確認リスト３を作業者が確認した結果情報を入力し、確定した変換後の文字コードをコード変換リスト４に出力するコード変換リスト作成部１９とを備える。

【0049】

また、類似抽出部１３は、抽出した複数の登録特徴ベクトルについて、例えば当該登録特徴ベクトルの類似度に基づいた平均、分散、中央値及び／又は類似度の間隔尺度などの類似態様を示す代表値を算出する代表値算出部１３１と、識別部３０が求めた確率や上記代表値を用いて登録特徴ベクトルの類似度を補正する類似度補正部１３２とを備える。

【0050】

なお、第１正規化処理部１１ａ、第１特徴抽出部１２ａ及び／又は特徴画像生成部１５（図１１においては第１正規化処理部１１ａ及び第１特徴抽出部１２ａの２つの処理部）は、それぞれを一体的な構成とするＡＩ処理部２０ａとして構成されてもよい。また、第２正規化処理部１１ｂ、第２特徴抽出部１２ｂ及び／又は特徴画像生成部１５（図１１においては第２正規化処理部１１ｂ及び第２特徴抽出部１２ｂの２つの処理部）は、それぞれを一体的な構成とするＡＩ処理部２０ｂとして構成されてもよい。

【0051】

図１１における第１正規化処理部１１ａ、第１特徴抽出部１２ａ、第２正規化処理部１１ｂ、第２特徴抽出部１２ｂ、類似抽出部１３（代表値算出部１３１及び類似度補正部１３２を含む）、特徴画像生成部１５、重要箇所算出部１６、優先度算出部１７、出力制御部１８及びコード変換リスト作成部１９は、コンピュータのＣＰＵを文字判定プログラムがそれぞれの処理部として機能させることで実現される。また、登録特徴ベクトル記憶部１４は、コンピュータのメモリやハードディスク等に記憶されるデータ部である。

【0052】

第１正規化処理部１１ａは漢字専用の正規化処理を行う処理部であり、第１特徴抽出部１２ａは第１正規化処理部１１ａで正規化された重要性が高い字形情報についてその対象特徴ベクトルv_{input_kanji}を抽出する。これらの処理は、上記第１の実施形態における正規化処理部１１及び特徴抽出部１２と同等の機能を有している。すなわち、上述したように、例えば、はね、はらい、線などの角度の違い、点の大きさ、線の太さなどの違い、ドット文字のように線が荒い場合、解像度の違い、全体的な文字の大きさの違い、その際に、線の繋がり方、点の配置といった線や点の相対的な位置関係を保持するといったことを共通化し、デザインの違いに着目した正規化処理を行う。

【0053】

第２正規化処理部１１ｂは変体仮名専用の正規化処理を行う処理部であり、第２特徴抽出部１２ｂは第２正規化処理部１１ｂで正規化された重要性が高い字形情報についてその対象特徴ベクトルv_{input_hentai}を抽出する。これらの処理は漢字専用の正規化処理とは異なる尺度で行われる。具体的には例えば、漢字の場合ははねの有無を強調することで文字を区別するが、変体仮名の場合ははねの有無を共通化して吸収することで正規化処理を行う。また例えば、異なる画の各線や曲線同士が離れていても繋がっていても、それらの方向や曲がり方から繋がり具合を共通化して違いを吸収することで正規化処理を行う。さらに例えば、変体仮名の場合に線同士が交差又は接している箇所を正規化処理により離れたものとして共通化するが、漢字の場合は離れているかどうかを明確に区別するように正規化処理を行う。このように変体仮名独自の尺度で正規化処理が行われる。

【0054】

識別部３０は、処理対象となる外字が変体仮名である確率を求める。図１２は、本実施形態に係る文字判定装置において変体仮名のスコアを演算する処理を説明する図である。図１２に示すように、変体仮名の大きな特徴として、曲線の数が多いことや一筆書きなどによる線の繋がりが多いことが挙げられる。つまり、１つの文字に対して曲線の数が多い、線の曲率が高いほどスコアを加点し、また線の繋がりが多い（文字を線の繋がりで分解した場合に分解される部位の数が少ない）ほどスコアを加点する。このように、識別する文字種別に応じた特徴を予め設定し、その特徴に合致する度合いをスコアとして求めることで、最終的に得られたスコアを変体仮名である確率pとして算出する。

【0055】

なお、この識別部３０は、正規化処理後に実行される構成であってもよい。ただし、正規化処理をした後の場合は文字種別ごとの特徴が強制的に吸収されてしまう可能性があるため、図１１のブロック図で示すように外字情報２の画像データを直接入力し、この画像データに対して直接実行される構成が望ましい。また、識別部３０の処理は上述したような画像解析により行われてもよいし、文字種別を識別するようなニューラルネットワークを構築して処理を行ってもよい。好ましくは、画像解析とニューラルネットワークの双方を用いて文字種別が識別されることで精度を上げることが可能である。さらに、上記のように漢字と変体仮名の２つの文字種別を識別する場合は、それぞれの確率をp及び1-pで求めることができるが、平仮名、片仮名なども含めて３つ以上の文字種別を識別する場合は、それぞれの文字種別ごとに確率pが算出されるものとする。

【0056】

類似抽出部１３は、第１対象特徴ベクトルv_{input_kanji}に類似する複数の登録特徴ベクトル（v_kanji1, v_kanji2, ・・・, v_kanjin）を類似度が高い順に複数抽出する。ここで抽出された複数の登録特徴ベクトルを第１登録特徴ベクトル群V_kanji={v_kanji1, v_kanji2, ・・・, v_kanjin}とし、各登録特徴ベクトルの類似度の大きさをs_kanji（s_kanji1, s_kanji2, ・・・, s_kanjin）とする。ここで類似度sについては、例えば第１特徴ベクトルv_{input_kanji}と登録特徴ベクトル記憶部１４に記憶されている登録特徴ベクトルとを比較し、その距離や方向の差が小さいほど類似度が高いものとする。また、第２対象特徴ベクトルv_{input_hentai}に類似する複数の登録特徴ベクトル（v_hentai1, v_hentai2, ・・・, v_hentain）を類似度が高い順に複数抽出する。ここで抽出された複数の登録特徴ベクトルを第２登録特徴ベクトル群V_hentai={v_hentai1, v_hentai2, ・・・, v_hentain}とし、各登録特徴ベクトルの類似度の大きさをs_hentai（s_hentai1, s_hentai2, ・・・, s_hentain）とする。

【0057】

抽出された第１登録特徴ベクトル群V_kanjiの類似度s_kanji、及び第２登録特徴ベクトル群V_hentaiの類似度s_hentaiのそれぞれについて、代表値算出部１３１が各類似度の平均、分散、中央値、類似度の間隔尺度などの代表値r（r_kanji, r_hentai）を算出する。この代表値rは、第１登録特徴ベクトル群V_kanji及び第２特徴ベクトル群V_hentaiにおけるそれぞれの類似態様を示す代表値である。つまり、rにより示されるそれぞれのベクトル群における各登録特徴ベクトルの代表値から、各候補の分布のバランスを見ることで信頼度とすることができる。そして、候補の中に異字体が含まれる（漢字候補の中に変体仮名が混じっている、又は変体仮名候補の中に漢字が混じっている）かどうかを判定するためのパラメータとして利用することができる。

【0058】

類似度補正部１３２は、抽出された登録特徴ベクトル群V_kanji、V_hentaiの類似度s_kanji、s_hentaiの大きさ、識別部３０が算出した確率p、代表値算出部１３１が算出した代表値rを用いて、候補となっている各登録特徴ベクトルの類似度を補正する。すなわち、補正後の類似度はそれぞれ、S_kanji=f(s_kanji, r_kanji, (1-p))*s_kanji、S_hentai=f(s_hentai, r_hentai, p)*s_hentaiで求めることができる。このような処理により、第１登録特徴ベクトル群V_kanji及び第２登録特徴ベクトル群V_hentaiのそれぞれの特徴ベクトルについて、文字の種別に応じた正確な類似度を算出することが可能となる。

【0059】

なお、前記第１の実施形態の場合と同様に、登録特徴ベクトル記憶部１４には変換先となるフォントの文字コードとそれに対応する特徴ベクトルが記憶されている。本実施形態の場合は、漢字以外の他の文字種別の文字コード及びその特徴ベクトルも登録されている。これらの登録されている特徴ベクトルは、前記第１の実施形態の場合と同様に、特徴画像同士を比較する際に同じ次元（具体的には例えば、漢字の場合は文字構成情報を明確化し、文字表現情報を共通化して吸収した状態であり、変体仮名文字の場合は上述したように文字構成情報の自由度を上げて共通化した状態）で比較する必要があるため、正規化処理部１１ａ，１１ｂ及び特徴抽出部１２ａ，１２で抽出した特徴ベクトルが登録特徴ベクトルとして記憶されている。

【0060】

補正後の類似度S_kanji及びS_hentaiから、上記で抽出された全ての候補又は予め設定された類似度が高い上位複数の候補を選択し、その登録特徴ベクトル及びそれに紐づいた文字コードが抽出される。類似抽出部１３が候補となる類似の登録特徴ベクトルを抽出した後は、特徴画像生成部１５、重要箇所算出部１６、優先度算出部１７、出力制御部１８及びコード変換リスト作成部１９により第１の実施形態と同様の処理が実行される。このとき、特徴画像生成部１５、重要箇所算出部１６及び優先度算出部１７の処理については、漢字用と変体仮名用のそれぞれについて別処理として行ってもよいし、共通の処理として行ってもよい。特徴画像生成部１５以降の処理については、前記第１の実施形態を重複するため詳細な説明を省略する。

【0061】

なお、優先度算出部１７については、上記で求めた類似度に応じて優先度を求めてもよいし（類似度が高いほど優先度が高い）、上記の類似度に加えて第１の実施形態において説明したような重要箇所の差分情報が考慮された優先度を求めてもよい。このとき、考慮するパラメータ（類似度、重要箇所ごとの差分情報）の重要度を予め設定し、それに応じた重み付けにより優先度が算出されてもよい。また、各パラメータごとに文字種別に応じた重要度を予め設定してもよい。例えば、優先度を算出する場合に類似度と重要箇所の差分情報とをパラメータにしたとすると、抽出された登録特徴ベクトルが変体仮名の場合は類似度の重要度を高くし、漢字の場合は重要箇所の差分情報の重要度を高くするいった設定を行ってもよい。

【0062】

次に、本実施形態に係る文字判定装置の動作について説明する。図１３は、本実施形態に係る文字判定装置の動作を示すフローチャートである。まず、正規化処理部１１が処理対象となる外字の外字情報２を読み込み（Ｓ１）、正規化処理を行う（Ｓ２）。このとき、文字種別に応じた専用の正規化処理部１１（第１正規化処理部１１ａ及び第２正規化処理部１１ｂ）が用意されており、それぞれ第１正規化処理部１１ａ及び第２正規化処理部１１ｂごとに正規化処理が実行される。この正規化処理によりフォント間のデザイン上の見た目の差異が可能な限り吸収されて共通化されつつ、文字自体の構成は明確化されたものとなる。文字種別ごとの正規化処理がなされると、特徴抽出部１２が正規化された外字の特徴ベクトルを対象特徴ベクトルとして抽出する（Ｓ３）。特徴抽出部１２についても文字種別ごとに用意されており（第１特徴抽出部１２ａ及び第２特徴抽出部１２ｂ）、第１正規化処理部１１ａ及び第２正規化処理部１１ｂのそれぞれと一体的に処理が実行される。

【0063】

対象特徴ベクトルが抽出されると、類似抽出部１３が、登録特徴ベクトル記憶部１４に記憶されている変換先のフォントの文字コードに対応する登録特徴ベクトルの中から、文字種別ごとに対象特徴ベクトルに類似する登録特徴ベクトルを抽出する（Ｓ４）。ここでは、文字種別ごと、すなわち第１対象特徴ベクトル及び第２対象特徴ベクトルのそれぞれについて、類似する複数の登録特徴ベクトルを登録特徴ベクトル群（第１登録特徴ベクトル群及び第２登録特徴ベクトル群）として抽出する。代表値算出部１３１が、登録特徴ベクトル群の代表値を算出する（Ｓ５）。代表値は、平均、分散、中央値等の値であり、第１登録特徴ベクトル群及び第２登録特徴ベクトル群のそれぞれの類似態様を表現した値となる。

【0064】

一方で、識別部３０は、外字情報２のデータに基づいて、文字種別のカテゴリごとの確率を算出する（Ｓ６）。変体仮名の場合は上述したように、曲線の数、線の曲率、線の繋がり具合等に基づいた確率が算出される。その他、例えば平仮名の場合は、曲線の有無、曲線の大きさや全体に占める割合から確率を算出することが可能である。また、片仮名の場合は、曲線の有無、同一方向をもつ線や鋭角をもつ線の占める割合から確率を算出することが可能である。さらに、アルファベットの場合は、対称性の割合や部分的な円形の有無などから確率を算出することが可能である。それぞれの文字種別ごとの確率が算出されると、類似度補正部１３２が、算出された代表値及び確率を用いて文字種別ごとの重み付けを行うことで、抽出された登録特徴ベクトルごとにその類似度を補正する（Ｓ７）。補正された類似度が高い順に複数の登録特徴ベクトル又は抽出された全ての登録特徴ベクトルが候補として選択され、以降の処理が実行される。Ｓ８からＳ１２の処理内容は、前記第１の実施形態における図８のＳ５からＳ９の処理内容と同じであるため詳細な説明は省略する。なお、Ｓ１０の優先度の算出については、上述したように類似度が考慮された優先度が算出される。

【0065】

このように、本実施形態に係る文字判定装置においては、処理対象となる文字に対して一の種別の文字を構成する文字構成情報及び当該文字構成情報を表現する文字表現情報に基づいて前記文字の画像情報を正規化する第１正規化処理部１１ａと、第１正規化処理部１１ａで正規化された文字の特徴を抽出し、その特徴ベクトルを第１対象特徴ベクトルとして抽出する第１特徴抽出部１２ａと、処理対象となる文字に対して他の種別の文字を構成する文字構成情報及び当該文字構成情報を表現する文字表現情報に基づいて前記文字の画像情報を正規化する第２正規化処理部１１ｂと、第２正規化処理部１１ｂで正規化された文字の特徴を抽出し、その特徴ベクトルを第２対象特徴ベクトルとして抽出する第２特徴抽出部１２ｂと、変換予定の文字フォントに登録されている登録文字コードについて、文字構成情報及び文字表現情報に基づいて登録文字コードを正規化し、正規化された当該登録文字コードの特徴ベクトルを抽出して登録特徴ベクトルとして記憶する登録特徴ベクトル記憶部１４と、第１対象特徴ベクトルと登録特徴ベクトルとを比較して類似度が高い順に複数の登録特徴ベクトルからなる第１登録特徴ベクトル群を登録特徴ベクトル記憶部１４から抽出し、第２対象特徴ベクトルと登録特徴ベクトルとを比較して類似度が高い順に複数の登録特徴ベクトルからなる第２登録特徴ベクトル群を登録特徴ベクトル記憶部１４から抽出し、第１登録特徴ベクトル群から算出される第１登録特徴ベクトル群の代表値を類似態様を示すパラメータとして、第１登録特徴ベクトル群に含まれる各登録特徴ベクトルの類似度を補正し、第２登録特徴ベクトル群から算出される第２登録特徴ベクトル群の代表値を類似態様を示すパラメータとして、当該第２登録特徴ベクトル群に含まれる各登録特徴ベクトルの類似度を補正し、補正後の類似度が高い順に複数の登録文字コードを抽出する類似抽出部１３と、類似抽出部１３が抽出した文字コードに対応する文字の画像情報を前記文字の変換候補として出力する出力制御部１８とを備えるため、処理対象となる文字に漢字以外の異なる種別の文字が混在している場合であっても、文字種別ごとに正確に判定することができる。

【0066】

また、処理対象となる文字に対して、予め設定された文字種別ごとの特徴に合致する合致度合いを算出する識別部３０を備え、類似抽出部１３が、識別部３０で算出された合致度合いをパラメータとして類似度を補正するため、文字種別の識別精度を上げて高品質な判定処理を行うことが可能となる。

【0067】

さらに、処理対象となる文字に漢字と変体仮名文字とが含まれる場合に、識別部３０が、文字の曲線及び線の繋がり具合いに応じたスコアから合致度合いを算出するため、例えば変体仮名が混合された外字のような文字について、正確に判定することが可能になる。

【0068】

（本発明のその他の実施形態）
本発明の他の実施形態について説明する。本実施形態においては、作業者の負担を低減させるための出力制御部の出力手法について例示して説明する。なお、本実施形態において前記各実施形態と重複する説明は省略する。

【0069】

例えば、外字を標準化するにあたって、各自治体ごとに外字が独自に登録されており、その数が膨大になると共に、図１０に示したように僅かな差異しかない文字も多いため、作業者の負担をいかに低減するかが大きな課題となっている。そのため、本実施形態においては、作業者の負担をできるだけ低減するために、作業者が見やすい状態で変換候補を出力する。出力手法の一例を以下に箇条書きで示す。

【0070】

・変換候補の画像にカーソルを合わせることで、拡大表示を可能とする。
・処理対象となる外字の候補群について、任意の変換候補となる画像を１又は複数選択することで、処理対象となる外字の字形と横並びで表示する（比較対象の絞込みを可能とする）。
・処理対象となる外字の変換候補に対して、外字の字形と重ね合わせてはみ出た部分に色付け等の強調表示を行う。
・処理対象となる外字の候補群について、どの様な類似度で候補が選出されているのかを視覚的に認識するために、特徴ベクトルによるマップ表示を行う。
・処理対象となる外字の候補群について、変換候補に含まれていない文字を表示したい場合に、文字コードを入力することで候補群に追加表示する。
・処理対象となる外字の候補群について、変換候補に含まれていない文字を表示したい場合に、字形を選択することで候補群に追加表示する。
・処理対象となる外字の候補群の表示数を変更する。
・処理対象となる外字の候補群の表示数について、抽出される類似の文字コードの件数に応じて表示数を変更する。
・変換候補の表示順序について、第１候補の優先度が高い順に昇順／降順で表示するといった並び替えを行う。
・確認リスト３の表示方法について、第１候補の優先度が高いものと低いものについて、所定の値ごとに背景を色分けして表示する。
・後で見直しを行いたい文字にチェックを入れ、見直しボタンを押下することで見直す文字の一覧を表示する。
・確認リスト３について、作業者が複数人で同一の外字の選定を行った場合、その結果を集約する。例えば、２人で重複して同一外字について変換先を特定した場合に、特定結果に差異が無いか結果の比較を行う。
・処理対象となる外字の変換候補から特定した１つの文字コードについて、当該特定した文字コードに類似する候補をさらに表示する。特定された文字コードを基準に一致率の高い候補を確認することで、特定した文字が第１候補に表示されるのか、類似する候補が他にないか、といった確認が可能となる。
・入力される外字情報２について、必要に応じて作業者が角度やサイズなどを補正することを可能とする。
・入力される外字情報２に当該外字の特徴となる情報を付加することで類似抽出部１３の類似判断の精度を上げる。
・処理対象となる外字を含む任意の文字を描画した場合に、変換予定のフォントにおける文字候補を表示する。これにより、変換したいフォントの字形を検索することが可能となる。また、標準準拠システムの導入後において文字情報基盤として整備されたフォント（例えば、ＩＰＡｍｊ明朝）を活用し、新たに外字を発生させないとされているため、住民窓口等において新規住民票の登録時等に、入力支援用の検索ツールとして活用することが可能となる。

【0071】

なお、上記に挙げた出力手法はあくまで一例であり、これらの手法を１つ又は複数組み合わせることで作業者の作業効率を向上させることが可能となる。

【符号の説明】

【0072】

１文字判定システム
２外字情報
３確認リスト
４コード変換リスト
５標準準拠システム
１０文字判定装置
１１正規化処理部
１１a 第１正規化処理部
１１b 第２正規化処理部
１２特徴抽出部
１２a 第１特徴抽出部
１２b 第２特徴抽出部
１３類似抽出部
１４登録特徴ベクトル記憶部
１５特徴画像生成部
１６重要箇所算出部
１７優先度算出部
１８出力制御部
１９コード変換リスト生成部
２０（２０a, ２０ｂ）ＡＩ処理部
２１フォードバック処理部
１３１代表値算出部
１３２類似度補正部

【図1】