特開2024-141563 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 大日本印刷株式会社の特許一覧

特開2024-141563文字認識装置、文字認識方法、プログラム及び文字認識モデル

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024141563

(43)【公開日】2024-10-10

(54)【発明の名称】文字認識装置、文字認識方法、プログラム及び文字認識モデル

(51)【国際特許分類】

G06V 30/24 20220101AFI20241003BHJP

【ＦＩ】

G06V30/24 620Z

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023053292

(22)【出願日】2023-03-29

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有りウェブサイトの掲載アドレスｈｔｔｐｓ：／／ａｐｐｓ．ａｐｐｌｅ．ｃｏｍ／ｊｐ／ａｐｐ／％Ｅ３％８１％８Ａ％Ｅ３％８１％Ａ８％Ｅ３％８２％８Ｂ％Ｅ３％８３％ＢＣ％Ｅ３％８１％ＢＡ／ｉｄ１６２８４５５８７８ｈｔｔｐｓ：／／ｐｌａｙ．ｇｏｏｇｌｅ．ｃｏｍ／ｓｔｏｒｅ／ａｐｐｓ／ｄｅｔａｉｌｓ？ｉｄ＝ｃｏｍ．ｍｌｏｕｐｅ．ｏｔｏ＆ｇｌ＝ＵＳ＆ｐｌｉ＝１掲載日令和５年２月２８日

(71)【出願人】

【識別番号】000002897

【氏名又は名称】大日本印刷株式会社

(74)【代理人】

【識別番号】110002952

【氏名又は名称】弁理士法人鷲田国際特許事務所

(72)【発明者】

【氏名】阿部友和

【テーマコード（参考）】

5B064

【Ｆターム（参考）】

5B064CA05

5B064DA27

(57)【要約】

【課題】日本語に特有の文字や文章に適した文字認識技術を提供することである。
【解決手段】本開示の一態様は、縦書きの文字列を示す第１の画像データを取得するデータ取得部と、前記第１の画像データを回転し横向きにした縦書き文字列を示す第２の画像データを生成する文字列回転部と、前記第２の画像データを横向きの縦書き文字列に対する認識結果を学習した文字認識モデルに入力し、前記文字認識モデルから前記横向きにした縦書き文字列の認識結果を取得する文字認識部と、を有する、文字認識装置に関する。
【選択図】図２

【特許請求の範囲】

【請求項1】

縦書きの文字列を示す第１の画像データを取得するデータ取得部と、
前記第１の画像データを回転し横向きにした縦書き文字列を示す第２の画像データを生成する文字列回転部と、
前記第２の画像データを横向きの縦書き文字列に対する認識結果を学習した文字認識モデルに入力し、前記文字認識モデルから前記横向きにした縦書き文字列の認識結果を取得する文字認識部と、
を有する、文字認識装置。

【請求項2】

前記文字認識モデルは、縦書きの文字列を回転し横向きにした縦書き文字列を示す画像データと、前記文字列の認識結果とから構成される訓練データによって訓練されている、請求項１に記載の文字認識装置。

【請求項3】

前記文字列回転部は、前記第１の画像データを９０度回転することによって前記第２の画像データを生成する、請求項１に記載の文字認識装置。

【請求項4】

前記データ取得部は、前記第１の画像データにおける横方向の文字間のスペースの大きさと、縦方向の文字間のスペースの大きさとの間の比率に基づいて、前記縦書きの文字列を検出する、請求項１に記載の文字認識装置。

【請求項5】

縦書きの文字列を示す第１の画像データを取得することと、
前記第１の画像データを回転し横向きにした縦書き文字列を示す第２の画像データを生成することと、
前記第２の画像データを横向きの縦書き文字列に対する認識結果を学習した文字認識モデルに入力し、前記文字認識モデルから前記横向きにした縦書き文字列の認識結果を取得することと、
を有する、コンピュータが実行する文字認識方法。

【請求項6】

縦書きの文字列を示す第１の画像データを取得することと、
前記第１の画像データを回転し横向きにした縦書き文字列を示す第２の画像データを生成することと、
前記第２の画像データを横向きの縦書き文字列に対する認識結果を学習した文字認識モデルに入力し、前記文字認識モデルから前記横向きにした縦書き文字列の認識結果を取得することと、
をコンピュータに実行させるプログラム。

【請求項7】

縦書きの文字列を回転し横向きにした縦書き文字列を示す第１の画像データを取得し、
前記横向きにした縦書き文字列の認識結果を出力する、
文字認識モデルであって、
縦書きの文字列を回転し横向きにした縦書き文字列を示す画像データと、前記横向きにした縦書き文字列の認識結果とから構成される訓練データによって訓練されている文字認識モデル。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、文字認識装置、文字認識方法、プログラム及び文字認識モデルに関する。

【背景技術】

【0002】

近年のディープラーニングの進展によって、機械学習が広範な技術分野に適用されてきている。例えば、文字認識では、認識精度の向上のため、機械学習モデルの利用が進んでいる。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２２－０１９２５７号公報

【特許文献2】特開２０２２－１８０８６６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

日本語では、英語などと異なって、横書きの文だけでなく、縦書きの文も使われている。また、難読な漢字や幼児用の文章などには振り仮名（以降、「ルビ」と呼ぶ）が付されることもある。これら日本語に特有の文に対する文字認識は、英語等をベースに開発された機械学習モデルでは対応困難であることもある。

【0005】

本開示の課題は、日本語に特有の文字や文章に適した文字認識技術を提供することである。

【課題を解決するための手段】

【0006】

本開示の一態様は、縦書きの文字列を示す第１の画像データを取得するデータ取得部と、前記第１の画像データを回転し横向きにした縦書き文字列を示す第２の画像データを生成する文字列回転部と、前記第２の画像データを横向きの縦書き文字列に対する認識結果を学習した文字認識モデルに入力し、前記文字認識モデルから前記横向きにした縦書き文字列の認識結果を取得する文字認識部と、を有する、文字認識装置に関する。

【発明の効果】

【0007】

本開示によると、日本語に特有の文字や文章に適した文字認識技術を提供することができる。

【図面の簡単な説明】

【0008】

【図1】図１は、本開示の一実施例による文字認識装置を示す概略図である。

【図2】図２は、本開示の第１の実施形態による文字認識処理を示す概略図である。

【図3】図３は、本開示の第２の実施形態による文字認識処理を示す概略図である。

【図4】図４は、本開示の一実施例による文字認識装置のハードウェア構成を示すブロック図である。

【図5】図５は、本開示の第１の実施形態による文字認識装置の機能構成を示すブロック図である。

【図6】図６は、本開示の第１の実施形態による縦書きの文字列と横書きの文字列との識別例を示す概略図である。

【図7】図７は、本開示の第１の実施形態による縦書き文字列の回転を示す概略図である。

【図8】図８は、本開示の第１の実施形態による文字認識モデルを示す概略図である。

【図9】図９は、本開示の第１の実施形態による文字認識処理を示すフローチャートである。

【図10】図１０は、本開示の第２の実施形態による文字認識装置の機能構成を示すブロック図である。

【図11】図１１は、本開示の第２の実施形態による文字認識モデルを示す概略図である。

【図12】図１２は、本開示の第２の実施形態による文字認識モデルを示す概略図である。

【図13】図１３は、本開示の第２の実施形態による文字認識モデルを示す概略図である。

【図14】図１４は、本開示の第２の実施形態による文字認識処理を示すフローチャートである。

【発明を実施するための形態】

【0009】

以下、図面を参照して本開示の実施の形態を説明する。

【0010】

以下の実施例では、認識対象の文字及び／又は文字列を認識する文字認識装置が開示される。

【0011】

［本開示の概略］
図１に示されるように、認識対象の文字及び／又は文字列を示す画像データを受け付けると、文字認識装置１００は、以下で詳細に説明される文字認識モデル１０を利用して、画像データにおける文字及び／又は文字列の認識結果を出力する。ここで、認識対象の文字及び／又は文字列は、日本語に特有の表記である縦書きの文字列、ルビ付きの文字／文字列、及び／又はこれらの組み合わせを含むものであってもよい。また、文字認識モデル１０は、ニューラルネットワークなどの何れかの機械学習モデルとして実現されうる。

【0012】

まず、本開示の第１の実施形態では、文字認識装置１００Ａは、縦書きの文字列に対して文字認識を実行し、当該文字列の認識結果を取得する。例えば、図２に示されるように、縦書き文字列「木を倒す」を示す画像データを認識対象文字列として取得すると、第１の実施形態による文字認識装置１００Ａは、画像データにおける縦書き文字列「木を倒す」を９０度回転し、横向きの縦書き文字列「木を倒す」を示す画像データを生成する。そして、文字認識装置１００Ａは、横向きの縦書き文字列「木を倒す」を示す画像データを文字認識モデル１０Ａに入力し、文字認識モデル１０Ａからの認識結果としてテキストデータなどの「木を倒す」を取得する。

【0013】

文字認識装置１００Ａに用いられる文字認識モデル１０Ａは、縦書きの文字列を９０度回転した横向きの縦書き文字列を示す画像データを取得すると、当該文字列の文字認識結果を出力するよう訓練されている。換言すると、文字認識モデル１０Ａは、横向きの縦書き文字列の形状から当該文字列を認識するよう訓練されている。このような文字認識モデル１０Ａによると、横書きの文字列を認識する従来の文字認識モデルと比較して、日本語に特有の縦書きの文字列に対する文字認識精度を向上させうる。

【0014】

次に、本開示の第２の実施形態では、文字認識装置１００Ｂは、ルビ付きの文字及び／又は文字列に対して文字認識を実行し、当該文字列の認識結果を取得する。例えば、図３に示されるように、ルビ付きの文字列「吾輩（ルビ：わがはい）は猫である」を認識対象文字列として取得すると、第２の実施形態による文字認識装置１００Ｂは、ルビ付きの文字列「吾輩（ルビ：わがはい）は猫である」を示す画像データを文字認識モデル１０Ｂに入力し、文字認識モデル１０Ｂからの認識結果としてテキストデータなどの「吾輩は猫である」を取得する。換言すると、文字認識装置１００Ｂは、ルビ付きの文字列からルビなしの文字列を認識する。

【0015】

文字認識装置１００Ｂに用いられる文字認識モデル１０Ｂは、ルビ付きの文字及び／又は文字列を示す画像データを取得すると、ルビなしの文字及び／又は文字列となる当該文字及び／又は文字列の文字認識結果を出力するようルビ付きの文字及び／又は文字列を示す画像データそのものを教師データとして訓練されている。換言すると、文字認識モデル１０Ｂは、ルビ付きの文字及び／又は文字列の形状から当該文字列を認識する、すなわち、ルビ部分を認識し、認識したルビ部分を削除するよう訓練されている。このような文字認識モデル１０Ｂによると、ルビのない文字及び／又は文字列を認識する従来の文字認識モデルと比較して、日本語に特有のルビ付きの文字及び／又は文字列に対する文字認識精度を向上させうる。

【0016】

ここで、文字認識装置１００、１００Ａ及び１００Ｂ（以降、文字認識装置１００として総称されうる）は、パーソナルコンピュータ（ＰＣ）、スマートフォン、タブレット、サーバ等の計算装置によって実現されてもよく、例えば、図４に示されるようなハードウェア構成を有してもよい。すなわち、文字認識装置１００は、バスＢを介し相互接続されるドライブ装置１０１、ストレージ装置１０２、メモリ装置１０３、プロセッサ１０４、ユーザインタフェース（ＵＩ）装置１０５及び通信装置１０６を有する。

【0017】

文字認識装置１００における各種機能及び処理を実現するプログラム又は指示は、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ－ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ等の着脱可能な記憶媒体に格納されてもよい。当該記憶媒体がドライブ装置１０１にセットされると、プログラム又は指示が記憶媒体からドライブ装置１０１を介しストレージ装置１０２又はメモリ装置１０３にインストールされる。ただし、プログラム又は指示は、必ずしも記憶媒体からインストールされる必要はなく、ネットワークなどを介し何れかの外部装置からダウンロードされてもよい。

【0018】

ストレージ装置１０２は、ハードディスクドライブなどによって実現され、インストールされたプログラム又は指示と共に、プログラム又は指示の実行に用いられるファイル、データ等を格納する。

【0019】

メモリ装置１０３は、ランダムアクセスメモリ、スタティックメモリ等によって実現され、プログラム又は指示が起動されると、ストレージ装置１０２からプログラム又は指示、データ等を読み出して格納する。ストレージ装置１０２、メモリ装置１０３及び着脱可能な記憶媒体は、非一時的な記憶媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｓｔｏｒａｇｅｍｅｄｉｕｍ）として総称されてもよい。

【0020】

プロセッサ１０４は、１つ以上のプロセッサコアから構成されうる１つ以上のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、処理回路（ｐｒｏｃｅｓｓｉｎｇｃｉｒｃｕｉｔｒｙ）等によって実現されてもよく、メモリ装置１０３に格納されたプログラム、指示、当該プログラム若しくは指示を実行するのに必要なパラメータなどのデータ等に従って、文字認識装置１００の各種機能及び処理を実行する。

【0021】

ユーザインタフェース（ＵＩ）装置１０５は、キーボード、マウス、カメラ、マイクロフォン等の入力装置、ディスプレイ、スピーカ、ヘッドセット、プリンタ等の出力装置、タッチパネル等の入出力装置から構成されてもよく、ユーザと文字認識装置１００との間のインタフェースを実現する。例えば、ユーザは、ディスプレイ又はタッチパネルに表示されたＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）をキーボード、マウス等を操作し、文字認識装置１００を操作する。

【0022】

通信装置１０６は、外部装置、インターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、セルラーネットワーク等の通信ネットワークとの有線及び／又は無線通信処理を実行する各種通信回路により実現される。

【0023】

しかしながら、上述したハードウェア構成は単なる一例であり、本開示による文字認識装置１００は、他の何れか適切なハードウェア構成により実現されてもよい。

【0024】

［第１の実施形態］
次に、図５を参照して、本開示の第１の実施形態による文字認識装置１００Ａを説明する。上述したように、本開示の第１の実施形態による文字認識装置１００Ａは、縦書きの文字列に対して文字認識を実行し、当該文字列の認識結果を取得する。具体的には、縦書き文字列を示す画像データを取得すると、文字認識装置１００Ａは、画像データにおける縦書き文字列を９０度回転し、横向きの縦書き文字列を示す画像データを生成する。そして、文字認識装置１００Ａは、横向きの縦書き文字列を示す画像データを文字認識モデル１０Ａに入力し、文字認識モデル１０Ａから認識結果を取得する。

【0025】

図５は、本開示の第１の実施形態による文字認識装置１００Ａの機能構成を示すブロック図である。図５に示されるように、文字認識装置１００Ａは、データ取得部１１０Ａ、文字列回転部１２０Ａ及び文字認識部１３０Ａを有する。データ取得部１１０Ａ、文字列回転部１２０Ａ及び文字認識部１３０Ａの各機能部は、文字認識装置１００Ａのメモリ装置１０３に格納されているコンピュータプログラムがプロセッサ１０４によって実行されることによって実現されてもよい。

【0026】

データ取得部１１０Ａは、縦書きの文字列を示す画像データを取得する。例えば、カメラやスキャナなどにより撮像された画像データ上などに表示される文字列など、認識対象の文字列を含む画像データを取得すると、データ取得部１１０Ａは、文字であると想定される画像部分を認識し、認識した画像部分の大きさと間隔から一行又は一列ずつ文字列領域を特定し、特定した一塊の文字列領域の縦横比が縦長か横長かに応じて、特定した文字列領域を回転するか否か判定する。文字列領域の縦横比が縦長である場合、データ取得部１１０Ａは、特定した文字列領域を回転させるため、特定した文字列領域を文字列回転部１２０Ａにわたす。他方、文字列領域の縦横比が横長である場合、データ取得部１１０Ａは、特定した文字列領域を文字認識部１３０Ａにわたす。

【0027】

一塊の文字列領域の検出時に複数行の文字列が検出された際は、データ取得部１１０Ａは、画像データにおける横方向の文字間のスペースの大きさ（ＨＩ）と、縦方向の文字間のスペースの大きさ（ＶＩ）との間の比率に基づいて、縦書きの文字列を検出してもよい。例えば、認識対象の文字列が横書きである場合、図６Ａに示されるように、横方向の文字間のスペースの大きさ（ＨＩ）は、縦方向の文字間のスペースの大きさ（ＶＩ）より有意に小さくなる（ＨＩ＜ＶＩ）。他方、認識対象の文字列が縦書きである場合、図６Ｂに示されるように、横方向の文字間のスペースの大きさ（ＨＩ）は、縦方向の文字間のスペースの大きさ（ＶＩ）より有意に大きくなる（ＨＩ＞ＶＩ）。従って、データ取得部１１０Ａは、画像データにおける横方向の文字間のスペースの大きさ（ＨＩ）と、縦方向の文字間のスペースの大きさ（ＶＩ）とを算出し、比率ＨＩ／ＶＩに基づいて画像データに表示されている文字列が横書き又は縦書きかを判定してもよい。例えば、比率ＨＩ／ＶＩが１などの所定の閾値より小さい場合、データ取得部１１０Ａは、認識対象の文字列は横書きであると判定してもよい。他方、比率ＨＩ／ＶＩが１などの所定の閾値より大きい場合、データ取得部１１０Ａは、認識対象の文字列は縦書きであると判定してもよい。

【0028】

文字列回転部１２０Ａは、文字列領域が縦長又は縦書き文字列を検出した際に縦書き文字列を示す画像データを回転した横向きの縦書き文字列を示す画像データを生成する。具体的には、データ取得部１２０Ａから縦書き文字列を示す画像データを取得すると、文字列回転部１２０Ａは、取得した画像データを９０度回転することによって、縦書き文字列を示す画像データを横向きの縦書き文字列を示す画像データに変換する。例えば、図７に示されるように、文字列回転部１２０Ａは、縦書き文字列「真珠の養殖」を示す画像データを反時計回りに９０度回転し、横向きの縦書き文字列「真珠の養殖」を示す画像データを取得する。図示された例では、回転方向は反時計回りとして示されているが、本開示による回転方向は、これに限定されず、時計回りであってもよく、文字認識モデル１０Ａの訓練データに適用された回転方向と整合させて設定されうる。

【0029】

文字認識部１３０Ａは、横向きの縦書き文字列を示す画像データを文字認識モデル１０Ａに入力し、文字認識モデル１０Ａから当該文字列の認識結果を取得する。具体的には、文字列回転部１２０Ａから横向きの縦書き文字列を示す画像データを取得すると、文字認識部１３０Ａは、取得した横向きの縦書き文字列を示す画像データを文字認識モデル１０Ａに入力し、文字認識モデル１０Ａから認識結果として当該文字列のテキストデータを取得する。

【0030】

ここで、文字認識モデル１０Ａは、縦書き文字列を横向きに回転した横向きの縦書き文字列を示す画像データと、当該文字列の認識結果とから構成される訓練データによって訓練されうる。例えば、文字認識モデル１０Ａは、辞書の例文、刊行物等の様々な文章から複数の縦書き文字列を抽出し、抽出した縦書き文字列を示す画像データを反時計回り又は時計回りに９０度回転した横向きの縦書き文字列を示す画像データと、縦書き文字列のテキストデータとのペアから構成される訓練データを利用して訓練されてもよい。文字認識モデル１０Ａは、例えば、畳み込みニューラルネットワークとして実現されてもよく、横向きの縦書き文字列を示す訓練用画像データに対して、誤差逆伝播法などの公知の訓練アルゴリズムに従って、その出力結果と正解の認識結果との差分に応じて文字認識モデル１０Ａのパラメータが更新されうる。このようにして訓練された文字認識モデル１０Ａは、図８に示されるように、縦書きの文字列を示す画像データを横向きに回転した横向きの縦書き文字列を示す画像データを取得し、当該文字列の認識結果を出力しうる。すなわち、文字認識モデル１０Ａは、画像データにおける横向きの縦書き文字列の形状に基づいて、当該文字列の認識結果を推定している。

【0031】

なお、文字認識モデル１０Ａは、縦書き文字列の文字認識だけでなく、横書き文字列の文字認識も対応可能であってもよい。すなわち、文字認識モデル１０Ａはまた、横書き文字列を示す画像データを取得すると、当該文字列の認識結果を出力してもよい。

【0032】

なお、文字認識モデル１０Ａは、文字認識装置１００Ａに搭載されてもよいし、あるいは、通信接続された外部のサーバ（図示せず）に格納されてもよい。文字認識モデル１０Ａが外部のサーバに格納される場合、文字認識部１３０Ａは、横向きの縦書き文字列を示す画像データを当該サーバに送信し、サーバ上で実行された文字認識モデル１０Ａの認識結果を取得するようにしてもよい。

【0033】

このようにして、認識対象の文字列の認識結果を取得すると、文字認識部１３０Ａは、認識対象の文字列の認識結果をテキストデータなどの何れかのデータ形式により出力してもよい。

【0034】

図９は、本開示の第１の実施形態による文字認識処理を示すフローチャートである。当該文字認識処理は、例えば、文字認識装置１００Ａによって実行され、より詳細には、文字認識装置１００Ａのプロセッサ１０４がメモリ装置１０３に格納されたコンピュータプログラム又は指示を実行することによって実現されてもよい。

【0035】

ステップＳ１０１において、文字認識装置１００Ａは、縦書きの文字列を示す画像データを取得する。例えば、認識対象の文字列を含む画像データを取得すると、文字認識装置１００Ａは、文字であると想定される画像部分を認識し、画像部分の大きさと間隔から一行又は一列ずつ領域を特定し、特定した一塊の文字列領域の縦横比が縦長か横長かに応じて、特定した文字列領域を回転するか否かを判定する。文字列領域の縦横比が縦長である場合、文字認識装置１００Ａは、特定した文字列領域を回転させることを決定する。

【0036】

ステップＳ１０２において、文字認識装置１００Ａは、縦書き文字列を示す画像データを回転し、横向きの縦書き文字列を示す画像データを生成する。具体的には、文字認識装置１００Ａは、文字列領域が縦長又は縦書き文字列を検出した際に縦書き文字列を示す画像データを回転した横向きの縦書き文字列を示す画像データを生成する。例えば、文字認識装置１００Ａは、縦書き文字列を示す画像データを反時計回りに９０度回転し、横向きの縦書き文字列を示す画像データを取得してもよい。

【0037】

ステップＳ１０３において、文字認識装置１００Ａは、文字認識モデル１０Ａを利用して、横向きの縦書き文字列を示す画像データから当該文字列の認識結果を取得する。ここで、文字認識モデル１０Ａは、横向きに回転された縦書き文字列を示す画像データと、当該文字列の認識結果とのペアから構成される訓練データを利用して訓練されてもよい。このようにして訓練された文字認識モデル１０Ａは、縦書き文字列を示す画像データを横向きに回転した横向きの縦書き文字列を示す画像データを取得すると、当該文字列のテキストデータを認識結果として出力しうる。文字認識モデル１０Ａから認識結果を取得すると、文字認識装置１００Ａは、取得した認識結果を出力する。

【0038】

上述した第１の実施形態によると、縦書きの文字列を示す画像データを９０度回転した横向きの縦書き文字列を示す画像データを取得すると、当該文字列の文字認識結果を出力する文字認識モデル１０Ａを利用して、文字認識装置１００Ａは、横向きの縦書き文字列の形状から当該文字列を認識することができ、横書きの文字列を認識する従来の文字認識モデルと比較して、日本語に特有の縦書きの文字列に対する文字認識精度を向上させうる。

【0039】

［第２の実施形態］
次に、図１０を参照して、本開示の第２の実施形態による文字認識装置１００Ｂを説明する。上述したように、本開示の第２の実施形態による文字認識装置１００Ｂは、ルビ付きの文字及び／又は文字列に対して文字認識を実行し、当該文字及び／又は文字列の認識結果を取得する。例えば、カメラやスキャナなどによって撮像されたルビ付きの文字及び／又は文字列を示す画像データを取得すると、文字認識装置１００Ｂは、取得した画像データを文字認識モデル１０Ｂに入力し、文字認識モデル１０Ｂからルビを削除した当該文字列の認識結果を取得する。

【0040】

図１０は、本開示の第２の実施形態による文字認識装置１００Ｂの機能構成を示すブロック図である。図１０に示されるように、文字認識装置１００Ｂは、データ取得部１１０Ｂ及び文字認識部１２０Ｂを有する。データ取得部１１０Ｂ及び文字認識部１２０Ｂの各機能部は、文字認識装置１００Ｂのメモリ装置１０３に格納されているコンピュータプログラムがプロセッサ１０４によって実行されることによって実現されてもよい。

【0041】

データ取得部１１０Ｂは、ルビが付された文字を示す画像データを取得する。具体的には、データ取得部１１０Ｂは、認識対象の文字及び／又は文字列を含む画像データを取得すると、取得された画像データを文字認識部１２０Ｂにわたす。

【0042】

文字認識部１２０Ｂは、画像データを文字認識モデル１０Ｂに入力し、文字認識モデル１０Ｂから文字の認識結果を取得する。ここで、文字認識モデル１０Ｂは、ルビが付された文字及び／又は文字列を示す画像データと、当該文字及び／又は文字列の認識結果とのペアから構成される訓練データによって訓練されうる。例えば、文字認識モデル１０Ｂは、辞書の例文、刊行物等の文章から抽出されたルビ付きの文字／文字列について、抽出したルビ付き文字／文字列を示す画像データと、ルビが削除された当該文字／文字列のテキストデータとのペアから構成される訓練データを利用して訓練されてもよい。

【0043】

図１１に示されるように、ルビ付き文字及び／又は文字列を示す画像データを受け付けると、文字認識モデル１０Ｂは、当該文字及び／又は文字列の認識結果をテキストデータなどにより出力する。文字認識モデル１０Ｂは、例えば、畳み込みニューラルネットワークとして実現されてもよく、ルビ付き文字及び／又は文字列を示す訓練画像データに対して、誤差逆伝播法などの公知の訓練アルゴリズムに従って、その出力結果と正解の認識結果との差分に応じて文字認識モデル１０Ｂのパラメータが更新されうる。このようにして訓練された文字認識モデル１０Ｂは、ルビ付き文字及び／又は文字列を示す画像データを取得し、当該文字列の認識結果を出力しうる。すなわち、文字認識モデル１０Ｂは、画像データにおけるルビ付きの文字及び／又は文字列の形状に基づいて、ルビを削除した当該文字及び／又は文字列の認識結果を推定している。

【0044】

また、文字認識モデル１０Ｂは、ルビ付き文字及び／又は文字列を示す画像データだけでなく、ルビのない文字及び／又は文字列を示す画像データもまた文字認識できるよう訓練されてもよい。この場合、文字認識モデル１０Ｂは、図１２に示されるように、ルビ付き文字及び／又は文字列を示す画像データだけでなく、ルビのない文字及び／又は文字列を示す画像データもまた取得すると、当該文字列の認識結果を出力する。

【0045】

なお、文字認識モデル１０Ｂは、文字認識装置１００Ｂに搭載されてもよいし、あるいは、通信接続された外部のサーバ（図示せず）に格納されてもよい。文字認識モデル１０Ｂが外部のサーバに格納される場合、文字認識部１２０Ｂは、ルビが付された文字及び／又は文字列を示す画像データを当該サーバに送信し、サーバ上で実行された文字認識モデル１０Ｂから認識結果を取得するようにしてもよい。

【0046】

このようにして、認識対象の文字列の認識結果を取得すると、文字認識部１２０Ｂは、ルビを削除した文字及び／又は文字列の認識結果をテキストデータなどの何れかのデータ形式により出力してもよい。

【0047】

一実施例では、データ取得部１１０Ｂは、ルビが付された縦書きの文字を示す画像データを取得すると、ルビが付された縦書きの文字を示す画像データを回転した横向きのルビが付された縦書き文字を示す画像データを生成し、文字認識部１２０Ｂは、横向きのルビが付された縦書き文字を示す画像データを文字認識モデル１０Ｃに入力し、文字認識モデル１０Ｃから当該文字の認識結果を取得してもよい。ここで、文字認識モデル１０Ｃは、横向きのルビが付された縦書き文字を示す画像データと、文字の認識結果とのペアから構成される訓練データによって訓練されうる。例えば、文字認識モデル１０Ｃは、ルビを含む縦書きの文字及び／又は文字列を９０度回転した横向きのルビを含む縦書きの文字及び／又は文字列を示す画像データと、ルビを削除した文字及び／又は文字列の認識結果とのペアから構成される訓練データを利用して訓練されてもよい。

【0048】

図１３に示されるように、ルビを含む縦書きの文字及び／又は文字列を９０度回転させた横向きのルビを含む縦書きの文字及び／又は文字列を示す画像データを受け付けると、文字認識モデル１０Ｃは、当該文字及び／又は文字列の認識結果をテキストデータなどにより出力する。文字認識モデル１０Ｃは、例えば、畳み込みニューラルネットワークとして実現されてもよく、横向きのルビを含む縦書き文字及び／又は文字列を示す訓練画像データに対して、誤差逆伝播法などの公知の訓練アルゴリズムに従って、その出力結果と正解の認識結果との差分に応じて文字認識モデル１０Ｃのパラメータが更新されうる。このようにして訓練された文字認識モデル１０Ｃは、横向きのルビを含む縦書き文字及び／又は文字列を示す画像データを取得し、当該文字列の認識結果を出力しうる。すなわち、文字認識モデル１０Ｃは、横向きのルビが付された縦書き文字及び／又は文字列の形状に基づいて、ルビを削除した当該文字及び／又は文字列の認識結果を推定している。

【0049】

図１４は、本開示の第２の実施形態による文字認識処理を示すフローチャートである。当該文字認識処理は、例えば、文字認識装置１００Ｂによって実行され、より詳細には、文字認識装置１００Ｂのプロセッサ１０４がメモリ装置１０３に格納されたコンピュータプログラム又は指示を実行することによって実現されてもよい。

【0050】

ステップＳ２０１において、文字認識装置１００Ｂは、ルビが付された文字を示す画像データを取得する。

【0051】

ステップＳ２０２において、文字認識装置１００Ｂは、文字認識モデル１０Ｂを利用して、ルビが付された文字を示す画像データから、ルビを削除した当該文字の認識結果を取得する。ここで、文字認識モデル１０Ｂは、ルビ付きの文字及び／又は文字列を示す画像データと、当該文字及び／又は文字列の認識結果とのペアから構成される訓練データを利用して訓練されてもよい。このようにして訓練された文字認識モデル１０Ｂは、ルビ付きの文字及び／又は文字列を示す画像データを取得すると、ルビを削除した当該文字及び／又は文字列のテキストデータを認識結果として出力しうる。文字認識モデル１０Ｂから認識結果を取得すると、文字認識装置１００Ｂは、取得した認識結果を出力する。

【0052】

第２の実施形態によると、ルビ付きの文字及び／又は文字列を示す画像データを取得すると、ルビを削除した当該文字及び／又は文字列の文字認識結果を出力する文字認識モデル１０Ｂを利用して、文字認識装置１００Ｂは、ルビ付きの文字及び／又は文字列の形状から当該文字及び／又は文字列を認識することができ、従来の文字認識モデルと比較して、日本語に特有のルビ付きの文字及び／又は文字列に対する文字認識精度を向上させうる。

【0053】

なお、上述した実施形態では、認識対象の文字及び／又は文字列は画像データによって提供されているが、本開示による文字認識処理は、これに限定されず、認識対象の文字及び／又は文字列を含む他の何れかの形式のデータによって提供されてもよい。

【0054】

以上、本開示の実施例について詳述したが、本開示は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本開示の要旨の範囲内において、種々の変形・変更が可能である。

【符号の説明】

【0055】

１０，１０Ａ，１０Ｂ，１０Ｃ文字認識モデル
１００，１００Ａ，１００Ｂ文字認識装置
１１０Ａ，１１０Ｂデータ取得部
１２０Ａ文字列回転部
１２０Ｂ，１３０文字認識部

【図1】