(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023001657
(43)【公開日】2023-01-06
(54)【発明の名称】画像処理装置、画像処理方法、及びプログラム
(51)【国際特許分類】
G06V 30/26 20220101AFI20221226BHJP
G06V 30/14 20220101ALI20221226BHJP
G06F 16/583 20190101ALI20221226BHJP
【FI】
G06K9/72 C
G06K9/20 340K
G06F16/583
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021102506
(22)【出願日】2021-06-21
(71)【出願人】
【識別番号】000136136
【氏名又は名称】株式会社PFU
(74)【代理人】
【識別番号】100137394
【弁理士】
【氏名又は名称】横井 敏弘
(72)【発明者】
【氏名】島▲崎▼ 克仁
(72)【発明者】
【氏名】横川 祥太
【テーマコード(参考)】
5B029
5B064
5B175
【Fターム(参考)】
5B029AA01
5B029BB02
5B029CC27
5B029CC28
5B064AA01
5B064BA01
5B064CA08
5B064DA31
5B064DA32
5B064DA33
5B064EA19
5B064EA27
5B064EA28
5B064EA32
5B175DA02
5B175FA01
5B175FB02
5B175HA01
(57)【要約】
【課題】 より高い精度で、画像データからタイトルを抽出する画像処理装置を提供する。
【解決手段】 画像処理装置は、光学的に読み取られた画像データから、画像の内容に関する情報を抽出するコンテンツ抽出部と、前記コンテンツ抽出部により抽出された情報に応じて、タイトルを決定するための決定ロジックを選択するロジック選択部と、前記ロジック選択部により選択された決定ロジックに基づいて、前記画像データのタイトルを決定するタイトル決定部とを有する。
【選択図】
図4
【特許請求の範囲】
【請求項1】
光学的に読み取られた画像データから、画像の内容に関する情報を抽出するコンテンツ抽出部と、
前記コンテンツ抽出部により抽出された情報に応じて、タイトルを決定するための決定ロジックを選択するロジック選択部と、
前記ロジック選択部により選択された決定ロジックに基づいて、前記画像データのタイトルを決定するタイトル決定部と
を有する画像処理装置。
【請求項2】
前記決定ロジックは、前記画像の内容からタイトルを抽出するためのロジックであり、
前記タイトル決定部は、選択された前記決定ロジックに従って、前記画像データから、タイトルの要素を抽出する
請求項1に記載の画像処理装置。
【請求項3】
前記コンテンツ抽出部は、前記画像データから、単語に関する情報、文体、文字種、文字列の外観に関する情報、色の分布、及び、文字サイズの分布、の少なくとも一つを抽出し、
前記ロジック選択部は、前記コンテンツ抽出部により抽出された、単語に関する情報、文体、文字種、文字列の外観に関する情報、色の分布、及び、文字サイズの分布、の少なくとも一つに基づいて、決定ロジックを選択する
請求項2に記載の画像処理装置。
【請求項4】
前記コンテンツ抽出部は、前記画像データから、既定の単語が出現する出現頻度、又は、既定の単語が出現した出現位置を抽出し、
前記ロジック選択部は、前記コンテンツ抽出部により抽出された、既定の単語が出現する出現頻度、又は、既定の単語が出現した出現位置に基づいて、決定ロジックを選択する
請求項3に記載の画像処理装置。
【請求項5】
前記ロジック選択部は、既定の単語が出現する出現頻度、及び、既定の単語が出現した出現位置を入力データとした機械学習モデルを用いて、決定ロジックを選択する
請求項4に記載の画像処理装置。
【請求項6】
前記タイトル決定部により決定されたタイトルを含むファイル名を、前記画像データのデータファイルに付与するファイル名付与部
をさらに有する請求項5に記載の画像処理装置。
【請求項7】
前記決定ロジックには、画像の内容に基づいて複数のカテゴリー名の中から、採用するカテゴリーを選択する決定ロジックが含まれている
請求項6に記載の画像処理装置。
【請求項8】
光学的に読み取られた画像データから、画像の内容に関する情報を抽出するコンテンツ抽出ステップと、
前記コンテンツ抽出ステップにより抽出された情報に応じて、タイトルを決定するための決定ロジックを選択するロジック選択ステップと、
前記ロジック選択ステップにより選択された決定ロジックに基づいて、前記画像データのタイトルを決定するタイトル決定ステップと
を有する画像処理方法。
【請求項9】
光学的に読み取られた画像データから、画像の内容に関する情報を抽出するコンテンツ抽出ステップと、
前記コンテンツ抽出ステップにより抽出された情報に応じて、タイトルを決定するための決定ロジックを選択するロジック選択ステップと、
前記ロジック選択ステップにより選択された決定ロジックに基づいて、前記画像データのタイトルを決定するタイトル決定ステップと
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、画像処理方法、及びプログラムに関する。
【背景技術】
【0002】
例えば、特許文献1には、画像データにおける、文字列が記載された箇所を複数特定する特定部と、特定された複数の箇所の夫々について、画像データにおける位置、および記載された文字のサイズを含むレイアウト情報を取得するレイアウト情報取得部と、複数の箇所の夫々について、他の箇所との位置関係および他の箇所とのサイズ関係に基づいて、画像データに含まれ得る所定の属性を有する文字列としての尤度を算出し、尤度に基づいて、所定の属性を有する文字列が記載された箇所を推定する推定部とを備えた情報処理装置が開示されている。
【0003】
また、特許文献2には、原稿画像Ikから抽出されたページ情報に従って原稿画像Ikにファイル名を付与するファイル管理装置が開示されている。
【0004】
また、特許文献3には、原稿を光学的に読み取って画像データを取得する画像読取部10と、取得された画像データにおいて複数の文字の集まりからなる文字ブロック及び当該文字ブロックに含まれる文字列を認識する文字列認識部102と、認識された各文字列について文字サイズ、行数、面積及び原稿における配置位置を特定する文字列外観特定部103と、特定された情報に基づいて原稿のタイプを判別する原稿タイプ判別部104と、認識された各文字列について原稿タイプ判別部104により判別された原稿タイプに応じた基準に準じた複数の評価項目で加重評価を行う文字列評価部105と、認識された文字列のうち文字列評価部105による評価点が高い文字列を画像データのファイル名候補として選出するファイル名候補選出部106とを備える原稿読取装置1が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第6050843
【特許文献2】特開2006-252455
【特許文献3】特許第6753370
【発明の概要】
【発明が解決しようとする課題】
【0006】
より高い精度で、画像データからタイトルを抽出する画像処理装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明に係る画像処理装置は、光学的に読み取られた画像データから、画像の内容に関する情報を抽出するコンテンツ抽出部と、前記コンテンツ抽出部により抽出された情報に応じて、タイトルを決定するための決定ロジックを選択するロジック選択部と、前記ロジック選択部により選択された決定ロジックに基づいて、前記画像データのタイトルを決定するタイトル決定部とを有する。
【0008】
好適には、前記決定ロジックは、前記画像の内容からタイトルを抽出するためのロジックであり、前記タイトル決定部は、選択された前記決定ロジックに従って、前記画像データから、タイトルの要素を抽出する。
【0009】
好適には、前記コンテンツ抽出部は、前記画像データから、単語に関する情報、文体、文字種、文字列の外観に関する情報、色の分布、及び、文字サイズの分布、の少なくとも一つを抽出し、前記ロジック選択部は、前記コンテンツ抽出部により抽出された、単語に関する情報、文体、文字種、文字列の外観に関する情報、色の分布、及び、文字サイズの分布、の少なくとも一つに基づいて、決定ロジックを選択する。
【0010】
好適には、前記コンテンツ抽出部は、前記画像データから、既定の単語が出現する出現頻度、又は、既定の単語が出現した出現位置を抽出し、前記ロジック選択部は、前記コンテンツ抽出部により抽出された、既定の単語が出現する出現頻度、又は、既定の単語が出現した出現位置に基づいて、決定ロジックを選択する。
【0011】
好適には、前記ロジック選択部は、既定の単語が出現する出現頻度、及び、既定の単語が出現した出現位置を入力データとした機械学習モデルを用いて、決定ロジックを選択する。
【0012】
好適には、前記タイトル決定部により決定されたタイトルを含むファイル名を、前記画像データのデータファイルに付与するファイル名付与部をさらに有する。
【0013】
好適には、前記決定ロジックには、画像の内容に基づいて複数のカテゴリー名の中から、採用するカテゴリーを選択する決定ロジックが含まれている。
【0014】
また、本発明に係る画像処理方法は、光学的に読み取られた画像データから、画像の内容に関する情報を抽出するコンテンツ抽出ステップと、前記コンテンツ抽出ステップにより抽出された情報に応じて、タイトルを決定するための決定ロジックを選択するロジック選択ステップと、前記ロジック選択ステップにより選択された決定ロジックに基づいて、前記画像データのタイトルを決定するタイトル決定ステップとを有する。
【0015】
また、本発明に係るプログラムは、光学的に読み取られた画像データから、画像の内容に関する情報を抽出するコンテンツ抽出ステップと、前記コンテンツ抽出ステップにより抽出された情報に応じて、タイトルを決定するための決定ロジックを選択するロジック選択ステップと、前記ロジック選択ステップにより選択された決定ロジックに基づいて、前記画像データのタイトルを決定するタイトル決定ステップとをコンピュータに実行させる。
【発明の効果】
【0016】
より高い精度で、画像データからタイトルを抽出することができる。
【図面の簡単な説明】
【0017】
【
図1】画像処理システム1の全体構成を例示する図である。
【
図3】画像処理装置2のハードウェア構成を例示する図である。
【
図4】画像処理装置2の機能構成を例示する図である。
【
図5】画像処理システム1における全体動作(S10)を説明するフローチャートである。
【
図6】コンテンツに対応した決定ロジックを例示する図である。
【発明を実施するための形態】
【0018】
図1は、画像処理システム1の全体構成を例示する図である。
図1に例示するように、画像処理システム1は、画像処理装置2及びスキャナ装置4を含み、ケーブル7を介して互いに接続している。なお、本例では、USBケーブルなどのケーブル7で接続する形態を具体例として説明するが、これに限定されるものではなく、例えば、無線により接続してもよい。また、スキャナ装置4の筐体内に、画像処理装置2の機能が内蔵されていてもよい。
画像処理装置2は、コンピュータ端末であり、スキャナ装置4により読み取られた画像データを処理する。具体的には、画像処理装置2は、スキャナ装置4により連続的に読み取られた画像データに関して、タイトルを決定し、決定されたタイトルを含むファイル名を付与する。
スキャナ装置4は、光学式の画像読取装置である。本例のスキャナ装置4は、原稿台にセットされた原稿を1枚ずつ送る自動原稿送り装置を含み、原稿台にセットされた原稿から、画像データを生成し、生成された画像データのデータファイルを画像処理装置2に転送する。
【0019】
上記構成において、スキャナ装置4が原稿をスキャンし、画像処理装置2が、スキャン文書の内容を容易に把握するためにその文書のタイトルを自動で抽出し、それを含むファイル名を付与する場合がある。
この場合、論文や報告書などのオーソドックスな文書であれば上部中央付近に大きな文字で書かれることが多く、タイトルを抽出することは容易だった。しかし、文書にはさまざまな種類があり、プレゼン資料や冊子、パンフレット、新聞などでは、適切にタイトルを抽出できないことが多かった。例えば、
図2に例示するプレゼン資料のケースでは、原稿上部の大きな文字をタイトル候補として優先するため、資料名(図中の「20XX年新製品のご紹介」)ではなく、会社名(図中の「ITコーポレーション」)を誤って抽出してしまう。原稿が新聞紙や会報等である場合も同様である。
【0020】
そこで、本実施形態の画像処理システム1では、タイトル決定に用いる決定ロジックを画像コンテンツに応じて切り替えることにより、画像コンテンツに適したタイトルの抽出が可能になる。すなわち、1種類のロジックでは種々のコンテンツに対応できないため、画像処理装置2は、複数の決定ロジックの中から、画像内容に応じた決定ロジックを選択し、選択した決定ロジックでタイトルを決定する。
【0021】
図3は、画像処理装置2のハードウェア構成を例示する図である。
図3に例示するように、画像処理装置2は、CPU200、メモリ202、HDD204、ネットワークインタフェース206(ネットワークIF206)、表示装置208、及び、入力装置210を有し、これらの構成はバス212を介して互いに接続している。
CPU200は、例えば、中央演算装置である。
メモリ202は、例えば、揮発性メモリであり、主記憶装置として機能する。
HDD204は、例えば、ハードディスクドライブ装置であり、不揮発性の記録装置としてコンピュータプログラム(例えば、
図4の画像処理プログラム3)やその他のデータファイルを格納する。
ネットワークIF206は、有線又は無線で通信するためのインタフェースであり、例えば、スキャナ装置4との通信を実現する。
表示装置208は、例えば、液晶ディスプレイである。
入力装置210は、例えば、キーボード及びマウスである。
【0022】
図4は、画像処理装置2の機能構成を例示する図である。
図4に例示するように、画像処理装置2には、画像処理プログラム3がインストールされている。
画像処理プログラム3は、コンテンツ抽出部300、ロジック選択部310、タイトル決定部320、及びファイル名付与部330を有する。
なお、画像処理プログラム3の一部又は全部は、ASICなどのハードウェアにより実現されてもよく、また、OS(Operating System)の機能を一部借用して実現されてもよい。
【0023】
画像処理プログラム3において、コンテンツ抽出部300は、光学的に読み取られた画像データから、画像の内容に関する情報を抽出する。抽出される情報は、例えば、単語に関する情報、文体、文字種、文字列の外観に関する情報、色の分布、及び、文字サイズの分布などである。より具体的には、コンテンツ抽出部300は、画像データに対して文字認識処理を施して、既定の単語が出現する出現頻度、及び、既定の単語が出現した出現位置を抽出する。
【0024】
ロジック選択部310は、コンテンツ抽出部300により抽出された情報に応じて、タイトルを決定するための決定ロジックを選択する。例えば、ロジック選択部310は、単語に関する情報、文体、文字種、文字列の外観に関する情報、色の分布、及び、文字サイズの分布、の少なくとも一つに基づいて、複数の決定ロジックの中から、採用する決定ロジックを選択する。
【0025】
タイトル決定部320は、ロジック選択部310により選択された決定ロジックに基づいて、画像データのタイトルを決定する。例えば、タイトル決定部320は、ロジック選択部310により選択された決定ロジックにより指定された画像領域の文字列を、タイトルの要素として抽出し、抽出された文字列を用いてタイトルを決定する。
【0026】
ファイル名付与部330は、タイトル決定部320により決定されたタイトルを含むファイル名を、画像データのデータファイルに付与する。例えば、ファイル名付与部330は、タイトル決定部320により決定されたタイトルと、スキャンした日付とを配列してファイル名とする。
【0027】
図5は、画像処理システム1における全体動作(S10)を説明するフローチャートである。
図5に例示するように、ステップ100(S100)において、スキャナ装置4は、原稿台にセットされた原稿を読取位置までフィードして、原稿から画像を読み取り、読み取られた画像データを画像処理装置2に送信する。
画像処理装置2のコンテンツ抽出部300(
図4)は、スキャナ装置4から受信した画像データから、画像の内容に関する情報を抽出し、抽出された情報に基づいて、画像コンテンツを識別する。抽出される情報は、例えば、OCR処理により抽出された、既定の単語の出現頻度、既定の単語の記載位置、単語や文をベクトル表現により意味の数値化(word2vec、sec2vecなど)、文体の種類(~ですます調、~ましょう調、~だ断定調、など)、文字種の含有割合(漢字、かな、カナ、数字、アルファベットなど)、及び、レイアウトや色など画像情報などである。学校関係や地域関係、各趣味関係などでは登場しやすい単語の頻度傾向があり、また、会報や定期的な文書や帳票などでは、特定の位置に同じ単語が記載されることが多く、さらには、各々のコンテンツジャンルにより、文体は揃っていることが多いので、上記の抽出情報によってコンテンツの識別が可能になる。
【0028】
ステップ105(S105)において、ロジック選択部310は、コンテンツ抽出部300により識別されたコンテンツに応じて、タイトルを決定するための決定ロジックを選択する。例えば、
図6に例示するように、コンテンツ分類(ビジネス文書、地域行政文書、子供学校関係文書など)に応じた決定ロジックが用意されている。例えば、
図6のビジネス文書用決定ロジック、地域行政文書用決定ロジック、及び、子供学校関係用決定ロジックは、コンテンツの識別が成功した場合に、適用されるものであり、カテゴリ選択型決定ロジックは、コンテンツの識別ができなかった場合に、適用されるものであり、画像の内容に基づいて複数のカテゴリー名の中から、いずれかのカテゴリーを選択し、選択されたカテゴリーに対応する領域の文字列をタイトルとするロジックである。
【0029】
ステップ110(S110)において、タイトル決定部320は、ロジック選択部310により選択された決定ロジックに基づいて、画像データのタイトルを決定する。例えば、タイトル決定部320は、決定ロジックにより指定された画像領域の文字列及び特徴を抽出し、抽出された特徴と、決定ロジックで定義された重み付け係数とに基づいて、抽出された各文字列のタイトルらしさを示すスコアを算出する。スコアの算出に用いる特徴は、例えば、抽出された文字列の大きさ絶対値、文字列の大きさ比(周囲の文字サイズとの比)、原稿中の文字列の位置、文字列周囲の余白、文字列に含まれる特定キーワード、文字列の色、及び、文字列の装飾(ボールド、下線付き、枠や飾りでの囲い、等)である。タイトル決定部320は、スコアの最も高い文字列をタイトルに決定する。
【0030】
ステップ115(S115)において、ファイル名付与部330は、タイトル決定部320により決定されたタイトルと、スキャンした日付とを配列してファイル名とし、スキャナ装置4から受信した画像データのデータファイルに、ファイル名を自動付与する。
【0031】
以上説明したように、本実施形態の画像処理システム1によれば、スキャナ装置4によりスキャンされた画像データについて、画像の内容に応じて決定ロジックを選択し、選択された決定ロジックを用いて画像データからタイトルを抽出する。これにより、文書の分類に適した決定ロジックでタイトルを抽出できるため、タイトル抽出の精度向上が期待できる。その結果、スキャン画像に対して適切なファイル名が自動的に付与され、ユーザが文書ファイルを探す際の効率が上がる。
【0032】
(コンテンツ識別処理の変形例)
次に、上記実施形態の変形例を説明する。まず、コンテンツ抽出部300によるコンテンツ識別処理の変形例を説明する。
コンテンツ抽出部300は、機械学習の学習モデルを用いて、スキャン画像のコンテンツを識別してもよい。すなわち、コンテンツ抽出部300は、画像データから特徴を抽出し、抽出された特徴と、学習モデルとに基づいて、コンテンツを識別する。学習モデルは、例えば、例えば、ナイーブベイズ、ロジスティック回帰、SVM (Support Vector Machine)、又は、ランダムフォレストなどであり、複数のサンプル原稿を用意して、予め学習モデルを用いて識別の特徴境界面を算出しておく。
【0033】
また、コンテンツ抽出部300は、上記の方法と、BERT(Bidirectional Encoder Representations from Transformers)やトピックモデルなどの高度な言語処理によるコンテンツ分類、文字列の位置やサイズ、罫線などのレイアウト情報でのコンテンツ分類、又は、写真やイラストから物体認識でのコンテンツ分類を組み合わせてもよい。より高精度なコンテンツ識別が期待できる。
例えば、写真やイラストの物体認識を行う場合、パスタ、ステーキ、オムライスなどが認識された場合に、料理系コンテンツであり、犬、猫、熱帯魚、カメレオンなどが認識された場合に、ペット系のコンテンツであり、テント、焚火、寝袋、ランタンなどが認識された場合に、キャンプ系コンテンツであり、フェラーリ、コルベット、ホンダNSXなどが認識された場合に、スポーツカー系のコンテンツであると分類できる。
【0034】
また、コンテンツ抽出部300は、画像データにおける色分布やレイアウトなどの画像特徴に基づいてコンテンツを分類してもよい。画像特徴としては、例えば、原稿上の色分布特徴(画像を小領域に分割し、領域ごとの使用色数をカウントしたもの)、色ごと画素数の分布特徴(色ごとに、記載された画素数をカウントしたもの)、文字位置の分布特徴(画像を小領域に分割し、領域ごとの文字数をカウントしたもの)、文字サイズの分布特徴(文字サイズごとに、記載された文字数をカウントしたもの)、文字列の行方向特徴(文字列の縦横方向を分け、それぞれの文字数をカウントしたもの)、又は、多段組の特徴(ひと固まりの文字列から、段組み数を推定したもの)などがある。
【0035】
(タイトル決定処理の変形例)
次に、タイトル決定部320によるタイトル決定処理の変形例を説明する。
タイトル決定部320は、機械学習も学習モデルを用いて、タイトルを決定してもよい。例えば、タイトル決定部320は、機械学習を用いてスコア計算を行う。機械学習に使うモデルは、例えば、ナイーブベイズ、ロジスティック回帰、SVM、ランダムフォレストなどである。複数のサンプル原稿を用意し、上記学習モデルを用いて原稿中の各文字列がタイトルか否かを判定する判定器を作成する。そのタイトル判定器は、タイトルか否かの判定結果と、タイトルらしさのスコアを出力する。タイトル抽出時には、タイトル決定部320が、原稿中の複数の各文字列に対して、上記タイトル判定器を使用しタイトルか否かを判定し、タイトルと判定された文字列の中から最もタイトルらしさのスコアが高かった文字列をタイトルとして出力する。
また、モデルの学習は、コンテンツの分類ごとに行う。コンテンツごとの学習は、上記特徴量の重みパラメータをコンテンツごとに調整することを意味する。コンテンツの分類ごとに複数のサンプル原稿を用意し、上記学習モデルを用いてタイトルか否かを学習させる。結果、コンテンツの分類ごとに最適化されたタイトル抽出器が仕上がる。
【0036】
タイトル決定部320及びファイル名付与部330は、コンテンツごとに抽出およびタイトル生成エンジンを切り替えてもよい。タイトル決定部320及びファイル名付与部330は、コンテンツごとに適したタイトル抽出ロジックを適用し、抽出エンジンを切り替える。具体的には、ビジネス文書ではレイアウトベースのタイトル抽出エンジンを使用する。請求書の場合、タイトル決定部320及びファイル名付与部330は、請求元会社名や支払期限など項目抽出ベースのタイトル抽出エンジンを使用し、抽出された項目値を連結しファイル名とする。会報の場合は、タイトル決定部320及びファイル名付与部330は、レイアウトベースで会報名を抽出した上、項目抽出ベースで発行日や号数を抽出し、それらを連結しファイル名とする。小説書籍などは会報と同様に、タイトル決定部320及びファイル名付与部330は、レイアウトベースで書籍タイトルを抽出した上、項目抽出ベースで著者や出版社を抽出し、それらを連結しファイル名とする。
【0037】
(その他の変形例)
上記実施形態では、タイトル決定部320により決定されたタイトルをファイル名の一部として利用する形態を説明したが、これに限定されるものではなく、例えば、検索キーワードとして利用してもよい。
【符号の説明】
【0038】
1…画像処理システム
2…画像処理装置
3…画像処理プログラム
4…スキャナ装置
300…コンテンツ抽出部
310…ロジック選択部
320…タイトル決定部
330…ファイル名付与部