2023-1657 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2023-1657画像処理装置、画像処理方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023001657

(43)【公開日】2023-01-06

(54)【発明の名称】画像処理装置、画像処理方法、及びプログラム

(51)【国際特許分類】

G06V 30/26 20220101AFI20221226BHJP

G06V 30/14 20220101ALI20221226BHJP

G06F 16/583 20190101ALI20221226BHJP

【ＦＩ】

G06K9/72 C

G06K9/20 340K

G06F16/583

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2021102506

(22)【出願日】2021-06-21

(71)【出願人】

【識別番号】000136136

【氏名又は名称】株式会社ＰＦＵ

(74)【代理人】

【識別番号】100137394

【弁理士】

【氏名又は名称】横井敏弘

(72)【発明者】

【氏名】島▲崎▼ 克仁

(72)【発明者】

【氏名】横川祥太

【テーマコード（参考）】

5B029

5B064

5B175

【Ｆターム（参考）】

5B029AA01

5B029BB02

5B029CC27

5B029CC28

5B064AA01

5B064BA01

5B064CA08

5B064DA31

5B064DA32

5B064DA33

5B064EA19

5B064EA27

5B064EA28

5B064EA32

5B175DA02

5B175FA01

5B175FB02

5B175HA01

(57)【要約】

【課題】より高い精度で、画像データからタイトルを抽出する画像処理装置を提供する。
【解決手段】画像処理装置は、光学的に読み取られた画像データから、画像の内容に関する情報を抽出するコンテンツ抽出部と、前記コンテンツ抽出部により抽出された情報に応じて、タイトルを決定するための決定ロジックを選択するロジック選択部と、前記ロジック選択部により選択された決定ロジックに基づいて、前記画像データのタイトルを決定するタイトル決定部とを有する。
【選択図】図４

【特許請求の範囲】

【請求項1】

光学的に読み取られた画像データから、画像の内容に関する情報を抽出するコンテンツ抽出部と、
前記コンテンツ抽出部により抽出された情報に応じて、タイトルを決定するための決定ロジックを選択するロジック選択部と、
前記ロジック選択部により選択された決定ロジックに基づいて、前記画像データのタイトルを決定するタイトル決定部と
を有する画像処理装置。

【請求項2】

前記決定ロジックは、前記画像の内容からタイトルを抽出するためのロジックであり、
前記タイトル決定部は、選択された前記決定ロジックに従って、前記画像データから、タイトルの要素を抽出する
請求項１に記載の画像処理装置。

【請求項3】

前記コンテンツ抽出部は、前記画像データから、単語に関する情報、文体、文字種、文字列の外観に関する情報、色の分布、及び、文字サイズの分布、の少なくとも一つを抽出し、
前記ロジック選択部は、前記コンテンツ抽出部により抽出された、単語に関する情報、文体、文字種、文字列の外観に関する情報、色の分布、及び、文字サイズの分布、の少なくとも一つに基づいて、決定ロジックを選択する
請求項２に記載の画像処理装置。

【請求項4】

前記コンテンツ抽出部は、前記画像データから、既定の単語が出現する出現頻度、又は、既定の単語が出現した出現位置を抽出し、
前記ロジック選択部は、前記コンテンツ抽出部により抽出された、既定の単語が出現する出現頻度、又は、既定の単語が出現した出現位置に基づいて、決定ロジックを選択する
請求項３に記載の画像処理装置。

【請求項5】

前記ロジック選択部は、既定の単語が出現する出現頻度、及び、既定の単語が出現した出現位置を入力データとした機械学習モデルを用いて、決定ロジックを選択する
請求項４に記載の画像処理装置。

【請求項6】

前記タイトル決定部により決定されたタイトルを含むファイル名を、前記画像データのデータファイルに付与するファイル名付与部
をさらに有する請求項５に記載の画像処理装置。

【請求項7】

前記決定ロジックには、画像の内容に基づいて複数のカテゴリー名の中から、採用するカテゴリーを選択する決定ロジックが含まれている
請求項６に記載の画像処理装置。

【請求項8】

光学的に読み取られた画像データから、画像の内容に関する情報を抽出するコンテンツ抽出ステップと、
前記コンテンツ抽出ステップにより抽出された情報に応じて、タイトルを決定するための決定ロジックを選択するロジック選択ステップと、
前記ロジック選択ステップにより選択された決定ロジックに基づいて、前記画像データのタイトルを決定するタイトル決定ステップと
を有する画像処理方法。

【請求項9】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理装置、画像処理方法、及びプログラムに関する。

【背景技術】

【0002】

例えば、特許文献１には、画像データにおける、文字列が記載された箇所を複数特定する特定部と、特定された複数の箇所の夫々について、画像データにおける位置、および記載された文字のサイズを含むレイアウト情報を取得するレイアウト情報取得部と、複数の箇所の夫々について、他の箇所との位置関係および他の箇所とのサイズ関係に基づいて、画像データに含まれ得る所定の属性を有する文字列としての尤度を算出し、尤度に基づいて、所定の属性を有する文字列が記載された箇所を推定する推定部とを備えた情報処理装置が開示されている。

【0003】

また、特許文献２には、原稿画像Ｉｋから抽出されたページ情報に従って原稿画像Ｉｋにファイル名を付与するファイル管理装置が開示されている。

【0004】

また、特許文献３には、原稿を光学的に読み取って画像データを取得する画像読取部１０と、取得された画像データにおいて複数の文字の集まりからなる文字ブロック及び当該文字ブロックに含まれる文字列を認識する文字列認識部１０２と、認識された各文字列について文字サイズ、行数、面積及び原稿における配置位置を特定する文字列外観特定部１０３と、特定された情報に基づいて原稿のタイプを判別する原稿タイプ判別部１０４と、認識された各文字列について原稿タイプ判別部１０４により判別された原稿タイプに応じた基準に準じた複数の評価項目で加重評価を行う文字列評価部１０５と、認識された文字列のうち文字列評価部１０５による評価点が高い文字列を画像データのファイル名候補として選出するファイル名候補選出部１０６とを備える原稿読取装置１が開示されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特許第６０５０８４３

【特許文献2】特開２００６－２５２４５５

【特許文献3】特許第６７５３３７０

【発明の概要】

【発明が解決しようとする課題】

【0006】

より高い精度で、画像データからタイトルを抽出する画像処理装置を提供することを目的とする。

【課題を解決するための手段】

【0007】

本発明に係る画像処理装置は、光学的に読み取られた画像データから、画像の内容に関する情報を抽出するコンテンツ抽出部と、前記コンテンツ抽出部により抽出された情報に応じて、タイトルを決定するための決定ロジックを選択するロジック選択部と、前記ロジック選択部により選択された決定ロジックに基づいて、前記画像データのタイトルを決定するタイトル決定部とを有する。

【0008】

好適には、前記決定ロジックは、前記画像の内容からタイトルを抽出するためのロジックであり、前記タイトル決定部は、選択された前記決定ロジックに従って、前記画像データから、タイトルの要素を抽出する。

【0009】

好適には、前記コンテンツ抽出部は、前記画像データから、単語に関する情報、文体、文字種、文字列の外観に関する情報、色の分布、及び、文字サイズの分布、の少なくとも一つを抽出し、前記ロジック選択部は、前記コンテンツ抽出部により抽出された、単語に関する情報、文体、文字種、文字列の外観に関する情報、色の分布、及び、文字サイズの分布、の少なくとも一つに基づいて、決定ロジックを選択する。

【0010】

好適には、前記コンテンツ抽出部は、前記画像データから、既定の単語が出現する出現頻度、又は、既定の単語が出現した出現位置を抽出し、前記ロジック選択部は、前記コンテンツ抽出部により抽出された、既定の単語が出現する出現頻度、又は、既定の単語が出現した出現位置に基づいて、決定ロジックを選択する。

【0011】

好適には、前記ロジック選択部は、既定の単語が出現する出現頻度、及び、既定の単語が出現した出現位置を入力データとした機械学習モデルを用いて、決定ロジックを選択する。

【0012】

好適には、前記タイトル決定部により決定されたタイトルを含むファイル名を、前記画像データのデータファイルに付与するファイル名付与部をさらに有する。

【0013】

好適には、前記決定ロジックには、画像の内容に基づいて複数のカテゴリー名の中から、採用するカテゴリーを選択する決定ロジックが含まれている。

【0014】

また、本発明に係る画像処理方法は、光学的に読み取られた画像データから、画像の内容に関する情報を抽出するコンテンツ抽出ステップと、前記コンテンツ抽出ステップにより抽出された情報に応じて、タイトルを決定するための決定ロジックを選択するロジック選択ステップと、前記ロジック選択ステップにより選択された決定ロジックに基づいて、前記画像データのタイトルを決定するタイトル決定ステップとを有する。

【0015】

また、本発明に係るプログラムは、光学的に読み取られた画像データから、画像の内容に関する情報を抽出するコンテンツ抽出ステップと、前記コンテンツ抽出ステップにより抽出された情報に応じて、タイトルを決定するための決定ロジックを選択するロジック選択ステップと、前記ロジック選択ステップにより選択された決定ロジックに基づいて、前記画像データのタイトルを決定するタイトル決定ステップとをコンピュータに実行させる。

【発明の効果】

【0016】

より高い精度で、画像データからタイトルを抽出することができる。

【図面の簡単な説明】

【0017】

【図1】画像処理システム１の全体構成を例示する図である。

【図2】タイトル抽出の失敗例を説明する図である。

【図3】画像処理装置２のハードウェア構成を例示する図である。

【図4】画像処理装置２の機能構成を例示する図である。

【図5】画像処理システム１における全体動作（Ｓ１０）を説明するフローチャートである。

【図6】コンテンツに対応した決定ロジックを例示する図である。

【発明を実施するための形態】

【0018】

図１は、画像処理システム１の全体構成を例示する図である。
図１に例示するように、画像処理システム１は、画像処理装置２及びスキャナ装置４を含み、ケーブル７を介して互いに接続している。なお、本例では、ＵＳＢケーブルなどのケーブル７で接続する形態を具体例として説明するが、これに限定されるものではなく、例えば、無線により接続してもよい。また、スキャナ装置４の筐体内に、画像処理装置２の機能が内蔵されていてもよい。
画像処理装置２は、コンピュータ端末であり、スキャナ装置４により読み取られた画像データを処理する。具体的には、画像処理装置２は、スキャナ装置４により連続的に読み取られた画像データに関して、タイトルを決定し、決定されたタイトルを含むファイル名を付与する。
スキャナ装置４は、光学式の画像読取装置である。本例のスキャナ装置４は、原稿台にセットされた原稿を１枚ずつ送る自動原稿送り装置を含み、原稿台にセットされた原稿から、画像データを生成し、生成された画像データのデータファイルを画像処理装置２に転送する。

【0019】

上記構成において、スキャナ装置４が原稿をスキャンし、画像処理装置２が、スキャン文書の内容を容易に把握するためにその文書のタイトルを自動で抽出し、それを含むファイル名を付与する場合がある。
この場合、論文や報告書などのオーソドックスな文書であれば上部中央付近に大きな文字で書かれることが多く、タイトルを抽出することは容易だった。しかし、文書にはさまざまな種類があり、プレゼン資料や冊子、パンフレット、新聞などでは、適切にタイトルを抽出できないことが多かった。例えば、図２に例示するプレゼン資料のケースでは、原稿上部の大きな文字をタイトル候補として優先するため、資料名（図中の「２０ＸＸ年新製品のご紹介」）ではなく、会社名（図中の「ＩＴコーポレーション」）を誤って抽出してしまう。原稿が新聞紙や会報等である場合も同様である。

【0020】

そこで、本実施形態の画像処理システム１では、タイトル決定に用いる決定ロジックを画像コンテンツに応じて切り替えることにより、画像コンテンツに適したタイトルの抽出が可能になる。すなわち、１種類のロジックでは種々のコンテンツに対応できないため、画像処理装置２は、複数の決定ロジックの中から、画像内容に応じた決定ロジックを選択し、選択した決定ロジックでタイトルを決定する。

【0021】

図３は、画像処理装置２のハードウェア構成を例示する図である。
図３に例示するように、画像処理装置２は、ＣＰＵ２００、メモリ２０２、ＨＤＤ２０４、ネットワークインタフェース２０６（ネットワークＩＦ２０６）、表示装置２０８、及び、入力装置２１０を有し、これらの構成はバス２１２を介して互いに接続している。
ＣＰＵ２００は、例えば、中央演算装置である。
メモリ２０２は、例えば、揮発性メモリであり、主記憶装置として機能する。
ＨＤＤ２０４は、例えば、ハードディスクドライブ装置であり、不揮発性の記録装置としてコンピュータプログラム（例えば、図４の画像処理プログラム３）やその他のデータファイルを格納する。
ネットワークＩＦ２０６は、有線又は無線で通信するためのインタフェースであり、例えば、スキャナ装置４との通信を実現する。
表示装置２０８は、例えば、液晶ディスプレイである。
入力装置２１０は、例えば、キーボード及びマウスである。

【0022】

図４は、画像処理装置２の機能構成を例示する図である。
図４に例示するように、画像処理装置２には、画像処理プログラム３がインストールされている。
画像処理プログラム３は、コンテンツ抽出部３００、ロジック選択部３１０、タイトル決定部３２０、及びファイル名付与部３３０を有する。
なお、画像処理プログラム３の一部又は全部は、ＡＳＩＣなどのハードウェアにより実現されてもよく、また、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）の機能を一部借用して実現されてもよい。

【0023】

画像処理プログラム３において、コンテンツ抽出部３００は、光学的に読み取られた画像データから、画像の内容に関する情報を抽出する。抽出される情報は、例えば、単語に関する情報、文体、文字種、文字列の外観に関する情報、色の分布、及び、文字サイズの分布などである。より具体的には、コンテンツ抽出部３００は、画像データに対して文字認識処理を施して、既定の単語が出現する出現頻度、及び、既定の単語が出現した出現位置を抽出する。

【0024】

ロジック選択部３１０は、コンテンツ抽出部３００により抽出された情報に応じて、タイトルを決定するための決定ロジックを選択する。例えば、ロジック選択部３１０は、単語に関する情報、文体、文字種、文字列の外観に関する情報、色の分布、及び、文字サイズの分布、の少なくとも一つに基づいて、複数の決定ロジックの中から、採用する決定ロジックを選択する。

【0025】

タイトル決定部３２０は、ロジック選択部３１０により選択された決定ロジックに基づいて、画像データのタイトルを決定する。例えば、タイトル決定部３２０は、ロジック選択部３１０により選択された決定ロジックにより指定された画像領域の文字列を、タイトルの要素として抽出し、抽出された文字列を用いてタイトルを決定する。

【0026】

ファイル名付与部３３０は、タイトル決定部３２０により決定されたタイトルを含むファイル名を、画像データのデータファイルに付与する。例えば、ファイル名付与部３３０は、タイトル決定部３２０により決定されたタイトルと、スキャンした日付とを配列してファイル名とする。

【0027】

図５は、画像処理システム１における全体動作（Ｓ１０）を説明するフローチャートである。
図５に例示するように、ステップ１００（Ｓ１００）において、スキャナ装置４は、原稿台にセットされた原稿を読取位置までフィードして、原稿から画像を読み取り、読み取られた画像データを画像処理装置２に送信する。
画像処理装置２のコンテンツ抽出部３００（図４）は、スキャナ装置４から受信した画像データから、画像の内容に関する情報を抽出し、抽出された情報に基づいて、画像コンテンツを識別する。抽出される情報は、例えば、ＯＣＲ処理により抽出された、既定の単語の出現頻度、既定の単語の記載位置、単語や文をベクトル表現により意味の数値化（word2vec、sec2vecなど）、文体の種類（～ですます調、～ましょう調、～だ断定調、など）、文字種の含有割合（漢字、かな、カナ、数字、アルファベットなど）、及び、レイアウトや色など画像情報などである。学校関係や地域関係、各趣味関係などでは登場しやすい単語の頻度傾向があり、また、会報や定期的な文書や帳票などでは、特定の位置に同じ単語が記載されることが多く、さらには、各々のコンテンツジャンルにより、文体は揃っていることが多いので、上記の抽出情報によってコンテンツの識別が可能になる。

【0028】

ステップ１０５（Ｓ１０５）において、ロジック選択部３１０は、コンテンツ抽出部３００により識別されたコンテンツに応じて、タイトルを決定するための決定ロジックを選択する。例えば、図６に例示するように、コンテンツ分類（ビジネス文書、地域行政文書、子供学校関係文書など）に応じた決定ロジックが用意されている。例えば、図６のビジネス文書用決定ロジック、地域行政文書用決定ロジック、及び、子供学校関係用決定ロジックは、コンテンツの識別が成功した場合に、適用されるものであり、カテゴリ選択型決定ロジックは、コンテンツの識別ができなかった場合に、適用されるものであり、画像の内容に基づいて複数のカテゴリー名の中から、いずれかのカテゴリーを選択し、選択されたカテゴリーに対応する領域の文字列をタイトルとするロジックである。

【0029】

ステップ１１０（Ｓ１１０）において、タイトル決定部３２０は、ロジック選択部３１０により選択された決定ロジックに基づいて、画像データのタイトルを決定する。例えば、タイトル決定部３２０は、決定ロジックにより指定された画像領域の文字列及び特徴を抽出し、抽出された特徴と、決定ロジックで定義された重み付け係数とに基づいて、抽出された各文字列のタイトルらしさを示すスコアを算出する。スコアの算出に用いる特徴は、例えば、抽出された文字列の大きさ絶対値、文字列の大きさ比（周囲の文字サイズとの比）、原稿中の文字列の位置、文字列周囲の余白、文字列に含まれる特定キーワード、文字列の色、及び、文字列の装飾（ボールド、下線付き、枠や飾りでの囲い、等）である。タイトル決定部３２０は、スコアの最も高い文字列をタイトルに決定する。

【0030】

ステップ１１５（Ｓ１１５）において、ファイル名付与部３３０は、タイトル決定部３２０により決定されたタイトルと、スキャンした日付とを配列してファイル名とし、スキャナ装置４から受信した画像データのデータファイルに、ファイル名を自動付与する。

【0031】

以上説明したように、本実施形態の画像処理システム１によれば、スキャナ装置４によりスキャンされた画像データについて、画像の内容に応じて決定ロジックを選択し、選択された決定ロジックを用いて画像データからタイトルを抽出する。これにより、文書の分類に適した決定ロジックでタイトルを抽出できるため、タイトル抽出の精度向上が期待できる。その結果、スキャン画像に対して適切なファイル名が自動的に付与され、ユーザが文書ファイルを探す際の効率が上がる。

【0032】

（コンテンツ識別処理の変形例）
次に、上記実施形態の変形例を説明する。まず、コンテンツ抽出部３００によるコンテンツ識別処理の変形例を説明する。
コンテンツ抽出部３００は、機械学習の学習モデルを用いて、スキャン画像のコンテンツを識別してもよい。すなわち、コンテンツ抽出部３００は、画像データから特徴を抽出し、抽出された特徴と、学習モデルとに基づいて、コンテンツを識別する。学習モデルは、例えば、例えば、ナイーブベイズ、ロジスティック回帰、SVM (Support Vector Machine)、又は、ランダムフォレストなどであり、複数のサンプル原稿を用意して、予め学習モデルを用いて識別の特徴境界面を算出しておく。

【0033】

また、コンテンツ抽出部３００は、上記の方法と、BERT（Bidirectional Encoder Representations from Transformers）やトピックモデルなどの高度な言語処理によるコンテンツ分類、文字列の位置やサイズ、罫線などのレイアウト情報でのコンテンツ分類、又は、写真やイラストから物体認識でのコンテンツ分類を組み合わせてもよい。より高精度なコンテンツ識別が期待できる。
例えば、写真やイラストの物体認識を行う場合、パスタ、ステーキ、オムライスなどが認識された場合に、料理系コンテンツであり、犬、猫、熱帯魚、カメレオンなどが認識された場合に、ペット系のコンテンツであり、テント、焚火、寝袋、ランタンなどが認識された場合に、キャンプ系コンテンツであり、フェラーリ、コルベット、ホンダNSXなどが認識された場合に、スポーツカー系のコンテンツであると分類できる。

【0034】

また、コンテンツ抽出部３００は、画像データにおける色分布やレイアウトなどの画像特徴に基づいてコンテンツを分類してもよい。画像特徴としては、例えば、原稿上の色分布特徴（画像を小領域に分割し、領域ごとの使用色数をカウントしたもの）、色ごと画素数の分布特徴（色ごとに、記載された画素数をカウントしたもの）、文字位置の分布特徴（画像を小領域に分割し、領域ごとの文字数をカウントしたもの）、文字サイズの分布特徴（文字サイズごとに、記載された文字数をカウントしたもの）、文字列の行方向特徴（文字列の縦横方向を分け、それぞれの文字数をカウントしたもの）、又は、多段組の特徴（ひと固まりの文字列から、段組み数を推定したもの）などがある。

【0035】

（タイトル決定処理の変形例）
次に、タイトル決定部３２０によるタイトル決定処理の変形例を説明する。
タイトル決定部３２０は、機械学習も学習モデルを用いて、タイトルを決定してもよい。例えば、タイトル決定部３２０は、機械学習を用いてスコア計算を行う。機械学習に使うモデルは、例えば、ナイーブベイズ、ロジスティック回帰、SVM、ランダムフォレストなどである。複数のサンプル原稿を用意し、上記学習モデルを用いて原稿中の各文字列がタイトルか否かを判定する判定器を作成する。そのタイトル判定器は、タイトルか否かの判定結果と、タイトルらしさのスコアを出力する。タイトル抽出時には、タイトル決定部３２０が、原稿中の複数の各文字列に対して、上記タイトル判定器を使用しタイトルか否かを判定し、タイトルと判定された文字列の中から最もタイトルらしさのスコアが高かった文字列をタイトルとして出力する。
また、モデルの学習は、コンテンツの分類ごとに行う。コンテンツごとの学習は、上記特徴量の重みパラメータをコンテンツごとに調整することを意味する。コンテンツの分類ごとに複数のサンプル原稿を用意し、上記学習モデルを用いてタイトルか否かを学習させる。結果、コンテンツの分類ごとに最適化されたタイトル抽出器が仕上がる。

【0036】

タイトル決定部３２０及びファイル名付与部３３０は、コンテンツごとに抽出およびタイトル生成エンジンを切り替えてもよい。タイトル決定部３２０及びファイル名付与部３３０は、コンテンツごとに適したタイトル抽出ロジックを適用し、抽出エンジンを切り替える。具体的には、ビジネス文書ではレイアウトベースのタイトル抽出エンジンを使用する。請求書の場合、タイトル決定部３２０及びファイル名付与部３３０は、請求元会社名や支払期限など項目抽出ベースのタイトル抽出エンジンを使用し、抽出された項目値を連結しファイル名とする。会報の場合は、タイトル決定部３２０及びファイル名付与部３３０は、レイアウトベースで会報名を抽出した上、項目抽出ベースで発行日や号数を抽出し、それらを連結しファイル名とする。小説書籍などは会報と同様に、タイトル決定部３２０及びファイル名付与部３３０は、レイアウトベースで書籍タイトルを抽出した上、項目抽出ベースで著者や出版社を抽出し、それらを連結しファイル名とする。

【0037】

（その他の変形例）
上記実施形態では、タイトル決定部３２０により決定されたタイトルをファイル名の一部として利用する形態を説明したが、これに限定されるものではなく、例えば、検索キーワードとして利用してもよい。

【符号の説明】

【0038】

１…画像処理システム
２…画像処理装置
３…画像処理プログラム
４…スキャナ装置
３００…コンテンツ抽出部
３１０…ロジック選択部
３２０…タイトル決定部
３３０…ファイル名付与部

【図1】