(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0011】
[実施の形態]
図1は、本発明の実施の形態に係る画像処理システムの概要を示す。
【0012】
[画像処理システム1の概要]
本実施形態に係る画像処理システム1は、複数のオブジェクトを含む領域の動画を撮像し、撮像した動画から所定のオブジェクト及び/又は当該所定のオブジェクトに記載されている情報を自動的に抽出するシステムである。例えば、画像処理システム1は、撮像領域に複数の領収書(複数の領収書は、互いに形状・サイズ、表面の記載様式が異なっていてよい)、名刺、その他の紙片が複数存在している状態を動画撮像した場合に、これらの中から特定のオブジェクト、一例として、当該複数の領収書及び/又は当該複数の領収書に記載の情報を自動的に抽出する。画像処理システム1は、撮像領域にオブジェクトの少なくとも一部が含まれ、当該オブジェクトが所定のオブジェクトであるか否かを適切に抽出できないと判断した場合、適切に抽出できないと判断したオブジェクトが存在すると推定される領域をユーザにリアルタイムで分かりやすく通知することができる。この通知により、ユーザが当該オブジェクトについて再び動画を撮像することで、画像処理システム1は当該オブジェクトを動画から適切に抽出することができる。
【0013】
例えば、
図1に示すように、画像処理システム1が、所定の撮像領域の動画を撮像するカメラを有する情報端末2と、所定の情報処理を実行するサーバ3とを備え、情報端末2とサーバ3とが通信網4によって双方向通信可能に接続されている例を挙げて説明する。
【0014】
まず、複数のオブジェクト(例えば、オブジェクト80、オブジェクト82、オブジェクト84、オブジェクト86、及びオブジェクト88)が配置されており、これらを含む領域の動画を情報端末2のカメラで撮像する。
図1(a)の例では、カメラの撮像領域100に複数のオブジェクトの少なくとも一部が含まれている。なお、複数のオブジェクトは、例えばユーザが所定の場所に配置してよい。また、各オブジェクトの形状及び/又はサイズは互いに異なっていてもよい。ここでは、所定のオブジェクトとして、一例として、様々な形状・サイズを有し、様々な様式・書式で作成される領収書(レシート)である場合を想定し、説明する。
【0015】
ここで、
図1(a)においては、オブジェクト82の一部が他のオブジェクト80の下に配置されており、オブジェクト84の一の隅が折りたたまれており、オブジェクト88の多くの領域が撮像領域100の外に存在している。ただし、オブジェクト88を除いた他のオブジェクトの表面には、領収書の内容を把握する情報(例えば、日付、金額、電話番号等)が適切に表れているものとする。画像処理システム1は、複数のオブジェクトが撮像された動画から動画構成画像を抽出する。
【0016】
次に、画像処理システム1は、動画構成画像に所定のオブジェクトが含まれているか否か、及び/又は所定のオブジェクトと考えられるオブジェクトが含まれているか否か(以下、単に「所定のオブジェクトが含まれているか否か」という。)を判断する。例えば、画像処理システム1は、動画構成画像に含まれるオブジェクトが所定のオブジェクトであるか否かを判定するための学習モデルを予め準備する。そして、画像処理システム1は、学習モデルを用い、動画構成画像に含まれている1以上のオブジェクトのそれぞれが所定のオブジェクトであるか否かを判断する。これにより、画像処理システム1は、動画構成画像に含まれる複数のオブジェクトそれぞれについて、所定のオブジェクト、及び/又は所定のオブジェクトと考えられるオブジェクトを認識できる(例えば、所定のオブジェクトが領収書である場合において、動画構成画像に領収書と領収書とは異なる物体とが含まれていた場合、画像処理システム1は、領収書については領収書として認識し、領収書とは異なる物体については領収書ではないと認識する。)。
【0017】
この学習モデルは、一例として、予め取得した大量の所定のオブジェクトの画像や、所定のオブジェクトのエッジやコーナー、及び特徴点等の特徴量についての情報に基づいて生成された学習モデルであって、動画構成画像に含まれるオブジェクトが所定のオブジェクトであるか否かを判定するための学習モデルである。なお、画像処理システム1は、所定のオブジェクトを識別する識別子に対応付けて当該オブジェクトの特徴量に関する情報を格納するテーブルを用い、動画構成画像に含まれている1以上のオブジェクトのそれぞれが所定のオブジェクトであるか否かを判断してもよい。ただし、本実施形態においては、様々な形状・サイズの所定のオブジェクトに柔軟・迅速・的確に対応する観点から、学習モデルを用いて所定のオブジェクトであるか否かを判断することが好ましい。
【0018】
次に、画像処理システム1は、動画構成画像に含まれる所定のオブジェクト、及び/又は所定のオブジェクトと考えられるオブジェクトそれぞれの特徴点等の1以上の特徴量を抽出し、特徴量の動画構成画像間の類似度を判別する(以下、「マッチング処理」という。)。つまり、画像処理システム1は、一の動画構成画像に含まれる1以上のオブジェクトそれぞれの1以上の特徴量と、他の動画構成画像に含まれる1以上のオブジェクトそれぞれの1以上の特徴量との類似度を判別する。これにより、画像処理システム1は、一の動画構成画像に含まれるオブジェクトと他の動画構成画像に含まれるオブジェクトとが同一であるか否かや、同一である確率が所定値以上であるか否かを判別できる。なお、本実施形態においては特に言及しない限り、「特徴量」は「特徴点」を含む概念、つまり、「特徴点」の上位概念として扱う(以下同じ。)。
【0019】
続いて、画像処理システム1は、類似度に基づいて、動画構成画像中の所定のオブジェクトが存在する領域として、例えば、実質的に所定のオブジェクトの全体が含まれている領域を特定し、また、所定のオブジェクトが存在している可能性がある領域として、例えば、所定のオブジェクトの一部が存在している領域を特定する。例えば、画像処理システム1は、一の動画構成画像のオブジェクトの特徴量の数が所定数以上(特徴量群)であって、一の動画構成画像のオブジェクトの特徴量群と他の動画構成画像のオブジェクトの特徴量群との類似度が所定値以上の場合、当該オブジェクトの実質的に全体が動画構成画像に含まれていると判断し、当該オブジェクトの動画構成画像に占める領域を特定する。一方、画像処理システム1は、一の動画構成画像のオブジェクトの特徴量の数が所定数未満の場合や、一の動画構成画像のオブジェクトの特徴量群と他の動画構成画像のオブジェクトの特徴量群との類似度が所定値未満の場合(つまり、類似度が低い場合)、手振れやボケ等により動画構成画像に当該オブジェクトの全体が含まれているとは限らない(つまり、当該オブジェクトの一部しか動画構成画像に適切に含まれていないこと等により、動画構成画像に当該オブジェクトが適切に含まれていない)と判断し、動画構成画像において当該オブジェクトの一部が占める領域を特定する。
【0020】
そして、画像処理システム1は、特定した領域に所定の画像やマーク等の情報をオーバーレイし、情報端末2の表示部に表示させる(オーバーレイ処理)。例えば、画像処理システム1は、所定のオブジェクトが存在する領域(実質的に全体が含まれ得ると判断されたオブジェクトの動画構成画像に占める領域)と、所定のオブジェクトが存在している可能性がある領域(一部しか含まれていないと判断されたオブジェクトの動画構成画像に占める領域)とに互いに異なる画像及び/又はマークを重畳表示する。
【0021】
例えば、
図1(b)に示すように、画像処理システム1は、オブジェクト80乃至オブジェクト86については所定のオブジェクトであると判断した上で、マッチング処理の結果、動画構成画像中にこれらのオブジェクト(の全体)が存在するとし、これらのオブジェクトに所定のマーク(一例として、チェックマーク)及び/又は所定色のレイヤーを重畳表示する。また、画像処理システム1は、オブジェクト88については所定のオブジェクトであると判断し得るものの、その一部しか撮像領域100内に存在していないので、オブジェクト88が存在する領域を所定のオブジェクトが存在している可能性がある領域と判断する。そして、画像処理システム1は、オブジェクト88の表示領域に所定のマーク(一例として、エクスクラメーションマーク)及び/又は所定色(なお、この色はオブジェクト80等に重畳表示するレイヤーとは異なる色であることが好ましい。)のレイヤーを重畳表示する。画像処理システム1は、所定のマーク及び/又は所定色のレイヤーを動画構成画像中のオブジェクトに重畳表示した状態を、情報端末2の表示部に表示させる。
【0022】
これにより、ユーザは、撮像領域100から所定のオブジェクトがはみ出しており(
図1(b)の例では、オブジェクト88の一部が撮像領域100からはみ出している)、所定のオブジェクトについて、少なくともその全体を含んでいないという点から、適切に撮像できなかった可能性があることを把握できる。そのため、ユーザは、情報端末2を用いて再度、オブジェクト88の動画を撮像することができる。すなわち、画像処理システム1は、動画を撮像しながら「所定のオブジェクトが存在している可能性がある領域」をユーザに通知できるので、ユーザは撮像を中断せずに引き続き動画撮像を続行し、適切に撮像できなかったオブジェクトを把握できる。
【0023】
そして、画像処理システム1は動画を撮像しているので、撮像領域内の複数の所定のオブジェクトそれぞれの動画構成画像を抽出した場合、一の所定のオブジェクトに対し、複数の動画構成画像が存在していることになる。そこで、画像処理システム1は、複数の動画構成画像から複数のオブジェクトそれぞれについて、オブジェクト表面の各種情報を取得することが適切にできる動画構成画像と判断される画像である代表画像を選択する。画像処理システム1は選択した代表画像に所定の画像処理を施し、例えば、光学文字認識(OCR)により読み取り可能なデータとして格納する。
【0024】
そして、画像処理システム1は、当該データに基づいて、動画に含まれる所定のオブジェクトの表面に記載された情報を読み取り、読み取った内容を情報端末2等の表示部等に出力できる。例えば、所定のオブジェクトが領収書である場合、画像処理システム1は、
図1(c)に示すように、複数の領収書を撮像領域100に含む動画を撮像して生成したOCR読み取り可能なデータを実際に読み取り、読取の結果200を情報端末2の表示部等に出力させてもよい。この場合、画像処理システム1は、例えば、所定のオブジェクトが領収書の場合、各領収書の具体的な内容として、領収書記載の日付や発行会社、及び金額を含む内容202及び内容204等を出力させることができる。更に、画像処理システム1は、読み取った情報を格納し、格納した情報を画像処理システム1外の会計システムや家計簿システム等に引き渡すこともできる(なお、画像処理システム1は、読み取った情報を直接、画像処理システム1外の会計システム等に引き渡してもよい。)。
【0025】
これにより、画像処理システム1によれば、複数のオブジェクトを1枚1枚撮像することやスキャナでスキャンすることを要せず、複数のオブジェクトを机の上等に配置した状態を動画撮像するか、あるいはカメラの前で複数のオブジェクトをパラパラめくる様子を動画撮像するだけで、複数のオブジェクトそれぞれを識別すると共に各オブジェクト表面の情報を適切に抽出できる。したがって、オブジェクトが例えば様々な形状や様式で作成される領収書等である場合、膨大な枚数の領収書の処理を要する会計事務所や多くの枚数の領収書の処理を要する個人事業主等、又は家計簿等を作成する様々な人々の会計や経理等の処理の手間を低減させユーザビリティを向上させることができる。また、画像処理システム1は、動画撮像時に適切に情報を抽出できなかった領収書を特定し、当該領収書がどの領収書であるかユーザに分かりやすく通知することで、領収書の読み取りミスを低減することもできる。更に、画像処理システム1は、撮像領域を再撮像する場合、既に抽出した領収書の特徴量を記憶し、再撮像の動画構成画像を都度、マッチングすることもできる。これにより、画像処理システム1は、再撮像する場合において、既に撮像して抽出した領収書については再撮像の対象から除外することもできる。
【0026】
なお、画像処理システム1は、オーバーレイ処理後、代表画像の選択においてOCRに最も適した代表画像を選択することを目的として、クラスタリングを実行してもよい。
【0027】
すなわち、上記学習モデルを用いて画像処理システム1が、動画構成画像に含まれるオブジェクトが所定のオブジェクトである、及び/又は所定のオブジェクトと考えられるオブジェクトであると判断した場合、上記の通り画像処理システム1は、各オブジェクトそれぞれについて、オブジェクトの複数の特徴量(特徴量群)を抽出する。そして、画像処理システム1は、オーバーレイ処理実行後、抽出した特徴量群を用い、動画構成画像をクラスタリングする。動画撮像していることから複数の動画構成画像それぞれに所定のオブジェクトが含まれる。これを放置すると、すべての動画構成画像から複数の一の所定のオブジェクトが抽出される場合がある。したがって、画像処理システム1は、クラスタリングにより、抽出した所定のオブジェクト及び/又は所定のオブジェクトと考えられるオブジェクトそれぞれについて個別のオブジェクトとして認識、分類(クラスター化)できるようにする(つまり、一のオブジェクトが1個だけ存在する場合において、動画撮像すると複数の動画構成画像それぞれに一のオブジェクトが含まれることになる。この場合に、一のオブジェクトが複数存在すると認識するのではなく、クラスタリングにより一のオブジェクトが1個存在すると認識、分類できるようにする。)。
【0028】
このクラスタリングは、クラスタリングに要求される情報処理量に応じ、サーバ3においてリアルタイムで実行されてよい。このクラスタリングにおいて画像処理システム1は、動画構成画像に含まれている所定のオブジェクトが存在している領域、及び/又は所定のオブジェクトと考えられるオブジェクトが存在している可能性がある領域を推定してもよい。これにより、画像処理システム1は、動画構成画像に実質的に所定のオブジェクトの全体が含まれている領域、及び/又は所定のオブジェクトが存在している可能性がある領域を推定できる。
【0029】
そして、画像処理システム1は、クラスタリングの結果に基づいて、動画構成画像中の所定のオブジェクトが存在する領域として、実質的に所定のオブジェクトの全体が含まれている領域と、所定のオブジェクトが存在している可能性がある領域として、所定のオブジェクトの一部が存在している領域との少なくとも一つを特定する。そして、画像処理システム1は、クラスタリングの結果に基づいて、実質的に所定のオブジェクトの全体が含まれている領域を有する動画構成画像を、代表画像として選択できる。なお、画像処理システム1は、動画構成画像に所定のオブジェクトが存在すると判断され、クラスタリングによりそのオブジェクトの一部しか含まれていないと判断された領域について「所定のオブジェクトが存在している可能性がある領域」を有する動画構成画像であると判断できる。
【0030】
なお、本実施形態においてオブジェクトは、同一形状、若しくは互いに異なる形状を有し、平面的な形状を有するオブジェクトである。オブジェクトの形状に特に限定はないが、例えば、四辺形状であってよく、四隅や四辺の少なくとも一部が欠損していてもよい。また、オブジェクトのサイズにも特に限定はない。そして、オブジェクトの表面には、様々な様式で、各種の情報(テキスト情報、図形情報、手書きの文字や数字、図形等)が印字、印刷、及び/又は記載等されていてよい。オブジェクトとしては、一例として、見積書、請求書、及び/又は領収書等が挙げられるがこれらに限られない。オブジェクトが領収書等である場合、オブジェクト表面に記載されている情報としては、発行年月日、発行時刻、宛名、金額、摘要、発行者名、及び/又は発行者の電話番号等の情報が挙げられる。したがって、本実施形態に係る画像処理システム1が撮像する動画には、様々な形状、様々なサイズの複数のオブジェクトであって、表面に様々な情報が記載されている複数のオブジェクトの画像が含まれていてよい。すなわち、画像処理システム1が撮像する複数のオブジェクトそれぞれの形状、サイズ、及び/又は表面に記載の情報は、それぞれ異なっていてよい。画像処理システム1は、複数のオブジェクトから、所定のオブジェクトのみを抽出できる。
【0031】
また、情報端末2は、携帯通信端末やスマートフォン、ノートパソコン、及び/又はタブレット型PC等であってよく、動画撮像可能な撮像装置に接続可能なPC等の情報端末や時計等であってもよい。更に、通信網4は、携帯電話網、及び/又はインターネット等の通信網である。通信網4は、有線LAN及び無線LAN等の通信ネットワークを含むこともできる。そして、以下において本実施形態に係る画像処理システム1の詳細を説明するが、上記説明及び下記説明における名称や数値、数量等はあくまで例示であり、これらの名称や数値、数量等に限定されることはないことを付言する。
【0032】
[画像処理システム1の構成の詳細]
図2は、本発明の実施の形態に係る画像処理システムの機能構成の一例を示す。
【0033】
<画像処理システム1の構成の概要>
画像処理システム1は、動画を撮像する動画撮像部10と、動画から動画構成画像を抽出する構成画像抽出部12と、動画構成画像中のオブジェクトを検出するオブジェクト判断部14と、オブジェクトの特徴量を抽出する特徴量抽出部16と、オブジェクトのエッジを検出するエッジ検出部18と、関心領域を検出する関心領域検出部20と、動画構成画像間の類似度を判断するマッチング処理部22と、クラスタリングを実行するクラスタリング部26と、ノイズを除去するノイズフィルタリング部28と、オーバーレイを実行するオーバーレイ部30と、代表画像を選択する代表画像選択部32と、画像に所定の処理を施す画像処理部34と、オブジェクトの方向を調整する方向調整部36と、所定の情報を格納する情報格納部38と、学習モデルを生成する学習モデル生成部40と、所定の情報の入力を受け付ける入力部42と、所定の情報を出力する出力部44と、オブジェクト表面のテキストデータ等を読み取る読取部46とを備える。
【0034】
なお、画像処理システム1は、上記複数の構成要素を物理的に同一の場所に有するだけでなく、上記複数の構成要素の一部を物理的に離れた位置に設置してもよい。例えば、画像処理システム1は、情報端末2と当該情報端末2に通信網4等で接続されるサーバ3とを備えて構成してもよく、情報端末2が上記複数の構成要素の一部を備え、サーバ3が残りの構成要素を備える構成を採用してもよい。なお、サーバは、複数のサーバの集合体であってもよく、この場合、各サーバが動画撮像部10を除く他の構成要素の一部若しくはすべてを担う。また、画像処理システム1は、動画撮像部10を有する撮像装置と、動画撮像部10を除く他の構成要素を有する1以上の画像処理装置とから構成してもよい。「1以上の画像処理装置」を複数の処理装置で構成する場合、動画撮像部10を除く他の構成要素を、情報処理能力や果たすべき機能に応じ、各処理装置に適宜割り振ることができる。
【0035】
<画像処理システム1の構成の詳細>
(動画撮像部10、構成画像抽出部12)
動画撮像部10は、撮像領域の動画を撮像する。動画撮像部10は、撮像領域に含まれる複数のオブジェクトを動画で撮像する。なお、動画撮像部10は、フレームレートを適宜調整して動画を撮像してもよい。動画撮像部10は、撮像した動画を構成画像抽出部12に供給する。構成画像抽出部12は、動画撮像部10から受け取った動画から動画構成画像を抽出する。構成画像抽出部12は、動画から複数の動画構成画像を抽出する。ここで、動画構成画像とは、フレーム画像、フィールド画像、及びその他の動画を構成する様々な形式の画像である。構成画像抽出部12は、抽出した動画構成画像をオブジェクト判断部14、特徴量抽出部16、エッジ検出部18、及び関心領域検出部20に供給する。
【0036】
(オブジェクト判断部14、学習モデル生成部40)
オブジェクト判断部14は、構成画像抽出部12から受け取った動画構成画像に所定のオブジェクトが含まれているか否か(所定のオブジェクトが存在している可能性があるか否かを含む。以下同じ。)を判断する。オブジェクト判断部14は、動画構成画像に所定のオブジェクトが含まれているか否かや、所定のオブジェクトの動画構成画像中における位置及び/又は所定のオブジェクトが動画構成画像中で占める領域を判断する。オブジェクト判断部14は、既知の画像認識技術や機械学習を用いて当該判断を実行できる。例えば、オブジェクト判断部14は、所定のオブジェクトの特徴(オブジェクトの画像等の特徴)に関する予め準備した学習モデルを用いて動画構成画像に所定のオブジェクトが含まれているか否か判断する。すなわち、オブジェクト判断部14は、ニューラルネットワークを用いて大量の所定のオブジェクトの画像について学習させることにより構築された学習モデルを用いた推論処理により、所定のオブジェクトが動画構成画像に含まれているか否かを判断する。例えば、オブジェクト判断部14は、動画構成画像から抽出されるオブジェクトの画像中での特徴と当該学習モデルとを用い、動画構成画像に所定のオブジェクトが存在している可能性があるか否か、及び動画構成画像の各オブジェクトが所定のオブジェクトであるか否かを判断する。なお、後述する特徴量抽出部16の抽出結果とエッジ検出部18の検出結果との双方を併用することで、オブジェクト判断部14における判断の精度を向上させることができる。
【0037】
具体的に、学習モデル生成部40は、複数のオブジェクトそれぞれの特徴と当該特徴に対応する所定のオブジェクトの種類との組み合わせを含む教師データを取得若しくは生成し、取得若しくは生成した複数の教師データに基づき、複数の動画構成画像を入力、対応する所定のオブジェクトの種類を出力とする学習モデルを生成する。そして、オブジェクト判断部14は、学習モデル生成部40が生成した学習モデルに基づいて動画構成画像に含まれるオブジェクトが、所定のオブジェクトであるか否か、所定のオブジェクトである可能性があるか否かを特定する。オブジェクト判断部14は、このような学習モデルを用いて動画構成画像に含まれるオブジェクトが所定のオブジェクトであるか否か、所定のオブジェクトである可能性があるか否かを判断できるので、例えば、所定のオブジェクトとしての領収書を除く他のオブジェクトである四辺形状の物体(例えば、書籍や商品パッケージ等)を領収書として認識しないようにすることができる。また、オブジェクト判断部14は、このような学習モデルを用いて所定のオブジェクトの有無を判断できるので、例えば、所定のオブジェクトの色と背景色とのコントラストが低い場合(一例として、背景が白であり、所定のオブジェクトの色も白に近い色である場合)であっても、所定のオブジェクトを認識できる。オブジェクト判断部14は、判断結果を特徴量抽出部16、オーバーレイ部30に供給する。
【0038】
(特徴量抽出部16)
特徴量抽出部16は、動画構成画像に含まれるオブジェクトの特徴点等の特徴量を抽出する。特徴量抽出部16は、構成画像抽出部12から受け取った動画構成画像に含まれるオブジェクトであって、オブジェクト判断部14が所定のオブジェクト及び/又は所定のオブジェクトである可能性があると判断したオブジェクトの特徴点等の特徴量を抽出する(以下、特に言及しない限り、「所定のオブジェクト」とは、所定のオブジェクト及び所定のオブジェクトである可能性があるオブジェクトの双方を含むものとする。)。特徴量抽出部16は、動画構成画像に含まれる1つ以上の所定のオブジェクトそれぞれの1つ以上の特徴点及び各特徴点等の特徴量を抽出できる。本実施形態において、一のオブジェクトの1つ以上の特徴点を特徴点群と称する場合がある。また、特徴量抽出部16は、動画構成画像において、所定のオブジェクトが含まれていないと判断された領域の特徴量を削除することもできる。つまり、特徴量抽出部16は、所定のオブジェクトの特徴量(群)を除く他の特徴量(群)を削除できる。なお、特徴量抽出部16が抽出した特徴量(群)からオブジェクトのエッジ推定が可能である場合、エッジ検出部18のエッジ検出処理及び/又は後述する関心領域検出部20の関心領域検出処理を省略できる。
【0039】
特徴量抽出部16は、従来公知のアルゴリズムを用いることができる。例えば、特徴量抽出部16は、Maximally Stable Extermal Regions(MSER)、Features from Accelerated Segment Test(FAST)、Oriented−BRIEF(ORB)、Scale−Invariant Feature Transform(SIFT)、Speed−Up Robust Features(SURF)等のアルゴリズムを用い、オブジェクトの特徴点やその特徴量を抽出できる。なお、ORB、SIFT、及びSURFにおいては、特徴点の抽出、及び特徴量の算出が可能であり、MSER及びFASTにおいては、特徴点の抽出後、ORB、SIFT、又はSURF等を用いて特徴量の算出ができる。なお、特徴量抽出部16が動画構成画像に含まれるオブジェクトの特徴点及び特徴量を抽出した後、撮像領域内における当該オブジェクトの位置が変化した場合であっても、抽出した特徴点を用いて変化後の当該オブジェクトの撮像領域内における位置を追跡できる。特徴量抽出部16は、抽出した特徴量に関する情報をオブジェクト判断部14、マッチング処理部22、及びクラスタリング部26に供給する。
【0040】
(エッジ検出部18)
エッジ検出部18は、構成画像抽出部12から受け取った動画構成画像に含まれるオブジェクトのエッジを動画構成画像の各ピクセル間の輝度差等に基づいて検出する。なお、本実施形態においては、特徴量抽出部16が抽出した特徴量を用いてオブジェクトのエッジ推定ができる。ここで、画像処理システム1は、エッジ検出部18を併用することで、エッジ検出の精度を向上させることができる。例えば、オブジェクトの色と背景の色とのコントラストが所定レベル以上の場合であってオブジェクトの形状が略四辺形の場合、エッジ検出部18がオブジェクトのエッジを検出することで、当該オブジェクトのエッジをより精度よく特定できる。エッジ検出部18は、検出したエッジに関する情報をオブジェクト判断部14に供給する。
【0041】
(関心領域検出部20)
関心領域検出部20は、構成画像抽出部12から受け取った動画構成画像から関心領域(Region of Interest:ROI)を検出する。関心領域検出部20は、検出した関心領域を用い関心領域画像を生成してもよい。関心領域検出部20における関心領域の検出アルゴリズムとしては、従来公知の様々なアルゴリズムを採用できる。関心領域検出部20は、例えば、動画構成画像から所定のオブジェクトの表面に記載された各種の情報の領域を検出する。具体的に、関心領域検出部20は、所定のオブジェクトを認識する場合において、予め関心領域を検出する学習をさせることで、所定のオブジェクトの表面に記載された各種の情報の領域を認識することができるようになる。例えば、所定のオブジェクトが領収書である場合、関心領域検出部20は、領収書に記載の日付、金額、電話番号等の領域を認識し、検出する。関心領域検出部20の検出結果を特徴量抽出部16の抽出結果等と併用することで、後述するマッチング処理部22でのマッチング処理や情報の読み取り、そして情報抽出の精度を向上させることができる。
【0042】
なお、関心領域検出部20は、所定のオブジェクトを含む動画構成画像、所定のオブジェクトではない他のオブジェクトを含む動画構成画像、及び様々な背景における所定のオブジェクトを含む動画構成画像と、所定のオブジェクトの関心領域に関する情報との組み合わせを含む教師データを生成し、生成した複数の教師データに基づき、入力が複数の動画構成画像であり、出力が対応する所定のオブジェクトの関心領域に関する情報である学習モデルを生成してもよい。関心領域検出部20は、生成した学習モデルを用い、動画構成画像から関心領域を検出してよい。この場合、関心領域検出部20は、関心領域の位置関係に基づいて所定のオブジェクトの縦横比を推定若しくは検出してもよい。そして、関心領域検出部20は、関心領域検出の学習を実行して得られた各種の情報の領域のそれぞれを識別可能なラベルを付した学習データを生成することができる。関心領域検出部20は、検出した関心領域に関する情報をマッチング処理部22、クラスタリング部26に供給する。
【0043】
(マッチング処理部22)
マッチング処理部22は、特徴量抽出部16が抽出した1以上の特徴量の情報、及び/又は関心領域検出部20が検出した関心領域の情報に基づいて、動画構成画像間の類似性の情報を取得する。具体的に、マッチング処理部22は、所定のオブジェクトの複数の特徴量の動画構成画像間の類似度を判断する。マッチング処理部22は、所定のオブジェクトが動画構成画像に含まれているとオブジェクト判断部14が判断した場合、一の動画構成画像に含まれている1以上の所定のオブジェクトそれぞれと、他の動画構成画像に含まれている1以上の所定のオブジェクトそれぞれとの類似度を判断する。すなわち、マッチング処理部22は、特徴量抽出部16が抽出した複数の特徴量に基づいて類似度を判断する。例えば、マッチング処理部22は、一の動画構成画像に含まれている1以上の所定のオブジェクトそれぞれの1以上の特徴量と、他の動画構成画像に含まれている対応する1以上の所定のオブジェクトそれぞれの1以上の特徴量とを比較する。そして、マッチング処理部22は、例えば、一の動画構成画像に含まれる一の所定のオブジェクトの複数の特徴量と他の動画構成画像に含まれる一の所定のオブジェクトの複数の特徴量との重なり度合いが高いほど、一の動画構成画像の一の所定のオブジェクトと他の動画構成画像の一の所定のオブジェクトとの類似度が高いと判断する。マッチング処理部22は、マッチング結果を示す情報(類似度の判断結果を示す情報)を、クラスタリング部26、オーバーレイ部30、代表画像選択部32に供給する。
【0044】
ここで、マッチング処理部22は、従来公知の様々なアルゴリズムを採用できる。マッチング処理部22が採用するアルゴリズムとして特に限定されないが、例えば、Oriented FAST and Rotated BRIEF(ORB)、Accelerated KAZE(AKAZE)、又はGood Features To Track等が挙げられる。なお、ORB及びAKAZEを用いる場合、マッチングされた特徴量のうち、相似性の指標であるハミング距離(Hamming Distance)が一定のしきい値より下の特徴量のみを特徴量とするRatio Testや、2つの動画構成画像の一方から他方の動画構成画像の特徴量をマッチングすると共に、他方から一方の動画構成画像(つまり、反対側)の特徴量をマッチングし、それらに共通にマッチングされた特徴量を特徴量とするReciprocity Testを併用することで、マッチングの正確性をより向上させることができる。
【0045】
図3は、本実施形態に係るマッチング処理の一例の概要を示す。
【0046】
一例として、マッチング処理部22は、一の動画構成画像に含まれる所定のオブジェクトを特徴づける1以上の点(ピクセル)を探索し、他の動画構成画像の1以上の点(ピクセル)と比較することで、マッチング数として動画構成画像同士の類似性を取得することができる。マッチング数が多いほど、類似性が高くなる。例えば、
図3(a)はオブジェクト83とオブジェクト85とのマッチング数の結果を画像で示した例であり、
図3(b)はオブジェクト83とオブジェクト87とのマッチング数の結果を画像で示した例である。そして、
図3(c)は、オブジェクト83とオブジェクト89及びオブジェクト89aとのマッチング数の結果を画像で示した例である。
【0047】
ここで、
図3(a)においてオブジェクト83とオブジェクト85とは同一のオブジェクトであり、マッチング数が所定数以上、存在している。その結果、マッチング処理部22は、オブジェクト83とオブジェクト85とがマッチングするとし、類似性が高いオブジェクト(若しくは実質的に同一のオブジェクト)であると判断する。一方、
図3(b)においては、オブジェクト83とオブジェクト87とは互いに異なるオブジェクトであり、マッチング数が所定数未満である。その結果、マッチング処理部22は、オブジェクト83とオブジェクト87とがマッチングしないとし、類似性が低いオブジェクトであると判断する。更に、
図3(c)においては、オブジェクト89及びオブジェクト89aが撮像領域にそれらの全体が含まれておらず、マッチング数がいずれも所定数未満である。その結果、マッチング処理部22は、オブジェクト83とオブジェクト89及びオブジェクト89aとがマッチングしないとし、類似性が低いオブジェクトであると判断する。このように、マッチング処理部22は、マッチング数(
図3においては直線の数)の多寡若しくは密度に応じ、動画構成画像同士の類似性を判断できる。なお、マッチング処理部22は、各特徴量の相対位置関係を利用してマッチング処理を実行してもよい。
【0048】
なお、マッチング処理部22が関心領域部分について同様の比較(つまり、マッチング)を単独、若しくは併用して実行することで、オブジェクトの選別精度を向上させることができる。
【0049】
(クラスタリング部26)
クラスタリング部26は、特徴量、特徴量群、及び/又は関心領域に関する情報に基づき動画構成画像を分類する。すなわち、クラスタリング部26は、画像の特徴量に基づいて動画構成画像を分類することができる(一例として、クラスタリング部26は、Deep NeuralNetwork(DNN)を用いて分類を実行できる。)。また、例えば、クラスタリング部26は、マッチング処理部22から受け取ったマッチング結果を示す情報を用い、動画構成画像を分類(クラスタリング)することができる。クラスタリング部26は、動画撮像中、リアルタイムでクラスタリングを実行することもできる。これにより、複数の動画構成画像のそれぞれに表示されている一のオブジェクトが、すべて同一の一のオブジェクトと認識されることになる。なお、クラスタリング部26は、従来公知のクラスタリングのアルゴリズムを用いてよい。クラスタリング部26は、クラスタリングの結果をノイズフィルタリング部28、代表画像選択部32に供給する。
【0050】
例えば、クラスタリング部26は、マッチング処理部22でマッチングされた特徴量のマッチング数の上限を設定すると共にマッチング数に所定の閾値を設定する。そして、クラスタリング部26は、マッチング処理部22から取得したマッチング結果を示す情報を参照し、一の動画構成画像に含まれるオブジェクトと他の動画構成画像に含まれるオブジェクトとのマッチング数が閾値以上の場合、一の動画構成画像中のオブジェクトと他の動画構成画像中のオブジェクトとが同一のオブジェクトであると判断する。そして、クラスタリング部26は、一の動画構成画像中のオブジェクトと他の動画構成画像中のオブジェクトとのマッチング結果をマッチング数を用いてリスト化し、例えば、マッチング数の降順若しくは昇順でリスト結果をソートする。次に、クラスタリング部26は、ソートしたリストを用い、同一のオブジェクトであるとみなした動画構成画像中のオブジェクトを一つのクラスタにし、分類する。これによりクラスタリング部26は、動画構成画像のクラスタリングを実行できる。
【0051】
また、クラスタリング部26は、クラスタリングで生成するクラスタの空間的バラツキ度合いに閾値を設けることでオブジェクトが正常に抽出されたクラスタとオブジェクトの抽出ができなかった抽出ミスのクラスタとを区別し、仮に閾値を下回った場合であってもクラスタ自体は存在していることから、最大のクラスタの重心の特徴量を抽出し(又は、最大のクラスタに限らず、所定の大きなクラスタ近傍のクラスタにまとめられた特徴量を積分して特徴量を抽出し)、そこをオブジェクトが占める領域と推定できる。すなわち、クラスタリング部26は、クラスタリングの結果を用い、所定の閾値に満たないクラスタ、若しくはバラツキが大きなクラスタについて、所定のオブジェクト(例えば、領収書等)が存在する可能性がある領域であると判断することができる。そして、オーバーレイ部30は、クラスタリング部26の処理の結果に基づいて、当該クラスタに分類された特徴量を有するエリアにオーバーレイをしてもよい。
【0052】
(ノイズフィルタリング部28)
図4は、本実施形態に係るノイズフィルタリングの一例の概要を示す。
図4においては左から右に向けて時間が進行している様子を示す。
【0053】
ノイズフィルタリング部28は、クラスタリング結果に基づき、ノイズを除去する。例えば、クラスタリング部26は、マッチング処理部22から受け取ったマッチング結果を示す情報を用いて動画構成画像をクラスタリングすると、時系列に沿ってクラスタが成長する。そして、ノイズフィルタリング部28は、1以上のクラスタの成長が止まった時点において、1以上のクラスタが一のオブジェクトのクラスタであると判断する。更に、ノイズフィルタリング部28は、成長が止まったクラスタ近傍に新たなクラスタが発生した場合、この新たなクラスタはノイズである可能性が高いと判断し、ノイズのクラスタを除去する。
【0054】
例えば、動画に一のオブジェクトが含まれ始めた場合(つまり、フレームインした場合)、
図4(a)に示すように、クラスタリング部26は、一のオブジェクトの特徴量に基づくクラスタ600を生成する。そして、クラスタリング部26は、動画撮像の時間経過に沿ってクラスタを生成する。例えば、
図4(b)に示すように、クラスタリング部26によって、一のオブジェクトに基づくクラスタ600が成長すると共に、一のオブジェクトに基づくクラスタ602及びクラスタ604が新たに生成される。そして、更に動画撮像が進むと、
図4(c)に示すように、一のオブジェクトに基づくクラスタ600、クラスタ602、及びクラスタ604が成長すると共に、一のオブジェクトに基づくクラスタ606が新たに生成される。続いて、
図4(d)に示すように、この時点で他のオブジェクトが動画に含まれ始めた場合(つまり、他のオブジェクトがフレームインした場合)、他のオブジェクトに基づくクラスタ群700が生成される。更に、
図4(e)に示すように、動画に一のオブジェクトが映らなくなった場合(つまり、一のオブジェクトがフレームアウトした場合)、一のオブジェクトに基づくクラスタ群610の成長が止まる。その後、
図4(f)に示すように、一のオブジェクトに基づくクラスタ群610の近傍に新たにクラスタ800が発生した場合、ノイズフィルタリング部28は、このクラスタ800がノイズに基づく可能性が高いと判断する。
【0055】
ここで、検出されたノイズは、撮像したオブジェクトの特徴量である可能性がある。そこで、ノイズフィルタリング部28は、検出されたノイズに関する情報を収集して学習することで、誤検出モデルのデータとして活用し、ノイズフィルタとしての機能を向上させることができる。
【0056】
(オーバーレイ部30)
オーバーレイ部30は、類似度に基づき、動画構成画像中の所定のオブジェクトが存在する領域、及び/又は所定のオブジェクトが存在している可能性がある領域に所定の情報をオーバーレイする。具体的に、オーバーレイ部30は、マッチング処理部22から受け取ったマッチング結果を示す情報、すなわち、類似度の判断結果を示す情報と、オブジェクト判断部14が所定のオブジェクト及び/又は所定のオブジェクトが存在している可能性があると判断した結果(所定のオブジェクトの動画構成画像中での位置情報を含む)とに基づいて、動画構成画像中の所定のオブジェクトが存在する領域、及び所定のオブジェクトが存在している可能性がある領域に所定の情報をオーバーレイする。オーバーレイ部30は、オブジェクト判断部14及びマッチング処理部22の結果に基づき、オーバーレイをリアルタイムで実行することもできる。
【0057】
例えば、オーバーレイ部30は、マッチング処理部22によって一の動画構成画像中の一の所定のオブジェクトと他の動画構成画像中の一の所定のオブジェクトとの類似度が所定値以上の場合(類似度が高い場合)、オブジェクト判断部14から受け取った情報から判断される、撮像領域内において当該オブジェクトが占める領域に、所定の図形や所定色の画像を重畳表示する。すなわち、オーバーレイ部30は、出力部44に、撮像領域内のオブジェクトと共に当該オブジェクトに所定の図形や所定色の画像を重畳表示させる。この場合において、オーバーレイ部30は、オブジェクト判断部14によって所定のオブジェクトが含まれていると判断された領域の全部若しくは一部に所定の図形等を重畳表示する。
【0058】
また、オーバーレイ部30は、マッチング処理部22によって一の動画構成画像中の一の所定のオブジェクトと他の動画構成画像中の一の所定のオブジェクトとの類似度が所定値未満の場合(類似度が低い場合)、オブジェクト判断部14から受け取った情報から判断される、撮像領域内において当該オブジェクトが占める領域(当該オブジェクトの一部が占める領域、若しくは当該オブジェクトが折り畳まれている等の場合はその形態での表面の一部が占める領域)に、類似度が所定値以上の領域とは異なる領域であることが認識できる所定の図形や所定色の画像を重畳表示する。
【0059】
なお、一の動画構成画像中の一の所定のオブジェクトと他の動画構成画像中の一の所定のオブジェクトとの類似度が所定値以上の場合(類似度が高い場合)とは、一例として、動画構成画像に一の所定のオブジェクトの略全体が含まれている場合や、複数の動画構成画像のそれぞれに一の所定のオブジェクトの略全体が含まれている場合等を指す。この場合、各動画構成画像に一の所定のオブジェクトの略全体が含まれていることから、各動画構成画像間で当該一の所定のオブジェクトの類似度は所定値以上であるか、類似度の変動が所定範囲内に収まる。一方、類似度が所定値未満の場合(類似度が低い場合)は、一例として、動画構成画像に一の所定のオブジェクトの一部しか含まれない場合(例えば、当該オブジェクトの大部分が動画構成画像(撮像領域)外に存在する場合や、当該オブジェクトが折れ曲がり、当該オブジェクトの大部分が隠されている場合、更には、当該オブジェクトが反っていることに基づいて動画構成画像に「ボケて」写っている場合等)等を指す。この場合、各動画構成画像に一の所定のオブジェクトの一部しか含まれていないことから、各動画構成画像間で当該一の所定のオブジェクトの類似度は所定値未満であるか、類似度の変動が所定範囲に収まらない。
【0060】
また、オーバーレイ部30は、オブジェクト判断部14による判断結果から所定のオブジェクトが存在すると判断若しくは推定できる領域(以下、「推定領域」という。)と撮像領域とを比較し、比較結果に基づいて撮像領域内のオブジェクトに所定の図形等を重畳表示してもよい。
【0061】
例えば、撮像領域内に推定領域のすべて、又はオブジェクトの関心領域のうち少なくとも当該オブジェクトを特徴づける領域を含む場合を第1の場合とする。第1の場合は、例えば、オブジェクトが領収書である場合、撮像領域内に領収書のすべて、若しくは実質的に領収書のすべてが含まれる場合、又は撮像領域内に領収書を識別するために必要な日付、金額、電話番号等の関心領域を少なくとも含む等の場合である。第1の場合が、撮像領域内に所定のオブジェクトが存在する領域が含まれている場合である。
【0062】
一方、撮像領域内に推定領域の一部、又はオブジェクトの関心領域のうち少なくとも当該オブジェクトの特徴の一部を含む関心領域を含まない場合を第2の場合とする。第2の場合は、例えば、オブジェクトが領収書である場合、撮像領域内に領収書の一部しか含まれていない場合、又は撮像領域内に領収書を識別するために必要な日付、金額、電話番号等の関心領域の一部が含まれていない等の場合である。第2の場合が、撮像領域内に所定のオブジェクトが存在している可能性がある領域が含まれている場合である。
【0063】
オーバーレイ部30は、第1の場合と第2の場合とで、互いに異なる図形や画像等を重畳表示することができる。例えば、オーバーレイ部30は、第1の場合は動画に所定のオブジェクトが適切に含まれていることをユーザが知覚可能な図形等をオブジェクトに重畳表示する。一方、オーバーレイ部30は、第2の場合は動画に所定のオブジェクトが適切に含まれていないことをユーザが知覚可能な図形等をオブジェクトに重畳表示する。
【0064】
(代表画像選択部32)
代表画像選択部32は、所定のオブジェクトを含む複数の動画構成画像から、所定のオブジェクトが存在する領域が認識された動画構成画像を代表画像として、特徴量に基づいて選択する。代表画像選択部32は、後述する画像処理部34における画像処理や、読取部46における情報の読み取りを適切に実行する観点から、複数の動画構成画像から質の高い動画構成画像を選択する。例えば、代表画像選択部32は、クラスタリング部26の分類結果に基づいて代表画像を選択する。すなわち、代表画像選択部32は、クラスタリング部26によって分類された一のグループに含まれる1以上の動画構成画像を参照し、各動画構成画像に含まれる一の所定のオブジェクトの1以上の特徴量をそれぞれ比較して、一例として、特徴量の数がより多い一の所定のオブジェクトを含む動画構成画像を代表画像として選択してよい。
【0065】
また、例えば、代表画像選択部32は、マッチング処理部22のマッチング結果に基づいて代表画像を選択することもできる。すなわち、一のオブジェクトが複数の動画構成画像に含まれている場合、一のオブジェクトを含む一の動画構成画像と一のオブジェクトを含む他の動画構成画像とは、画質に変化がない場合(つまり、画質が低くない場合)、マッチングによるマッチング数は実質的に同一である。しかし、画質がボケや手振れ等により低くなっている場合、例えば、一の動画構成画像に比べ他の動画構成画像の画質が低い場合、マッチングによるマッチング数は減少する。代表画像選択部32は、このマッチング数の比較により、代表画像を選択することができる。一例として、代表画像選択部32は、一のオブジェクトを含む一の動画構成画像と、一のオブジェクトを含む他の動画構成画像とのマッチング数を比較した結果に基づいて、最も画質が高い動画構成画像を代表画像として自動的に選択する。代表画像選択部32は、選択した代表画像を画像処理部34に供給する。
【0066】
(画像処理部34)
図5は、本実施形態に係る画像処理の一例の概要を示す。
【0067】
画像処理部34は、代表画像に所定の画像処理を施す。画像処理部34は、後述する読取部46における情報の読み取りや入力を適切に実行可能にすることを目的として、代表画像に画像処理を施す。例えば、画像処理部34は、エッジ検出やオブジェクト認識等の手法を用い、代表画像から所定のオブジェクトの領域を切り取る処理である画像切り取り処理を実行する。また、画像処理部34は、例えば
図5(a)に示すように、代表画像が所定のオブジェクト80aの本来の形状から変形した形状の当該オブジェクト80aを含む画像である場合(例えば、オブジェクト80aが領収書である場合において、領収書を斜めの角度から撮像した場合、動画には四辺形ではあるが長方形ではない領収書の画像が含まれる。)、代表画像から当該オブジェクト80aの領域を切り取り、アフィン変換等の処理により長方形のオブジェクト80に変形する処理を実行する。これにより、画像処理部34は、斜めの角度から撮像したオブジェクト80が台形状のオブジェクト80aとして代表画像に含まれる現象であるキーストーニングの除去を実行する。また、画像処理部34は、より明確な画像を読取部46に読み取らせることを目的として、代表画像に二値化処理等の画像処理を施すこともできる。画像処理部34は、画像処理後の画像を方向調整部36に供給する。
【0068】
(方向調整部36)
方向調整部36は、代表画像に含まれる所定のオブジェクトの方向を調整する。すなわち、画像処理部34において画像処理が施された画像に含まれる所定のオブジェクトの向きは、所定の方向に揃っているとは限らない。したがって、方向調整部36は、後述する読取部46における情報の取り込み/入力を適切に実行することを目的として、画像に含まれる所定のオブジェクトの向きを所定の方向に揃える処理を実行する。例えば、画像処理部34におけるアフィン変換を経て長方形に変更された画像の向きは、当該長方形の長辺を規準にした場合、一例として、当該基準に対して長辺が、0°、90°、180°、270°等の4つの状況をとることが考えられる。方向調整部36は、画像処理部34におけるアフィン変換等の画像処理後に得られる画像に含まれる所定のオブジェクト(例えば、領収書等の長方形状を有するオブジェクト)の向きを、一例として、正面視にて縦長の方向(つまり、情報端末2等の表示部を正面から観察した場合に、水平方向に短辺が位置し、垂直方向に長辺が位置する方向)になるように画像を回転する処理を実行する。これにより、方向調整部36は、代表画像に含まれる所定のオブジェクトの方向を所定の方向に揃えることができる。方向調整部36は、方向を調整した後の代表画像を情報格納部38、読取部46に供給する。
【0069】
なお、方向調整部36は、複数の所定のオブジェクトのデータ(例えば、長方形状のオブジェクトの画像データであって、正面視にて長方形の短辺が水平方向に沿った方向であるデータ)を予め定められた規則により4種類のクラスにランダムに分類して学習することで学習モデルを生成することもできる。この学習モデルは、所定のオブジェクトの上方向を上であるとして認識するように推論できるモデルである。上方向の認識ができれば、エッジ検出を経て切り取った所定のオブジェクトの領域を長方形に容易に変形できる。また、当該学習モデルとTesseractによる認識手法とを組み合わせてもよく、係る組み合わせにより、より高い精度が得られる。
【0070】
(情報格納部38)
情報格納部38は、方向が調整された代表画像、すなわち、読取部46における読取処理に適した代表画像を格納する。情報格納部38は、ユーザを識別するユーザIDに対応付けて、当該代表画像、当該代表画像を含む動画の撮像年月日、撮像時刻等の情報を格納する。なお、情報格納部38に格納される各種の情報は、情報端末2や、外部のサーバ(例えば、画像処理システム1の外部のサーバであって、会計処理や経理処理等に用いるサーバ等)に供給することができる。
【0071】
(読取部46)
読取部46は、方向調整部36から受け取った方向が調整された代表画像に含まれるオブジェクト表面に記載された各種の情報を読み取る。読取部46は、例えば、Optical Character Recognition/Reader(OCR)等を利用し、オブジェクト表面に記載された各種の情報を読み取る。一例として、オブジェクトが領収書である場合、読取部46が読み取る情報は、日付、金額、電話番号等の情報である。読取部46は、読み取った情報を情報格納部38に格納させることができる。情報格納部38は、ユーザIDに対応付けて、情報の読み取りに用いた代表画像の撮像年月日、撮像時刻に関する情報と共に、読み取った情報を格納する。
【0072】
(入力部42)
入力部42は、ユーザからの各種情報や所定の指示の入力を受け付ける。入力部42は、例えば、情報端末2のタッチパネル、キーボード、マウス、マイク等である。入力部42は、画像処理システム1の所定の構成要素に当該所定の指示を供給する。当該所定の指示を受け付けた各構成要素はそれぞれ所定の機能を発揮する。
【0073】
(出力部44)
出力部44は、画像処理システム1において実行された各種の処理結果を出力する。出力部44は、各種の処理結果や格納している情報をユーザが知覚可能に出力する。具体的に出力部44は、各種処理結果や格納している情報を、静止画像、動画像、音声、テキスト、及び/又は振動や光等の物理現象等として出力する。例えば、出力部44は、情報端末2の表示部、スピーカー等である。
【0074】
[画像処理システム1の処理の流れ]
図6は、本実施形態に係る画像処理システムの処理の流れの一例を示す。また、
図7は、本実施形態に係る画像処理システムの処理の流れの一部の概要を示す。
【0075】
まず、学習モデル生成部40は、複数のオブジェクトそれぞれの特徴と当該特徴に対応する所定のオブジェクト(例えば、領収書)の種類との組み合わせを含む教師データを取得若しくは生成し、取得若しくは生成した複数の教師データに基づき、複数の動画構成画像を入力、対応する所定のオブジェクトの種類(例えば、領収書)を出力とする学習モデルを生成する(ステップ10。以下、ステップを「S」と表す。)。そして、例えば、情報端末2の動画撮像部10としてのカメラが、複数のオブジェクト(所定のオブジェクト、及び/又は所定のオブジェクトとは異なる他のオブジェクト)の動画を撮像する(S12)。一例として、
図7(a)に示すように、動画撮像部10は、オブジェクト81(例えば、領収書)やオブジェクト90(例えば、名刺)の動画を撮像する。
図7(a)の例では、時間の経過と共にオブジェクト81の動画撮像からオブジェクト90の動画撮像に移っていることを示している。
【0076】
なお、この場合において動画撮像部10が撮像する動画は、複数のオブジェクトが平面上に配列された状態の動画であっても、複数のオブジェクトが1枚1枚めくられる状態の動画であってもよい。また複数のオブジェクトが平面上に配列された状態において、各オブジェクトの方向は揃っていなくてもよく、一のオブジェクトの一部に他のオブジェクトが重なっていてもよい。更に、動画撮像部10は、撮像領域をパンしてもよい。
【0077】
次に、構成画像抽出部12は、動画撮像部10が撮像した動画を変換し、複数の動画構成画像を抽出する(S14)。そして、オブジェクト判断部14は、複数の動画構成画像のそれぞれについて、例えば、時系列順に各動画構成画像に含まれる所定のオブジェクトを検出する(S16)。すなわち、オブジェクト判断部14は、例えば、所定の学習モデルを用い、各動画構成画像に含まれるオブジェクトが、所定のオブジェクトであるか否かを判断する。なお、画像処理システム1は、動画撮像部10が所定のオブジェクトを撮像する前に、撮像対象である所定のオブジェクトの種類を選択させる選択肢(種類としては、例えば領収書、見積書、請求書、名刺等が挙げられる。)を出力部44に出力させてもよい。そして、オブジェクト判断部14は、入力部42を介して受け付けるユーザの選択に対応するオブジェクトの種類を、各動画構成画像に含まれるオブジェクトの種類であると判断してもよい。
【0078】
一例として、画像処理システム1が領収書を所定のオブジェクトに設定している場合を挙げる。
図7(b)に示すように、オブジェクト判断部14は、予め準備した学習モデルを用いてオブジェクト81が領収書であると判断し、オブジェクト90を領収書ではないと判断する。つまり、オブジェクト判断部14は、オブジェクトの特徴と、所定のオブジェクトである領収書との間に見いだされる規則性を示す関数である学習モデルを用い、動画構成画像のそれぞれに所定のオブジェクトである領収書が含まれているか否かを判断する。換言すれば、オブジェクト判断部14は、オブジェクトの特徴に関する情報(例えば、動画構成画像から取得されるオブジェクトの画像に関する情報)を入力として受け付け、予測結果(動画構成画像に含まれるオブジェクトが所定のオブジェクトとしての領収書であるか否かを示す結果)を出力する学習モデルを用い、動画構成画像に所定のオブジェクトが含まれているか否かを判断する。
【0079】
続いて、特徴量抽出部16は、複数の動画構成画像のそれぞれに含まれ、オブジェクト判断部14によって検出された1以上の所定のオブジェクトそれぞれについて、1以上の特徴量(以下、「特徴量群」と称する。)を抽出する(S18)。なお、この場合において、エッジ検出部18は、動画構成画像に含まれるオブジェクトのエッジを検出してもよい。一例として、
図7(c)に示すように、特徴量抽出部16は、オブジェクト81の特徴量群300を抽出すると共に、オブジェクト81の動画撮像より後に撮像されたオブジェクト81とは異なる他の所定のオブジェクトの特徴量群302や特徴量群304を抽出する。そして、マッチング処理部22は、少なくとも特徴量抽出部16が抽出した1以上の特徴量の情報に基づいて、動画構成画像間の類似性の情報を取得するマッチング処理を実行する(S20)。続いて、オーバーレイ部30は、マッチング処理部22におけるマッチング処理により得られる複数の特徴量の動画構成画像間の類似度に基づき、動画構成画像中の所定のオブジェクトが存在する領域、及び所定のオブジェクトが存在している可能性がある領域に所定のマークや画像をオーバーレイする(S22)。オーバーレイ部30は、所定のマークや画像をオーバーレイした状態を、リアルタイムで出力部44に出力させることができる。
【0080】
また、クラスタリング部26は、特徴量抽出部16が抽出した特徴量群に基づき、動画構成画像のクラスタリングを実行する(S24)。
【0081】
ここで、クラスタリング部26は、クラスタリング結果に基づき、撮像領域内で所定のオブジェクトが占める領域を推定してもよい。例えば、クラスタリング部26は、抽出された特徴量群を用いて各特徴量群について空間的に近いクラスタを生成する。クラスタリング部26は、特徴量群を参照し、オブジェクトの角を含むクラスタを検出し、検出したクラスタの近傍クラスタを積分してオブジェクトの他の角の位置も推定する。そして、クラスタリング部26は、推定した角に基づいて撮像領域内で当該オブジェクトが占める領域を推定することができる。
【0082】
また、クラスタリング部26は、生成したクラスタと特徴量群とを参照し、オブジェクトの角を含むクラスタが一つも存在しないと判断した場合、所定のオブジェクトに特有の特徴量を用い、撮像領域のいずれの位置にいずれの特徴量(所定のオブジェクトが領収書である場合、例えば日付、金額、及び/又は電話番号に関する特徴量)が存在しているかを把握してもよい。そして、クラスタリング部26は、把握結果に基づいて所定のオブジェクトに近似した枠を生成し、当該枠内を撮像領域内で所定のオブジェクトが占める領域であると推定する(この領域が、「所定のオブジェクトが存在している可能性がある領域」である。)。なお、クラスタリング部26は、特徴量に基づいて所定のオブジェクトに近似した枠を生成する場合において、予め生成した学習モデルを用いてもよい。
【0083】
続いて、代表画像選択部32は、クラスタリング部26の分類結果、又はマッチング処理部22のマッチング結果に基づいて、所定のオブジェクトを含む複数の動画構成画像から代表画像を選択する(S26)。代表画像選択部32は、クラスタリング部26の結果から、所定のオブジェクトの略全体が含まれる動画構成画像であって、マッチング数が最大の動画構成画像を代表画像に選択できる。次に、画像処理部34は代表画像に所定の画像処理を施し、方向調整部36は代表画像に含まれる所定のオブジェクトの向きを調整する(S28)。そして、情報格納部38は、所定のオブジェクトそれぞれの情報を格納する(S30)。すなわち、情報格納部38は、動画撮像された1以上の所定のオブジェクトそれぞれの画像であって、読取部46による読取処理に適合するように画像処理、及び/又は方向調整がされた画像を、各画像を識別する画像IDに対応付けて、ユーザID、撮像年月日、及び/又は撮像時刻等と共に格納する。
【0084】
図8は、本実施形態に係る画像処理システムの処理の流れの変更例の一例を示す。
図8の変形例においては、
図6の処理の流れにおいてS20とS24との間に他のステップが入ることを除き、
図6の処理の流れと略同一の処理が実行される。したがって、相違点を除き、詳細な説明は省略する。
【0085】
変形例においては、S20とS24との間に、関心領域の検出、及び/又はノイズフィルタリング処理のステップが挿入される。これらのステップを含むことで、画像処理システム1は、所定のオブジェクトの認識精度をより向上させることができる。なお、画像処理システム1は、処理に矛盾が生じない限り、これらのステップの一部のステップのみ実行してもよい。
【0086】
まず、S20の後に、関心領域検出部20は、動画構成画像から関心領域を検出する(S40)。次に、クラスタリング部26は、特徴量抽出部16が抽出した特徴量群に、関心領域及び/又はマッチング処理部22の結果を併用し、動画構成画像のクラスタリングを実行する(S23)。クラスタリング部26は、特徴量群に加え、関心領域及び/又はマッチング処理部22の結果を併用することで、より精度の高いクラスタリングを実行できる。
【0087】
そして、ノイズフィルタリング部28は、クラスタリング結果に基づいてノイズを除去する(S42)。オーバーレイ部30は、クラスタリング結果からノイズが除去されたデータに基づきオーバーレイすることができるので、より的確な領域に所定のマークや画像を重畳表示できる。
【0088】
[画像処理プログラム]
図1〜
図8に示した本実施形態に係る画像処理システム1が備える各構成要素は、中央演算処理装置(Central Processing Unit:CPU)等の演算処理装置にプログラム(すなわち、画像処理プログラム)を実行させること、つまり、ソフトウェアによる処理により実現できる。また、集積回路(Integrated Circuit:IC)等の電子部品としてのハードウェアにプログラムを予め書き込むことで実現することもできる。なお、ソフトウェアとハードウェアとを併用することもできる。
【0089】
本実施形態に係る画像処理プログラムは、例えば、ICやROM等に予め組み込むことができる。また、画像処理プログラムは、インストール可能な形式、又は実行可能な形式のファイルで、磁気記録媒体、光学記録媒体、半導体記録媒体等のコンピュータで読み取り可能な記録媒体に記録し、コンピュータプログラムとして提供することもできる。プログラムを格納している記録媒体は、CD−ROMやDVD等の非一過性の記録媒体であってよい。更に、画像処理プログラムを、インターネット等の通信ネットワークに接続されたコンピュータに予め格納させ、通信ネットワークを介してダウンロードによる提供ができるようにすることもできる。
【0090】
本実施形態に係る画像処理プログラムは、CPU等に働きかけて、画像処理プログラムを、
図1〜
図8にかけて説明した動画撮像部10、構成画像抽出部12、特徴量抽出部16、エッジ検出部18、オブジェクト判断部14、関心領域検出部20、マッチング処理部22、クラスタリング部26、ノイズフィルタリング部28、オーバーレイ部30、代表画像選択部32、画像処理部34、方向調整部36、情報格納部38、学習モデル生成部40、入力部42、出力部44、及び読取部46として機能させる。
【0091】
(実施の形態の効果)
本実施の形態に係る画像処理システム1は、各種のオブジェクトを撮像した動画の動画構成画像に所定のオブジェクトが含まれているか否か判断し、所定のオブジェクト及び/又は所定のオブジェクトと考えられるオブジェクトが含まれていると判断した場合に、各所定のオブジェクト及び/又は各所定のオブジェクトと考えられるオブジェクトの特徴量群を抽出する。そして、画像処理システム1は、抽出した特徴量群の動画構成画像間における類似度を判断し、この判断結果に基づいて、所定のオブジェクトが存在している領域、及び/又は所定のオブジェクトと考えられるオブジェクトが存在している可能性のある領域に所定のマークや画像をオーバーレイし、情報端末2に出力させることができる。
【0092】
したがって、画像処理システム1によれば、複数のオブジェクトの動画撮像時に、適切に撮像されていないと判断されたオブジェクトが動画構成画像に含まれている場合、当該オブジェクトの撮像領域内で占める位置を特定し、特定した領域をユーザに分かりやすく通知することができる。これにより、画像処理システム1によれば、ユーザは、適切な撮像がされていないオブジェクトの存在を容易に把握でき、動画撮像中に当該オブジェクトをそのまま再度、動画撮像することができる。
【0093】
また、画像処理システム1は、動画構成画像中のオブジェクトの特徴量を用いてオブジェクトのエッジを推定できるので、例えばオブジェクトが四辺形状のオブジェクトである場合、動画構成画像に当該オブジェクトの四隅が含まれていなくても当該オブジェクトを検出できる。そして、画像処理システム1は、オブジェクトを動画で撮像し、オブジェクトの特徴量を抽出しているので、撮像中に手振れが発生したとしても特徴量を追跡することで、動画構成画像中の所定のオブジェクトを適切に認識することができる。
【0094】
更に、画像処理システム1によれば、ユーザは複数のオブジェクトを動画で撮像するだけで、様々なサイズ、形状、様式のオブジェクト中の所定の情報を容易に抽出することができる情報を動画構成画像から取得することができる。一例として、画像処理システム1によれば、複数枚の領収書の画像を動画撮像するか、動画撮像部10の前で複数の領収書を1枚ずつめくる様子を撮像する等するだけで、各領収書の内容(例えば、日付、金額、電話番号等)に関する情報を取得することができる。これにより、膨大な枚数の領収書を処理することを要するユーザの手間が大幅に減少される。なお、複数の領収書に領収書とは異なる紙面が混入していた場合であっても、特徴量抽出部16が抽出した特徴量と所定の学習モデルとを画像処理システム1は有しており、オブジェクト判断部14に領収書と領収書とは異なる紙面とを適切に識別させることができる。
【0095】
以上、本発明の実施の形態を説明したが、上記に記載した実施の形態は特許請求の範囲に係る発明を限定するものではない。また、実施の形態の中で説明した特徴の組合せのすべてが発明の課題を解決するための手段に必須であるとは限らない点に留意すべきである。更に、上記した実施形態の技術的要素は、単独で適用されてもよく、プログラム部品とハードウェア部品とのような複数の部分に分割されて適用されるようにすることもできる。
【課題】動画から複数の所定のオブジェクトの画像を抽出すると共に、適切に抽出できなかったと判断されるオブジェクトの画像が存在する場合、当該オブジェクトの画像の存在をユーザに分かりやすく通知可能な画像処理システム、画像処理方法及び画像処理プログラムを提供する。
【解決手段】画像処理システム1は、複数のオブジェクトを動画で撮像する動画撮像部10と、動画の動画構成画像を抽出する構成画像抽出部12と、動画構成画像に所定のオブジェクトが含まれているか否か判断するオブジェクト判断部14と、所定のオブジェクトの特徴量の動画構成画像間の類似度を判断するマッチング処理部22と、類似度に基づき、動画構成画像中の所定のオブジェクトが存在する領域及び所定のオブジェクトが存在している可能性がある領域に所定の情報をオーバーレイするオーバーレイ部30と、を備える。