特許7588203 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 楽天株式会社の特許一覧

特許7588203画像判定装置、画像判定方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-13

(45)【発行日】2024-11-21

(54)【発明の名称】画像判定装置、画像判定方法及びプログラム

(51)【国際特許分類】

G06T 7/70 20170101AFI20241114BHJP

G06T 7/00 20170101ALI20241114BHJP

【ＦＩ】

G06T7/70 A

G06T7/00 350B

【請求項の数】 8

(21)【出願番号】P 2023206941

(22)【出願日】2023-12-07

(62)【分割の表示】P 2022548264の分割

【原出願日】2020-09-08

(65)【公開番号】P2024015273

(43)【公開日】2024-02-01

【審査請求日】2023-12-07

(73)【特許権者】

【識別番号】399037405

【氏名又は名称】楽天グループ株式会社

(74)【代理人】

【識別番号】110000154

【氏名又は名称】弁理士法人はるか国際特許事務所

(72)【発明者】

【氏名】蔡永男

(72)【発明者】

【氏名】プラキャッシャープリーサム

【審査官】菊池伸郎

(56)【参考文献】

【文献】特開２０１６－２１８９７７（ＪＰ，Ａ）

【文献】国際公開第２０１９／１５６７０６（ＷＯ，Ａ１）

【文献】特開２０１９－２１９７６６（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１／００－７／９０

Ｇ０６Ｖ１０／０００－４０／７０

(57)【特許請求の範囲】

【請求項1】

画像が入力され、該画像中のオブジェクトに関するオブジェクトデータを出力する第１の機械学習モデルを用いて、第１画像から該第１画像中のオブジェクトに関する前記オブジェクトデータである第１オブジェクトデータを取得するとともに、第２画像から該第２画像中のオブジェクトに関する前記オブジェクトデータである第２オブジェクトデータを取得するオブジェクトデータ取得手段と、
前記第１オブジェクトデータ及び前記第２オブジェクトデータが入力され、前記第１画像及び前記第２画像の実質同一性を出力する第２の機械学習モデルを用いて、前記第１画像及び前記第２画像の実質同一性を判定する判定手段と、
を含み、
前記第１画像は、第１の実行環境で表示される、コンピュータアプリケーションのスクリーン画像であり、
前記第２画像は、前記第１の実行環境とは異なる第２の実行環境で表示される、コンピュータアプリケーションのスクリーン画像である、
ことを特徴とする画像判定装置。

【請求項2】

前記オブジェクトデータは、前記画像中のオブジェクトの配置を示すデータを含む、
ことを特徴とする請求項１に記載の画像判定装置。

【請求項3】

前記第２の機械学習モデルは全結合層を含み、
前記第２の機械学習モデルは、所定配置規則に従って、同一又は類似の第１及び第２のベース画像のそれぞれに所与のオブジェクトを重畳させることで生成される第１トレーニング画像及び第２トレーニング画像から得られる、該第１トレーニング画像中のオブジェクトに関する前記オブジェクトデータである第１学習オブジェクトデータ、及び該第２トレーニング画像中のオブジェクトに関する前記オブジェクトデータである第２学習オブジェクトデータにより学習され、
前記第１トレーニング画像は、前記第１のベース画像に対し、前記所与のオブジェクトを、所与の位置に所与の大きさで重畳させることで生成される画像であり、
前記第２トレーニング画像は、前記第２のベース画像に対し、前記所与のオブジェクトを重畳させずに生成される画像であり、
前記第１トレーニング画像及び前記第２トレーニング画像は前記実質同一性がないものとして、前記第２の機械学習モデルが学習される、
ことを特徴とする請求項２に記載の画像判定装置。

【請求項4】

前記第２の機械学習モデルは全結合層を含み、
前記第２の機械学習モデルは、所定配置規則に従って、同一又は類似の第１及び第２のベース画像のそれぞれに所与のオブジェクトを重畳させることで生成される第１トレーニング画像及び第２トレーニング画像から得られる、該第１トレーニング画像中のオブジェクトに関する前記オブジェクトデータである第１学習オブジェクトデータ、及び該第２トレーニング画像中のオブジェクトに関する前記オブジェクトデータである第２学習オブジェクトデータにより学習され、
前記第１トレーニング画像は、前記第１のベース画像に対し、前記所与のオブジェクトを、所与の位置に所与の大きさで重畳させることで生成される画像であり、
前記第２トレーニング画像は、前記第２のベース画像に対し、前記所与のオブジェクトを、前記所与の位置とは異なる位置に重畳させることで生成される画像であり、
前記第１トレーニング画像及び前記第２トレーニング画像は前記実質同一性がないものとして、前記第２の機械学習モデルが学習される、
ことを特徴とする請求項２に記載の画像判定装置。

【請求項5】

前記第２の機械学習モデルは全結合層を含み、
前記第２の機械学習モデルは、所定配置規則に従って、同一又は類似の第１及び第２のベース画像のそれぞれに所与のオブジェクトを重畳させることで生成される第１トレーニング画像及び第２トレーニング画像から得られる、該第１トレーニング画像中のオブジェクトに関する前記オブジェクトデータである第１学習オブジェクトデータ、及び該第２トレーニング画像中のオブジェクトに関する前記オブジェクトデータである第２学習オブジェクトデータにより学習され、
前記第１トレーニング画像は、前記第１のベース画像に対し、前記所与のオブジェクトを、所与の位置に所与の大きさで重畳させることで生成される画像であり、
前記第２トレーニング画像は、前記第２のベース画像に対し、前記所与のオブジェクトを、前記所与の大きさとは異なる大きさで重畳させることで生成される画像であり、
前記第１トレーニング画像及び前記第２トレーニング画像は前記実質同一性があるものとして、前記第２の機械学習モデルは学習される、
ことを特徴とする請求項２に記載の画像判定装置。

【請求項6】

前記オブジェクトデータは、前記画像中のオブジェクトの属性を示すデータを含む、
ことを特徴とする請求項１乃至５のいずれかに記載の画像判定装置。

【請求項7】

画像が入力され、該画像中のオブジェクトに関するオブジェクトデータを出力する第１の機械学習モデルを用いて、第１画像から該第１画像中のオブジェクトに関する前記オブジェクトデータである第１オブジェクトデータを取得するステップと、
前記第１の機械学習モデルを用いて、第２画像から該第２画像中のオブジェクトに関する前記オブジェクトデータである第２オブジェクトデータを取得するステップと、
第２の機械学習モデルを用いて、前記第１オブジェクトデータ及び前記第２オブジェクトデータから、前記第１画像及び前記第２画像の実質同一性を判定するステップと、
を含み、
前記第１画像は、第１の実行環境で表示される、コンピュータアプリケーションのスクリーン画像であり、
前記第２画像は、前記第１の実行環境とは異なる第２の実行環境で表示される、コンピュータアプリケーションのスクリーン画像である、
ことを特徴とする画像判定方法。

【請求項8】

画像が入力され、該画像中のオブジェクトに関するオブジェクトデータを出力する第１の機械学習モデルを用いて、第１画像から該第１画像中のオブジェクトに関する前記オブジェクトデータである第１オブジェクトデータを取得するステップと、
前記第１の機械学習モデルを用いて、第２画像から該第２画像中のオブジェクトに関する前記オブジェクトデータである第２オブジェクトデータを取得するステップと、
第２の機械学習モデルを用いて、前記第１オブジェクトデータ及び前記第２オブジェクトデータから、前記第１画像及び前記第２画像の実質同一性を判定するステップと、
をコンピュータに実行させ、
前記第１画像は、第１の実行環境で表示される、コンピュータアプリケーションのスクリーン画像であり、
前記第２画像は、前記第１の実行環境とは異なる第２の実行環境で表示される、コンピュータアプリケーションのスクリーン画像である、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は画像判定装置、画像判定方法及びプログラムに関し、特に複数の画像の実質的同一性を判定する技術に関する。

【背景技術】

【0002】

コンピュータ技術の分野において、それぞれオブジェクトが配置されている複数の画像が実質的に同一であるか否かを判定するニーズは多い。例えば、コンピュータアプリケーションのスクリーン画像は、特定のスマートフォンなどの選択された１つの実行環境で表示されることを前提に、人手によりデザインされる。こうしたスクリーン画像には、ボタン、画像、入力フォームなどのオブジェクトが配置されている。１つの実行環境のためのスクリーン画像のデザインが完成すると、実質的に同一のデザインのスクリーン画像が、他の実行環境にも移植される。これにより、実質的に同一のスクリーン画像を様々な実行環境で提供できるようになる。例えば、特定の製造者の特定のスマートフォンに向けてデザインされたスクリーン画像は、同一の製造者の他のスマートフォンや、異なる製造者のスマートフォンに向けて、人手又はコンピュータソフトウェアによる自動変換により移植される。このようにして得られた複数のスクリーン画像は、従来、目視でその実質同一性が確認されることが多かった。しかしながら、コンピュータアプリケーションの実行環境の数が増えるにつれ、そのような確認作業を自動化する必要性が高まっている。

【発明の概要】

【発明が解決しようとする課題】

【0003】

コンピュータアプリケーションの実行環境により、画面のサイズ、アスペクト比、解像度が異なる。またオペレーションシステムなどの実行環境により提供され、各スクリーン画像に含められるボタン等のオブジェクトは、その外観が少なからず異なっている。このため、複数のスクリーン画像を画素単位で比較しても、それらの実質同一性を確認することは困難である。また、機械学習モデルにそれらスクリーン画像を入力することで、それら画像の実質同一性を判定することも考えられるが、学習量が膨大になってしまうという問題が懸念される。

【0004】

なお、コンピュータアプリケーションのスクリーン画像の他にも、各種環境で閲覧される電子書籍のページ画像や、各種環境で閲覧されるウェブコンテンツ画像など、オブジェクトが配置された複数画像の実質同一性を判定するニーズは多数存在する。
本発明は上記課題に鑑みてなされたものであって、その目的は、それぞれオブジェクトが配置されている複数の画像の実質同一性を簡易且つ正しく判定できる画像判定装置、画像判定方法及びプログラムを提供することにある。

【課題を解決するための手段】

【0005】

上記課題を解決するために、本発明の一側面に係る画像判定装置は、画像が入力され、該画像中のオブジェクトの属性及び配置を示すオブジェクトデータを出力する第１の機械学習モデルを用いて、第１画像から該第１画像中のオブジェクトの属性及び配置を示す第１オブジェクトデータを取得するとともに、第２画像から該第２画像中のオブジェクトの属性及び配置を示す第２オブジェクトデータを取得するオブジェクトデータ取得手段と、前記第１オブジェクトデータ及び前記第２オブジェクトデータが入力され、前記第１画像及び前記第２画像の実質同一性を出力する第２の機械学習モデルを用いて、前記第１画像及び前記第２画像の実質同一性を判定する判定手段と、を含む。

【0006】

ここで、前記第１の機械学習モデルはＲ－ＣＮＮを含んでよい。

【0007】

また、前記第１の機械学習モデルは、所与のベース画像に複数のオブジェクトの一部又は全部を重畳させることで生成されるトレーニング画像により学習されてよい。

【0008】

また、前記第２機械学習モデルは全結合層を含んでよい。

【0009】

前記第２機械学習モデルは、前記全結合層の上流側に、前記第１オブジェクトデータ及び前記第２オブジェクトデータに基づく入力データの次元数を削減する畳込み層及びプーリング層を含んでよい。

【0010】

また、前記第２の機械学習モデルは、所定配置規則に従って、同一又は類似の第１及び第２のベース画像のそれぞれに所与のオブジェクトを重畳させることで生成される第１トレーニング画像及び第２トレーニング画像から得られる、前記第１トレーニング画像中のオブジェクトの属性及び配置を示す第１学習オブジェクトデータ、及び前記第２トレーニング画像中のオブジェクトの属性及び配置を示す第２学習オブジェクトデータにより学習されてよい。

【0011】

また、本発明の他の側面に係る画像判定方法は、第１の機械学習モデルを用いて、第１画像から該第１画像中のオブジェクトの属性及び配置を示す第１オブジェクトデータを取得するステップと、前記第１の機械学習モデルを用いて、第２画像から該第２画像中のオブジェクトの属性及び配置を示す第２オブジェクトデータを取得するステップと、第２の機械学習モデルを用いて、前記第１オブジェクトデータ及び前記第２オブジェクトデータから、前記第１画像及び前記第２画像の実質同一性を判定するステップと、を含む。

【0012】

ここで、前記第１の機械学習モデルはＲ－ＣＮＮを含んでよい。

【0013】

また、上記方法は、所与のベース画像に複数のオブジェクトの一部又は全部を重畳させることで生成されるトレーニング画像により、前記第１機械学習モデルの学習を実行するステップをさらに含んでよい。

【0014】

また、前記第２機械学習モデルは全結合層を含んでよい。

【0015】

また、前記第２機械学習モデルは、前記全結合層の上流側に、前記第１オブジェクトデータ及び前記第２オブジェクトデータに基づく入力データの次元数を削減する畳込み層及びプーリング層を含んでよい。

【0016】

また、上記方法は、所定配置規則に従って、同一又は類似の第１及び第２のベース画像のそれぞれに所与のオブジェクトを重畳させることで第１トレーニング画像及び第２トレーニング画像を生成するステップと、前記第１トレーニング画像及び前記第２トレーニング画像のそれぞれを前記第１機械学習モデルに入力することにより、前記第１トレーニング画像中のオブジェクトの属性及び配置を示す第１学習オブジェクトデータ、及び前記第２トレーニング画像中のオブジェクトの属性及び配置を示す第２学習オブジェクトデータを取得するステップと、前記第１学習オブジェクトデータ及び前記第２学習オブジェクトデータにより前記第２機械学習モデルの学習を実行するステップと、をさらに含んでよい。

【0017】

また、本発明のさらに他の側面に係るプログラムは、第１の機械学習モデルを用いて、第１画像から該第１画像中のオブジェクトの属性及び配置を示す第１オブジェクトデータを取得するステップと、前記第１の機械学習モデルを用いて、第２画像から該第２画像中のオブジェクトの属性及び配置を示す第２オブジェクトデータを取得するステップと、第２の機械学習モデルを用いて、前記第１オブジェクトデータ及び前記第２オブジェクトデータから、前記第１画像及び前記第２画像の実質同一性を判定するステップと、をコンピュータに実行させるためのプログラムである。このプログラムは、光磁気ディスクや半導体メモリなどのコンピュータ可読情報記憶媒体に格納されてよい。

【図面の簡単な説明】

【0018】

【図1】本発明の実施形態に係る画像判定装置のブロック図である。

【図2】２つのスクリーン画像の同一性判定例を示す図である。

【図3】他の実施形態に係る画像判定装置のブロック図である。

【図4】ＣＮＮの構成例を示す図である。

【図5】ＣＮＮの他の構成例を示す図である。

【図6】Ｒ－ＣＮＮの学習に用いる学習装置のブロック図である。

【図7】ベース画像の例を示す図である。

【図8】オブジェクト画像の例を示す図である。

【図9】オブジェクト属性テーブルの例を示す図である。

【図10】トレーニング画像の例を示す図である。

【図11】図１０に示されるトレーニング画像に対応する正解データを示す図である。

【図12】Ｒ－ＣＮＮの学習処理を示すフロー図である。

【図13】ＣＮＮの学習に用いる学習装置のブロック図である。

【図14】ＣＮＮの学習に用いる正例及び負例に係るトレーニングデータを示す図である。

【図15】ＣＮＮの学習処理を示すフロー図である。

【発明を実施するための形態】

【0019】

本発明の一実施形態について図面に基づき詳細に説明する。なお、以下の説明においては、同一部分については各図面において同一符号を付し、適宜説明を省略する。

【0020】

図１は、本発明の一実施形態に係る画像判定装置の機能ブロック図である。同図に示される各機能ブロックは、ＣＰＵやメモリを中心に構成されたコンピュータ上で、本発明の一実施形態に係る画像判定プログラムが実行されることにより、実現される。同図に示される画像判定装置１０は、２つのスクリーン画像の実質同一性を判定するものである。

【0021】

各スクリーン画像には、上述のようにボタン等のオブジェクトが配置されている。画像判定装置１０は、２つのスクリーン画像に含まれるオブジェクトの数、それぞれのオブジェクトの属性、当該スクリーン画像中でのそれぞれのオブジェクトの配置に基づき、それら２つのスクリーン画像の実質同一性を判定する。ここで、オブジェクトの属性は、例えばオブジェクトの種類や色情報である。オブジェクトの種類としては、ボタン、ロゴ画像、商標画像、入力フォームなどが挙げられる。オブジェクトの色情報としては、当該オブジェクトの１又は複数の代表色の情報、平均色の情報などを採用してよい。

【0022】

ここで、２つの画像に「実質同一性がある」とは、各画像に含まれるオブジェクト画像の数、それぞれの属性及び配置が、事前に定義された正例規則に合致する場合をいう。また、２つの画像に「実質同一性がない」とは、各画像に含まれるオブジェクト画像の数、それぞれの属性及び配置が、事前に定義された負例規則に合致する場合をいう。

【0023】

図１に示される画像判定装置１０によれば、図２（ａ）に示すようにスクリーン画像の左上にオブジェクトＡが配置されており、右下にオブジェクトＢが配置されている場合には、同図（ｂ）に示すように、オブジェクトＡだけが同じ位置に配置されており、オブジェクトＢが失われているスクリーン画像は、同図（ａ）に示されるスクリーン画像と実質同一性がないと判断される。すなわち、オブジェクト数が不一致のスクリーン画像は実質同一性がないと判断される。

【0024】

また、同図（ｃ）に示すように、オブジェクトＡは同じ位置に配置されているものの、オブジェクトＢは水平方向にずれて配置されているスクリーン画像も、同図（ａ）に示されるスクリーン画像と実質同一性がないと判断される。すなわち、対応するオブジェクトが水平方向にずれて配置されているスクリーン画像も、同図（ａ）に示されるスクリーン画像と実質同一性がないと判断される。

【0025】

一方、同図（ｄ）に示すように、オブジェクトＢの大きさが異なるスクリーン画像や、同図（ｅ）に示すように、オブジェクトＡの大きさが異なるスクリーン画像は、同図（ａ）に示されるスクリーン画像と実質同一性があると判断される。すなわち、２つのスクリーン画像を比較したとき、オブジェクトの数、属性、配置が同じであれば、オブジェクトの大きさが異なっても、両スクリーン画像には実質同一性があると判断される。

【0026】

このような実質同一性の判断を実現するため、図１に示すように、画像判定装置１０は、第１の機械学習モデルであるＲ－ＣＮＮ（Regions with Convolutional Neural Networks）１２と、第２の機械学習モデルであるＣＮＮ（Convolutional Neural Networks）１４と、を含んで構成されている。Ｒ－ＣＮＮ１２には、比較対象である２つのスクリーン画像のうちスクリーン画像Ａが入力されると、該スクリーン画像Ａに含まれるオブジェクトの属性及び配置を示すオブジェクトデータＡが出力される。また、それら２つのスクリーン画像のうちスクリーン画像Ｂが入力されると、該スクリーン画像Ｂに含まれるオブジェクトの属性及び配置を示すオブジェクトデータＢが出力される。これらオブジェクトデータＡ及びオブジェクトデータＢはＣＮＮ１４に入力される。ＣＮＮ１４では、これらオブジェクトデータＡ及びオブジェクトデータＢに基づいて、スクリーン画像Ａ及びスクリーン画像Ｂに実質同一性があるか否かを出力する。

【0027】

なお、ここではＲ－ＣＮＮ１２にスクリーン画像Ａ及びスクリーン画像Ｂを順次入力し、オブジェクトデータＡ及びオブジェクトデータＢを順次得るようにしたが、図３に示すように、２つのＲ－ＣＮＮ１２を並列するようにしてＣＮＮ１４の前段に設け、スクリーン画像ＡからオブジェクトデータＡを生成するのと並行して、スクリーン画像ＢからオブジェクトデータＢを生成するようにしてもよい。

【0028】

図１において、Ｒ－ＣＮＮ１２は、オブジェクト検出のための機械学習モデルであり、例えばオリジナルのＲ－ＣＮＮ、ＦａｓｔＲ－ＣＮＮ、ＦａｓｔｅｒＲ－ＣＮＮ、ＭＡＳＫＲ－ＣＮＮといった公知のオブジェクト検出用機械学習モデルにより構成されてよい。本実施形態では、Ｒ－ＣＮＮ１２としてＦａｓｔｅｒＲ－ＣＮＮを一例として採用する。Ｒ－ＣＮＮ１２に画像が入力されると、該画像に含まれるオブジェクトのそれぞれについて、入力画像における配置及び当該オブジェクトの属性を示すオブジェクトデータが出力される。入力画像中の各オブジェクトの配置は、オブジェクトデータ中、例えばアンカーボックスにより特定される。

【0029】

ＣＮＮ１４は、図４に示すように、データ統合部１５、それぞれ畳込み層及びプーリング層の組からなる、複数段の次元削減部１６、一次元化部１７、及び複数段の全結合層１８を含んでいる。データ統合部１５は、Ｒ－ＣＮＮ１２から出力されるオブジェクトデータＡ及びオブジェクトデータＢを結合（Concatenate）して１の入力データを生成する。例えば、オブジェクトデータＡ及びオブジェクトデータＢは、オブジェクトの序数を示す１つの次元（例えば３００個のデータを含んでよい。）、オブジェクトの大きさ及び配置を示す２つの次元（例えば各次元に４個のデータを含んでよい。）、オブジェクトの属性を示す１つの次元（例えば１０２４個のデータを含んでよい。）からなる、４次元テンソルデータであってよい。データ統合部１５は、例えばオブジェクトの序数の次元を２倍のサイズに伸長させることで、オブジェクトデータＡ及びオブジェクトＢを結合し、入力データを得てよい。この場合、オブジェクトの序数１～３００には、スクリーン画像Ａに含まれるオブジェクトが割り当てられ、オブジェクトの序数３０１～６００には、スクリーン画像Ｂに含まれるオブジェクトが割り当てられる。

【0030】

データ統合部１５により生成される入力データは複数段の次元削減部１６により次元削減が行われ、最終段の次元削減部１６から２次元の中間データが出力される。一次元化部１７は、中間データを一次元化し、一次元化された中間データを最初の段の全結合層１８に入力する。最終段の全結合層１８は、一次元化された中間データから１次元（２個のデータを含んでよい。）の同一性判定結果を出力する。同一性判定結果は、スクリーン画像Ａ及びスクリーン画像Ｂの同一性がある程度を示すデータと、そのような同一性がない程度を示すデータと、を含む。

【0031】

図４に示すＣＮＮ１４によれば、スクリーン画像Ａ及びスクリーン画像Ｂのそれぞれに含まれるオブジェクトの属性及び配置から、スクリーン画像Ａ及びスクリーン画像Ｂの実質同一性の有無を判定できるようになる。

【0032】

なお、図４ではオブジェクトデータＡ及びオブジェクトデータＢを結合して入力データを得て、この入力データの次元削減を行うようにしたが、オブジェクトデータＡ及びオブジェクトデータＢのそれぞれに対して次元削減を行うようにしてよい。すなわち、図５に示すＣＮＮ１４のように、畳込み層及びプーリング層をそれぞれ含む複数段の次元削減部１６ａにより、オブジェクトデータＡの次元削減を行うとともに、次元削減部１６ａと同一機能の次元削減部１６ｂにより、オブジェクトデータＡの次元削減と並行して、オブジェクトデータＢの次元削減を行ってよい。次元削減部１６ａ，１６ｂの出力はそれぞれ２次元の中間データであり、データ統合部１９は、各中間データを１次元化し、それら結合（Concatenate）して１の１次元の中間データを出力する。データ統合部１９から出力される中間データは複数段の全結合層１８に入力され、最終段からは同一性判定結果が出力される。

【0033】

図５に示すＣＮＮ１４を用いても、スクリーン画像Ａ及びスクリーン画像Ｂのそれぞれに含まれるオブジェクトの属性及び配置から、スクリーン画像Ａ及びスクリーン画像Ｂの実質同一性の有無を判定できるようになる。

【0034】

ここで、Ｒ－ＣＮＮ１２及びＣＮＮ１４の学習について説明する。

【0035】

図６は、Ｒ－ＣＮＮ１２の学習を行う学習装置２０の構成を示す図である。同図に示される各機能ブロックは、ＣＰＵやメモリを中心に構成されたコンピュータ上で、本発明の一実施形態に係るプログラムが実行されることにより、実現される。同図に示すように、学習装置２０は、Ｒ－ＣＮＮ１２の内部パラメータを更新することによりＲ－ＣＮＮ１２の学習を実行するトレーニング部２１、Ｒ－ＣＮＮ１２の学習に用いるトレーニングデータを生成するトレーニングデータ生成部２２、トレーニングデータを生成する際に用いるベース画像を記憶するベース画像記憶部２４、同様にトレーニングデータを生成する際に用いるオブジェクト画像を記憶するオブジェクト画像記憶部２６を含んでいる。

【0036】

図７は、ベース画像記憶部２４に記憶されるベース画像の例を示している。ベース画像は、スクリーン画像の基礎となるラスタ形式の画像データであり、同図（ａ）は、全面に文章が表わされたベース画像を示している。同図（ｂ）は白色無地のベース画像を示している。同図（ｃ）は、有色無地のページ上部及び文書が表わされた下部からなるベース画像を示している。同図（ｄ）は、複数ブロックに区分され、各ブロックに文書が表わされたベース画像を示している。ベース画像記憶部２４は、こうしたラスタ形式のベース画像を多数記憶している。

【0037】

図８は、オブジェクト画像記憶部２６に記憶されるオブジェクト画像の例を示している。オブジェクト画像は、スクリーン画像の基礎となるラスタ形式の画像データであり、スクリーン画像中に配置される、ボタンや入力フォームなどのオブジェクトの外観を示している。同図（ａ）は、オブジェクト画像の一種であるロゴ画像を示している。同図に示すオブジェクト画像には、オブジェクト番号「００１」が付与されている。同図（ｂ）は、オブジェクト画像の一種である入力フォーム画像を示している。同図に示すオブジェクト画像には、オブジェクト番号「００２」が付与されている。同図（ｃ）は、オブジェクト画像の一種であるボタン画像を示している。同図に示すオブジェクト画像には、オブジェクト番号「００３」が付与されている。同図（ｄ）は、オブジェクト画像の一種である商標画像を示している。同図に示すオブジェクト画像には、オブジェクト番号「００４」が付与されている。オブジェクト画像記憶部２６は、こうしたラスタ形式のオブジェクト画像を多数記憶している。

【0038】

オブジェクト画像記憶部２６では、多数のオブジェクト画像に加えて、図９に示されるオブジェクト属性テーブルを記憶している。オブジェクト属性テーブルは、オブジェクト画像記憶部２６に記憶される各オブジェクト画像の属性を記憶するものである。具体的には、オブジェクト属性テーブルは、各オブジェクト番号に関連づけて、該番号に係るオブジェクト画像の種類及び色情報を記憶するものである。例えば、オブジェクト属性テーブルでは、図８（ａ）に示されるオブジェクト画像のオブジェクト番号「００１」に関連づけて、該オブジェクト画像の種類「ロゴ」及び該オブジェクト画像の色情報「赤・白」が記憶されている。

【0039】

トレーニングデータ生成部２２は、ベース画像記憶部２４及びオブジェクト画像記憶部２６に記憶されたデータに基づいて、多数のトレーニングデータを生成する。トレーニングデータは、トレーニング画像と正解データを含んでいる。

【0040】

図１０は、トレーニングデータ生成部２２により生成されるトレーニング画像の例を示している。同図（ａ）に示されるトレーニング画像は、図７（ｂ）に示されるベース画像に、図８（ａ）に示されるオブジェクト画像、図８（ｄ）に示されるオブジェクト画像及び図８（ｂ）に示されるオブジェクト画像を重畳させることにより、生成されたものである。また、図１０（ｂ）に示されるトレーニング画像は、図７（ａ）に示されるベース画像に、図８（ｂ）に示されるオブジェクト画像及び図８（ｃ）に示されるオブジェクト画像を重畳させることにより、生成されたものである。

【0041】

トレーニング画像を生成する際に用いるベース画像は、ベース画像記憶部２４に記憶される多数のベース画像の中から、トレーニングデータ生成部２２によりランダムに選択される。また、ベース画像に重畳させるオブジェクト画像も、オブジェクト画像記憶部２４に記憶される多数のベース画像の中から、トレーニングデータ生成部２２によりランダムに選択される。さらに、各オブジェクト画像の配置（位置及び大きさ）も、トレーニングデータ生成部２２によりランダムに決定される。

【0042】

図１１は、トレーニングデータ生成部２２により生成される正解データの例を示している。同図（ａ）は、図１０（ａ）に示されるトレーニング画像に対する正解データを示している。この正解データには、トレーニング画像に３つのオブジェクト画像が含まれていること、１番目のオブジェクト画像の配置は「（ＸＡ１，ＹＡ１）－（ＸＢ１，ＹＢ１）」であり、属性は「ロゴ，赤・白」であること、２番目のオブジェクト画像の配置は「（ＸＡ２，ＹＡ２）－（ＸＢ２，ＹＢ２）」であり、属性は「マーク，黄」であること、３番目のオブジェクト画像の配置は「（ＸＡ３，ＹＡ３）－（ＸＢ３，ＹＢ３）」であり、属性は「フォーム，白・黒」でること、が示されている。すなわち、正解データは、トレーニング画像に含まれるオブジェクト画像の数、及び各オブジェクト画像の配置及び属性を示している。同様に、図１１（ｂ）は、図１０（ｂ）に示されるトレーニング画像に対する正解データを示している。

【0043】

トレーニングデータ生成部２２は、トレーニング画像を生成する際、ベース画像に重畳させるオブジェクト画像をランダムに選択し、その配置もランダムに決定している。トレーニングデータ生成部２２は、選択されたオブジェクト画像の属性を、図９に示されるオブジェクト属性テーブルから読み出し、図１１に示す正解データに含めるとともに、決定されたオブジェクト画像の配置も、図１１に示す正解データに含めることで、トレーニング画像に対応する正解データを生成している。

【0044】

トレーニング部２１は、トレーニングデータ生成部２２により生成されるトレーニングデータを用いてＲ－ＣＮＮ１２の学習処理を実行する。具体的には、トレーニングデータに含まれるトレーニング画像を順次Ｒ－ＣＮＮ１２に入力し、オブジェクトデータの出力を得る。この出力と、トレーニングデータに含まれる正解データとの差分を演算し、この差分が小さくなるようにＲ－ＣＮＮ１２の内部パラメータを更新する。

【0045】

図１２は、学習装置２０の動作フロー図である。学習装置２０は、まずトレーニングデータ生成部２２が、オブジェクト画像記憶部２６に記憶されたオブジェクト画像をランダムに選択する（Ｓ１０１）。ここで、選択するオブジェクト画像の数もランダムに決定される。次に、トレーニングデータ生成部２２が、ベース画像記憶部２４からランダムに１つのベース画像を選択する（Ｓ１０２）。

【0046】

トレーニングデータ生成部２２は、選択されたベース画像に対し、選択されたオブジェクト画像を配置することで、トレーニング画像を生成する（Ｓ１０３）。このとき、トレーニングデータ生成部２２は、各オブジェクト画像について、配置及びサイズをランダムに決定する。

【0047】

トレーニングデータ生成部２２は、さらに、Ｓ１０１乃至Ｓ１０３での処理内容に応じて、図１１に例示される正解データを生成し、Ｓ１０３で生成されたトレーニング画像とともに、トレーニングデータに含める（Ｓ１０４）。

【0048】

Ｓ１０１乃至Ｓ１０４の処理を所定数のトレーニングデータが生成されるまで繰り返した後（Ｓ１０５）、生成されたトレーニングデータを用いてトレーニング部２１がＲ－ＣＮＮ１２の学習処理を実行する（Ｓ１０６）。

【0049】

次に、図１３は、ＣＮＮ１４の学習を行う学習装置３０の構成を示す図である。同図に示される各機能ブロックは、ＣＰＵやメモリを中心に構成されたコンピュータ上で、本発明の一実施形態に係るプログラムが実行されることにより、実現される。同図に示すように、学習装置３０は、ＣＮＮ１４の内部パラメータを更新することによりＣＮＮ１４の学習を実行するトレーニング部３１、ＣＮＮ１４の学習に用いるトレーニングデータを生成するトレーニングデータ生成部３２、ベース画像記憶部２４及びオブジェクト画像記憶部２６を含んでいる。トレーニングデータ生成部３２は、ベース画像記憶部２４に記憶されているベース画像、及びオブジェクト画像記憶部２６に記憶されているオブジェクト画像を用いて、正例及び負例に係るトレーニングデータを生成する。各トレーニングデータには、正例、すなわち実質同一性のあるトレーニング画像のペア、又は負例、すなわち実質同一性のないトレーニング画像のペアが含まれる。

【0050】

図１４は、ＣＮＮ１４の学習に用いる、正例及び負例に係るトレーニング画像を示す図である。同図（ａ）にはトレーニング画像のペアの一方の例が示されている。当該一方のトレーニング画像は、ランダムに選択されるベース画像に対し、ランダムに選択された複数のオブジェクト画像を、ランダムな位置に、ランダムな大きさで、それぞれ配置することにより生成される。同図（ａ）では、全体に文書が表わされたベース画像に対し、オブジェクト画像Ａ及びＢが配置されている。

【0051】

同図（ｂ）は、第１の負例規則を適用して生成された他方のトレーニング画像を示している。第１の負例規則では、一方のトレーニング画像に含められたオブジェクト画像の一部が除去される。例えば、同図（ｂ）のトレーニング画像は、同図（ａ）のトレーニング画像とは異なり、オブジェクト画像Ｂを含んでいない。

【0052】

同図（ｃ）は、第２の負例規則を適用して生成された他方のトレーニング画像を示している。第２の負例規則では、一方のトレーニング画像に含められたオブジェクト画像の一部が水平方向に移動される。例えば、同図（ｃ）のトレーニング画像では、同図（ａ）のトレーニング画像に比べて、オブジェクト画像Ｂが左方向にずれている。

【0053】

同図（ｄ）は、正例規則を適用して生成された他方のトレーニング画像を示している。正例規則では、一方のトレーニング画像に含められたオブジェクト画像の一部が拡大又は縮小される。例えば、同図（ｄ）のトレーニング画像では、同図（ａ）のトレーニング画像に比べて、オブジェクト画像Ａが拡大されている。

【0054】

トレーニング部３１は、こうして生成されるトレーニングデータを用いて、ＣＮＮ１４の学習処理を実行する。具体的には、トレーニングデータに含まれる２つのトレーニング画像を順次Ｒ－ＣＮＮ１２に入力し、２つのオブジェクトデータを取得する。そして、それらオブジェクトデータをＣＮＮ１４に入力する。トレーニング部３１は、ＣＮＮ１４から出力される同一性判定結果を取得し、同一性判定結果が正しいものとなるよう、ＣＮＮ１４の内部パラメータを更新する。すなわち、正例に係るトレーニング画像をＲ－ＣＮＮ１２に入力した場合には、ＣＮＮ１４から出力される同一性判定結果が実質的同一であることを示すものになるよう、内部パラメータを更新する。逆に、負例に係るトレーニング画像をＲ－ＣＮＮ１２に入力した場合には、ＣＮＮ１４から出力される同一性判定結果が実質的同一でないことを示すものになるよう、内部パラメータを更新する。

【0055】

図１５は、学習装置３０の動作フロー図である。同図に示すように、学習装置３０では、まずトレーニングデータ生成部３２がオブジェクト画像記憶部２６からランダムにオブジェクト画像を選択する（Ｓ２０１）。さらにトレーニングデータ生成部３２は、ベース画像記憶部２４からランダムにベース画像を選択する（Ｓ２０２）。そして、トレーニングデータ生成部３２は、選択されたベース画像に対し、各オブジェクト画像を重畳させることで、トレーニング画像Ａを生成する（Ｓ２０３）。このとき、各オブジェクト画像の位置及び大きさをランダムに決定する。

【0056】

次に、トレーニングデータ生成部３２は、正例規則又は負例規則を適用して、選択されたベース画像に対し、選択されたオブジェクト画像の全部又は一部を重畳させることで、トレーニング画像Ｂを生成する（Ｓ２０４）。例えば、第１の負例規則を適用する場合には、選択されたオブジェクト画像のうち一部を、選択されたベース画像に重畳させずに、トレーニング画像Ｂを生成する。第２の負例規則を適用する場合には、選択されたオブジェクト画像のうち一部を、右方向又は左方向に移動させてから、選択されたベース画像に重畳させることで、トレーニング画像Ｂを生成する。正例規則を適用する場合には、選択されたオブジェクト画像のうち一部を、拡大又は縮小させてから、選択されたベース画像に重畳させることで、トレーニング画像Ｂを生成する。

【0057】

その後、トレーニングデータ生成部３２は、生成されたトレーニング画像Ａ及びＢのペアと、それらが正例であるか負例であるかの区別と、を含むトレーニングデータを生成し、記憶させる（Ｓ２０５）。

【0058】

Ｓ２０１乃至Ｓ２０５の処理を所定数のトレーニングデータが生成されるまで繰り返した後（Ｓ２０６）、生成されたトレーニングデータを用いてトレーニング部３１がＣＮＮ１４の学習処理を実行する（Ｓ２０７）。

【0059】

以上説明した画像判定装置１０によれば、比較対象となる２つのスクリーン画像のそれぞれから、それらに含まれるオブジェクト画像の属性及び位置を示すオブジェクトデータが得られる。そして、２つのオブジェクトデータに基づいて、２つのスクリーン画像の実質同一性の有無が判定される。実質同一性の有無の判定のために、正例規則及び負例規則に従って生成された多数のトレーニング画像ペアにより、ＣＮＮ１４が事前に訓練される。本実施形態によれば、２つのスクリーン画像の実質同一性を好適に判定することができる。

【0060】

具体的には、本発明者らは、５００枚のベース画像と３３種類のオブジェクト画像を用いて、Ｒ－ＣＮＮ１２のために５０００のトレーニングデータ、ＣＮＮ１４のために８０００のトレーニングデータを生成し、Ｒ－ＣＮＮ１２及びＣＮＮ１４の学習を実施したところ、スクリーン画像の実質同一性の判定精度はおよそ８６％となり、十分実用に耐えることが分かった。

【0061】

なお、本発明の範囲は上記実施形態に限定されず、種々の変形を包含する。例えば、本発明はスクリーン画像のみならず、電子書籍のページ画像やウェブコンテンツ画像など、様々な画像にも同様に適用することができる。

【符号の説明】

【0062】

１０画像判定装置、１２Ｒ－ＣＮＮ、１４ＣＮＮ、１５，１９データ統合部、１６，１６ａ畳み込み層及びプーリング層、１７一次元化部、１８全結合層、２０，３０学習装置、２１，３１トレーニング部、２２，３２トレーニングデータ生成部、２４ベース画像記憶部、２６オブジェクト画像記憶部。

【図1】