(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-10
(45)【発行日】2025-03-18
(54)【発明の名称】モデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20250311BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2022516804
(86)(22)【出願日】2020-04-24
(86)【国際出願番号】 JP2020017739
(87)【国際公開番号】W WO2021214991
(87)【国際公開日】2021-10-28
【審査請求日】2022-10-03
【審判番号】
【審判請求日】2024-06-10
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(72)【発明者】
【氏名】藤塚 理史
【合議体】
【審判長】廣川 浩
【審判官】本郷 彰
【審判官】中木 努
(56)【参考文献】
【文献】特開2002-32766(JP,A)
【文献】特開2019-95827(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
G06V 10/00-20/90
(57)【特許請求の範囲】
【請求項1】
対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、
前記物体領域部分を教師データとして機械学習を実行し、前記物体の形状を判別するための形状分類モデルを生成する生成手段と
を備え
、
前記形状分類モデルは、前記物体領域部分が入力されると、前記物体の形状を示す情報を出力する
ことを特徴とするモデル生成システム。
【請求項2】
前記抽出手段は、対象画像を複数の単位領域ごとに処理して前記物体領域部分を抽出することを特徴とする請求項1に記載のモデル生成システム。
【請求項3】
前記対象画像から前記物体が含まれる矩形領域を抽出する第2の抽出手段を更に備え、
前記抽出手段は、前記矩形領域から前記物体領域部分を抽出する
ことを特徴とする請求項1又は2に記載のモデル生成システム。
【請求項4】
前記形状分類モデルが分類する形状を指定する指定手段と、
前記指定手段で指定された形状の物体を含む画像を、複数の画像の中から前記対象画像として抽出する第3の抽出手段と
を更に備えることを特徴とする請求項1から3のいずれか一項に記載のモデル生成システム。
【請求項5】
前記物体領域部分の色を検出し、前記物体領域部分に色情報を付与する色情報付与手段を更に備えることを特徴とする請求項1から4のいずれか一項に記載のモデル生成システム。
【請求項6】
対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、
前記物体の形状を判別するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する推定手段と
を備え
、
前記形状分類モデルは、前記物体領域部分が入力されると、前記物体の形状を示す情報を出力する
ことを特徴とする形状認識システム。
【請求項7】
対象画像から物体が占める領域である物体領域部分を抽出し、
前記物体領域部分を教師データとして機械学習を実行し、前記物体の形状を判別するための形状分類モデルを生成し
、
前記形状分類モデルは、前記物体領域部分が入力されると、前記物体の形状を示す情報を出力する
ことを特徴とするモデル生成方法。
【請求項8】
対象画像から物体が占める領域である物体領域部分を抽出し、
前記物体の形状を判別するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定し
、
前記形状分類モデルは、前記物体領域部分が入力されると、前記物体の形状を示す情報を出力する
ことを特徴とする形状認識方法。
【請求項9】
対象画像から物体が占める領域である物体領域部分を抽出し、
前記物体領域部分を教師データとして機械学習を実行し、前記物体の形状を判別するための形状分類モデルを生成し
、
前記形状分類モデルは、前記物体領域部分が入力されると、前記物体の形状を示す情報を出力する
ようにコンピュータを動作させることを特徴とするコンピュータプログラム。
【請求項10】
対象画像から物体が占める領域である物体領域部分を抽出し、
前記物体の形状を判別するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定し
、
前記形状分類モデルは、前記物体領域部分が入力されると、前記物体の形状を示す情報を出力する
ようにコンピュータを動作させることを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、物体の形状を認識するためのモデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラムの技術分野に関する。
【背景技術】
【0002】
この種のシステムとして、画像内の物体を認識するものが知られている。例えば特許文献1では、物体の特徴(質感、色、形状、境界等)を用いて物体を識別する技術が開示されている。その他の関連する技術として、特許文献2では、物体の形状から同一物であることを推測する技術が開示されている。特許文献3では、画像内のオブジェクトの類似度を用いて画像を検索する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特表2020-507855号公報
【文献】特開2019-070467号公報
【文献】特開平10-240771号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
物体の形状を認識するためには、形状に関する情報を用いて機械学習を行う方法が考えられる。しかしながら、上述した特許文献1に記載されているような技術では、画像中の背景の違いや、物体の色の違いなど様々な特徴が含まれている中から、形状だけの特徴を捉えて学習させることが極めて困難である。即ち、上述した技術を適用したとしても、物体の形状を適切に認識するシステムを構築するのは容易ではない。
【0005】
本発明は、上記問題点に鑑みてなされたものであり、物体の形状を適切に認識することが可能なモデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
本発明のモデル生成システムの一の態様は、対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成する生成手段とを備える。
【0007】
本発明の形状認識システムの一の態様は、対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する推定手段とを備える。
【0008】
本発明のモデル生成方法の一の態様は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成する。
【0009】
本発明の形状認識方法の一の態様は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する。
【0010】
本発明のコンピュータプログラムの一の態様は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成するようにコンピュータを動作させる。
【0011】
本発明のコンピュータプログラムの一の態様は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定するようにコンピュータを動作させる。
【発明の効果】
【0012】
上述したモデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラムのそれぞれの一の態様によれば、物体の形状を適切に認識することが可能である。
【図面の簡単な説明】
【0013】
【
図1】第1実施形態に係るモデル生成システムのハードウェア構成を示すブロック図である。
【
図2】第1実施形態に係るモデル生成システムが備える機能ブロックを示すブロック図である。
【
図3】インスタンスセグメンテーションモデルを用いた物体領域部分の抽出を示す概念図である。
【
図4】第1実施形態に係るモデル生成システムの動作の流れを示すフローチャートである。
【
図5】第2実施形態に係るモデル生成システムが備える機能ブロックを示すブロック図である。
【
図6】第2実施形態に係るモデル生成システムの動作の流れを示すフローチャートである。
【
図7】第3実施形態に係る形状認識システムが備える機能ブロックを示すブロック図である。
【
図8】第3実施形態に係る形状認識システムの動作の流れを示すフローチャートである。
【
図9】第3実施形態に係る形状認識システムの具体的な動作例を示す概念図である。
【
図10】第3実施形態に係る形状認識システムの具体的な出力例を示す図(その1)である。
【
図11】第3実施形態に係る形状認識システムの具体的な出力例を示す図(その2)である。
【
図12】第4実施形態に係る形状認識システムが備える機能ブロックを示すブロック図である。
【
図13】第4実施形態に係る形状認識システムの動作の流れを示すフローチャートである。
【
図14】変形例に係る形状認識システムの動作の流れを示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、図面を参照しながら、モデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラムの実施形態について説明する。
【0015】
<第1実施形態>
まず、第1実施形態に係るモデル生成システムについて、
図1から
図4を参照して説明する。
【0016】
(ハードウェア構成)
図1を参照しながら、第1実施形態に係るモデル生成システムのハードウェア構成について説明する。
図1は、第1実施形態に係るモデル生成システムのハードウェア構成を示すブロック図である。
【0017】
図1に示すように、第1実施形態に係るモデル生成システム10は、CPU(Central Processing Unit)11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、記憶装置14とを備えている。モデル生成システム10は更に、入力装置15と、出力装置16とを備えていてもよい。CPU11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16とは、データバス17を介して接続されている。
【0018】
CPU11は、コンピュータプログラムを読み込む。例えば、CPU11は、RAM12、ROM13及び記憶装置14のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、CPU11は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。CPU11は、ネットワークインタフェースを介して、モデル生成システム10の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、読み込んでもよい)。CPU11は、読み込んだコンピュータプログラムを実行することで、RAM12、記憶装置14、入力装置15及び出力装置16を制御する。本実施形態では特に、CPU11が読み込んだコンピュータプログラムを実行すると、CPU11内には、物体の形状を識別する形状分類モデルを生成するための機能ブロックが実現される。
【0019】
RAM12は、CPU11が実行するコンピュータプログラムを一時的に記憶する。RAM12は、CPU11がコンピュータプログラムを実行している際にCPU11が一時的に使用するデータを一時的に記憶する。RAM12は、例えば、D-RAM(Dynamic RAM)であってもよい。
【0020】
ROM13は、CPU11が実行するコンピュータプログラムを記憶する。ROM13は、その他に固定的なデータを記憶していてもよい。ROM13は、例えば、P-ROM(Programmable ROM)であってもよい。
【0021】
記憶装置14は、モデル生成システム10が長期的に保存するデータを記憶する。記憶装置14は、CPU11の一時記憶装置として動作してもよい。記憶装置14は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
【0022】
入力装置15は、モデル生成システム10のユーザからの入力指示を受け取る装置である。入力装置15は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。
【0023】
出力装置16は、モデル生成システム10に関する情報を外部に対して出力する装置である。例えば、出力装置16は、モデル生成システム10に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。
【0024】
(システム構成)
続いて、
図2を参照しながら、第1実施形態に係るモデル生成システム10の機能的構成について説明する。
図2は、第1実施形態に係るモデル生成システムが備える機能ブロックを示すブロック図である。
【0025】
図2に示すように、第1実施形態に係るモデル生成システム10は、物体領域部分抽出部110と、モデル生成部120とを備えて構成されている。これらの機能ブロックは、例えばCPU11(
図1参照)において実現される。
【0026】
物体領域部分抽出部110は、システムに入力された画像データから、所定の形状(言い換えれば、認識すべき形状)の物体が占める領域である物体領域部分を抽出可能に構成されている。物体領域部分抽出部110は、インスタセグメンテーションモデル200を用いて、物体領域部分を抽出する。ここで
図3を参照して、インタンスセグメンテーションモデル200を用いた物体領域部分の抽出方法について説明する。
図3は、インスタンスセグメンテーションモデルを用いた物体領域部分の抽出を示す概念図である。
【0027】
図3に示すように、インスタンスセグメンテーションモデル200を用いれば、物体が含まれる画像から、物体領域部分だけを抽出することができる。例えば、リンゴやゴルフボールのような丸いものの画像からは、それらが占める領域だけ(即ち、丸い領域だけ)を切り取ったマスク画像を抽出することができる。同様に、スマートフォンやパソコンモニタのような四角いものの画像からは、それらが占める領域だけ(即ち、四角い領域だけ)を切り取ったマスク画像を抽出することができる。
【0028】
なお、インスタンスセグメーテーションモデル200は、画像を複数の単位領域ごとに処理する(例えば、画像をピクセル単位で処理する)ことで物体領域部分を抽出するモデルであるが、その技術は既存のものであるため、ここでのより詳細な説明は省略するものとする。また、ここではインスタンスセグメンテーションモデルを用いた手法を挙げたが、その他の手法で物体領域部分を抽出してもよい。
【0029】
図2に戻り、物体領域部分抽出部110は、インスタンスセグメーテーションモデル200を用いて抽出した物体領域部分を出力する。物体領域部分抽出部110から出力された物体領域部分に関する情報は、モデル生成部120に出力される構成となっている。なお、物体領域部分抽出部110は、「抽出手段」の一具体例である。
【0030】
モデル生成部120は、物体領域部分抽出部110で抽出された物体領域部分を入力データ(言い換えれば、教師データ)として、機械学習を実行可能に構成されている。モデル生成部120は、この機械学習によって、物体の形状を認識するための形状分類モデルを生成する。なお、物体領域部分は、モデル生成部120に入力される前に手動でアノテーション(例えば、抽出された形状が実際にどのような形状であるかを示す情報の付与)が行われても構わない。モデル生成部120の機械学習には、適宜既存の学習手法を適用することが可能である。モデル生成部120は、「生成手段」の一具体例である。
【0031】
(動作説明)
次に、
図4を参照しながら、第1実施形態に係るモデル生成システム10の動作の流れについて説明する。
図4は、第1実施形態に係るモデル生成システムの動作の流れを示すフローチャートである。
【0032】
図4に示すように、第1実施形態に係るモデル生成システム10には、まず複数の画像データからなる画像データ群が入力される(ステップS101)。ここで入力される画像データ群は、形状分類モデルで認識すべき所定の形状の物体(例えば、丸い物体や四角い物体)が撮像された画像データである。ただし、すべての画像データに所定の形状の物体が含まれている必要はない。
【0033】
次に、物体領域部分抽出部110が、入力された画像データ群から、所定の形状の物体が占める物体領域部分を抽出する(ステップS102)。そして、モデル生成部120は、抽出された物体領域部分を入力データとして機械学習を実行する(ステップS103)。モデル生成部120は、機械学習の結果として、物体の形状を認識するための形状分類モデルを出力する(ステップS104)。
【0034】
(技術的効果)
次に、第1実施形態に係るモデル生成システム10によって得られる技術的効果について説明する。
【0035】
図1から
図4で説明したように、第1実施形態に係るモデル生成システム10では、インスタンスセグメンテーションモデル200を用いて物体領域部分が抽出され、その物体領域部分を入力した機械学習により形状分類モデルが生成される。このようにして生成した形状分類モデルを用いれば、画像内の物体の形状を適切に認識することが可能である。より具体的には、物体領域部分を抽出することで、画像内に含まれる物体の形状に関する情報だけを適切に抽出することができる。例えば、
図2に示すようなマスク画像では、形状以外の他の情報(例えば、色や模様に関する情報等)が削ぎ落とされ、物体の形状に関する情報のみが確実に抽出されている。また、画像内で互いに重なっている物体(即ち、重なりによって形状が判別し難くなっている物体)についても、その物体領域部分のみを抽出することで、どのような形状であるかを判別し易くなっている。従って、第1実施形態に係るモデル生成システム10によれば、物体の形状を適切に認識することが可能な形状分類モデルを生成することができる。
【0036】
また、本実施形態では特に、物体領域部分を入力として形状分類モデルを生成することで、形状の曖昧さを許容した認識を実現することができる。具体的には、丸っぽい形状、四角っぽい形状のような曖昧な形状(即ち、きれいな四角や丸からかけ離れた形状)についても認識することが可能となる。
【0037】
<第2実施形態>
次に、第2実施形態に係るモデル生成システム10について、
図5及び
図6を参照して説明する。なお、第2実施形態は、上述した第1実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については概ね同様である。このため、以下では第1実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
【0038】
(システム構成)
まず、
図5を参照しながら、第2実施形態に係るモデル生成システム10の機能的構成について説明する。
図5は、第2実施形態に係るモデル生成装置が備える機能ブロックを示すブロック図である。なお、
図5では、
図2で示した構成要素と同様のものに同一の符号を付している。
【0039】
図5に示すように、第2実施形態に係るモデル生成装置10は、物体領域部分抽出部110と、モデル生成部120と、指定画像抽出部130と、箱領域抽出部140とを備えている。即ち、第2実施形態に係るモデル生成装置10は、第1実施形態の構成(
図2参照)に加えて、指定画像抽出部130と、箱領域抽出部140とを更に備えて構成されている。
【0040】
指定画像抽出部130は、モデル生成システム10に入力される画像データ群(即ち、複数の画像データ)の中から、認識すべき所定の形状の物体が含まれている画像のみを抽出可能に構成されている。指定画像抽出部130は、所定の形状を指定可能に構成されてもよい。この場合、例えばユーザが所定の形状(複数でもよい)を指定すると、指定画像抽出部130が、指定された所定の形状の物体が含まれている画像(以下、適宜「指定画像」と称する)のみを抽出する。より具体的には、例えばユーザが「丸い」という形状を指定すると、複数の画像の中からリンゴやボールのような丸い物体が含まれる画像のみが抽出される。指定画像抽出部130は、インスタンスセグメンテーションモデル200を用いて指定画像を抽出する。ただし、指定画像抽出部130は、インスタンスセグメンテーションモデル200を用いずに指定画像を抽出してもよい。指定画像抽出部130で抽出された指定画像は、箱領域抽出部140に出力される構成となっている。なお、指定画像抽出部130は、「第3の抽出手段」の一具体例である。
【0041】
箱領域抽出部140は、指定画像抽出部130で抽出された指定画像(即ち、所定の形状の物体が含まれている画像)から、画像中の物体の位置を示す箱領域(具体的には、物体を囲む矩形領域)を抽出可能に構成されている。箱領域抽出部140は、1枚の指定画像から複数の箱領域を抽出してもよい。箱領域抽出部140は、インスタンスセグメンテーションモデル200を用いて箱領域を抽出する。ただし、箱領域抽出部140は、インスタンスセグメンテーションモデル200を用いずに箱領域抽出部140を抽出してもよい。箱領域抽出部140で抽出された箱領域は、物体領域部分抽出部110に出力される構成となっている。なお、箱領域抽出部140は、「第2の抽出手段」の一具体例である。
【0042】
(動作説明)
次に、
図6を参照しながら、第2実施形態に係るモデル生成システム10の動作の流れについて説明する。
図6は、第2実施形態に係るモデル生成システムの動作の流れを示すフローチャートである。なお、
図6では、
図4で示した処理と同様の処理に同一の符号を付している。
【0043】
図6に示すように、第2実施形態に係るモデル生成システム10の動作時には、まず複数の画像データからなる画像データ群が入力される(ステップS101)。
【0044】
次に、指定画像抽出部130が、入力された画像データ群の中から所定の形状の物体が含まれる指定画像を抽出する(ステップS102)。そして、箱領域抽出部140が、指定画像から、物体の位置を示す箱領域を抽出する(ステップS103)。
【0045】
次に、物体領域部分抽出部110が、抽出された箱領域から、所定の形状の物体が占める物体領域部分を抽出する(ステップS102)。具体的には、物体領域部分抽出部110は、箱領域として抽出された矩形領域を例えばピクセル単位で処理することで、物体領域部分を抽出する。
【0046】
次に、モデル生成部120は、抽出された物体領域部分を入力データとして機械学習を実行する(ステップS103)。モデル生成部120は、機械学習の結果として、物体の形状を認識するための形状分類モデルを出力する(ステップS104)。
【0047】
(技術的効果)
次に、第2実施形態に係るモデル生成システム10によって得られる技術的効果について説明する。
【0048】
図5及び
図6で説明したように、第2実施形態に係るモデル生成システム10では、画像データ群から所定の形状の物体が含まれる指定画像が抽出され、更に指定画像から物体の位置を示す箱領域が抽出される。このようにすれば、より容易に且つ高い精度で物体領域部分を抽出することができる。この結果、第2実施形態に係るモデル生成システム10によれば、物体の形状をより適切に認識することが可能な形状分類モデルを生成することができる。
【0049】
<変形例>
上述した例では、インスタンスセグメンテーションモデル200を用いて、物体の形状に関する情報を抽出する例について説明したが、物体の色情報に関する情報を抽出するようにしてもよい。
【0050】
例えば、インステンスセグメンテーションモデル200を用いれば、物体領域部分の色情報(例えばR,G,B情報)を抽出することができる。よって、物体上のR,G,Bの分布から、物体の色情報(例えば、赤、緑、青、黄色、白、黒等)を付与することが可能である。この場合、物体上でほぼ一様に同じ色なら1つの色とすればよいし、様々な色が分布しているなら「カラフル」のように特別な色情報を付与してもよい。或いは、物体の色分布から模様を判別して、物体の模様に関する情報を付与するようにしてもよい。
【0051】
上述した色情報は、形状に関する情報に付加するように付与されてもよい。この場合、モデル生成部120は、物体の形状に関する情報と色に関する情報とを学習して、物体の形状及び色を認識可能なモデルを生成してもよい。或いは、色情報は、形状に関する情報に代えて付与されてもよい。この場合、モデル生成部120は、物体の色に関する情報を学習して、物体の色を認識可能なモデルを生成してもよい。
【0052】
<第3実施形態>
次に、第3実施形態に係る形状認識システム20について、
図7から
図11を参照して説明する。なお、第3実施形態に係る形状認識システム20は、上述した第1及び第2実施形態に係るモデル生成システム10と一部の構成や動作が共通している(例えば、ハードウェア構成は、
図1に示したモデル生成システム10と同様の構成であってよい)。このため、以下ではすでに説明した事項については説明を省略し、重複しない部分について詳しく説明するものとする。
【0053】
(システム構成)
まず、
図7を参照しながら、第3実施形態に係る形状認識システム20の機能的構成について説明する。
図7は、第3実施形態に係る形状認識システムが備える機能ブロックを示すブロック図である。なお、
図7では、
図2及び
図5で示した構成要素と同様のものに同一の符号を付している。
【0054】
図7に示すように、第3実施形態に係る形状認識システム20は、物体領域部分抽出部110と、形状推定部150とを備えている。なお、物体領域部分抽出部110は、第1及び第2実施形態に係るモデル生成システム10が備えるもの(
図2や
図5参照)と同様のものであり、インスタンスセグメンテーションモデル200を用いて、画像データから物体領域部分を抽出可能に構成されている。
【0055】
形状推定部150は、物体領域部分抽出部110で抽出された物体領域部分から、その物体の形状を推定可能に構成されている。形状推定部150は、形状分類モデル300(即ち、第1及び第2実施形態に係るモデル生成システム10で生成されたモデル)を用いて、物体の形状を推定する。形状推定部150は、「推定手段」の一具体例である。
【0056】
(動作説明)
次に、
図8を参照しながら、第3実施形態に係る形状認識システム20の動作の流れについて説明する。
図8は、第3実施形態に係る形状認識システム20の動作の流れを示すフローチャートである。
【0057】
図8に示すように、第3実施形態に係る形状認識システム20には、まず画像データが入力される(ステップS301)。ここで入力される画像は、形状を認識したい物体が含まれている画像である。なお、画像は複数枚入力されてもよい。その場合、以下の処理が各画像に対してそれぞれ実行されればよい。
【0058】
次に、物体領域部分抽出部110が、入力された画像から、所定の形状の物体が占める物体領域部分を抽出する(ステップS302)。そして、形状推定部150は、形状分類モデル300を用いて、抽出された物体領域部分に対応する物体の形状を推定する(ステップS303)。最後に、形状推定部150は、推定結果として物体の形状を示す情報を出力する(ステップS304)。
【0059】
なお、形状推定部150は、物体領域部分に対応する物体が、所定の形状のいずれであるのか(例えば、丸いのか、それとの四角いのか等)を示す情報を出力すればよい。具体的には、その物体の丸さを示すスコアや四角さを示すスコアを出力すればよい。このスコアは、例えば、物体が丸い物体(或いは、四角い物体)であるかを示す確からしさを示す数値として出力されてもよい。また、物体が所定の形状のいずれにも分類されない形状である場合には「推定不可」等の情報を出力してもよい。
【0060】
<具体的な出力例>
次に、
図9から
図11を参照しながら、第3実施形態に係る形状認識システム20の具体的な出力例について説明する。
図9は、第3実施形態に係る形状認識システムの具体的な動作例を示す概念図である。
図10は、第3実施形態に係る形状認識システムの具体的な出力例を示す図(その1)である。
図11は、第3実施形態に係る形状認識システムの具体的な出力例を示す図(その2)である。
【0061】
図9に示す画像には、キーボード及びマウスが含まれている。このような画像に対してインスタンスセグメンテーションモデル200を適用すると、キーボード及びマウス各々の物体領域部分を抽出することができる。
【0062】
続いて、物体領域部分に形状分類モデル300を適用すると、物体領域部分に対応する物体の形状を示すスコア(0~1)が表示される。ここでは、キーボード(keyboard)について「square(1.00)」というスコアが示されている。この結果は、画像中のキーボードが極めて四角い形状に近いことを意味している。一方、マウス(mouse)について「circle(1.00)」というスコアが示されている。この結果は、画像中のマウスが極めて丸い形状に近いことを意味している。
【0063】
図10に示す画像には、冷蔵庫及び電子レンジが含まれている。このような画像について同様に形状認識を行うと、冷蔵庫(refrigerator)について「square(1.00)」というスコアが示される。この結果は、画像中の冷蔵庫が極めて四角い形状に近いことを意味している。一方、電子レンジ(microwave)についても「square(1.00)」というスコアが示される。この結果は、画像中の電子レンジが極めて四角い形状に近いことを意味している。
【0064】
図11に示す画像には、モニタ(TV)、キーボード、マウス、及びカップが含まれている。このような画像について同様に形状認識を行うと、モニタ(tv)について「square(1.00)」というスコアが示される。この結果は、画像中のモニタが極めて四角い形状に近いことを意味している。また、キーボード(keyboard)についても「square(1.00)」というスコアが示される。この結果は、画像中のキーボードが極めて四角い形状に近いことを意味している。また、マウス(mouse)については「circle(1.00)」というスコアが示されている。この結果は、画像中のマウスが極めて丸い形状に近いことを意味している。更に、カップ(cup)については「circle(0.56)」というスコアが示されている。この結果は、画像中のカップがやや丸い形状に近いことを意味している。
【0065】
以上のように、物体の形状を示すスコアを表示すれば、物体がどのような形状なのかを直感的に把握することが可能である。また、スコアの大小によって、どの程度丸い形状に近いのか、或いはどの程度四角い形状に近いのかを判別することができる。よって、完全に丸い形状ではなくても、やや丸っぽい形状として判別することが可能であり、完全に四角い形状ではなくても、やや四角っぽい形状として判別することが可能である。
【0066】
なお、上述した例では、物体が丸いか又は四角いかを認識するケースを挙げたが、丸及び四角以外の形状を認識可能に構成されてもよい。例えば、三角や星型、或いは更に複雑な形状を認識可能に構成されてもよい。
【0067】
(技術的効果)
次に、第3実施形態に係る形状認識システム20によって得られる技術的効果について説明する。
【0068】
図7から
図11で説明したように、第3実施形態に係る形状認識システム20では、インスタンスセグメンテーションモデル200を用いて物体領域部分が抽出される。そして、物体領域部分に対して形状分類モデル300を用いることで物体の形状が推定される。ここで、形状分類モデル300は、すでに第1及び第2実施形態で説明したように、物体の形状を適切に認識可能なモデルとして生成されている。加えて、インスタンスセグメンテーションモデル200により物体領域部分を抽出してから形状推定を行っているため、極めて高い精度で物体の形状を推定することが可能である。
【0069】
また、本実施形態では特に、物体領域部分を入力として生成された形状分類モデルを用いることで、形状の曖昧さを許容した認識を実現することができる。具体的には、丸っぽい形状、四角っぽい形状のような曖昧な形状(即ち、きれいな四角や丸からかけ離れた形状)についても認識することが可能となる。
【0070】
<第4実施形態>
次に、第4実施形態に係る形状認識システム20について、
図12から
図14を参照して説明する。なお、第4実施形態は、上述した第3実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については概ね同様である。このため、以下では第3実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
【0071】
(システム構成)
まず、
図12を参照しながら、第4実施形態に係る形状認識システム20機能的構成について説明する。
図12は、第4実施形態に係る形状認識システムが備える機能ブロックを示すブロック図である。なお、
図12では、
図7で示した構成要素と同様のものに同一の符号を付している。
【0072】
図12に示すように、第4実施形態に係る形状認識システム20は、物体領域部分抽出部110と、箱領域抽出部140と、形状推定部150とを備えている。即ち、第4実施形態に係るモデル生成装置10は、第3実施形態の構成(
図7参照)に加えて、箱領域抽出部140を更に備えて構成されている。なお、箱領域抽出部140は、第2実施形態で説明したように、画像から物体の位置を示す箱領域を抽出するものである。
【0073】
(動作説明)
次に、
図13を参照しながら、第4実施形態に係る形状認識システム20の動作の流れについて説明する。
図13は、第4実施形態に係る形状認識システムの動作の流れを示すフローチャートである。なお、
図13では、
図8で示した処理と同様の処理に同一の符号を付している。
【0074】
図13に示すように、第4実施形態に係る形状認識システム20の動作時には、まず画像データが入力される(ステップS301)。
【0075】
次に、箱領域抽出部140が、入力された画像から、物体の位置を示す箱領域を抽出する(ステップS401)。そして、物体領域部分抽出部110が、抽出された箱領域から、所定の形状の物体が占める物体領域部分を抽出する(ステップS302)。
【0076】
次に、形状推定部150は、形状分類モデル300を用いて、抽出された物体領域部分に対応する物体の形状を推定する(ステップS303)。最後に、形状推定部150は、推定結果として物体の形状を示す情報を出力する(ステップS304)。
【0077】
(技術的効果)
次に、第4実施形態に係る形状認識システム20によって得られる技術的効果について説明する。
【0078】
図12及び
図13で説明したように、第4実施形態に係る形状認識システム20では、入力された画像から物体の位置を示す箱領域が抽出される。このようにすれば、より容易に且つ高い精度で物体領域部分を抽出することができる。この結果、第4実施形態に係る形状認識システム20によれば、より高い精度で物体の形状を推定することが可能である。
【0079】
<変形例>
次に、
図14を参照しながら、上述した第4実施形態に係る形状認識システム20の変形例について説明する。
図14は、変形例に係る形状認識システムの動作の流れを示すフローチャートである。なお、
図14では、
図13で示した処理と同様の処理に同一の符号を付している。
【0080】
第4実施形態では、画像データに含まれる物体の形状を推定する例を挙げたが、同様の手法で、映像データに含まれる物体の形状を推定することも可能である。この場合、映像データを複数の画像データの時系列集合として扱えばよい。
【0081】
図14に示すように、変形例に係る形状認識システム20の動作時には、まず繰り返し処理をカウントするためのパラメータであるNが“1”とされる(ステップS501)。なお、ここでの“1”は所定の初期値であり、ステップS501の処理はNを初期化する処理である。
【0082】
次に、形状認識システム20には、映像データが入力される(ステップS502)。映像データは、T枚の時系列画像データからなるものである。形状認識システム20は、映像データから、N番目の画像データを抽出する(ステップS503)。
【0083】
次に、箱領域抽出部140が、抽出したN番目の画像から、物体の位置を示す箱領域を抽出する(ステップS401)。そして、物体領域部分抽出部110が、抽出された箱領域から、所定の形状の物体が占める物体領域部分を抽出する(ステップS302)。
【0084】
次に、形状推定部150は、形状分類モデル300を用いて、抽出された物体領域部分に対応する物体の形状を推定する(ステップS303)。そして、形状推定部150は、推定結果として物体の形状を示す情報を出力する(ステップS304)。
【0085】
次に、形状認識システム20は、Nをインクリメントする(ステップS504)。そして、形状認識システム20は、N=Tであるか否かを判定する(ステップS505)。言い換えれば、映像データに含まれる最後の画像データの処理が終了したか否かを判定する。
【0086】
ここで、N=Tでないと判定された場合(ステップS505:NO)、ステップS503から処理が再び実行される。よって、映像データに含まれる最後の画像データの処理が終了するまでは、ステップS503~ステップS504の処理が繰り返し実行されることになる。一方で、N=Tであると判定された場合(ステップS505:YES)、一連の処理は終了する。
【0087】
以上説明した変形例によれば、映像データに含まれる物体の形状を適切に認識することが可能である。なお、映像データに関しては、ライフログ等の普及により映像検索システムへの活用が想定される。そして、自由テキストクエリによる映像検索を実現しようとする場合、「いつ(When)」、「どこで(Where)」、「どのような(How)」、「もの(What)」等のクエリに対応することが要求されことになる。
【0088】
ここで、「いつ(When)」のクエリについては、映像のタイムスタンプから取得した情報で対応できる。「どこで(Where)」のクエリについては、映像のGPS情報(緯度・経度情報)で対応できる。「もの(What)」のクエリについては、既存の物体検出を用いて取得できる情報で対応できる。その一方で、「どのような(How)」のクエリについては、既存の技術で取得できる情報では対応が難しい。
【0089】
これに対し、上述した変形例に係る形状認識システム20によれば、映像データから認識した物体の形状に関する情報で「どのような(How)」のクエリに対応することが可能となる。具体的には、ユーザから物体の形状に関する指定を受け付け、映像データを構成する複数の画像データの中から、指定された形状の物体が含まれる画像を検索して出力するようにすればよい。この場合、ユーザからの形状の指定は、例えば入力装置15(
図1参照)を用いて行われてもよい。また、検索した画像の出力は、例えば出力装置16(
図1参照)を用いて行われてもよい。このようにすれば、例えば、「去年の8月に京都で見た丸い車」のような検索クエリに対して、「丸い」形状を有する物体を抽出して対応することができる。このように、変形例に係る形状認識システム20は、映像データの自由テキストクエリ検索において、極めて有益な効果を奏することが考えられる。
【0090】
<付記>
以上説明した実施形態に関して、更に以下の付記を開示する。
【0091】
(付記1)
付記1に記載のモデル生成システムは、対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成する生成手段とを備えることを特徴とするモデル生成システムである。
【0092】
(付記2)
付記2に記載のモデル生成システムは、前記抽出手段は、対象画像を複数の単位領域ごとに処理して前記物体領域部分を抽出することを特徴とする付記1に記載のモデル生成システムである。
【0093】
(付記3)
付記3に記載のモデル生成システムは、前記対象画像から前記物体が含まれる矩形領域を抽出する第2の抽出手段を更に備え、前記抽出手段は、前記矩形領域から前記物体領域部分を抽出することを特徴とする付記1又は2に記載のモデル生成システムである。
【0094】
(付記4)
付記4に記載のモデル生成システムは、前記形状分類モデルが分類する形状を指定する指定手段と、前記指定手段で指定された形状の物体を含む画像を、複数の画像の中から前記対象画像として抽出する第3の抽出手段とを更に備えることを特徴とする付記1から3のいずれか一項に記載のモデル生成システムである。
【0095】
(付記5)
付記5に記載のモデル生成システムは、前記物体領域部分の色を検出し、前記物体領域部分に色情報を付与する色情報付与手段を更に備えることを特徴とする付記1から4のいずれか一項に記載のモデル生成システムである。
【0096】
(付記6)
付記6に記載の形状認識システムは、対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する推定手段とを備えることを特徴とする形状認識システムである。
【0097】
(付記7)
付記7に記載の形状認識システムは、前記抽出手段は、対象画像を複数の単位領域ごとに処理して前記物体領域部分を抽出することを特徴とする付記6に記載の形状認識システムである。
【0098】
(付記8)
付記8に記載の形状認識システムは、前記対象画像から前記物体が含まれる矩形領域を抽出する第2の抽出手段を更に備え、前記抽出手段は、前記矩形領域から前記物体領域部分を抽出することを特徴とする付記6又は7に記載の形状認識システムである。
【0099】
(付記9)
付記9に記載の形状認識システムは、前記物体の形状の指定を受け付ける受付手段と、前記推定手段の推定結果に基づいて、複数の前記対象画像から前記指定された形状の物体が含まれる画像を出力する出力手段とを更に備えることを特徴とする付記6から8のいずれか一項に記載の形状認識システムである。
【0100】
(付記10)
付記10に記載の形状認識システムは、前記推定手段は、前記物体領域部分の前記物体の形状に加えて、前記物体領域部分の前記物体の色を推定することを特徴とする付記6から9のいずれか一項に記載の形状認識システムである。
【0101】
(付記11)
付記11に記載のモデル生成方法は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成することを特徴とするモデル生成方法である。
【0102】
(付記12)
付記12に記載の形状認識方法は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定することを特徴とする形状認識方法である。
【0103】
(付記13)
付記13に記載のコンピュータプログラムは、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。
【0104】
(付記14)
付記14に記載のコンピュータプログラムは、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。
【0105】
本発明は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴うモデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラムもまた本発明の技術思想に含まれる。
【符号の説明】
【0106】
10 モデル生成システム
20 形状認識システム
110 物体領域部分抽出部
120 モデル生成部
130 指定画像抽出部
140 箱領域抽出部
150 形状推定部
200 インスタンスセグメンテーションモデル
300 形状分類モデル