(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-04
(45)【発行日】2023-12-12
(54)【発明の名称】学習装置、推論装置、制御方法及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20231205BHJP
G06T 7/68 20170101ALI20231205BHJP
G06V 10/86 20220101ALI20231205BHJP
G06V 10/77 20220101ALI20231205BHJP
【FI】
G06T7/00 350B
G06T7/68
G06V10/86
G06V10/77
(21)【出願番号】P 2022514886
(86)(22)【出願日】2020-04-13
(86)【国際出願番号】 JP2020016322
(87)【国際公開番号】W WO2021210051
(87)【国際公開日】2021-10-21
【審査請求日】2022-10-05
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】坂井 亮介
【審査官】新井 則和
(56)【参考文献】
【文献】特開2010-218051(JP,A)
【文献】国際公開第2010/104181(WO,A1)
【文献】特開2009-211177(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 7/68
G06V 10/86
G06V 10/77
(57)【特許請求の範囲】
【請求項1】
物体の特徴点毎に固有の第1ラベルと、当該第1ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する取得手段と、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第2ラベルに前記第1ラベルを変換する変換手段と、
画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第2ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する学習手段と、
を有する学習装置。
【請求項2】
前記取得手段は、前記物体が撮像された物体画像が入力された場合に当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第1ラベルに関する推論を行う推論器である第1推論器に前記物体画像を入力することで、前記組合せを取得する、請求項1に記載の学習装置。
【請求項3】
前記変換手段は、前記第1ラベルと前記第2ラベルとの対応を示すラベル情報に基づき、前記第1ラベルを前記第2ラベルに変換する、請求項1または2に記載の学習装置。
【請求項4】
前記見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点の組合せを判定する合同性・対称性判定手段と、
前記合同性・対称性判定手段による判定結果に基づき、前記ラベル情報を生成する第2ラベル定義手段と、をさらに有する、請求項3に記載の学習装置。
【請求項5】
前記変換手段は、前記鏡映対称性を有する前記物体の第1特徴点と第2特徴点が存在する場合、前記第2特徴点に対応する前記特徴点画像を鏡映操作により変換し、
前記学習手段は、前記第1特徴点に対応する前記特徴点画像と、前記変換手段により変換された前記特徴点画像と、に基づき、前記第1特徴点及び前記第2特徴点が属する第2ラベルに関する前記推論器の学習を行う、請求項1~4のいずれか一項に記載の学習装置。
【請求項6】
前記学習手段は、前記第2ラベル毎の前記特徴点画像及び前記正解データに基づき、前記第2ラベル毎に前記推論器の学習を行う、請求項1~5のいずれか一項に記載の学習装置。
【請求項7】
前記学習手段は、前記特徴点画像に対して中心位置のずらし、拡大又は縮小の少なくともいずれかを行った特徴点画像を生成し、当該特徴点画像を、前記推論器の学習に用いるデータとして加える、請求項1~6の少なくともいずれか一項に記載の学習装置。
【請求項8】
物体が撮像された物体画像が入力された場合に、当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第1ラベルに関する第1推論を行う第1推論手段と、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第2ラベルに前記第1ラベルを変換する変換手段と、
前記第2ラベルと、前記第1推論の結果に基づき前記物体画像から生成した、前記特徴点が撮像された特徴点画像と、に基づき、請求項1~7のいずれか一項に記載の学習装置が学習した推論器を用いて、前記特徴点の位置を推論する第2推論手段と、
を有する推論装置。
【請求項9】
コンピュータにより、
物体の特徴点毎に固有の第1ラベルと、当該第1ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得し、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第2ラベルに前記第1ラベルを変換し、
画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第2ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する、制御方法。
【請求項10】
物体の特徴点毎に固有の第1ラベルと、当該第1ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する取得手段と、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第2ラベルに前記第1ラベルを変換する変換手段と、
画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第2ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する学習手段
としてコンピュータを機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像を用いた機械学習を行う学習装置、制御方法及び記憶媒体の技術分野に関する。
【背景技術】
【0002】
与えられた画像から予め定義した特徴点の位置を自動で抽出する技術が存在する。例えば、特許文献1には、前段処理により定義した特徴点の大まかな位置を特定した後、後段処理により前段処理での微妙なずれを修正して正確な特徴点の位置を抽出する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
学習による特徴点位置の抽出法では、使用する学習データ数が多いほど高精度かつロバストな抽出モデルを作ることができる。一方、そのようなデータを集めるのは一般的に手間がかかる。また、特許文献1では、特徴点の位置を特定するための後段の抽出器をラベル数と同数だけ用意する必要があり、ラベル数が多いと、抽出器を用意するための手間が膨大となる。
【0005】
本開示では、特徴抽出の学習に好適な学習装置、制御方法及び記憶媒体を提供することを主な目的とする。
【課題を解決するための手段】
【0006】
学習装置の一の態様は、物体の特徴点毎に固有の第1ラベルと、当該第1ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する取得手段と、見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第2ラベルに前記第1ラベルを変換する変換手段と、画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第2ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する学習手段と、を有する学習装置である。
【0007】
推論装置の一態様は、物体が撮像された物体画像が入力された場合に、当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第1ラベルに関する第1推論を行う第1推論手段と、見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第2ラベルに前記第1ラベルを変換する変換手段と、前記第2ラベルと、前記第1推論の結果に基づき前記物体画像から生成した、前記特徴点が撮像された特徴点画像と、に基づき、学習装置が学習した推論器を用いて、前記特徴点の位置を推論する第2推論手段と、を有する推論装置である。
【0008】
制御方法の一の態様は、コンピュータにより、物体の特徴点毎に固有の第1ラベルと、当該第1ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得し、見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第2ラベルに前記第1ラベルを変換し、画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第2ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する、制御方法である。
【0009】
プログラムの一の態様は、物体の特徴点毎に固有の第1ラベルと、当該第1ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する取得手段と、見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第2ラベルに前記第1ラベルを変換する変換手段と、画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第2ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する学習手段としてコンピュータを機能させるプログラムである。
【発明の効果】
【0010】
本開示によれば、特徴抽出に関する学習を好適に実行することができる。
【図面の簡単な説明】
【0011】
【
図1】第1実施形態に係る学習装置の概略構成図である。
【
図2】制御部の機能的な構成を示すブロック図である。
【
図3】特徴点を抽出する対象となるテニスコートの俯瞰図である。
【
図4】(A)~(D)第1ラベルが夫々「5」、「6」、「3」、「13」となる特徴点を近くから見た図である。
【
図5】(A)~(D)抽出すべき特徴点の位置が
図3の例よりも厳密に定められている場合の第1ラベルが夫々「5」、「6」、「3」、「13」となる特徴点を近くから見た図である。
【
図6】
図5(B)に示す第1ラベルが「6」の画像に対して上下左右の各軸に対して鏡映操作を行った場合に生成される鏡映画像を示す。
【
図7】(A)第1ラベルが「0」となる特徴点を対象として生成された特徴点画像を示す。(B)第1ラベルが「3」となる特徴点を対象として生成された特徴点画像を示す。
【
図8】第2推論器パラメータを用いて推論を行う推論装置の概略構成を示す。
【
図9】推論装置の制御部の機能的なブロック構成図である。
【
図10】(A)テニスコートを対象とする特徴点抽出において、物体画像上に、第1推論部の処理結果を明示した図である。(B)第2ラベルと第2推論部により推定した位置を示すマークとを物体画像上に明示した図である。
【
図11】学習装置が実行する学習前処理の手順を示すフローチャートの一例である。
【
図12】学習装置が実行する第2推論器の学習処理の手順を示すフローチャートの一例である。
【
図13】推論装置が実行する推論処理の手順を示すフローチャートの一例である。
【
図14】第2実施形態における学習装置の概略構成を示す。
【
図15】第2実施形態における学習装置の処理手順を示すフローチャートの一例である。
【
図16】第2実施形態における学習装置の処理手順を示すフローチャートの他の例である。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら、学習装置、制御方法及び記憶媒体の実施形態について説明する。
【0013】
<第1実施形態>
(1)
概略構成
図1は、第1実施形態に係る学習装置1の概略構成図を示す。学習装置1は、与えられた画像に含まれる物体の特徴点抽出を、前段に設けられた第1推論器及び後段に設けられた第2推論器を用いて行う推論において用いられる第2推論器の学習を行う装置である。以後では、特徴点抽出の対象となる物体を「基準物体Ro」とも呼ぶ。学習装置1は、主に、表示部10と、通信部11と、入力部12と、制御部13と、記憶部14とを有する。
【0014】
表示部10は、制御部13の制御に基づき、所定の情報を表示する。表示部10は、ディスプレイであってもよく、表示光を射出するプロジェクタ等であってもよい。通信部11は、制御部13の制御に基づき、有線又は無線により外部装置とのデータの授受を行う通信インターフェースである。入力部12は、ユーザの操作に基づく入力信号を生成して制御部13に送信する。入力部12は、ユーザが学習装置1に対して指示を行うための任意の入力インターフェースであり、例えば、ボタン、十字キー、キーボード、マウス、タッチパネル、音声入力装置等が含まれる。
【0015】
制御部13は、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、量子プロセッサなどのプロセッサ、プロセッサの作業メモリとして機能する揮発性メモリなどを有しており、学習装置1の全体的な制御を行う。
【0016】
記憶部14は、制御部13が学習に必要な種々の情報を記憶する不揮発性メモリを有する。記憶部14は、学習装置1に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよい。また、記憶部14には、制御部13が実行するプログラムが記憶される。また、記憶部14は、学習データD1と、第1推論器パラメータD2と、第2推論器パラメータD3と、ラベル情報D4と、を記憶している。
【0017】
学習データD1は、基準物体Roが撮像された画像(「物体画像Imo」とも呼ぶ。)と、基準物体Roに対し抽出すべき特徴点に関する正解を示すデータ(「正解データCd」とも呼ぶ。)との複数の組合せとなる学習データセットである。ここで、正解データCdは、物体画像Imoにおける特徴点の位置と、当該特徴点に固有の分類を示すラベル(「第1ラベルL1」とも呼ぶ。)とに関する正解を示すデータである。この場合、好適には、特徴点を抽出する対象となる基準物体Roを種々の撮像環境(例えば照明の有無や度合の異なる環境)において撮像した物体画像Imoが学習データD1に含まれているとよい。
【0018】
ここで、特徴点を抽出する対象となる基準物体Roは、見え方によって合同となる性質(「見え方合同性」とも呼ぶ。)又は鏡映操作を行うことで見え方合同となる性質(「鏡映対称性」とも呼ぶ。)を、特定の特徴点同士が有する構造物その他の物体である。例えば、上記基準物体Roは、テニス、競泳、サッカー、卓球、バスケットボール、ラグビーなどの各スポーツのフィールド、将棋又は囲碁などの各ゲームのフィールド、劇のステージ、スポーツフィールドの模型などが該当する。なお、種々のサーフェスの種類を含めたコートへの適用を想定している場合には、学習データD1には、複数の場所に存在する各バリエーションの基準物体Ro(例えばテニスコートの場合には各サーフェスに対応したテニスコート)が撮像された物体画像Imoが含まれていてもよい。
【0019】
第1推論器パラメータD2は、入力された画像に対し、対象の基準物体Roの各特徴点の位置及び各特徴点の第1ラベルL1に関する推論を行う推論器である第1推論器を構成するためのパラメータに関する情報である。
【0020】
第1推論器は、例えば、特徴点を抽出する対象となる基準物体Roが撮像された物体画像Imoが入力された場合に、抽出対象となる特徴点の位置に関する情報と、当該特徴点が属する第1ラベルL1とを出力するように学習された学習モデルである。第1推論器が出力する特徴点の位置に関する情報は、対象の特徴点の画像内の信頼度マップであってもよく、座標値であってもよく、特徴点が存在する可能性がある範囲を示すものであってもよい。ここで、信頼度マップは、特徴点の座標値ごとの信頼度を示す画像上のマップである。「座標値」は、ピクセル単位での画像内の位置を示す値であってもよく、サブピクセル単位での画像内の位置を示す値であってもよい。第1推論器の学習に用いる学習モデルは、ニューラルネットワークに基づく学習モデルであってもよく、サポートベクターマシーンなどの他の種類の学習モデルであってもよく、これらの組み合わせであってもよい。例えば、上述の学習モデルが畳み込みニューラルネットワークなどのニューラルネットワークである場合、第1推論器パラメータD2は、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの各種パラメータである。
【0021】
第2推論器パラメータD3は、特徴点及びその周辺を撮像した画像(「特徴点画像Imf」とも呼ぶ。)が入力された場合に、当該特徴点の位置に関する推論を行う推論器である第2推論器を構成するためのパラメータに関する情報である。特徴点画像Imfは、第1推論器の推論結果に基づき第1推論器に入力された物体画像Imoの一部を示す部分画像である。なお、特徴点画像Imfは、物体画像Imoと同一サイズ又はその他の所定サイズとなるように拡大されてもよい。
【0022】
第2推論器パラメータD3は、見え方合同性又は鏡映対称性を有する特徴点同士(特徴点のグループ)を同一のラベル値として各特徴点に割り当てたラベル(「第2ラベルL2」とも呼ぶ。)毎の第2推論器を構成するためのパラメータを含んでいる。そして、第2推論器は、見え方合同性又は鏡映対称性に基づき第1ラベルL1よりラベル数が削減された第2ラベルL2毎に学習が行われる。第2推論器は、例えば、特徴点画像Imfが入力された場合に、抽出対象となる特徴点の位置と、当該特徴点が属する第2ラベルL2との組合せに関する情報を出力するように学習された学習モデルである。第2推論器が出力する特徴点の位置に関する情報は、対象の特徴点の画像内の信頼度マップであってもよく、座標値であってもよい。第2推論器の学習に用いる学習モデルは、ニューラルネットワークに基づく学習モデルであってもよく、サポートベクターマシーンなどの他の種類の学習モデルであってもよく、これらの組み合わせであってもよい。第2推論器パラメータD3は、後述する学習処理により制御部13により生成され、記憶部14に記憶される。
【0023】
ラベル情報D4は、第1ラベルL1と第2ラベルL2との対応関係を示す情報である。ラベル情報D4は、第2推論器の学習の前処理において学習装置1により生成され、記憶部14に記憶される。なお、好適には、第2ラベルL2が同一となる他の特徴点と鏡映対称の関係となる特徴点の第1ラベルL1には、鏡映対称である旨のフラグ情報等が第2ラベルL2と共にラベル情報D4において関連付けられる。
【0024】
なお、
図1に示す学習装置1の構成は一例であり、この構成に対して種々の変更を行ってもよい。例えば、学習装置1は、学習データD1を自ら記憶する代わりに、学習装置1と有線又は無線により接続する外部装置に記憶された学習データD1を読み出すことで使用する学習データD1を取得してもよい。同様に、学習装置1は、第1推論器パラメータD2、第2推論器パラメータD3、ラベル情報D4の少なくともいずれかを、学習装置1と有線又は無線により接続する外部装置に記憶させてもよい。上述の外部装置は、学習装置1と有線又は無線により接続するハードディスクなどの外部記憶装置、又は、学習装置1とデータ通信を行う1又は複数のサーバ装置であってもよい。同様に、学習装置1は、表示部10、通信部11又は入力部12の少なくともいずれかを備えていなくともよい。この場合、学習装置1は、表示部10、通信部11又は入力部12に相当する機能を有する装置と有線又は無線により電気的に接続してもよい。
【0025】
(2)
機能ブロック
図2は、制御部13が有する機能を示す機能ブロック図の一例である。本実施形態では、制御部13は、第2推論器の学習に必要なラベル情報D4の生成(「学習前処理」とも呼ぶ。)と、第2推論器パラメータD3を生成するための第2推論器の学習処理とを行う。
図2に示すように、制御部13は、機能的には、合同性・対称性判定部21と、第2ラベル定義部22と、第1推論部23と、変換部24と、学習部25とを有する。合同性・対称性判定部21及び第2ラベル定義部22が主に学習前処理を行い、第1推論部23、変換部24及び学習部25が主に第2推論器の学習処理を行う。なお、
図2では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せは
図2に限定されない。後述する他の機能ブロックの図においても同様である。
【0026】
合同性・対称性判定部21は、特徴抽出の対象となる基準物体Roの特徴点間の見え方の合同性及び鏡映対称性に関する判定を行う。合同性・対称性判定部21は、例えば、対象の基準物体Roが撮像された物体画像Imo及び対応する正解データCdの複数の組合せを学習データD1から抽出し、抽出した物体画像Imoから対象の基準物体Roの3次元モデルを、任意の画像処理技術に基づき生成する。さらに、合同性・対称性判定部21は、抽出した正解データCdに基づき、生成した3次元モデル上での第1ラベル毎の特徴点の位置を認識する。そして、合同性・対称性判定部21は、3次元モデルの各特徴点近傍について、合同性又は鏡映対称性の有無を判定するためのマッチングを行う。上述の特徴点近傍は、特徴点画像Imfにおいて撮像される範囲とおよそ同一の範囲となるように設定される。なお、合同性・対称性判定部21は、鏡映操作を行った3次元モデルと鏡映操作を行っていない3次元モデルとを用いたマッチングを行うことで、鏡映対称性の有無を判定してもよい。そして、合同性・対称性判定部21は、合同性又は鏡映対称性を有する第1ラベルの組合せ(グループ)に関する情報を第2ラベル定義部22に供給する。なお、合同性・対称性判定部21は、対象の基準物体Roの3次元モデルに関するパラメータが予め記憶部14等に記憶されている場合には、当該パラメータを参照することで、基準物体Roの3次元モデルを生成してもよい。
【0027】
なお、合同性・対称性判定部21は、3次元モデルから見え方合同性及び鏡映対称性を判定する代わりに、複数の物体画像Imoから正射変換を行うことで対象の基準物体Roのオルソ画像を生成し、当該オルソ画像に基づき見え方合同性又は鏡映対称性を判定してもよい。この場合、合同性・対称性判定部21は、例えば、オルソ画像に表示される各特徴点について特徴点画像Imfと同一範囲の近傍領域を設定し、設定した近傍領域同士のマッチングを行うことで、見え方合同性及び鏡映対称性を判定する。なお、このオルソ画像は、予め記憶部14等に記憶されてもよい。さらに別の例では、合同性・対称性判定部21は、上述の3次元モデル又はオルソ画像を、特徴点を明示した状態により表示部10に表示し、見え方合同性又は鏡映対称性を有する特徴点(又は第1ラベル)の組合せを指定する入力を、入力部12により受け付けてもよい。このように、合同性・対称性判定部21は、ユーザ入力に基づき、特徴点の近傍同士の見え方合同性又は鏡映対称性を判定してもよい。
【0028】
第2ラベル定義部22は、合同性・対称性判定部21による見え方合同性及び鏡映対称性に関する判定結果に基づき、第2ラベルL2の定義を行う。具体的には、第2ラベル定義部22は、上記の判定結果に基づき、第1ラベルL1の各々に対応する第2ラベルL2を決定し、第1ラベルL1と第2ラベルL2との対応を示すラベル情報D4を生成する。この場合、例えば、第2ラベル定義部22は、同一の第2ラベルL2に属する第1ラベルL1において他の第1ラベルL1と鏡映対称の関係となる第1ラベルL1には、対応する第2ラベルL2と共に鏡映対称である旨のフラグ情報を付すとよい。
【0029】
第1推論部23は、第1推論器パラメータD2に基づき構成した第1推論器に学習データD1から抽出した物体画像Imoを入力し、第1推論器から出力される推論結果を取得する。そして、第1推論部23は、取得した推論結果に基づき、検出された特徴点毎に、特徴点画像Imfと第1ラベルL1との組合せを生成する。この場合、例えば、第1推論器の推論結果が特徴点の座標値を示す場合には、第1推論部23は、物体画像Imoにおいて当該座標値を中心する所定サイズの矩形領域を、特徴点画像Imfとして生成する。また、第1推論器の推論結果が特徴点の信頼度マップを示す場合には、第1推論部23は、物体画像Imoにおいて信頼度が最も高い座標値を中心する所定サイズの矩形領域を、特徴点画像Imfとして生成する。そして、第1推論部23は、生成した特徴点画像Imfと第1ラベルL1との組合せを、変換部24に供給する。
【0030】
変換部24は、ラベル情報D4に基づき、第1推論部23から供給される第1ラベルL1を第2ラベルL2に変換し、第1ラベルL1と第2ラベルL2と特徴点画像Imfとを、学習部25に供給する。
【0031】
この場合、好適には、変換部24は、同一の第2ラベルL2が付された特徴点のうち他の特徴点と鏡映対称となる特徴点に対応する特徴点画像Imfをラベル情報D4の付加情報に基づき特定した場合、当該特徴点画像Imfに対して鏡映操作を行った特徴点画像Imfを学習部25に供給する。これにより、変換部24は、第2ラベルL2毎に全ての特徴点画像Imfが見え方合同となる特徴点画像Imfを好適に学習部25に供給する。言い換えると、変換部24は、鏡映対称性を有する第1特徴点と第2特徴点が存在する場合、第2特徴点に対応する特徴点画像Imfを鏡映操作により変換する。その後、学習部25は、第1特徴点に対応する特徴点画像Imfと、鏡映変換された第2特徴点に対する特徴点画像Imfと、に基づき、第1特徴点及び第2特徴点が属する第2ラベルに関する第2推論器の学習を行う。
【0032】
学習部25は、変換部24から供給される特徴点画像Imfと、学習データD1から抽出した正解データCdが示す特徴点の正解位置とに基づき、第2ラベルL2毎に第2推論器の学習を行うことで、第2ラベルL2毎の第2推論器パラメータD3を生成する。この場合、学習部25は、対象の物体画像Imoに対する特徴点画像Imfの相対位置等に基づき、正解データCdが示す第1ラベルL1の特徴点の物体画像Imoおける正解位置を、特徴点画像Imfにおける正解位置に変換する。そして、学習部25は、変換した正解位置と特徴点画像Imfとに基づき第2推論器の学習を行う。第2推論器の学習では、学習部25は、例えば、特徴点画像Imfを第2推論器に入力した場合に第2推論器が出力する特徴点の位置と、当該特徴点の正解の位置との誤差(損失)が最小となるように、第2推論器のパラメータを決定する。損失を最小化するように上述のパラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。そして、学習部25は、学習後の第2推論器のパラメータを、第2推論器パラメータD3として記憶する。なお、学習装置1は、第2推論器パラメータD3を、後述する推論装置に対して通信部11を用いて直ちに送信してもよく、学習装置1及び推論装置に着脱可能な記憶媒体を介して推論装置に供給してもよい。
【0033】
なお、
図2において説明した合同性・対称性判定部21、第2ラベル定義部22、第1推論部23、変換部24及び学習部25の各構成要素は、例えば、制御部13がプログラムを実行することによって実現できる。より具体的には、各構成要素は、記憶部14に格納されたプログラムを、制御部13が実行することによって実現され得る。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、これらの各構成要素は、例えばFPGA(field-programmable gate array)又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。このように、各構成要素は、プロセッサ以外のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。
【0034】
また、学習装置1は、複数の装置から構成されてもよい。例えば、学習装置1は、学習前処理を行う装置と、第2推論器の学習処理を行う装置とを含んでもよい。この場合、第2推論器の学習処理を行う装置は、学習前処理を行う装置が生成したラベル情報D4を取得後に、第2推論器の学習処理を実行する。このように、学習装置1を構成する各装置は、互いに必要なデータの授受を行うことで、予め割り当てられた処理を実行する。
【0035】
(3)見え方合同性及び鏡映対称性の具体例
次に、見え方合同性及び鏡映対称性に基づく第1ラベルL1と第2ラベルL2との対応関係について、特徴点を抽出する対象の基準物体Roをテニスコートとした例を用いて具体例に説明する。
【0036】
図3は、特徴点を抽出する対象となるテニスコートの俯瞰図である。
図3では、抽出すべき特徴点の位置を丸印により囲むと共に、各特徴点に対応する第1ラベルL1(ここでは「0」~「13」)を明示している。また、
図4(A)~(D)は、第1ラベルL1が夫々「5」、「6」、「3」、「13」となる特徴点を近くから見た図である。なお、
図4(A)~(D)に示す画像は、仮に
図3に示すテニスコートを真上から物体画像Imoを撮像した場合の第1ラベルL1が夫々「5」、「6」、「3」、「13」となる特徴点の特徴点画像Imfを示す。また、
図4(A)~(D)では、抽出すべき特徴点の位置を丸印により囲んでいる。
【0037】
図3及び
図4(A)~(B)に示すように、第1ラベルL1が「5」の特徴点と、第1ラベルL1が「6」の特徴点とは、近くから360°の視点(厳密には制限のある立体角から見た視点)で見た場合、見え方が同一となる。同様に、
図3及び
図4(C)~(D)に示すように、第1ラベルL1が「3」の特徴点と、第1ラベルL1が「13」の特徴点とは、近くから360°の視点で見た場合、見え方が同一となる。従って、合同性・対称性判定部21は、第1ラベルL1が「5」と「6」の特徴点と、第1ラベルL1が「3」と「13」の特徴点とが見え方合同であるとみなす。そして、合同性・対称性判定部21は、テニスコート全体に対し、見え方合同となる特徴点のグループ(組合せ)を認識する。そして、第2ラベル定義部22は、第1ラベルL1が「0」、「3」、「10」、「13」の各特徴点のグループが見え方同一性を有することから、これらの第2ラベルL2を同一値(ここでは「0」とする)に設定する。また、第2ラベル定義部22は、第1ラベルL1が「1」、「2」、「4」、「5」、「6」、「7」、「8」、「9」、「11」、「12」の各特徴点のグループが見え方同一性を有することから、これらの第2ラベルL2を同一値(ここでは「1」とする)に設定する。
【0038】
従って、この場合、学習装置1は、第2ラベルL2のラベル数を2個とすることができる。よって、学習装置1は、学習させる第2推論器の個数に相当する第2ラベルL2の数を好適に削減することができる。また、この場合、1枚の物体画像Imoにつき、第2ラベルL2が「0」の学習サンプル数は4個となり、第2ラベルL2が「1」の学習サンプル数は10個となる。このように、学習装置1は、見え方合同性及び鏡映対称性に基づくラベルの統合により、第2ラベルL2毎の第2推論器の学習に用いる学習サンプル数を好適に増加させることができる。
【0039】
図5(A)~(D)は、抽出すべき特徴点の位置が
図3の例よりも厳密に定められている場合の第1ラベルL1が夫々「5」、「6」、「3」、「13」となる特徴点を近くから見た図である。
【0040】
この場合、
図5(C)、(D)に示す第1ラベルL1が「3」と「13」の特徴点は、回転操作により見え方が同一となるため、同一の第2ラベルL2を付すことが可能である。一方、
図5(A)、(B)に示すように、第1ラベルL1が「5」と「6」の特徴点は、回転操作を行っても同一の見え方とはならないものの、互いに鏡映対称の関係を有し、いずれか一方に対して鏡映操作を行うことで、見え方合同となる。
【0041】
図6は、
図5(B)に示す第1ラベルL1が「6」の画像に対して上下左右の各軸に対して鏡映操作を行った場合に生成される鏡映画像を示す。
図6に示すように、第1ラベルL1が「6」の画像に対して任意の軸に対して鏡映操作を行うことで生成した画像(「鏡映画像」とも呼ぶ。)は、第1ラベルL1が「5」の画像と見え方合同の関係となる。従って、合同性・対称性判定部21は、第1ラベルL1が「5」と「6」の特徴点については鏡映対称性を有すると判定し、第2ラベル定義部22は、これらに対して同一の第2ラベルL2を付す。このように、学習装置1は、鏡映対称性を有する特徴点同士を同一の第2ラベルL2とすることで、第2ラベルL2のラベル数を減らし、かつ、夫々の第2ラベルL2に対する学習サンプル数を好適に増加させることができる。
【0042】
図7(A)、(B)は、
図3に示すテニスコートを撮像した物体画像Imoに基づき生成された、拡大率が低い特徴点画像Imfを示す。
図7(A)に示す特徴点画像Imfは、第1ラベルL1が「0」となる特徴点を対象として生成された特徴点画像Imfであり、低拡大率に起因し、隣接する他の特徴点(ここでは第1ラベルL1が「1」となる特徴点)を含んでいる。同様に、
図7(B)に示す特徴点画像Imfは、第1ラベルL1が「3」となる特徴点を対象として生成された特徴点画像Imfであり、低拡大率に起因し、隣接する他の特徴点(ここでは第1ラベルL1が「2」となる特徴点)を含んでいる。なお、このような低拡大率は、例えば、物体画像Imoを撮像したカメラと基準物体Roとの距離による制約、又は、第1推論器での処理のブレの大きさによる制約によって生じる。
【0043】
この場合、合同性・対称性判定部21は、
図7(A)及び
図7(B)に示される特徴点画像Imfについて、鏡映対称性を有すると判定する。よって、この場合、第2ラベル定義部22は、第1ラベルL1が「0」となる特徴点と、第1ラベルL1が「3」となる特徴点とについて、同一の第2ラベルL2を割り当てる。このように、学習装置1は、低拡大率に起因して複数の特徴点が特徴点画像に含まれる場合であっても、拡大率に応じた範囲により各特徴点の近傍領域間の見え方合同性及び鏡映対称性を判定し、第2ラベルL2のラベル数を好適に削減することができる。
【0044】
(4)
第2推論器に基づく推論
次に、学習装置1が学習した第2推論器を用いた推論について説明する。
図8は、学習装置1が生成した第2推論器パラメータD3を用いて推論を行う推論装置3の概略構成を示す。
【0045】
推論装置3は、第1推論器パラメータD2と、学習装置1が生成した第2推論器パラメータD3及びラベル情報D4とを参照可能に構成される。そして、推論装置3は、カメラ等により撮像された物体画像Imoが入力された場合に、物体画像Imoにおける基準物体Roの特徴点の位置及び第1ラベルの組合せを推論し、推論結果に応じた所定の処理を行う。例えば、推論装置3は、推論結果に基づき、特徴点の位置関係などから対象の基準物体Roの位置、形状、向きなどを認識する。
【0046】
なお、推論装置3は、学習装置1と同一装置であってもよく、学習装置1以外の任意の装置であってもよい。後者の例では、推論装置3は、ユーザの頭部に装着可能であって、拡張現実を実現するARデバイスであってもよい。この場合、推論装置3は、スポーツ観戦や劇(コンサートを含む)の観賞などにおいて、実在する風景に視覚情報を重ねて表示することで、拡張現実を実現する。このようなARデバイスでは、実世界空間と推論装置3が認識する空間とを対応付けるためのキャリブレーション処理を行うため、基準となる基準物体Roの正確な特徴点抽出処理が必要となる。
【0047】
推論装置3は、主に、表示部30と、インターフェース31と、入力部32と、制御部33と、記憶部34とを有する。表示部30は、ディスプレイであってもよく、ARデバイスにおいて実在する風景に視覚情報を重ねて表示するための光を射出する光源ユニット及び当該光を反射して装着者の目に到達させる光学素子の組合せであってもよい。
【0048】
インターフェース31は、推論装置3が推論を行う対象となる物体画像Imoを取得するためのインターフェース動作を行う。インターフェース31は、物体画像Imoの撮像を行うカメラと有線又は無線により物体画像Imoを受信するためのインターフェースであってもよく、他の装置から物体画像Imoを受信するための通信インターフェースであってもよい。また、インターフェース31は、物体画像Imoを記憶した記憶媒体等から物体画像Imoを読み出すためのハードウェアインターフェースであってもよい。
【0049】
制御部33は、例えばCPU、GPU、量子プロセッサなどのプロセッサ、プロセッサの作業メモリとして機能する揮発性メモリなどを有しており、推論装置3の全体的な制御を行う。
【0050】
記憶部34は、制御部33が学習に必要な種々の情報を記憶する不揮発性メモリを有する。記憶部34は、第1推論器パラメータD2と、第2推論器パラメータD3と、ラベル情報D4とを記憶している。
【0051】
なお、
図8に示す推論装置3の構成は一例であり、この構成に対して種々の変更を行ってもよい。例えば、推論装置3は、第1推論器パラメータD2、第2推論器パラメータD3、ラベル情報D4を自ら記憶する代わりに、これらの少なくともいずれかを、推論装置3と有線又は無線により接続する外部装置から、インターフェース31を介して取得してもよい。同様に、推論装置3は、表示部30と、入力部32とを備える代わりに、外部装置として構成された表示装置又は入力装置とインターフェース31を介して有線又は無線により接続してもよい。また、推論装置3は、複数の装置から構成されてもよい。
【0052】
図9は、制御部33の機能的な構成を示す機能ブロックの一例である。制御部33は、機能的には、第1推論部36と、変換部37と、第2推論部38と、物体状況確定部39とを有する。
【0053】
第1推論部36は、インターフェース31を介して物体画像Imoを受信した場合に、第1推論器パラメータD2に基づき構成した第1推論器に物体画像Imoを入力し、第1推論器から出力される推論結果を取得する。そして、第1推論部36は、取得した推論結果に基づき、検出された特徴点毎に、特徴点画像Imfと第1ラベルL1の組合せを生成する。例えば、第1推論部36が行う処理は、学習装置1の第1推論部23が行う処理と同一である。
【0054】
変換部37は、ラベル情報D4に基づき、第1推論部36から供給される第1ラベルL1を第2ラベルL2に変換し、変換した第2ラベルL2と特徴点画像Imfとの組合せを、学習部25に供給する。この場合、好適には、変換部37は、同一の第2ラベルL2が付された特徴点のうち他の特徴点と鏡映対称となる特徴点に対応する特徴点画像Imfをラベル情報D4の付加情報に基づき特定した場合、当該特徴点画像Imfに対して鏡映操作を行った鏡映画像を第2推論部38に供給する。これにより、変換部37は、第2ラベルL2毎に全ての特徴点画像Imfが見え方合同となる特徴点画像Imfを、好適に第2推論部38に供給する。
【0055】
第2推論部38は、変換部37から供給される第2ラベルL2に対応する第2推論器を構成するために必要なパラメータを第2推論器パラメータD3から取得し、取得したパラメータに基づき構成した第2推論器に、変換部37から供給される特徴点画像Imfを入力する。そして、第2推論部38は、第2推論器から出力される推論結果に基づき、特徴点画像Imf内における特徴点の位置を認識し、認識した特徴点の位置を示す情報(「特徴点位置情報Pf」とも呼ぶ。)を物体状況確定部39に供給する。なお、第2推論器が特徴点画像Imf内の特徴点の座標位置を推論結果として出力する場合には、第2推論部38は、当該座標位置を示す特徴点位置情報Pfを、物体状況確定部39に供給する。また、第2推論器が特徴点画像Imf内の特徴点の信頼度マップを推論結果として出力する場合には、第2推論部38は、最も信頼度が高い特徴点画像Imf上の座標位置を示す特徴点位置情報Pfを、物体状況確定部39に供給する。
【0056】
物体状況確定部39は、第2推論部38から供給される特徴点位置情報Pfと、第1推論部36から供給される物体画像Imo、特徴点画像Imf、及び第1ラベルL1とに基づき、基準物体Roの状況を確定する。例えば、物体状況確定部39は、特徴点位置情報Pfと、物体画像Imoと、特徴点画像Imfとに基づき、物体画像Imoにおける各特徴点の位置を認識する。また、物体状況確定部39は、第1推論部36から供給される第1ラベルL1に基づき、各特徴点が属する第1ラベルを認識する。これにより、物体状況確定部39は、第1推論部36が検出した全ての特徴点に対し、物体画像Imo上の位置と第1ラベルL1との組合せを認識する。このように、推論装置3は、物体画像Imoにおいて撮像された基準物体Roの特徴点の位置及びラベルを的確に推論することができる。
【0057】
次に、推論装置3の処理の具体例について、
図10(A)、(B)を参照して説明する。
【0058】
図10(A)は、テニスコートを対象とする特徴点抽出において、推論装置3に供給される物体画像Imoに対し、第1推論部36による処理結果を明示した図である。
図10(A)では、第1推論部36による処理結果として、物体画像Imoに存在する各特徴点に対応する第1ラベルL1(ここでは「0」~「13」)と、特徴点毎に設定される特徴点画像Imf(「Imf0」~「Imf13」)に相当する矩形枠とが明示されている。また、
図10(B)は、各特徴点に対応する第2ラベルL2と特徴点位置情報Pfが示す特徴点の位置を示すマークとを物体画像Imo上に夫々明示した図である。ここでは、第2ラベルL2が「0」又は「1」となっている。
【0059】
図10(A)に示すように、第1推論部36は、物体画像Imoが入力された場合に、第1推論器パラメータD2に基づき第1推論器を構成する。そして、第1推論部36は、第1推論器に物体画像Imoを入力することで得られた推論結果に基づき、テニスコートにおいて抽出すべき特徴点の大まかな位置を示す特徴点画像Imfと第1ラベルL1との組合せを生成する。
【0060】
また、テニスコートの見え方合同性又は鏡映対称性の少なくとも一方に基づき生成されたラベル情報D4に基づき、変換部37は、「0」、「3」、「10」、「13」の第1ラベルL1に属する各特徴点の第2ラベルL2を「0」に定める。同様に、変換部37は、「1」、「2」、「4」、「5」、「6」、「7」、「8」、「9」、「11」、「12」の第1ラベルL1に属する各特徴点の第2ラベルL2を「1」に定める。
【0061】
そして、第2推論部38は、第2ラベルL2毎に予め生成された第2推論器パラメータD3に基づき第2ラベルL2毎に第2推論器を構成する。そして、第2推論部38は、対象となる特徴点毎に、第2ラベルL2に基づき第2推論器を選択し、選択した第2推論器に対応する特徴点画像Imfを入力する。そして、第2推論部38は、第2推論器の推論結果に基づき、特徴点毎に特徴点の位置を示した特徴点位置情報Pfを生成する。そして、物体状況確定部39は、特徴点位置情報Pfと、第1推論部36が推論した第1ラベルL1とに基づき、特徴点毎の正確な位置と第1ラベルL1との組合せを認識する。
【0062】
このように、推論装置3は、学習装置1が生成した第2推論器パラメータD3及びラベル情報D4を用いることで、与えられた物体画像Imoに対して基準物体Roの特徴点の位置及びラベルを的確に推論することができる。
【0063】
(5)
処理フロー
図11は、学習装置1が実行する学習前処理の手順を示すフローチャートの一例である。
【0064】
まず、学習装置1の合同性・対称性判定部21は、特徴点抽出の対象となる基準物体Roの見え方合同性及び鏡映対称性について判定を行う(ステップS11)。この場合、合同性・対称性判定部21は、入力部12によりユーザ入力を受け付けることで、基準物体Roの見え方合同性及び鏡映対称性を判定してもよく、学習データD1等に基づき生成した基準物体Roの3次元モデル又はオルソ画像を用いた解析により、上記判定を行ってもよい。
【0065】
次に、学習装置1の第2ラベル定義部22は、ステップS11において見え方合同性又は鏡映対称性を有すると判定された特徴点同士を同一の第2ラベルL2とするラベル情報D4を生成する(ステップS12)。このように、学習装置1は、見え方合同性及び鏡映対称性に基づき第2ラベルL2を定義することで、第2推論器において推論を行うラベル数を好適に削減する。
【0066】
図12は、学習装置1が実行する第2推論器の学習処理の手順を示すフローチャートの一例である。
【0067】
まず、学習装置1は、学習データD1から学習用の物体画像Imoを取得する(ステップS21)。この場合、例えば、学習装置1は、学習データD1として登録されている任意の未学習の(即ちまだ学習に用いていない)物体画像Imoを記憶部14から取得する。他の例では、学習装置1は、入力部12によるユーザ入力により指定された物体画像Imoを記憶部14から取得する。
【0068】
次に、学習装置1の第1推論部23は、第1推論器パラメータD2を参照して構成した第1推論器の推論結果に基づき、物体画像Imoから各特徴点に対する特徴点画像Imf及び第1ラベルL1の組合せを取得する(ステップS22)。この場合、第1推論部23は、第1推論器に物体画像Imoを入力することで得られる各特徴点の位置及び第1ラベルL1に関する推論結果に基づき、特徴点毎の特徴点画像Imf及び第1ラベルL1の組合せを取得する。
【0069】
次に、変換部24は、各第1ラベルL1に対応する第2ラベルL2を取得する(ステップS23)。この場合、変換部24は、ラベル情報D4を参照することで、見え方合同性又は鏡映対称性の少なくとも一方に基づき第1ラベルL1が統合された第2ラベルL2を取得する。また、変換部24は、ラベル情報D4に鏡映対称性を示す付加情報が含まれている場合には、第2ラベルL2毎に全ての特徴点画像Imfが見え方合同の関係となるように、一部の特徴点画像Imfに対して鏡映操作を行う。
【0070】
次に、学習部25は、ステップS22で取得された特徴点画像Imfと対象の特徴点の正解位置を示す正解データCdとに基づき、第2ラベルL2毎に第2推論器の学習を行う(ステップS24)。これにより、学習部25は、第2ラベルL2毎に第2推論器を構成するために必要な第2推論器パラメータD3を生成する。この場合、学習部25は、見え方合同性又は鏡映対称性の少なくとも一方に基づき削減したラベル数分の第2推論器の学習を行い、かつ、個々の第2推論器に対する学習サンプル数を好適に増加させることができる。
【0071】
そして、学習装置1は、第2推論器の学習を終了すべきか否か判定する(ステップS25)。例えば、学習装置1は、学習を終了すべき旨のユーザ入力等を検知した場合、又は、学習対象として指定された全ての物体画像Imoを用いた学習が完了した場合、学習を終了すべきと判定する。そして、学習装置1は、第2推論器の学習を終了すべきと判定した場合(ステップS25;Yes)、フローチャートの処理を終了する。一方、学習装置1は、学習を終了すべきでないと判定した場合(ステップS25;No)、ステップS21へ処理を戻す。この場合、学習装置1は、学習が行われていない学習用の物体画像Imoを学習データD1から取得して一連の処理を再び実行する。
【0072】
図13は、推論装置3が実行する推論処理の手順を示すフローチャートの一例である。
【0073】
まず、推論装置3は、特徴点抽出の対象となる基準物体Roが撮像された物体画像Imoを、カメラその他の外部装置からインターフェース31を介して取得する(ステップS31)。
【0074】
そして、推論装置3の第1推論部36は、第1推論器パラメータD2を参照して構成した第1推論器に物体画像Imoを入力することで得られる推論結果に基づき、物体画像Imoから各特徴点に対する特徴点画像Imf及び第1ラベルL1の組合せを取得する(ステップS32)。
【0075】
そして、推論装置3の変換部37は、各第1ラベルL1に対応する第2ラベルL2を取得する(ステップS33)。この場合、変換部37は、ラベル情報D4を参照することで、見え方合同性又は鏡映対称性の少なくとも一方に基づき第1ラベルL1が統合された第2ラベルL2を取得する。また、変換部37は、ラベル情報D4に鏡映対称性を示す付加情報が含まれている場合には、第2ラベルL2毎に全ての特徴点画像Imfが見え方合同の関係となるように、一部の特徴点画像Imfに対して鏡映操作を行う。
【0076】
次に、第2推論部38は、第2ラベルL2と、特徴点画像Imfとに基づき、第2推論器により特徴点の位置の推論を行う(ステップS34)。この場合、第2推論部38は、第2推論器パラメータD3に基づき対象の第2ラベルL2に対応する第2推論器を構成し、当該第2推論器に対応する特徴点画像Imfを入力することで、特徴点画像Imf内の正確な特徴点の位置の推論を行い、当該位置を示す特徴点位置情報Pfを生成する。
【0077】
そして、物体状況確定部39は、対象となる基準物体Roの状況の確定を行う(ステップS35)。この場合、物体状況確定部39は、ステップS31~ステップS34の処理結果に基づき、ステップS21で取得された物体画像Imoに含まれる全ての特徴点の正確な位置と各特徴点が属する第1ラベルL1との組合せを認識する。
【0078】
<第2実施形態>
図14は、第2実施形態における学習装置1Aの概略構成を示す。
図14に示すように、学習装置1Aは、取得手段23Aと、変換手段24Aと、学習手段25Aとを有する。
【0079】
取得手段23Aは、物体の特徴点毎に固有の第1ラベルと、当該第1ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する。取得手段23Aは、第1の例では、第1実施形態における第1推論部23とすることができる。第2の例では、取得手段23Aは、第1実施形態における第1推論部23に相当する処理を行う他の装置から、物体の特徴点毎に固有の第1ラベルと、当該第1ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得してもよい。第3の例では、取得手段23Aは、第1ラベルと、当該第1ラベルに対応する特徴点画像との組合せを記憶する記憶装置からこれらの組合せを読み出すことで取得してもよい。
【0080】
取得手段23Aの第2の例について補足説明する。第2の例の場合、学習データD1の他に、精度検証データ(Validation data)と呼ばれる、第1推論器のおおよその学習度を図るのに使用するデータも用意する。精度検証データは、一般的には学習データD1と異なるデータとなる。そして、精度検証データを用いて第1推論器に適用することによって第1推論器の精度を明らかにし、特徴点画像の矩形サイズなどを決める。なお、この矩形サイズは、入力される物体画像Imoに対する各特徴点のサイズにも依存する。また、精度検証データによる精度検証によって得られた精度を基に、第1ラベルに対応する特徴点画像の中心位置を意図的にずらすこと(特徴点が常に画像の真ん中にならないようにするため)や、意図的に拡大・縮小するなどによるデータ増強(水増し)も行う。これらの拡大・縮小やずらし方などはランダムに生成した数値を基に実行してもよい。なお、上記の処理は、第2の例における「他の装置」が実行してもよく、学習装置1Aが実行してもよい。
【0081】
変換手段24Aは、見え方の合同性又は鏡映対称性の少なくとも一方を有する物体の特徴点同士を同一のラベルとする第2ラベルに第1ラベルを変換する。変換手段24Aは、例えば、第1実施形態における変換部24とすることができる。
【0082】
学習手段25Aは、画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、第2ラベルと、特徴点画像と、特徴点の位置に関する正解データとに基づき学習する。上記の推論器は、例えば、第1実施形態における第2推論器とすることができ、学習手段25Aは、例えば、第1実施形態における学習部25とすることができる。
【0083】
図15は、第2実施形態において学習装置1Aが実行するフローチャートの一例である。取得手段23Aは、物体の特徴点毎に固有の第1ラベルと、当該第1ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する(ステップS41)。そして、変換手段24Aは、見え方の合同性又は鏡映対称性の少なくとも一方を有する物体の特徴点同士を同一のラベルとする第2ラベルに第1ラベルを変換する(ステップS42)。そして、学習手段25Aは、画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、第2ラベルと、特徴点画像と、特徴点の位置に関する正解データとに基づき学習する(ステップS43)。
【0084】
図16は、取得手段23Aの第2の例に関する上述の補足説明にて述べた処理を行う場合の学習装置1Aが実行するフローチャートの一例である。取得手段23Aは、物体の特徴点毎に固有の第1ラベルと、当該第1ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する(ステップS51)。そして、学習装置1Aは、精度検証データを用いて第1推論器に適用することによって第1推論器の精度を検証し、特徴点画像の矩形サイズなどを決定する(ステップS52)。さらに、学習装置1Aは、第1ラベルに対応する特徴点画像の中心位置を意図的にずらすことや、意図的に拡大・縮小するなどによるデータ増強を行う(ステップS53)。なお、ステップS52及びステップS53の処理は、ステップS54の後に実行してもよい。そして、変換手段24Aは、見え方の合同性又は鏡映対称性の少なくとも一方を有する物体の特徴点同士を同一のラベルとする第2ラベルに第1ラベルを変換する(ステップS54)。そして、学習手段25Aは、画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、第2ラベルと、特徴点画像と、特徴点の位置に関する正解データとに基づき学習する(ステップS55)。
【0085】
第2実施形態によれば、学習装置1Aは、推論器に用いる第2ラベルのラベル数を好適に削減し、1ラベル当たりの学習データ数を好適に増やすことができる。
【0086】
なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記憶媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0087】
その他、上記の実施形態(変形例を含む、以下同じ)の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
【0088】
[付記1]
物体の特徴点毎に固有の第1ラベルと、当該第1ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する取得手段と、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第2ラベルに前記第1ラベルを変換する変換手段と、
画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第2ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する学習手段と、
を有する学習装置。
【0089】
[付記2]
前記取得手段は、前記物体が撮像された物体画像が入力された場合に当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第1ラベルに関する推論を行う推論器である第1推論器に前記物体画像を入力することで、前記組合せを取得する、付記1に記載の学習装置。
【0090】
[付記3]
前記変換手段は、前記第1ラベルと前記第2ラベルとの対応を示すラベル情報に基づき、前記第1ラベルを前記第2ラベルに変換する、付記1または2に記載の学習装置。
【0091】
[付記4]
前記見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点の組合せを判定する合同性・対称性判定手段と、
前記合同性・対称性判定手段による判定結果に基づき、前記ラベル情報を生成する第2ラベル定義手段と、をさらに有する、付記3に記載の学習装置。
【0092】
[付記5]
前記変換手段は、前記鏡映対称性を有する前記物体の第1特徴点と第2特徴点が存在する場合、前記第2特徴点に対応する前記特徴点画像を鏡映操作により変換し、
前記学習手段は、前記第1特徴点に対応する前記特徴点画像と、前記変換手段により変換された前記特徴点画像と、に基づき、前記第1特徴点及び前記第2特徴点が属する第2ラベルに関する前記推論器の学習を行う、付記1~4のいずれか一項に記載の学習装置。
【0093】
[付記6]
前記学習手段は、前記第2ラベル毎の前記特徴点画像及び前記正解データに基づき、前記第2ラベル毎に前記推論器の学習を行う、付記1~5のいずれか一項に記載の学習装置。
【0094】
[付記7]
前記学習手段は、前記特徴点画像に対して中心位置のずらし、拡大又は縮小の少なくともいずれかを行った特徴点画像を生成し、当該特徴点画像を、前記推論器の学習に用いるデータとして加える、付記1~6の少なくともいずれか一項に記載の学習装置。
[付記8]
物体が撮像された物体画像が入力された場合に、当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第1ラベルに関する第1推論を行う第1推論手段と、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第2ラベルに前記第1ラベルを変換する変換手段と、
前記第2ラベルと、前記第1推論の結果に基づき前記物体画像から生成した、前記特徴点が撮像された特徴点画像と、に基づき、付記1~7のいずれか一項に記載の学習装置が学習した推論器を用いて、前記特徴点の位置を推論する第2推論手段と、
を有する推論装置。
【0095】
[付記9]
コンピュータにより、
物体の特徴点毎に固有の第1ラベルと、当該第1ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得し、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第2ラベルに前記第1ラベルを変換し、
画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第2ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する、制御方法。
【0096】
[付記10]
物体の特徴点毎に固有の第1ラベルと、当該第1ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する取得手段と、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第2ラベルに前記第1ラベルを変換する変換手段と、
画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第2ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する学習手段
としてコンピュータを機能させるプログラムを格納する記憶媒体。
【0097】
[付記11]
物体が撮像された物体画像が入力された場合に、当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第1ラベルに関する第1推論を行う第1推論手段と、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第2ラベルに前記第1ラベルを変換する変換手段と、
前記第2ラベルと、前記第1推論の結果に基づき前記物体画像から生成した、前記特徴点が撮像された特徴点画像と、に基づき、前記特徴点の各々の位置を推論する第2推論手段と、
を有する推論装置。
【0098】
[付記12]
コンピュータにより、
物体が撮像された物体画像が入力された場合に、当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第1ラベルに関する第1推論を行い、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第2ラベルに前記第1ラベルを変換し、
前記第2ラベルと、前記第1推論の結果に基づき前記物体画像から生成した、前記特徴点が撮像された特徴点画像と、に基づき、前記特徴点の各々の位置を推論する、
制御方法。
【0099】
[付記13]
物体が撮像された物体画像が入力された場合に、当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第1ラベルに関する第1推論を行う第1推論手段と、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第2ラベルに前記第1ラベルを変換する変換手段と、
前記第2ラベルと、前記第1推論の結果に基づき前記物体画像から生成した、前記特徴点が撮像された特徴点画像と、に基づき、前記特徴点の各々の位置を推論する第2推論手段
としてコンピュータを機能させるプログラムを格納する記憶媒体。
【0100】
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
【符号の説明】
【0101】
1、1A 学習装置
3 推論装置
10、30 表示部
11 通信部
12、32 入力部
13、33 制御部
14、34 記憶部
31 インターフェース