特許7396468 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7396468学習装置、推論装置、制御方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-04

(45)【発行日】2023-12-12

(54)【発明の名称】学習装置、推論装置、制御方法及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20231205BHJP

G06T 7/68 20170101ALI20231205BHJP

G06V 10/86 20220101ALI20231205BHJP

G06V 10/77 20220101ALI20231205BHJP

【ＦＩ】

G06T7/00 350B

G06T7/68

G06V10/86

G06V10/77

【請求項の数】 10

(21)【出願番号】P 2022514886

(86)(22)【出願日】2020-04-13

(86)【国際出願番号】 JP2020016322

(87)【国際公開番号】W WO2021210051

(87)【国際公開日】2021-10-21

【審査請求日】2022-10-05

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100107331

【弁理士】

【氏名又は名称】中村聡延

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】坂井亮介

【審査官】新井則和

(56)【参考文献】

【文献】特開２０１０－２１８０５１（ＪＰ，Ａ）

【文献】国際公開第２０１０／１０４１８１（ＷＯ，Ａ１）

【文献】特開２００９－２１１１７７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｔ７／６８

Ｇ０６Ｖ１０／８６

Ｇ０６Ｖ１０／７７

(57)【特許請求の範囲】

【請求項1】

物体の特徴点毎に固有の第１ラベルと、当該第１ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する取得手段と、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第２ラベルに前記第１ラベルを変換する変換手段と、
画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第２ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する学習手段と、
を有する学習装置。

【請求項2】

前記取得手段は、前記物体が撮像された物体画像が入力された場合に当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第１ラベルに関する推論を行う推論器である第１推論器に前記物体画像を入力することで、前記組合せを取得する、請求項１に記載の学習装置。

【請求項3】

前記変換手段は、前記第１ラベルと前記第２ラベルとの対応を示すラベル情報に基づき、前記第１ラベルを前記第２ラベルに変換する、請求項１または２に記載の学習装置。

【請求項4】

前記見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点の組合せを判定する合同性・対称性判定手段と、
前記合同性・対称性判定手段による判定結果に基づき、前記ラベル情報を生成する第２ラベル定義手段と、をさらに有する、請求項３に記載の学習装置。

【請求項5】

前記変換手段は、前記鏡映対称性を有する前記物体の第１特徴点と第２特徴点が存在する場合、前記第２特徴点に対応する前記特徴点画像を鏡映操作により変換し、
前記学習手段は、前記第１特徴点に対応する前記特徴点画像と、前記変換手段により変換された前記特徴点画像と、に基づき、前記第１特徴点及び前記第２特徴点が属する第２ラベルに関する前記推論器の学習を行う、請求項１～４のいずれか一項に記載の学習装置。

【請求項6】

前記学習手段は、前記第２ラベル毎の前記特徴点画像及び前記正解データに基づき、前記第２ラベル毎に前記推論器の学習を行う、請求項１～５のいずれか一項に記載の学習装置。

【請求項7】

前記学習手段は、前記特徴点画像に対して中心位置のずらし、拡大又は縮小の少なくともいずれかを行った特徴点画像を生成し、当該特徴点画像を、前記推論器の学習に用いるデータとして加える、請求項１～６の少なくともいずれか一項に記載の学習装置。

【請求項8】

物体が撮像された物体画像が入力された場合に、当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第１ラベルに関する第１推論を行う第１推論手段と、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第２ラベルに前記第１ラベルを変換する変換手段と、
前記第２ラベルと、前記第１推論の結果に基づき前記物体画像から生成した、前記特徴点が撮像された特徴点画像と、に基づき、請求項１～７のいずれか一項に記載の学習装置が学習した推論器を用いて、前記特徴点の位置を推論する第２推論手段と、
を有する推論装置。

【請求項9】

コンピュータにより、
物体の特徴点毎に固有の第１ラベルと、当該第１ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得し、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第２ラベルに前記第１ラベルを変換し、
画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第２ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する、制御方法。

【請求項10】

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、画像を用いた機械学習を行う学習装置、制御方法及び記憶媒体の技術分野に関する。

【背景技術】

【0002】

与えられた画像から予め定義した特徴点の位置を自動で抽出する技術が存在する。例えば、特許文献１には、前段処理により定義した特徴点の大まかな位置を特定した後、後段処理により前段処理での微妙なずれを修正して正確な特徴点の位置を抽出する技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００９－２１１１７７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

学習による特徴点位置の抽出法では、使用する学習データ数が多いほど高精度かつロバストな抽出モデルを作ることができる。一方、そのようなデータを集めるのは一般的に手間がかかる。また、特許文献１では、特徴点の位置を特定するための後段の抽出器をラベル数と同数だけ用意する必要があり、ラベル数が多いと、抽出器を用意するための手間が膨大となる。

【0005】

本開示では、特徴抽出の学習に好適な学習装置、制御方法及び記憶媒体を提供することを主な目的とする。

【課題を解決するための手段】

【0006】

学習装置の一の態様は、物体の特徴点毎に固有の第１ラベルと、当該第１ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する取得手段と、見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第２ラベルに前記第１ラベルを変換する変換手段と、画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第２ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する学習手段と、を有する学習装置である。

【0007】

推論装置の一態様は、物体が撮像された物体画像が入力された場合に、当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第１ラベルに関する第１推論を行う第１推論手段と、見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第２ラベルに前記第１ラベルを変換する変換手段と、前記第２ラベルと、前記第１推論の結果に基づき前記物体画像から生成した、前記特徴点が撮像された特徴点画像と、に基づき、学習装置が学習した推論器を用いて、前記特徴点の位置を推論する第２推論手段と、を有する推論装置である。

【0008】

制御方法の一の態様は、コンピュータにより、物体の特徴点毎に固有の第１ラベルと、当該第１ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得し、見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第２ラベルに前記第１ラベルを変換し、画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第２ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する、制御方法である。

【0009】

プログラムの一の態様は、物体の特徴点毎に固有の第１ラベルと、当該第１ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する取得手段と、見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第２ラベルに前記第１ラベルを変換する変換手段と、画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第２ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する学習手段としてコンピュータを機能させるプログラムである。

【発明の効果】

【0010】

本開示によれば、特徴抽出に関する学習を好適に実行することができる。

【図面の簡単な説明】

【0011】

【図1】第１実施形態に係る学習装置の概略構成図である。

【図2】制御部の機能的な構成を示すブロック図である。

【図3】特徴点を抽出する対象となるテニスコートの俯瞰図である。

【図4】（Ａ）～（Ｄ）第１ラベルが夫々「５」、「６」、「３」、「１３」となる特徴点を近くから見た図である。

【図5】（Ａ）～（Ｄ）抽出すべき特徴点の位置が図３の例よりも厳密に定められている場合の第１ラベルが夫々「５」、「６」、「３」、「１３」となる特徴点を近くから見た図である。

【図6】図５（Ｂ）に示す第１ラベルが「６」の画像に対して上下左右の各軸に対して鏡映操作を行った場合に生成される鏡映画像を示す。

【図7】（Ａ）第１ラベルが「０」となる特徴点を対象として生成された特徴点画像を示す。（Ｂ）第１ラベルが「３」となる特徴点を対象として生成された特徴点画像を示す。

【図8】第２推論器パラメータを用いて推論を行う推論装置の概略構成を示す。

【図9】推論装置の制御部の機能的なブロック構成図である。

【図10】（Ａ）テニスコートを対象とする特徴点抽出において、物体画像上に、第１推論部の処理結果を明示した図である。（Ｂ）第２ラベルと第２推論部により推定した位置を示すマークとを物体画像上に明示した図である。

【図11】学習装置が実行する学習前処理の手順を示すフローチャートの一例である。

【図12】学習装置が実行する第２推論器の学習処理の手順を示すフローチャートの一例である。

【図13】推論装置が実行する推論処理の手順を示すフローチャートの一例である。

【図14】第２実施形態における学習装置の概略構成を示す。

【図15】第２実施形態における学習装置の処理手順を示すフローチャートの一例である。

【図16】第２実施形態における学習装置の処理手順を示すフローチャートの他の例である。

【発明を実施するための形態】

【0012】

以下、図面を参照しながら、学習装置、制御方法及び記憶媒体の実施形態について説明する。

【0013】

＜第１実施形態＞
（１）概略構成
図１は、第１実施形態に係る学習装置１の概略構成図を示す。学習装置１は、与えられた画像に含まれる物体の特徴点抽出を、前段に設けられた第１推論器及び後段に設けられた第２推論器を用いて行う推論において用いられる第２推論器の学習を行う装置である。以後では、特徴点抽出の対象となる物体を「基準物体Ｒｏ」とも呼ぶ。学習装置１は、主に、表示部１０と、通信部１１と、入力部１２と、制御部１３と、記憶部１４とを有する。

【0014】

表示部１０は、制御部１３の制御に基づき、所定の情報を表示する。表示部１０は、ディスプレイであってもよく、表示光を射出するプロジェクタ等であってもよい。通信部１１は、制御部１３の制御に基づき、有線又は無線により外部装置とのデータの授受を行う通信インターフェースである。入力部１２は、ユーザの操作に基づく入力信号を生成して制御部１３に送信する。入力部１２は、ユーザが学習装置１に対して指示を行うための任意の入力インターフェースであり、例えば、ボタン、十字キー、キーボード、マウス、タッチパネル、音声入力装置等が含まれる。

【0015】

制御部１３は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、量子プロセッサなどのプロセッサ、プロセッサの作業メモリとして機能する揮発性メモリなどを有しており、学習装置１の全体的な制御を行う。

【0016】

記憶部１４は、制御部１３が学習に必要な種々の情報を記憶する不揮発性メモリを有する。記憶部１４は、学習装置１に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよい。また、記憶部１４には、制御部１３が実行するプログラムが記憶される。また、記憶部１４は、学習データＤ１と、第１推論器パラメータＤ２と、第２推論器パラメータＤ３と、ラベル情報Ｄ４と、を記憶している。

【0017】

学習データＤ１は、基準物体Ｒｏが撮像された画像（「物体画像Ｉｍｏ」とも呼ぶ。）と、基準物体Ｒｏに対し抽出すべき特徴点に関する正解を示すデータ（「正解データＣｄ」とも呼ぶ。）との複数の組合せとなる学習データセットである。ここで、正解データＣｄは、物体画像Ｉｍｏにおける特徴点の位置と、当該特徴点に固有の分類を示すラベル（「第１ラベルＬ１」とも呼ぶ。）とに関する正解を示すデータである。この場合、好適には、特徴点を抽出する対象となる基準物体Ｒｏを種々の撮像環境（例えば照明の有無や度合の異なる環境）において撮像した物体画像Ｉｍｏが学習データＤ１に含まれているとよい。

【0018】

ここで、特徴点を抽出する対象となる基準物体Ｒｏは、見え方によって合同となる性質（「見え方合同性」とも呼ぶ。）又は鏡映操作を行うことで見え方合同となる性質（「鏡映対称性」とも呼ぶ。）を、特定の特徴点同士が有する構造物その他の物体である。例えば、上記基準物体Ｒｏは、テニス、競泳、サッカー、卓球、バスケットボール、ラグビーなどの各スポーツのフィールド、将棋又は囲碁などの各ゲームのフィールド、劇のステージ、スポーツフィールドの模型などが該当する。なお、種々のサーフェスの種類を含めたコートへの適用を想定している場合には、学習データＤ１には、複数の場所に存在する各バリエーションの基準物体Ｒｏ（例えばテニスコートの場合には各サーフェスに対応したテニスコート）が撮像された物体画像Ｉｍｏが含まれていてもよい。

【0019】

第１推論器パラメータＤ２は、入力された画像に対し、対象の基準物体Ｒｏの各特徴点の位置及び各特徴点の第１ラベルＬ１に関する推論を行う推論器である第１推論器を構成するためのパラメータに関する情報である。

【0020】

第１推論器は、例えば、特徴点を抽出する対象となる基準物体Ｒｏが撮像された物体画像Ｉｍｏが入力された場合に、抽出対象となる特徴点の位置に関する情報と、当該特徴点が属する第１ラベルＬ１とを出力するように学習された学習モデルである。第１推論器が出力する特徴点の位置に関する情報は、対象の特徴点の画像内の信頼度マップであってもよく、座標値であってもよく、特徴点が存在する可能性がある範囲を示すものであってもよい。ここで、信頼度マップは、特徴点の座標値ごとの信頼度を示す画像上のマップである。「座標値」は、ピクセル単位での画像内の位置を示す値であってもよく、サブピクセル単位での画像内の位置を示す値であってもよい。第１推論器の学習に用いる学習モデルは、ニューラルネットワークに基づく学習モデルであってもよく、サポートベクターマシーンなどの他の種類の学習モデルであってもよく、これらの組み合わせであってもよい。例えば、上述の学習モデルが畳み込みニューラルネットワークなどのニューラルネットワークである場合、第１推論器パラメータＤ２は、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの各種パラメータである。

【0021】

第２推論器パラメータＤ３は、特徴点及びその周辺を撮像した画像（「特徴点画像Ｉｍｆ」とも呼ぶ。）が入力された場合に、当該特徴点の位置に関する推論を行う推論器である第２推論器を構成するためのパラメータに関する情報である。特徴点画像Ｉｍｆは、第１推論器の推論結果に基づき第１推論器に入力された物体画像Ｉｍｏの一部を示す部分画像である。なお、特徴点画像Ｉｍｆは、物体画像Ｉｍｏと同一サイズ又はその他の所定サイズとなるように拡大されてもよい。

【0022】

第２推論器パラメータＤ３は、見え方合同性又は鏡映対称性を有する特徴点同士（特徴点のグループ）を同一のラベル値として各特徴点に割り当てたラベル（「第２ラベルＬ２」とも呼ぶ。）毎の第２推論器を構成するためのパラメータを含んでいる。そして、第２推論器は、見え方合同性又は鏡映対称性に基づき第１ラベルＬ１よりラベル数が削減された第２ラベルＬ２毎に学習が行われる。第２推論器は、例えば、特徴点画像Ｉｍｆが入力された場合に、抽出対象となる特徴点の位置と、当該特徴点が属する第２ラベルＬ２との組合せに関する情報を出力するように学習された学習モデルである。第２推論器が出力する特徴点の位置に関する情報は、対象の特徴点の画像内の信頼度マップであってもよく、座標値であってもよい。第２推論器の学習に用いる学習モデルは、ニューラルネットワークに基づく学習モデルであってもよく、サポートベクターマシーンなどの他の種類の学習モデルであってもよく、これらの組み合わせであってもよい。第２推論器パラメータＤ３は、後述する学習処理により制御部１３により生成され、記憶部１４に記憶される。

【0023】

ラベル情報Ｄ４は、第１ラベルＬ１と第２ラベルＬ２との対応関係を示す情報である。ラベル情報Ｄ４は、第２推論器の学習の前処理において学習装置１により生成され、記憶部１４に記憶される。なお、好適には、第２ラベルＬ２が同一となる他の特徴点と鏡映対称の関係となる特徴点の第１ラベルＬ１には、鏡映対称である旨のフラグ情報等が第２ラベルＬ２と共にラベル情報Ｄ４において関連付けられる。

【0024】

なお、図１に示す学習装置１の構成は一例であり、この構成に対して種々の変更を行ってもよい。例えば、学習装置１は、学習データＤ１を自ら記憶する代わりに、学習装置１と有線又は無線により接続する外部装置に記憶された学習データＤ１を読み出すことで使用する学習データＤ１を取得してもよい。同様に、学習装置１は、第１推論器パラメータＤ２、第２推論器パラメータＤ３、ラベル情報Ｄ４の少なくともいずれかを、学習装置１と有線又は無線により接続する外部装置に記憶させてもよい。上述の外部装置は、学習装置１と有線又は無線により接続するハードディスクなどの外部記憶装置、又は、学習装置１とデータ通信を行う１又は複数のサーバ装置であってもよい。同様に、学習装置１は、表示部１０、通信部１１又は入力部１２の少なくともいずれかを備えていなくともよい。この場合、学習装置１は、表示部１０、通信部１１又は入力部１２に相当する機能を有する装置と有線又は無線により電気的に接続してもよい。

【0025】

（２）機能ブロック
図２は、制御部１３が有する機能を示す機能ブロック図の一例である。本実施形態では、制御部１３は、第２推論器の学習に必要なラベル情報Ｄ４の生成（「学習前処理」とも呼ぶ。）と、第２推論器パラメータＤ３を生成するための第２推論器の学習処理とを行う。図２に示すように、制御部１３は、機能的には、合同性・対称性判定部２１と、第２ラベル定義部２２と、第１推論部２３と、変換部２４と、学習部２５とを有する。合同性・対称性判定部２１及び第２ラベル定義部２２が主に学習前処理を行い、第１推論部２３、変換部２４及び学習部２５が主に第２推論器の学習処理を行う。なお、図２では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せは図２に限定されない。後述する他の機能ブロックの図においても同様である。

【0026】

合同性・対称性判定部２１は、特徴抽出の対象となる基準物体Ｒｏの特徴点間の見え方の合同性及び鏡映対称性に関する判定を行う。合同性・対称性判定部２１は、例えば、対象の基準物体Ｒｏが撮像された物体画像Ｉｍｏ及び対応する正解データＣｄの複数の組合せを学習データＤ１から抽出し、抽出した物体画像Ｉｍｏから対象の基準物体Ｒｏの３次元モデルを、任意の画像処理技術に基づき生成する。さらに、合同性・対称性判定部２１は、抽出した正解データＣｄに基づき、生成した３次元モデル上での第１ラベル毎の特徴点の位置を認識する。そして、合同性・対称性判定部２１は、３次元モデルの各特徴点近傍について、合同性又は鏡映対称性の有無を判定するためのマッチングを行う。上述の特徴点近傍は、特徴点画像Ｉｍｆにおいて撮像される範囲とおよそ同一の範囲となるように設定される。なお、合同性・対称性判定部２１は、鏡映操作を行った３次元モデルと鏡映操作を行っていない３次元モデルとを用いたマッチングを行うことで、鏡映対称性の有無を判定してもよい。そして、合同性・対称性判定部２１は、合同性又は鏡映対称性を有する第１ラベルの組合せ（グループ）に関する情報を第２ラベル定義部２２に供給する。なお、合同性・対称性判定部２１は、対象の基準物体Ｒｏの３次元モデルに関するパラメータが予め記憶部１４等に記憶されている場合には、当該パラメータを参照することで、基準物体Ｒｏの３次元モデルを生成してもよい。

【0027】

なお、合同性・対称性判定部２１は、３次元モデルから見え方合同性及び鏡映対称性を判定する代わりに、複数の物体画像Ｉｍｏから正射変換を行うことで対象の基準物体Ｒｏのオルソ画像を生成し、当該オルソ画像に基づき見え方合同性又は鏡映対称性を判定してもよい。この場合、合同性・対称性判定部２１は、例えば、オルソ画像に表示される各特徴点について特徴点画像Ｉｍｆと同一範囲の近傍領域を設定し、設定した近傍領域同士のマッチングを行うことで、見え方合同性及び鏡映対称性を判定する。なお、このオルソ画像は、予め記憶部１４等に記憶されてもよい。さらに別の例では、合同性・対称性判定部２１は、上述の３次元モデル又はオルソ画像を、特徴点を明示した状態により表示部１０に表示し、見え方合同性又は鏡映対称性を有する特徴点（又は第１ラベル）の組合せを指定する入力を、入力部１２により受け付けてもよい。このように、合同性・対称性判定部２１は、ユーザ入力に基づき、特徴点の近傍同士の見え方合同性又は鏡映対称性を判定してもよい。

【0028】

第２ラベル定義部２２は、合同性・対称性判定部２１による見え方合同性及び鏡映対称性に関する判定結果に基づき、第２ラベルＬ２の定義を行う。具体的には、第２ラベル定義部２２は、上記の判定結果に基づき、第１ラベルＬ１の各々に対応する第２ラベルＬ２を決定し、第１ラベルＬ１と第２ラベルＬ２との対応を示すラベル情報Ｄ４を生成する。この場合、例えば、第２ラベル定義部２２は、同一の第２ラベルＬ２に属する第１ラベルＬ１において他の第１ラベルＬ１と鏡映対称の関係となる第１ラベルＬ１には、対応する第２ラベルＬ２と共に鏡映対称である旨のフラグ情報を付すとよい。

【0029】

第１推論部２３は、第１推論器パラメータＤ２に基づき構成した第１推論器に学習データＤ１から抽出した物体画像Ｉｍｏを入力し、第１推論器から出力される推論結果を取得する。そして、第１推論部２３は、取得した推論結果に基づき、検出された特徴点毎に、特徴点画像Ｉｍｆと第１ラベルＬ１との組合せを生成する。この場合、例えば、第１推論器の推論結果が特徴点の座標値を示す場合には、第１推論部２３は、物体画像Ｉｍｏにおいて当該座標値を中心する所定サイズの矩形領域を、特徴点画像Ｉｍｆとして生成する。また、第１推論器の推論結果が特徴点の信頼度マップを示す場合には、第１推論部２３は、物体画像Ｉｍｏにおいて信頼度が最も高い座標値を中心する所定サイズの矩形領域を、特徴点画像Ｉｍｆとして生成する。そして、第１推論部２３は、生成した特徴点画像Ｉｍｆと第１ラベルＬ１との組合せを、変換部２４に供給する。

【0030】

変換部２４は、ラベル情報Ｄ４に基づき、第１推論部２３から供給される第１ラベルＬ１を第２ラベルＬ２に変換し、第１ラベルＬ１と第２ラベルＬ２と特徴点画像Ｉｍｆとを、学習部２５に供給する。

【0031】

この場合、好適には、変換部２４は、同一の第２ラベルＬ２が付された特徴点のうち他の特徴点と鏡映対称となる特徴点に対応する特徴点画像Ｉｍｆをラベル情報Ｄ４の付加情報に基づき特定した場合、当該特徴点画像Ｉｍｆに対して鏡映操作を行った特徴点画像Ｉｍｆを学習部２５に供給する。これにより、変換部２４は、第２ラベルＬ２毎に全ての特徴点画像Ｉｍｆが見え方合同となる特徴点画像Ｉｍｆを好適に学習部２５に供給する。言い換えると、変換部２４は、鏡映対称性を有する第１特徴点と第２特徴点が存在する場合、第２特徴点に対応する特徴点画像Ｉｍｆを鏡映操作により変換する。その後、学習部２５は、第１特徴点に対応する特徴点画像Ｉｍｆと、鏡映変換された第２特徴点に対する特徴点画像Ｉｍｆと、に基づき、第１特徴点及び第２特徴点が属する第２ラベルに関する第２推論器の学習を行う。

【0032】

学習部２５は、変換部２４から供給される特徴点画像Ｉｍｆと、学習データＤ１から抽出した正解データＣｄが示す特徴点の正解位置とに基づき、第２ラベルＬ２毎に第２推論器の学習を行うことで、第２ラベルＬ２毎の第２推論器パラメータＤ３を生成する。この場合、学習部２５は、対象の物体画像Ｉｍｏに対する特徴点画像Ｉｍｆの相対位置等に基づき、正解データＣｄが示す第１ラベルＬ１の特徴点の物体画像Ｉｍｏおける正解位置を、特徴点画像Ｉｍｆにおける正解位置に変換する。そして、学習部２５は、変換した正解位置と特徴点画像Ｉｍｆとに基づき第２推論器の学習を行う。第２推論器の学習では、学習部２５は、例えば、特徴点画像Ｉｍｆを第２推論器に入力した場合に第２推論器が出力する特徴点の位置と、当該特徴点の正解の位置との誤差（損失）が最小となるように、第２推論器のパラメータを決定する。損失を最小化するように上述のパラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。そして、学習部２５は、学習後の第２推論器のパラメータを、第２推論器パラメータＤ３として記憶する。なお、学習装置１は、第２推論器パラメータＤ３を、後述する推論装置に対して通信部１１を用いて直ちに送信してもよく、学習装置１及び推論装置に着脱可能な記憶媒体を介して推論装置に供給してもよい。

【0033】

なお、図２において説明した合同性・対称性判定部２１、第２ラベル定義部２２、第１推論部２３、変換部２４及び学習部２５の各構成要素は、例えば、制御部１３がプログラムを実行することによって実現できる。より具体的には、各構成要素は、記憶部１４に格納されたプログラムを、制御部１３が実行することによって実現され得る。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、これらの各構成要素は、例えばＦＰＧＡ（field-programmable gate array）又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。このように、各構成要素は、プロセッサ以外のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。

【0034】

また、学習装置１は、複数の装置から構成されてもよい。例えば、学習装置１は、学習前処理を行う装置と、第２推論器の学習処理を行う装置とを含んでもよい。この場合、第２推論器の学習処理を行う装置は、学習前処理を行う装置が生成したラベル情報Ｄ４を取得後に、第２推論器の学習処理を実行する。このように、学習装置１を構成する各装置は、互いに必要なデータの授受を行うことで、予め割り当てられた処理を実行する。

【0035】

（３）見え方合同性及び鏡映対称性の具体例
次に、見え方合同性及び鏡映対称性に基づく第１ラベルＬ１と第２ラベルＬ２との対応関係について、特徴点を抽出する対象の基準物体Ｒｏをテニスコートとした例を用いて具体例に説明する。

【0036】

図３は、特徴点を抽出する対象となるテニスコートの俯瞰図である。図３では、抽出すべき特徴点の位置を丸印により囲むと共に、各特徴点に対応する第１ラベルＬ１（ここでは「０」～「１３」）を明示している。また、図４（Ａ）～（Ｄ）は、第１ラベルＬ１が夫々「５」、「６」、「３」、「１３」となる特徴点を近くから見た図である。なお、図４（Ａ）～（Ｄ）に示す画像は、仮に図３に示すテニスコートを真上から物体画像Ｉｍｏを撮像した場合の第１ラベルＬ１が夫々「５」、「６」、「３」、「１３」となる特徴点の特徴点画像Ｉｍｆを示す。また、図４（Ａ）～（Ｄ）では、抽出すべき特徴点の位置を丸印により囲んでいる。

【0037】

図３及び図４（Ａ）～（Ｂ）に示すように、第１ラベルＬ１が「５」の特徴点と、第１ラベルＬ１が「６」の特徴点とは、近くから３６０°の視点（厳密には制限のある立体角から見た視点）で見た場合、見え方が同一となる。同様に、図３及び図４（Ｃ）～（Ｄ）に示すように、第１ラベルＬ１が「３」の特徴点と、第１ラベルＬ１が「１３」の特徴点とは、近くから３６０°の視点で見た場合、見え方が同一となる。従って、合同性・対称性判定部２１は、第１ラベルＬ１が「５」と「６」の特徴点と、第１ラベルＬ１が「３」と「１３」の特徴点とが見え方合同であるとみなす。そして、合同性・対称性判定部２１は、テニスコート全体に対し、見え方合同となる特徴点のグループ（組合せ）を認識する。そして、第２ラベル定義部２２は、第１ラベルＬ１が「０」、「３」、「１０」、「１３」の各特徴点のグループが見え方同一性を有することから、これらの第２ラベルＬ２を同一値（ここでは「０」とする）に設定する。また、第２ラベル定義部２２は、第１ラベルＬ１が「１」、「２」、「４」、「５」、「６」、「７」、「８」、「９」、「１１」、「１２」の各特徴点のグループが見え方同一性を有することから、これらの第２ラベルＬ２を同一値（ここでは「１」とする）に設定する。

【0038】

従って、この場合、学習装置１は、第２ラベルＬ２のラベル数を２個とすることができる。よって、学習装置１は、学習させる第２推論器の個数に相当する第２ラベルＬ２の数を好適に削減することができる。また、この場合、１枚の物体画像Ｉｍｏにつき、第２ラベルＬ２が「０」の学習サンプル数は４個となり、第２ラベルＬ２が「１」の学習サンプル数は１０個となる。このように、学習装置１は、見え方合同性及び鏡映対称性に基づくラベルの統合により、第２ラベルＬ２毎の第２推論器の学習に用いる学習サンプル数を好適に増加させることができる。

【0039】

図５（Ａ）～（Ｄ）は、抽出すべき特徴点の位置が図３の例よりも厳密に定められている場合の第１ラベルＬ１が夫々「５」、「６」、「３」、「１３」となる特徴点を近くから見た図である。

【0040】

この場合、図５（Ｃ）、（Ｄ）に示す第１ラベルＬ１が「３」と「１３」の特徴点は、回転操作により見え方が同一となるため、同一の第２ラベルＬ２を付すことが可能である。一方、図５（Ａ）、（Ｂ）に示すように、第１ラベルＬ１が「５」と「６」の特徴点は、回転操作を行っても同一の見え方とはならないものの、互いに鏡映対称の関係を有し、いずれか一方に対して鏡映操作を行うことで、見え方合同となる。

【0041】

図６は、図５（Ｂ）に示す第１ラベルＬ１が「６」の画像に対して上下左右の各軸に対して鏡映操作を行った場合に生成される鏡映画像を示す。図６に示すように、第１ラベルＬ１が「６」の画像に対して任意の軸に対して鏡映操作を行うことで生成した画像（「鏡映画像」とも呼ぶ。）は、第１ラベルＬ１が「５」の画像と見え方合同の関係となる。従って、合同性・対称性判定部２１は、第１ラベルＬ１が「５」と「６」の特徴点については鏡映対称性を有すると判定し、第２ラベル定義部２２は、これらに対して同一の第２ラベルＬ２を付す。このように、学習装置１は、鏡映対称性を有する特徴点同士を同一の第２ラベルＬ２とすることで、第２ラベルＬ２のラベル数を減らし、かつ、夫々の第２ラベルＬ２に対する学習サンプル数を好適に増加させることができる。

【0042】

図７（Ａ）、（Ｂ）は、図３に示すテニスコートを撮像した物体画像Ｉｍｏに基づき生成された、拡大率が低い特徴点画像Ｉｍｆを示す。図７（Ａ）に示す特徴点画像Ｉｍｆは、第１ラベルＬ１が「０」となる特徴点を対象として生成された特徴点画像Ｉｍｆであり、低拡大率に起因し、隣接する他の特徴点（ここでは第１ラベルＬ１が「１」となる特徴点）を含んでいる。同様に、図７（Ｂ）に示す特徴点画像Ｉｍｆは、第１ラベルＬ１が「３」となる特徴点を対象として生成された特徴点画像Ｉｍｆであり、低拡大率に起因し、隣接する他の特徴点（ここでは第１ラベルＬ１が「２」となる特徴点）を含んでいる。なお、このような低拡大率は、例えば、物体画像Ｉｍｏを撮像したカメラと基準物体Ｒｏとの距離による制約、又は、第１推論器での処理のブレの大きさによる制約によって生じる。

【0043】

この場合、合同性・対称性判定部２１は、図７（Ａ）及び図７（Ｂ）に示される特徴点画像Ｉｍｆについて、鏡映対称性を有すると判定する。よって、この場合、第２ラベル定義部２２は、第１ラベルＬ１が「０」となる特徴点と、第１ラベルＬ１が「３」となる特徴点とについて、同一の第２ラベルＬ２を割り当てる。このように、学習装置１は、低拡大率に起因して複数の特徴点が特徴点画像に含まれる場合であっても、拡大率に応じた範囲により各特徴点の近傍領域間の見え方合同性及び鏡映対称性を判定し、第２ラベルＬ２のラベル数を好適に削減することができる。

【0044】

（４）第２推論器に基づく推論
次に、学習装置１が学習した第２推論器を用いた推論について説明する。図８は、学習装置１が生成した第２推論器パラメータＤ３を用いて推論を行う推論装置３の概略構成を示す。

【0045】

推論装置３は、第１推論器パラメータＤ２と、学習装置１が生成した第２推論器パラメータＤ３及びラベル情報Ｄ４とを参照可能に構成される。そして、推論装置３は、カメラ等により撮像された物体画像Ｉｍｏが入力された場合に、物体画像Ｉｍｏにおける基準物体Ｒｏの特徴点の位置及び第１ラベルの組合せを推論し、推論結果に応じた所定の処理を行う。例えば、推論装置３は、推論結果に基づき、特徴点の位置関係などから対象の基準物体Ｒｏの位置、形状、向きなどを認識する。

【0046】

なお、推論装置３は、学習装置１と同一装置であってもよく、学習装置１以外の任意の装置であってもよい。後者の例では、推論装置３は、ユーザの頭部に装着可能であって、拡張現実を実現するＡＲデバイスであってもよい。この場合、推論装置３は、スポーツ観戦や劇（コンサートを含む）の観賞などにおいて、実在する風景に視覚情報を重ねて表示することで、拡張現実を実現する。このようなＡＲデバイスでは、実世界空間と推論装置３が認識する空間とを対応付けるためのキャリブレーション処理を行うため、基準となる基準物体Ｒｏの正確な特徴点抽出処理が必要となる。

【0047】

推論装置３は、主に、表示部３０と、インターフェース３１と、入力部３２と、制御部３３と、記憶部３４とを有する。表示部３０は、ディスプレイであってもよく、ＡＲデバイスにおいて実在する風景に視覚情報を重ねて表示するための光を射出する光源ユニット及び当該光を反射して装着者の目に到達させる光学素子の組合せであってもよい。

【0048】

インターフェース３１は、推論装置３が推論を行う対象となる物体画像Ｉｍｏを取得するためのインターフェース動作を行う。インターフェース３１は、物体画像Ｉｍｏの撮像を行うカメラと有線又は無線により物体画像Ｉｍｏを受信するためのインターフェースであってもよく、他の装置から物体画像Ｉｍｏを受信するための通信インターフェースであってもよい。また、インターフェース３１は、物体画像Ｉｍｏを記憶した記憶媒体等から物体画像Ｉｍｏを読み出すためのハードウェアインターフェースであってもよい。

【0049】

制御部３３は、例えばＣＰＵ、ＧＰＵ、量子プロセッサなどのプロセッサ、プロセッサの作業メモリとして機能する揮発性メモリなどを有しており、推論装置３の全体的な制御を行う。

【0050】

記憶部３４は、制御部３３が学習に必要な種々の情報を記憶する不揮発性メモリを有する。記憶部３４は、第１推論器パラメータＤ２と、第２推論器パラメータＤ３と、ラベル情報Ｄ４とを記憶している。

【0051】

なお、図８に示す推論装置３の構成は一例であり、この構成に対して種々の変更を行ってもよい。例えば、推論装置３は、第１推論器パラメータＤ２、第２推論器パラメータＤ３、ラベル情報Ｄ４を自ら記憶する代わりに、これらの少なくともいずれかを、推論装置３と有線又は無線により接続する外部装置から、インターフェース３１を介して取得してもよい。同様に、推論装置３は、表示部３０と、入力部３２とを備える代わりに、外部装置として構成された表示装置又は入力装置とインターフェース３１を介して有線又は無線により接続してもよい。また、推論装置３は、複数の装置から構成されてもよい。

【0052】

図９は、制御部３３の機能的な構成を示す機能ブロックの一例である。制御部３３は、機能的には、第１推論部３６と、変換部３７と、第２推論部３８と、物体状況確定部３９とを有する。

【0053】

第１推論部３６は、インターフェース３１を介して物体画像Ｉｍｏを受信した場合に、第１推論器パラメータＤ２に基づき構成した第１推論器に物体画像Ｉｍｏを入力し、第１推論器から出力される推論結果を取得する。そして、第１推論部３６は、取得した推論結果に基づき、検出された特徴点毎に、特徴点画像Ｉｍｆと第１ラベルＬ１の組合せを生成する。例えば、第１推論部３６が行う処理は、学習装置１の第１推論部２３が行う処理と同一である。

【0054】

変換部３７は、ラベル情報Ｄ４に基づき、第１推論部３６から供給される第１ラベルＬ１を第２ラベルＬ２に変換し、変換した第２ラベルＬ２と特徴点画像Ｉｍｆとの組合せを、学習部２５に供給する。この場合、好適には、変換部３７は、同一の第２ラベルＬ２が付された特徴点のうち他の特徴点と鏡映対称となる特徴点に対応する特徴点画像Ｉｍｆをラベル情報Ｄ４の付加情報に基づき特定した場合、当該特徴点画像Ｉｍｆに対して鏡映操作を行った鏡映画像を第２推論部３８に供給する。これにより、変換部３７は、第２ラベルＬ２毎に全ての特徴点画像Ｉｍｆが見え方合同となる特徴点画像Ｉｍｆを、好適に第２推論部３８に供給する。

【0055】

第２推論部３８は、変換部３７から供給される第２ラベルＬ２に対応する第２推論器を構成するために必要なパラメータを第２推論器パラメータＤ３から取得し、取得したパラメータに基づき構成した第２推論器に、変換部３７から供給される特徴点画像Ｉｍｆを入力する。そして、第２推論部３８は、第２推論器から出力される推論結果に基づき、特徴点画像Ｉｍｆ内における特徴点の位置を認識し、認識した特徴点の位置を示す情報（「特徴点位置情報Ｐｆ」とも呼ぶ。）を物体状況確定部３９に供給する。なお、第２推論器が特徴点画像Ｉｍｆ内の特徴点の座標位置を推論結果として出力する場合には、第２推論部３８は、当該座標位置を示す特徴点位置情報Ｐｆを、物体状況確定部３９に供給する。また、第２推論器が特徴点画像Ｉｍｆ内の特徴点の信頼度マップを推論結果として出力する場合には、第２推論部３８は、最も信頼度が高い特徴点画像Ｉｍｆ上の座標位置を示す特徴点位置情報Ｐｆを、物体状況確定部３９に供給する。

【0056】

物体状況確定部３９は、第２推論部３８から供給される特徴点位置情報Ｐｆと、第１推論部３６から供給される物体画像Ｉｍｏ、特徴点画像Ｉｍｆ、及び第１ラベルＬ１とに基づき、基準物体Ｒｏの状況を確定する。例えば、物体状況確定部３９は、特徴点位置情報Ｐｆと、物体画像Ｉｍｏと、特徴点画像Ｉｍｆとに基づき、物体画像Ｉｍｏにおける各特徴点の位置を認識する。また、物体状況確定部３９は、第１推論部３６から供給される第１ラベルＬ１に基づき、各特徴点が属する第１ラベルを認識する。これにより、物体状況確定部３９は、第１推論部３６が検出した全ての特徴点に対し、物体画像Ｉｍｏ上の位置と第１ラベルＬ１との組合せを認識する。このように、推論装置３は、物体画像Ｉｍｏにおいて撮像された基準物体Ｒｏの特徴点の位置及びラベルを的確に推論することができる。

【0057】

次に、推論装置３の処理の具体例について、図１０（Ａ）、（Ｂ）を参照して説明する。

【0058】

図１０（Ａ）は、テニスコートを対象とする特徴点抽出において、推論装置３に供給される物体画像Ｉｍｏに対し、第１推論部３６による処理結果を明示した図である。図１０（Ａ）では、第１推論部３６による処理結果として、物体画像Ｉｍｏに存在する各特徴点に対応する第１ラベルＬ１（ここでは「０」～「１３」）と、特徴点毎に設定される特徴点画像Ｉｍｆ（「Ｉｍｆ０」～「Ｉｍｆ１３」）に相当する矩形枠とが明示されている。また、図１０（Ｂ）は、各特徴点に対応する第２ラベルＬ２と特徴点位置情報Ｐｆが示す特徴点の位置を示すマークとを物体画像Ｉｍｏ上に夫々明示した図である。ここでは、第２ラベルＬ２が「０」又は「１」となっている。

【0059】

図１０（Ａ）に示すように、第１推論部３６は、物体画像Ｉｍｏが入力された場合に、第１推論器パラメータＤ２に基づき第１推論器を構成する。そして、第１推論部３６は、第１推論器に物体画像Ｉｍｏを入力することで得られた推論結果に基づき、テニスコートにおいて抽出すべき特徴点の大まかな位置を示す特徴点画像Ｉｍｆと第１ラベルＬ１との組合せを生成する。

【0060】

また、テニスコートの見え方合同性又は鏡映対称性の少なくとも一方に基づき生成されたラベル情報Ｄ４に基づき、変換部３７は、「０」、「３」、「１０」、「１３」の第１ラベルＬ１に属する各特徴点の第２ラベルＬ２を「０」に定める。同様に、変換部３７は、「１」、「２」、「４」、「５」、「６」、「７」、「８」、「９」、「１１」、「１２」の第１ラベルＬ１に属する各特徴点の第２ラベルＬ２を「１」に定める。

【0061】

そして、第２推論部３８は、第２ラベルＬ２毎に予め生成された第２推論器パラメータＤ３に基づき第２ラベルＬ２毎に第２推論器を構成する。そして、第２推論部３８は、対象となる特徴点毎に、第２ラベルＬ２に基づき第２推論器を選択し、選択した第２推論器に対応する特徴点画像Ｉｍｆを入力する。そして、第２推論部３８は、第２推論器の推論結果に基づき、特徴点毎に特徴点の位置を示した特徴点位置情報Ｐｆを生成する。そして、物体状況確定部３９は、特徴点位置情報Ｐｆと、第１推論部３６が推論した第１ラベルＬ１とに基づき、特徴点毎の正確な位置と第１ラベルＬ１との組合せを認識する。

【0062】

このように、推論装置３は、学習装置１が生成した第２推論器パラメータＤ３及びラベル情報Ｄ４を用いることで、与えられた物体画像Ｉｍｏに対して基準物体Ｒｏの特徴点の位置及びラベルを的確に推論することができる。

【0063】

（５）処理フロー
図１１は、学習装置１が実行する学習前処理の手順を示すフローチャートの一例である。

【0064】

まず、学習装置１の合同性・対称性判定部２１は、特徴点抽出の対象となる基準物体Ｒｏの見え方合同性及び鏡映対称性について判定を行う（ステップＳ１１）。この場合、合同性・対称性判定部２１は、入力部１２によりユーザ入力を受け付けることで、基準物体Ｒｏの見え方合同性及び鏡映対称性を判定してもよく、学習データＤ１等に基づき生成した基準物体Ｒｏの３次元モデル又はオルソ画像を用いた解析により、上記判定を行ってもよい。

【0065】

次に、学習装置１の第２ラベル定義部２２は、ステップＳ１１において見え方合同性又は鏡映対称性を有すると判定された特徴点同士を同一の第２ラベルＬ２とするラベル情報Ｄ４を生成する（ステップＳ１２）。このように、学習装置１は、見え方合同性及び鏡映対称性に基づき第２ラベルＬ２を定義することで、第２推論器において推論を行うラベル数を好適に削減する。

【0066】

図１２は、学習装置１が実行する第２推論器の学習処理の手順を示すフローチャートの一例である。

【0067】

まず、学習装置１は、学習データＤ１から学習用の物体画像Ｉｍｏを取得する（ステップＳ２１）。この場合、例えば、学習装置１は、学習データＤ１として登録されている任意の未学習の（即ちまだ学習に用いていない）物体画像Ｉｍｏを記憶部１４から取得する。他の例では、学習装置１は、入力部１２によるユーザ入力により指定された物体画像Ｉｍｏを記憶部１４から取得する。

【0068】

次に、学習装置１の第１推論部２３は、第１推論器パラメータＤ２を参照して構成した第１推論器の推論結果に基づき、物体画像Ｉｍｏから各特徴点に対する特徴点画像Ｉｍｆ及び第１ラベルＬ１の組合せを取得する（ステップＳ２２）。この場合、第１推論部２３は、第１推論器に物体画像Ｉｍｏを入力することで得られる各特徴点の位置及び第１ラベルＬ１に関する推論結果に基づき、特徴点毎の特徴点画像Ｉｍｆ及び第１ラベルＬ１の組合せを取得する。

【0069】

次に、変換部２４は、各第１ラベルＬ１に対応する第２ラベルＬ２を取得する（ステップＳ２３）。この場合、変換部２４は、ラベル情報Ｄ４を参照することで、見え方合同性又は鏡映対称性の少なくとも一方に基づき第１ラベルＬ１が統合された第２ラベルＬ２を取得する。また、変換部２４は、ラベル情報Ｄ４に鏡映対称性を示す付加情報が含まれている場合には、第２ラベルＬ２毎に全ての特徴点画像Ｉｍｆが見え方合同の関係となるように、一部の特徴点画像Ｉｍｆに対して鏡映操作を行う。

【0070】

次に、学習部２５は、ステップＳ２２で取得された特徴点画像Ｉｍｆと対象の特徴点の正解位置を示す正解データＣｄとに基づき、第２ラベルＬ２毎に第２推論器の学習を行う（ステップＳ２４）。これにより、学習部２５は、第２ラベルＬ２毎に第２推論器を構成するために必要な第２推論器パラメータＤ３を生成する。この場合、学習部２５は、見え方合同性又は鏡映対称性の少なくとも一方に基づき削減したラベル数分の第２推論器の学習を行い、かつ、個々の第２推論器に対する学習サンプル数を好適に増加させることができる。

【0071】

そして、学習装置１は、第２推論器の学習を終了すべきか否か判定する（ステップＳ２５）。例えば、学習装置１は、学習を終了すべき旨のユーザ入力等を検知した場合、又は、学習対象として指定された全ての物体画像Ｉｍｏを用いた学習が完了した場合、学習を終了すべきと判定する。そして、学習装置１は、第２推論器の学習を終了すべきと判定した場合（ステップＳ２５；Ｙｅｓ）、フローチャートの処理を終了する。一方、学習装置１は、学習を終了すべきでないと判定した場合（ステップＳ２５；Ｎｏ）、ステップＳ２１へ処理を戻す。この場合、学習装置１は、学習が行われていない学習用の物体画像Ｉｍｏを学習データＤ１から取得して一連の処理を再び実行する。

【0072】

図１３は、推論装置３が実行する推論処理の手順を示すフローチャートの一例である。

【0073】

まず、推論装置３は、特徴点抽出の対象となる基準物体Ｒｏが撮像された物体画像Ｉｍｏを、カメラその他の外部装置からインターフェース３１を介して取得する（ステップＳ３１）。

【0074】

そして、推論装置３の第１推論部３６は、第１推論器パラメータＤ２を参照して構成した第１推論器に物体画像Ｉｍｏを入力することで得られる推論結果に基づき、物体画像Ｉｍｏから各特徴点に対する特徴点画像Ｉｍｆ及び第１ラベルＬ１の組合せを取得する（ステップＳ３２）。

【0075】

そして、推論装置３の変換部３７は、各第１ラベルＬ１に対応する第２ラベルＬ２を取得する（ステップＳ３３）。この場合、変換部３７は、ラベル情報Ｄ４を参照することで、見え方合同性又は鏡映対称性の少なくとも一方に基づき第１ラベルＬ１が統合された第２ラベルＬ２を取得する。また、変換部３７は、ラベル情報Ｄ４に鏡映対称性を示す付加情報が含まれている場合には、第２ラベルＬ２毎に全ての特徴点画像Ｉｍｆが見え方合同の関係となるように、一部の特徴点画像Ｉｍｆに対して鏡映操作を行う。

【0076】

次に、第２推論部３８は、第２ラベルＬ２と、特徴点画像Ｉｍｆとに基づき、第２推論器により特徴点の位置の推論を行う（ステップＳ３４）。この場合、第２推論部３８は、第２推論器パラメータＤ３に基づき対象の第２ラベルＬ２に対応する第２推論器を構成し、当該第２推論器に対応する特徴点画像Ｉｍｆを入力することで、特徴点画像Ｉｍｆ内の正確な特徴点の位置の推論を行い、当該位置を示す特徴点位置情報Ｐｆを生成する。

【0077】

そして、物体状況確定部３９は、対象となる基準物体Ｒｏの状況の確定を行う（ステップＳ３５）。この場合、物体状況確定部３９は、ステップＳ３１～ステップＳ３４の処理結果に基づき、ステップＳ２１で取得された物体画像Ｉｍｏに含まれる全ての特徴点の正確な位置と各特徴点が属する第１ラベルＬ１との組合せを認識する。

【0078】

＜第２実施形態＞
図１４は、第２実施形態における学習装置１Ａの概略構成を示す。図１４に示すように、学習装置１Ａは、取得手段２３Ａと、変換手段２４Ａと、学習手段２５Ａとを有する。

【0079】

取得手段２３Ａは、物体の特徴点毎に固有の第１ラベルと、当該第１ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する。取得手段２３Ａは、第１の例では、第１実施形態における第１推論部２３とすることができる。第２の例では、取得手段２３Ａは、第１実施形態における第１推論部２３に相当する処理を行う他の装置から、物体の特徴点毎に固有の第１ラベルと、当該第１ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得してもよい。第３の例では、取得手段２３Ａは、第１ラベルと、当該第１ラベルに対応する特徴点画像との組合せを記憶する記憶装置からこれらの組合せを読み出すことで取得してもよい。

【0080】

取得手段２３Ａの第２の例について補足説明する。第２の例の場合、学習データＤ１の他に、精度検証データ（Ｖａｌｉｄａｔｉｏｎｄａｔａ）と呼ばれる、第１推論器のおおよその学習度を図るのに使用するデータも用意する。精度検証データは、一般的には学習データＤ１と異なるデータとなる。そして、精度検証データを用いて第１推論器に適用することによって第１推論器の精度を明らかにし、特徴点画像の矩形サイズなどを決める。なお、この矩形サイズは、入力される物体画像Ｉｍｏに対する各特徴点のサイズにも依存する。また、精度検証データによる精度検証によって得られた精度を基に、第１ラベルに対応する特徴点画像の中心位置を意図的にずらすこと（特徴点が常に画像の真ん中にならないようにするため）や、意図的に拡大・縮小するなどによるデータ増強（水増し）も行う。これらの拡大・縮小やずらし方などはランダムに生成した数値を基に実行してもよい。なお、上記の処理は、第２の例における「他の装置」が実行してもよく、学習装置１Ａが実行してもよい。

【0081】

変換手段２４Ａは、見え方の合同性又は鏡映対称性の少なくとも一方を有する物体の特徴点同士を同一のラベルとする第２ラベルに第１ラベルを変換する。変換手段２４Ａは、例えば、第１実施形態における変換部２４とすることができる。

【0082】

学習手段２５Ａは、画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、第２ラベルと、特徴点画像と、特徴点の位置に関する正解データとに基づき学習する。上記の推論器は、例えば、第１実施形態における第２推論器とすることができ、学習手段２５Ａは、例えば、第１実施形態における学習部２５とすることができる。

【0083】

図１５は、第２実施形態において学習装置１Ａが実行するフローチャートの一例である。取得手段２３Ａは、物体の特徴点毎に固有の第１ラベルと、当該第１ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する（ステップＳ４１）。そして、変換手段２４Ａは、見え方の合同性又は鏡映対称性の少なくとも一方を有する物体の特徴点同士を同一のラベルとする第２ラベルに第１ラベルを変換する（ステップＳ４２）。そして、学習手段２５Ａは、画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、第２ラベルと、特徴点画像と、特徴点の位置に関する正解データとに基づき学習する（ステップＳ４３）。

【0084】

図１６は、取得手段２３Ａの第２の例に関する上述の補足説明にて述べた処理を行う場合の学習装置１Ａが実行するフローチャートの一例である。取得手段２３Ａは、物体の特徴点毎に固有の第１ラベルと、当該第１ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する（ステップＳ５１）。そして、学習装置１Ａは、精度検証データを用いて第１推論器に適用することによって第１推論器の精度を検証し、特徴点画像の矩形サイズなどを決定する（ステップＳ５２）。さらに、学習装置１Ａは、第１ラベルに対応する特徴点画像の中心位置を意図的にずらすことや、意図的に拡大・縮小するなどによるデータ増強を行う（ステップＳ５３）。なお、ステップＳ５２及びステップＳ５３の処理は、ステップＳ５４の後に実行してもよい。そして、変換手段２４Ａは、見え方の合同性又は鏡映対称性の少なくとも一方を有する物体の特徴点同士を同一のラベルとする第２ラベルに第１ラベルを変換する（ステップＳ５４）。そして、学習手段２５Ａは、画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、第２ラベルと、特徴点画像と、特徴点の位置に関する正解データとに基づき学習する（ステップＳ５５）。

【0085】

第２実施形態によれば、学習装置１Ａは、推論器に用いる第２ラベルのラベル数を好適に削減し、１ラベル当たりの学習データ数を好適に増やすことができる。

【0086】

なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記憶媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

【0087】

その他、上記の実施形態（変形例を含む、以下同じ）の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。

【0088】

［付記１］
物体の特徴点毎に固有の第１ラベルと、当該第１ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する取得手段と、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第２ラベルに前記第１ラベルを変換する変換手段と、
画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第２ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する学習手段と、
を有する学習装置。

【0089】

［付記２］
前記取得手段は、前記物体が撮像された物体画像が入力された場合に当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第１ラベルに関する推論を行う推論器である第１推論器に前記物体画像を入力することで、前記組合せを取得する、付記１に記載の学習装置。

【0090】

［付記３］
前記変換手段は、前記第１ラベルと前記第２ラベルとの対応を示すラベル情報に基づき、前記第１ラベルを前記第２ラベルに変換する、付記１または２に記載の学習装置。

【0091】

［付記４］
前記見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点の組合せを判定する合同性・対称性判定手段と、
前記合同性・対称性判定手段による判定結果に基づき、前記ラベル情報を生成する第２ラベル定義手段と、をさらに有する、付記３に記載の学習装置。

【0092】

［付記５］
前記変換手段は、前記鏡映対称性を有する前記物体の第１特徴点と第２特徴点が存在する場合、前記第２特徴点に対応する前記特徴点画像を鏡映操作により変換し、
前記学習手段は、前記第１特徴点に対応する前記特徴点画像と、前記変換手段により変換された前記特徴点画像と、に基づき、前記第１特徴点及び前記第２特徴点が属する第２ラベルに関する前記推論器の学習を行う、付記１～４のいずれか一項に記載の学習装置。

【0093】

［付記６］
前記学習手段は、前記第２ラベル毎の前記特徴点画像及び前記正解データに基づき、前記第２ラベル毎に前記推論器の学習を行う、付記１～５のいずれか一項に記載の学習装置。

【0094】

［付記７］
前記学習手段は、前記特徴点画像に対して中心位置のずらし、拡大又は縮小の少なくともいずれかを行った特徴点画像を生成し、当該特徴点画像を、前記推論器の学習に用いるデータとして加える、付記１～６の少なくともいずれか一項に記載の学習装置。
［付記８］
物体が撮像された物体画像が入力された場合に、当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第１ラベルに関する第１推論を行う第１推論手段と、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第２ラベルに前記第１ラベルを変換する変換手段と、
前記第２ラベルと、前記第１推論の結果に基づき前記物体画像から生成した、前記特徴点が撮像された特徴点画像と、に基づき、付記１～７のいずれか一項に記載の学習装置が学習した推論器を用いて、前記特徴点の位置を推論する第２推論手段と、
を有する推論装置。

【0095】

［付記９］
コンピュータにより、
物体の特徴点毎に固有の第１ラベルと、当該第１ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得し、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第２ラベルに前記第１ラベルを変換し、
画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第２ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する、制御方法。

【0096】

［付記１０］
物体の特徴点毎に固有の第１ラベルと、当該第１ラベルに対応する特徴点が撮像された特徴点画像との組合せを取得する取得手段と、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第２ラベルに前記第１ラベルを変換する変換手段と、
画像が入力された場合に当該画像に撮像された特徴点の位置に関する推論を行う推論器を、前記第２ラベルと、前記特徴点画像と、前記位置に関する正解データとに基づき学習する学習手段
としてコンピュータを機能させるプログラムを格納する記憶媒体。

【0097】

［付記１１］
物体が撮像された物体画像が入力された場合に、当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第１ラベルに関する第１推論を行う第１推論手段と、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第２ラベルに前記第１ラベルを変換する変換手段と、
前記第２ラベルと、前記第１推論の結果に基づき前記物体画像から生成した、前記特徴点が撮像された特徴点画像と、に基づき、前記特徴点の各々の位置を推論する第２推論手段と、
を有する推論装置。

【0098】

［付記１２］
コンピュータにより、
物体が撮像された物体画像が入力された場合に、当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第１ラベルに関する第１推論を行い、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第２ラベルに前記第１ラベルを変換し、
前記第２ラベルと、前記第１推論の結果に基づき前記物体画像から生成した、前記特徴点が撮像された特徴点画像と、に基づき、前記特徴点の各々の位置を推論する、
制御方法。

【0099】

［付記１３］
物体が撮像された物体画像が入力された場合に、当該物体画像から当該物体の特徴点が存在する位置及び当該特徴点が属する第１ラベルに関する第１推論を行う第１推論手段と、
見え方の合同性又は鏡映対称性の少なくとも一方を有する前記物体の特徴点同士を同一のラベルとする第２ラベルに前記第１ラベルを変換する変換手段と、
前記第２ラベルと、前記第１推論の結果に基づき前記物体画像から生成した、前記特徴点が撮像された特徴点画像と、に基づき、前記特徴点の各々の位置を推論する第２推論手段
としてコンピュータを機能させるプログラムを格納する記憶媒体。

【0100】

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

【符号の説明】

【0101】

１、１Ａ学習装置
３推論装置
１０、３０表示部
１１通信部
１２、３２入力部
１３、３３制御部
１４、３４記憶部

３１インターフェース

【図1】