特許7552287 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ セイコーエプソン株式会社の特許一覧

特許7552287物体検出方法、物体検出装置、及び、コンピュータープログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-09

(45)【発行日】2024-09-18

(54)【発明の名称】物体検出方法、物体検出装置、及び、コンピュータープログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20240910BHJP

【ＦＩ】

G06T7/00 350C

【請求項の数】 8

(21)【出願番号】P 2020194817

(22)【出願日】2020-11-25

(65)【公開番号】P2022083484

(43)【公開日】2022-06-06

【審査請求日】2023-08-21

(73)【特許権者】

【識別番号】000002369

【氏名又は名称】セイコーエプソン株式会社

(74)【代理人】

【識別番号】110000028

【氏名又は名称】弁理士法人明成国際特許事務所

(72)【発明者】

【氏名】倉沢光

【審査官】吉川康男

(56)【参考文献】

【文献】特開２０２０－１２３３４０（ＪＰ，Ａ）

【文献】国際公開第２０１９／０８３５５３（ＷＯ，Ａ１）

【文献】特表２０１８－５２８５２５（ＪＰ，Ａ）

【文献】Capsule Dynamic Network-Based Object Detection Algorithm，2019 IEEE Symposium Series on Computational Intelligence (SSCI)，2019年，https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9002884

【文献】ＣａｐｓｕｌｅＮｅｔを用いた半教師ありクラスタリングによる未知ラベルの検出，電子情報通信学会技術研究報告Ｖｏｌ．１１８Ｎｏ．８１，2018年06月06日

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを用いて、入力画像から物体を検出する物体検出方法であって、
前記機械学習モデルは、前記入力画像よりも小さい予め定められたサイズのパッチ画像を前記機械学習モデルに入力すると、前記パッチ画像が複数のクラスのうちの１つに属することを示す判定値を前記機械学習モデルが出力するように構成されており、
前記物体検出方法は、
（ａ）前記機械学習モデルに前記入力画像を入力して、前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から、前記複数のクラスのうちのいずれかのクラスの特徴と類似する程度を示す類似度を前記特定層の画素毎に求めることによって、類似度画像を生成する工程と、
（ｂ）前記類似度画像の各画素の前記類似度を予め定められた閾値と比較し、前記類似度が前記閾値未満の場合に当該画素に未知ラベルを付与することによって、少なくとも前記未知ラベルを含む判別画像を生成する工程と、
を含む物体検出方法。

【請求項2】

請求項１に記載の物体検出方法であって、
前記工程（ｂ）は、前記類似度が前記閾値以上の場合には、当該画素に、前記類似度に関連付けられた前記クラスに対応する既知ラベルを付与する、物体検出方法。

【請求項3】

請求項１又は２に記載の物体検出方法であって、
前記工程（ａ）は、前記入力画像の前記入力に応じた前記機械学習モデルの出力から、前記複数のクラスのいずれに属するかを示す既知ラベルが画素毎に付与された出力画像を生成する工程を含み、
前記工程（ｂ）は、前記判別画像を参照して、前記出力画像の一部の画素に前記未知ラベルを設定する工程を含む、
物体検出方法。

【請求項4】

請求項３に記載の物体検出方法であって、
前記工程（ｂ）は、更に、前記判別画像と前記出力画像の解像度を一致させる解像度変換を実行する工程を含む、
物体検出方法。

【請求項5】

請求項３又は４に記載の物体検出方法であって、
前記特定層は２つ以上存在し、
前記工程（ａ）は、前記２つ以上の特定層のそれぞれに関して前記類似度画像を求める工程を含み、
前記工程（ｂ）は、
前記２つ以上の特定層のそれぞれに関して前記判別画像を求める工程と、
前記出力画像の各画素について、前記２つ以上の特定層のそれぞれに関する前記判別画像の対応画素のうちの予め定められた数の対応画素に前記未知ラベルが付与されている場合に、前記出力画像の当該画素に前記未知ラベルを設定する工程と、
を含む、物体検出方法。

【請求項6】

請求項１～５のいずれか一項に記載の物体検出方法であって、
前記特定層は、第１軸と第２軸の２つの軸で規定された平面に配置されたベクトルニューロンが、前記２つの軸とは異なる方向の第３軸に沿って複数のチャンネルとして配置されている構成を有し、
前記工程（ａ）は、
前記特定層のうちの１つの平面位置におけるベクトルニューロンの出力ベクトルの複数の要素値を、前記第３軸に沿った前記複数のチャンネルにわたって配列した第１種の特徴スペクトルと、
前記第１種の特徴スペクトルの各要素値に、前記出力ベクトルのベクトル長さに相当するアクティベーション値を乗じることによって得られる第２種の特徴スペクトルと、
前記特定層のうちの１つの平面位置における前記アクティベーション値を、前記第３軸に沿った前記複数のチャンネルにわたって配列した第３種の特徴スペクトルと、
のうちのいずれかの特徴スペクトルを前記特定層の画素毎に求める工程と、
前記機械学習モデルに複数の既知ラベルのいずれかがそれぞれ付与された複数のパッチ画像が入力されたときに前記特定層の出力から得られた既知特徴スペクトル群と、前記入力画像の入力に応じて前記特定層の画素毎に得られた前記特徴スペクトルと、に対して予め定められた演算式を適用することによって前記類似度を求める工程と、
を含む、物体検出方法。

【請求項7】

入力画像から物体を検出する物体検出装置であって、
複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを記憶するメモリーと、
前記機械学習モデルを用いた物体検出処理を実行するプロセッサーと、
を備え、
前記機械学習モデルは、前記入力画像よりも小さい予め定められたサイズのパッチ画像を前記機械学習モデルに入力すると、前記パッチ画像が複数のクラスのうちの１つに属することを示す判定値を前記機械学習モデルが出力するように構成されており、
前記プロセッサーは、
（ａ）前記機械学習モデルに前記入力画像を入力して、前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から、前記複数のクラスのうちのいずれかのクラスの特徴と類似する程度を示す類似度を前記特定層の画素毎に求めることによって、類似度画像を生成する処理と、
（ｂ）前記類似度画像の各画素の前記類似度を予め定められた閾値と比較し、前記類似度が前記閾値未満の場合に当該画素に未知ラベルを付与することによって、少なくとも前記未知ラベルを含む判別画像を生成する処理と、
を実行する、物体検出装置。

【請求項8】

複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを用いて、入力画像から物体を検出する物体検出処理をプロセッサーに実行させるコンピュータープログラムであって、
前記機械学習モデルは、前記入力画像よりも小さい予め定められたサイズのパッチ画像を前記機械学習モデルに入力すると、前記パッチ画像が複数のクラスのうちの１つに属することを示す判定値を前記機械学習モデルが出力するように構成されており、
前記コンピュータープログラムは、
（ａ）前記機械学習モデルに前記入力画像を入力して、前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から、前記複数のクラスのうちのいずれかのクラスの特徴と類似する程度を示す類似度を前記特定層の画素毎に求めることによって、類似度画像を生成する処理と、
（ｂ）前記類似度画像の各画素の前記類似度を予め定められた閾値と比較し、前記類似度が前記閾値未満の場合に当該画素に未知ラベルを付与することによって、少なくとも前記未知ラベルを含む判別画像を生成する処理と、
を前記プロセッサーに実行させる、コンピュータープログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、入力画像から物体を検出する物体検出方法、物体検出装置、及び、コンピュータープログラムに関する。

【背景技術】

【0002】

特許文献１には、テンプレートマッチングを用いた高速な物体認識を行う技術が記載されている。この技術では、まず、解像度が異なる複数の標準テンプレートを作成し、また、複数の標準テンプレートの共通部分をあらわす共通テンプレートと、複数のテンプレート間での差異部分をあらわす識別テンプレートとを作成する。そして、上層レベルのマッチング処理において、標準テンプレートを用いる一方、下層レベルのマッチング処理では、テンプレート間の共通部分を示す共通テンプレート及びテンプレート間の差異部分を示す識別テンプレートを用いることにより、高速な物体認識を実現する。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１８－１５１７４８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上述の技術では、テンプレートマッチングで物体認識を行うため、物体のテンプレートが用意できない場合や、物体が透明でマッチングをうまく行えない場合などに、物体の検出を行うことができないという問題があった。そこで、従来のテンプレートマッチングとは異なる方法で入力画像から物体を検出できる技術が望まれる。

【課題を解決するための手段】

【0005】

本開示の第１の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを用いて、入力画像から物体を検出する物体検出方法が提供される。前記機械学習モデルは、前記入力画像よりも小さい予め定められたサイズのパッチ画像を前記機械学習モデルに入力すると、前記パッチ画像が複数のクラスのうちの１つに属することを示す判定値を前記機械学習モデルが出力するように構成されている。前記物体検出方法は、（ａ）前記機械学習モデルに前記入力画像を入力して、前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から、前記複数のクラスのうちのいずれかのクラスの特徴と類似する程度を示す類似度を前記特定層の画素毎に求めることによって、類似度画像を生成する工程と、（ｂ）前記類似度画像の各画素の前記類似度を予め定められた閾値と比較し、前記類似度が前記閾値未満の場合に当該画素に未知ラベルを付与することによって、少なくとも前記未知ラベルを含む判別画像を生成する工程と、を含む。

【0006】

本開示の第２の形態によれば、入力画像から物体を検出する物体検出装置が提供される。この物体検出装置は、複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを記憶するメモリーと、前記機械学習モデルを用いた物体検出処理を実行するプロセッサーと、を備える。前記機械学習モデルは、前記入力画像よりも小さい予め定められたサイズのパッチ画像を前記機械学習モデルに入力すると、前記パッチ画像が複数のクラスのうちの１つに属することを示す判定値を前記機械学習モデルが出力するように構成されている。前記プロセッサーは、（ａ）前記機械学習モデルに前記入力画像を入力して、前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から、前記複数のクラスのうちのいずれかのクラスの特徴と類似する程度を示す類似度を前記特定層の画素毎に求めることによって、類似度画像を生成する処理と、（ｂ）前記類似度画像の各画素の前記類似度を予め定められた閾値と比較し、前記類似度が前記閾値未満の場合に当該画素に未知ラベルを付与することによって、少なくとも前記未知ラベルを含む判別画像を生成する処理と、を実行する。

【0007】

本開示の第３の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを用いて、入力画像から物体を検出する物体検出処理をプロセッサーに実行させるコンピュータープログラムが提供される。前記機械学習モデルは、前記入力画像よりも小さい予め定められたサイズのパッチ画像を前記機械学習モデルに入力すると、前記パッチ画像が複数のクラスのうちの１つに属することを示す判定値を前記機械学習モデルが出力するように構成されている。前記コンピュータープログラムは、（ａ）前記機械学習モデルに前記入力画像を入力して、前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から、前記複数のクラスのうちのいずれかのクラスの特徴と類似する程度を示す類似度を前記特定層の画素毎に求めることによって、類似度画像を生成する処理と、（ｂ）前記類似度画像の各画素の前記類似度を予め定められた閾値と比較し、前記類似度が前記閾値未満の場合に当該画素に未知ラベルを付与することによって、少なくとも前記未知ラベルを含む判別画像を生成する処理と、を前記プロセッサーに実行させる。

【図面の簡単な説明】

【0008】

【図1】実施形態における情報処理装置のブロック図。

【図2】入力画像と既知画像の一例を示す説明図。

【図3】準備工程における機械学習モデルの構成を示す説明図。

【図4】準備工程の処理手順を示すフローチャート。

【図5】既知画像を領域分離して得られるラベル画像を示す説明図。

【図6】既知画像から抽出された複数のパッチ画像を示す説明図。

【図7】類似度の算出に用いる特徴スペクトルを示す説明図。

【図8】既知特徴スペクトル群の構成を示す説明図。

【図9】物体検出処理における機械学習モデルの構成を示す説明図。

【図10】物体検出工程の処理手順を示すフローチャート。

【図11】ステップＳ２２０～Ｓ２４０の処理内容を示す説明図。

【図12】物体検出処理の出力画像を示す説明図。

【発明を実施するための形態】

【0009】

図１は、一実施形態における情報処理装置１００の機能を示すブロック図である。情報処理装置１００は、プロセッサー１１０と、メモリー１２０と、インターフェイス回路１３０と、インターフェイス回路１３０に接続された入力デバイス１４０及び表示部１５０と、を有している。限定されないが例えば、プロセッサー１１０は、以下で詳述される処理を実行する機能を有するだけでなく、表示部１５０に、当該処理によって得られる出力画像、類似度画像、判別画像、および、当該処理の過程で生成されるデータを表示する機能も有する。情報処理装置１００は、パーソナルコンピューターなどのコンピューターによって実現可能である。

【0010】

プロセッサー１１０は、入力画像から物体を検出する物体検出処理部１１２として機能する。物体検出処理部１１２は、メモリー１２０に格納されたコンピュータープログラムをプロセッサー１１０が実行することによって実現される。但し、物体検出処理部１１２をハードウェア回路で実現してもよい。本明細書のプロセッサーは、このようなハードウェア回路をも含む用語である。メモリー１２０には、ベクトルニューラルネットワーク型の機械学習モデル２００と、既知画像ＫＭと、既知特徴スペクトル群ＫＳＧと、入力画像Ｐｉとが格納される。機械学習モデル２００は、物体検出処理部１１２による物体検出処理に使用される。機械学習モデル２００の構成例や動作については後述する。既知画像ＫＭは、機械学習モデル２００の学習に使用される教師データの元となる画像である。既知特徴スペクトル群ＫＳＧは、学習済みの機械学習モデル２００に教師データを再度入力した際に得られる特徴スペクトルの集合である。特徴スペクトルについては後述する。入力画像Ｐｉは、物体検出処理の処理対象となる画像である。なお、既知画像ＫＭは、機械学習モデル２００の学習時にのみ必要であり、入力画像Ｐｉに対する物体検出処理の実行時には不要である。また、入力画像Ｐｉは、機械学習モデル２００の学習時にメモリー１２０に保存されている必要はない。

【0011】

図２は、入力画像Ｐｉと既知画像ＫＭの一例を示す説明図である。入力画像Ｐｉは、暗い背景ＢＧの中に試験管立てＳＴが設置されており、試験管立てＳＴにガラス製の透明な試験管ＴＴがセットされている画像である。本実施形態の物体検出処理では、背景ＢＧと試験管立てＳＴを既知のものとし、試験管ＴＴを未知の物体として、入力画像Ｐｉから試験管ＴＴを検出する処理を実行する。このため、機械学習モデル２００の学習に用いる既知画像ＫＭとして、検出対象としての試験管ＴＴが存在せず、背景ＢＧと試験管立てＳＴが存在する画像を予め撮影して準備する。すなわち、入力画像Ｐｉは、既知画像ＫＭに存在する背景ＢＧと物体ＳＴに加えて、既知画像ＫＭに存在しない未知の物体ＴＴを含む画像である。なお、既知画像ＫＭとしては、同じ配置状態において複数の異なる方向から撮影した複数の画像を用いることが好ましい。以下では、背景ＢＧや物体ＳＴ，ＴＴのそれぞれを、「画像領域」又は「画像部品」と呼ぶ。一般に、試験管ＴＴのような透明体は、光源の正反射や、周りの映り込み、背景ＢＧの透過など、周囲の環境によって見え方が大きく変化するため、機械学習が困難であることが知られている。一方、以下で説明するように、本実施形態では、ベクトルニューラルネットワーク型の機械学習モデル２００を利用するので、少ない学習量でも透明の物体を容易に検出できる。

【0012】

図３は、学習時における機械学習モデル２００の構成の一例を示す説明図である。この機械学習モデル２００は、入力データＩＭの側から順に、畳み込み層２１０と、プライマリーベクトルニューロン層２２０と、第１畳み込みベクトルニューロン層２３０と、第２畳み込みベクトルニューロン層２４０と、分類ベクトルニューロン層２５０とを備える。これらの５つの層２１０～２５０のうち、畳み込み層２１０が最も下位の層であり、分類ベクトルニューロン層２５０が最も上位の層である。以下の説明では、層２１０～２５０を、それぞれ「Conv層２１０」、「PrimeVN層２２０」、「ConvVN1層２３０」、「ConvVN2層２４０」、及び「ClassVN層２５０」とも呼ぶ。

【0013】

図３の例では２つの畳み込みベクトルニューロン層２３０，２４０を用いているが、畳み込みベクトルニューロン層の数は任意であり、畳み込みベクトルニューロン層を省略してもよい。但し、１つ以上の畳み込みベクトルニューロン層を用いることが好ましい。

【0014】

図３の機械学習モデル２００は、更に、類似度画像を生成する類似度演算部２６０を有している。類似度演算部２６０は、ConvVN1層２３０と、ConvVN2層２４０と、ClassVN層２５０の出力から、後述する類似度画像Ｓ_ConvVN1，Ｓ_ConvVN2，Ｓ_ClassVNをそれぞれ算出することが可能である。

【0015】

各層２１０～２５０の構成は、以下のように記述できる。
＜各層の構成の記述＞
・層２１０：Conv[32,5,2]
・層２２０：PrimeVN[16,1,1]
・層２３０：ConvVN1[12,3,2]
・層２４０：ConvVN2[6,3,1]
・層２５０：ClassVN[2,4,1]
・ベクトル次元ＶＤ：VD=16
これらの各層２１０～２５０の記述において、括弧前の文字列はレイヤー名であり、括弧内の数字は、順に、チャンネル数、カーネルサイズ、及び、ストライドである。例えば、Conv層２１０のレイヤー名は「Conv」であり、チャンネル数は３２、カーネルサイズは５×５、ストライドは２である。図３では、各層の下にこれらの記述が示されている。各層の中に描かれているハッチングを付した矩形は、隣接する上位層の出力ベクトルを算出する際に使用されるカーネルを表している。なお、各層２１０～２５０の記述で用いたパラメーターの値は例示であり、任意に変更可能である。

【0016】

Conv層２１０は、スカラーニューロンで構成された層である。他の４つの層２２０～２５０は、ベクトルニューロンで構成された層である。ベクトルニューロンは、ベクトルを入出力とするニューロンである。上記の記述では、個々のベクトルニューロンの出力ベクトルの次元は１６で一定である。以下では、スカラーニューロン及びベクトルニューロンの上位概念として「ノード」という語句を使用する。

【0017】

図３では、Conv層２１０について、ノード配列の平面座標を規定する第１軸ｘ及び第２軸ｙと、奥行きを表す第３軸ｚとが示されている。また、Conv層２１０のｘ，ｙ，ｚ方向のサイズが１３，１３，３２であることが示されている。ｘ方向のサイズとｙ方向のサイズを「解像度」と呼ぶ。この例では、ｘ方向とｙ方向の解像度は等しいが、異なっていても良い。ｚ方向のサイズは、チャンネル数である。これらの３つの軸ｘ，ｙ，ｚは、他の層においても各ノードの位置を示す座標軸として使用する。但し、図３では、Conv層２１０以外の層では、これらの軸ｘ，ｙ，ｚの図示が省略されている。

【0018】

よく知られているように、畳み込み後の解像度Ｗ１は、次式で与えられる。
W1=Ceil{(W0-Wk+1)/S} （１）
ここで、Ｗ０は畳み込み前の解像度、Ｗｋはカーネルサイズ、Ｓはストライド、Ceil｛Ｘ｝はＸを切り上げる演算を行う関数である。
図３に示した各層の解像度は、入力データの解像度を２９×２９画素とした場合の例であり、実際の各層の解像度は入力データのサイズに応じて適宜変更される。

【0019】

PrimeVN層２２０の各ノードは、Conv層２１０の１×１×３２個のノードのスカラー出力を３２次元のベクトルとみなして、このベクトルに変換行列を乗ずることによってそのノードのベクトル出力を得る。この変換行列は、１×１のカーネルの要素であり、機械学習モデル２００の学習によって更新される。なお、Conv層２１０とPrimeVN層２２０の処理を統合して、１つのプライマリーベクトルニューロン層として構成することも可能である。

【0020】

PrimeVN層２２０を「下位層Ｌ」と呼び、その上位側に隣接するConvVN1層２３０を「上位層Ｌ＋１」と呼ぶとき、上位層Ｌ＋１の各ノードの出力は、以下の式を用いて決定される。

【数1】

ここで、
Ｍ^L _iは、下位層Ｌにおけるｉ番目のノードの出力ベクトル、
Ｍ^L+1 _jは、上位層Ｌ＋１におけるｊ番目のノードの出力ベクトル、
ｖ_ijは、出力ベクトルＭ^L+1 _jの予測ベクトル、
Ｗ^L _ijは、下位層Ｌの出力ベクトルＭ^L _iから予測ベクトルｖ_ijを算出するための予測行列、
ｕ_jは、予測ベクトルｖ_ijの和、すなわち線形結合、である和ベクトル、
ａ_jは、和ベクトルｕ_jのノルム|ｕ_j|を正規化することによって得られる正規化係数であるアクティベーション値、
Ｆ（Ｘ）は、Ｘを正規化する正規化関数である。

【0021】

正規化関数Ｆ（Ｘ）としては、例えば以下の（４ａ）式または（４ｂ）式を使用できる。

【数2】

ここで、
ｋは、上位層Ｌ＋１のすべてのノードに対する序数、
βは、任意の正の係数である調整パラメーターであり、例えばβ＝１である。

【0022】

上記（４ａ）式では、上位層Ｌ＋１のすべてのノードに関して和ベクトルｕ_jのノルム|ｕ_j|をソフトマックス関数で正規化することによってアクティベーション値ａ_jが得られる。一方、（４ｂ）式では、和ベクトルｕ_jのノルム|ｕ_j|を、上位層Ｌ＋１のすべてのノードに関するノルム|ｕ_j|の和で除算することによってアクティベーション値ａ_jが得られる。なお、正規化関数Ｆ（Ｘ）としては、（４ａ）式や（４ｂ）式以外の他の関数を用いてもよい。

【0023】

上記（３）式の序数ｉは、上位層Ｌ＋１におけるｊ番目のノードの出力ベクトルＭ^L+1 _jを決めるために使用される下位層Ｌのノードに便宜上割り振られるものであり、１～ｎの値をとる。また、整数ｎは、上位層Ｌ＋１におけるｊ番目のノードの出力ベクトルＭ^L+1 _jを決めるために使用される下位層Ｌのノードの数である。従って、整数ｎは次式で与えられる。
n=Nk×Nc （６）
ここで、Ｎｋはカーネルの要素数であり、Ｎｃは下位層であるPrimeVN層２２０のチャンネル数である。図３の例ではＮｋ＝９、Ｎｃ＝１６なので、ｎ＝１４４である。

【0024】

ConvVN1層２３０の出力ベクトルを求めるために使用される１つのカーネルは、カーネルサイズ３×３を表面サイズとし、下位層のチャンネル数１６を深さとする３×３×１６＝１４４個の要素を有しており、これらの要素のそれぞれは予測行列Ｗ^L _ijである。また、ConvVN1層２３０の１２個のチャンネルの出力ベクトルを生成するためには、このカーネルが１２組必要である。従って、ConvVN1層２３０の出力ベクトルを求めるために使用されるカーネルの予測行列Ｗ^L _ijの数は、１４４×１２＝１７２８個である。これらの予測行列Ｗ^L _ijは、機械学習モデル２００の学習により更新される。

【0025】

上述した（２）～（５）式から分かるように、上位層Ｌ＋１の個々のノードの出力ベクトルＭ^L+1 _jは、以下の演算によって求められる。
（ａ）下位層Ｌの各ノードの出力ベクトルＭ^L _iに予測行列Ｗ^L _ijを乗じて予測ベクトルｖ_ijを求め、
（ｂ）下位層Ｌの各ノードから得られた予測ベクトルｖ_ijの和、すなわち線形結合、である和ベクトルｕ_jを求め、
（ｃ）和ベクトルｕ_jのノルム|ｕ_j|を正規化することによって正規化係数であるアクティベーション値ａ_jを求め、
（ｄ）和ベクトルｕ_jをノルム|ｕ_j|で除算し、更に、アクティベーション値ａ_jを乗じる。

【0026】

なお、アクティベーション値ａ_jは、上位層Ｌ＋１のすべてのノードに関してノルム|ｕ_j|を正規化することによって得られる正規化係数である。従って、アクティベーション値ａ_jは、上位層Ｌ＋１内の全ノードの中における各ノードの相対的な出力強度を示す指標と考えることができる。（４）式，（４ａ）式、（４ｂ）式、及び（５）式で使用されるノルムは、典型的な例ではベクトル長さを表すＬ２ノルムである。このとき、アクティベーション値ａ_jは、出力ベクトルＭ^L+1 _jのベクトル長さに相当する。アクティベーション値ａ_jは、上述した（４）式と（５）式で使用されるだけなので、ノードから出力される必要は無い。但し、アクティベーション値ａ_jを外部に出力するように上位層Ｌ＋１を構成することも可能である。

【0027】

ベクトルニューラルネットワークの構成は、カプセルネットワークの構成とほぼ同じであり、ベクトルニューラルネットワークのベクトルニューロンがカプセルネットワークのカプセルに相当する。但し、ベクトルニューラルネットワークで使用される上述の（２）～（５）式による演算は、カプセルネットワークで使用される演算と異なる。両者の最も大きな違いは、カプセルネットワークでは、上記（３）式の右辺の予測ベクトルｖ_ijにそれぞれ重みが乗じられており、その重みが、動的ルーティングを複数回繰り返すことによって探索される点である。一方、本実施形態のベクトルニューラルネットワークでは、上述した（２）～（５）式を順番に１回計算することによって出力ベクトルＭ^L+1 _jが得られるので、動的ルーティングを繰り返す必要が無く、演算がより高速であるという利点がある。また、本実施形態のベクトルニューラルネットワークは、カプセルネットワークよりも演算に必要とするメモリー量がカプセルネットワークより少なく、本開示の発明者の実験によれば、約１／２～１／３のメモリー量で済むという利点もある。

【0028】

ベクトルを入出力とするノードを使用するという点では、ベクトルニューラルネットワークはカプセルネットワークと同じである。従って、ベクトルニューロンを使用する利点もカプセルネットワークと共通している。また、複数の層２１０～２５０は、上位に行くほどより大きな領域の特徴を表現し、下位に行くほどより小さな領域の特徴を表現する、という点は、通常の畳み込みニューラルネットワークと同じである。ここで、「特徴」とは、ニューラルネットワークへの入力データに含まれている特徴的な部分を意味する。ベクトルニューラルネットワークやカプセルネットワークでは、或るノードの出力ベクトルが、そのノードが表現する特徴の空間的な情報を表す空間情報を含む点で、通常の畳み込みニューラルネットワークよりも優れている。すなわち、或るノードの出力ベクトルのベクトル長さは、そのノードが表現する特徴の存在確率を表し、ベクトル方向がその特徴の方向やスケール等の空間情報を表している。従って、同じ層に属する２つのノードの出力ベクトルのベクトル方向は、それぞれの特徴の位置関係を表す。あるいは、当該２つのノードの出力ベクトルのベクトル方向は、特徴のバリエーションを表わすとも言える。例えば、「目」の特徴に対応するノードなら、出力ベクトルの方向は、目の細さ、吊り上がり方、などのバリエーションを表し得る。通常の畳み込みニューラルネットワークでは、プーリング処理によって特徴の空間情報が消失してしまうと言われている。この結果、ベクトルニューラルネットワークやカプセルネットワークは、通常の畳み込みニューラルネットワークに比べて入力データを識別する性能に優れているという利点がある。

【0029】

ベクトルニューラルネットワークの利点は、以下のように考えることも可能である。すなわち、ベクトルニューラルネットワークでは、ノードの出力ベクトルが、入力データの特徴を連続空間内の座標として表現すること、に利点がある。従って、ベクトル方向が近ければ特徴が似ている、というように出力ベクトルを評価できる。また、入力データに含まれている特徴が教師データではカバーできていなくても、補間してその特徴を判別できる、などの利点もある。一方、通常の畳み込みニューラルネットワークは、プーリング処理によって無秩序な圧縮がかかるため、入力データの特徴を連続空間内の座標として表現できない、という欠点がある。

【0030】

ConvVN2層２４０とClassVN層２５０の各ノードの出力も、上述した（２）～（５）式を用いて同様に決定されるので、詳細な説明は省略する。最上位層であるClassVN層２５０の解像度は１×１であり、チャンネル数は２である。ClassVN層２５０のチャンネル数は、通常は教師データで使用されるラベルの数と等しくなるように設定される。

【0031】

各層２１０～２５０のノードの出力を求める方法は、以下のように説明することも可能である。入力データＩＭに対して、５×５のカーネルをストライド「２」で適用することで、入力データＩＭの範囲のうちでConv層２１０の一つのノードに出力を与える部分範囲が決まる。入力データＩＭに対して適用するカーネルの数は３２である。これにより、Conv層２１０は、第１軸ｘと第２軸ｘがそれぞれ１３個に区切られた領域を有するように構成される。また、Conv層２１０の深さであるチャンネル数はカーネルの数と同数の３２で構成される。「部分範囲」とは、入力データＩＭ上の領域であって、第１軸ｘの位置と第２軸ｙの位置で特定される１つの領域である。ただし、以下の説明から明らかなように、「部分範囲」の大きさは、「部分範囲」に対応する１つ以上のノード又は当該１つ以上のノードから構成される「部分領域Ｒｎ」が、ベクトルニューロン層２２０，２３０，２４０，２５０のどれに属するかに応じて異なる。他方、「部分領域Ｒｎ」とは、ベクトルニューロン層において第１軸ｘの位置と第２軸ｙの位置とで特定される領域である。ベクトルニューロン層における各「部分領域Ｒｎ」は、上記第１軸ｘ、第２軸ｘ、および第３軸ｚに対応する「Ｗｉｄｔｈ」×「Ｈｅｉｇｈｔ」×「Ｄｅｐｔｈ」の次元を有する。本実施形態では、１つの「部分領域Ｒｎ」に含まれるノードの数は「１×１×デプス数」、すなわち「１×１×チャンネル数」である。本明細書において、部分領域Ｒｎの添え字「ｎ」には、ベクトルニューロン層２２０，２３０，２４０，２５０に応じて、「２２０」、「２３０」、「２４０」、「２５０」の数値を代入する。例えば、部分領域Ｒ２２０は、PrimeVN層２２０における領域を示す。

【0032】

Conv層２１０に１×１×３２のカーネルをストライド「１」で適用することで、Conv層２１０の部分領域Ｒ２１０のうちから、PrimeVN層２２０の一つのノードに出力する部分領域Ｒ２１０が決まる。ここでは、同じサイズ、同じストライドで、１６種類のカーネルが用いられることから、PrimeVN層２２０において、Conv層２１０の一つの部分領域Ｒ２１０に対応するノードの数は１６である。Conv層２１０のノードからPrimeVN層２２０のノードへの出力の生成には、変換行列が用いられており、上記の式（２）～式（５）で示される出力決定アルゴリズムが用いられていない。なお、ベクトルニューロン層に畳み込むためのカーネルの次元は、チャンネル数およびベクトルの要素数も考慮にいれる場合には、「Ｗｉｄｔｈ」×「Ｈｅｉｇｈｔ」×「Ｄｅｐｔｈ」×「ベクトルの要素数」と表現されることもある。この表現にしたがうと、Conv層２１０からPrimeVN層２２０への畳み込みに用いられるカーネルの次元は、１×１×３２×１６である。

【0033】

PrimeVN層２２０に３×３×１６のカーネルをストライド「２」で適用することで、PrimeVN層２２０の部分領域Ｒ２２０のうちから、ConvVN1層２３０の一つの部分領域Ｒ２３０に含まれるノードに出力を与える部分領域Ｒ２２０、が決まる。ここでは、同じサイズ、同じ次元、同じストライドで、１２種類のカーネルが用いられることから、ConvVN1層２３０の部分領域Ｒ２３０に含まれるノードの数は１２である。PrimeVN層２２０のノードからConvVN1層２３０のノードへの出力の生成には、上記の式（２）～式（５）で示される出力決定アルゴリズムが用いられる。ここで、下位層２２０に適用されるカーネルは、上位層２３０の１つのノードを決めるために用いる下位層２２０の３×３×１６個のノードを指定する、とも表現される。これは、以下の説明でもあてはまる。

【0034】

ConvVN1層２３０に３×３×１２のカーネルをストライド「１」で適用することで、ConvVN1層２３０の部分領域Ｒ２３０のうちから、ConvVN2層２４０の一つの部分領域Ｒ２４０に出力を与える部分領域Ｒ２３０が決まる。ここでは、同じサイズ、同じ次元、同じストライドで、６種類のカーネルが用いられることから、ConvVN2層２４０の部分領域Ｒ２４０に含まれるノードの数は６である。ConvVN1層２３０のノードからConvVN2層２４０のノードを生成する際には、上記の式（２）～式（５）で示される出力決定アルゴリズムが用いられる。

【0035】

ConvVN2層２４０に４×４×６のカーネルをストライド「１」で適用することで、ConvVN2層２４０の部分領域Ｒ２４０のうちから、ClassVN層２５０の一つの部分領域Ｒ２５０に出力を与える部分領域Ｒ２４０が決まる。ここでは、同じサイズ、同じ次元、同じストライドで、２種類のカーネルが用いられることから、ClassVN層２５０の部分領域Ｒ２５０に含まれるノードの数は２である。ConvVN2層２４０のノードからClassVN層２５０のノードを生成する際には、上記の式（２）～式（５）で示される出力決定アルゴリズムが用いられる。

【0036】

最上位層であるClassVN層２５０は１つの部分領域Ｒ２５０で構成される。ClassVN層２５０は、機械学習モデル２００に入力された入力データＩＭについて、予め定められたラベルに分類する。本実施形態では、予め定めたラベルは、ラベル「０」とラベル「１」とである。ClassVN層２５０では、２つのノードのうち、アクティベーション値ａ_jが最大となるノードに対応するラベルが出力となる。ClassVN層２５０から出力されるラベルは、プロセッサー１１０によって制御されることで表示部１５０によって出力される。

【0037】

上記図３において、PrimeVN層２２０の１つの部分領域Ｒ２２０は、入力データＩＭの５×５ピクセルの部分範囲に対応する。また、ConvVN1層２３０の１つの部分領域Ｒ２３０は、入力データＩＭの９×９ピクセルの部分範囲に対応する。また、ConvVN2層２４０の部分領域Ｒ２４０は、入力データＩＭの１７×１７ピクセルの部分範囲に対応する。また、ClassVN層２５０の部分領域Ｒ２５０は、入力データＩＭの２９×２９ピクセルの部分範囲に対応する。

【0038】

図４は、機械学習モデル２００の学習を実行する準備工程の処理手順を示すフローチャートである。ステップＳ１１０では、物体検出処理部１１２が、既知画像ＫＭを領域分離してラベル画像を作成する。

【0039】

図５は、既知画像ＫＭからラベル画像ＬＭを作成する領域分離処理を示す説明図である。既知画像ＫＭに領域分離処理を実行すると、複数の画像領域Ｂ０，Ｂ１に分離される。第１の画像領域Ｂ０は、既知画像ＫＭの背景ＢＧに相当し、第２の画像領域Ｂ１は試験管立てＳＴに相当する。複数の画像領域Ｂ０，Ｂ１には、互いに異なるラベルＬｂが割り当てられる。図５の例では、第１の画像領域Ｂ０のラベルＬｂは０であり、第２の画像領域Ｂ１のラベルＬｂは１である。なお、領域分離処理は任意の方法を用いてよい。例えば、ユーザーが手作業でラベルを付与してもよく、或いは、公知の輪郭抽出アルゴリズムを用いてもよい。また、対象物の撮影時に深度センサーを使って距離情報を付与し、その情報から近い深度にある対象に同じラベルを付与してもよい。換言すれば、ラベル画像ＬＭの作成は、物体検出処理部１１２が自動的に実行してもよく、或いは、情報処理装置１００のユーザーが実行してもよい。但し、機械的な領域分離処理では、背景ＢＧが、試験管立てＳＴの外側の背景領域と試験管立てＳＴの内側の背景領域とに分離されてしまうので、ユーザーがこれらに同じラベルが付与されるようにラベルを修正することが好ましい。試験管立てＳＴも同様である。ラベル画像ＬＭは、各画素に、複数の画像領域Ｂ０，Ｂ１を区別する複数のラベルＬｂ＝０，Ｌｂ＝１のうちの１つのラベルが付された画像である。

【0040】

図４のステップＳ１２０では、物体検出処理部１１２が、既知画像ＫＭから複数のパッチ画像Ｐｃを作成し、個々のパッチ画像Ｐｃに１つのラベルを付与することによって教師データを作成する。

【0041】

図６は、既知画像ＫＭから抽出された複数のパッチ画像Ｐｃの例を示す説明図である。抽出により得られるパッチ画像Ｐｃの数Ｎｐは次式で与えられる。
Np=Ceil{(Wx-Hx+1)/T}×Ceil{(Wy-Hy+1)/T} （７）
ここで、Ｗｘ，Ｗｙは既知画像ＫＭの解像度、Ｈｘ，Ｈｙはパッチ画像Ｐｃの解像度、Ｔはストライド、Ceil｛Ｘ｝はＸを切り上げる演算を行う関数である。
本実施形態では、Ｗｘ＝Ｗｙ＝２５６、Ｈｘ＝Ｈｙ＝２９，Ｔ＝２であり、Ｎｐ＝１２９９６である。パッチ画像Ｐｃの抽出方法としては、これ以外の他の方法を採用してもよい。但し、複数のパッチ画像Ｐｃは、既知画像ＫＭの全体を覆うことができるように抽出されることが好ましい。

【0042】

個々のパッチ画像Ｐｃには、１つのラベルＬｂが対応付けられる。このラベルＬｂは、パッチ画像Ｐｃに含まれる既知画像ＫＭの画像部品ＢＧ，ＳＴのうちで、パッチ画像Ｐｃ内での面積が最大のものに対するラベルＬｂとする。或いは、パッチ画像Ｐｃに付与するラベルは、複数の連続値のセットとして与えることも可能である。例えば２つの背景ＢＧと試験管立てＳＴの割合が１：３のパッチ画像Ｐｃに対しては、Ｌｂ_0＝０．２５、Ｌｂ_1＝０．７５の２つのラベルを付与するようにしてもよい。なお、ベクトルニューラルネットワークのClassVN層２５０の出力をアクティベーション値ａの連続値として、連続値のラベルを学習することも可能である。なお、「連続値」とは、１，２，３のような離散値ではなく、小数点以下の数値を含む値を意味する。

【0043】

図６の例では、１つのパッチ画像Ｐｃ３（図中、右から２番目）のラベルＬｂは０であり、他の３つのパッチ画像Ｐｃ１，Ｐｃ２，Ｐｃ４のラベルＬｂは１である。これらのラベルＬｂは、図５に示した既知画像ＫＭとラベル画像ＬＭとの対応関係と、既知画像ＫＭにおける各パッチ画像Ｐｃの位置から決定することができる。パッチ画像Ｐｃに対するラベルＬｂの対応付けは、物体検出処理部１１２が自動的に実行してもよく、或いは、情報処理装置１００のユーザーが実行してもよい。

【0044】

図４のステップＳ１３０では、物体検出処理部１１２が、複数のパッチ画像Ｐｃを教師データとして機械学習モデル２００の学習を実行する。一実施例では、バッチサイズ＝１２８，学習率＝０．００１，エポック＝５０００で学習を実施した。学習の結果、パッチ画像Ｐｃに対するラベル判別の精度（Accuracy）は１．０となった。

【0045】

ClassVN層２５０の出力は、ラベルＬｂの数と等しい個数のクラスに対する複数の判定値に変換されるが、図３ではその図示を省略している。本実施形態では、ClassVN層２５０の２つのノードの出力が、ラベルＬｂ＝０，Ｌｂ＝１に対応する２つのクラスに対する判定値に変換される。これらの判定値は、通常はソフトマックス関数によって正規化された値である。具体的には、例えば、ClassVN層２５０の各ノードの出力ベクトルから、その出力ベクトルのベクトル長さを算出し、更に、２つのノードのベクトル長さをソフトマックス関数で正規化する、という演算を実行することによって、２つのクラスに対する判定値を得ることができる。上述したように、上記（４）式で得られるアクティベーション値ａ_jは、出力ベクトルＭ^L+1 _jのベクトル長さに相当する値であり、正規化されている。従って、ClassVN層２５０の２つのノードのそれぞれにおけるアクティベーション値ａ_jを出力して、そのまま２つのクラスに対する判定値として使用してもよい。

【0046】

学習済みの機械学習モデル２００は、入力画像Ｐｉよりも小さい予め定められたサイズのパッチ画像Ｐｃを学習済みの機械学習モデル２００に入力すると、入力したパッチ画像Ｐｃが複数のクラスのうちの１つに属することを示す判定値を機械学習モデル２００が出力するように構成されていることが理解できる。複数のパッチ画像Ｐｃを用いた学習が終了すると、学習済みの機械学習モデル２００がメモリー１２０に保存される。

【0047】

図４のステップＳ１４０では、学習済みの機械学習モデル２００に複数のパッチ画像Ｐｃを再度入力して、既知特徴スペクトル群ＫＳＧを生成する。既知特徴スペクトル群ＫＳＧは、以下で説明する特徴スペクトルの集合である。

【0048】

図７は、学習済みの機械学習モデル２００に任意の入力データを入力することによって得られる特徴スペクトルＳｐを示す説明図である。ここでは、ConvVN1層２３０の出力から得られる特徴スペクトルＳｐについて説明する。図７の横軸は、ConvVN1層２３０の１つの平面位置（ｘ，ｙ）におけるノードの出力ベクトルの要素番号ＮＤと、チャンネル番号ＮＣとの組み合わせで表されるスペクトル位置である。本実施形態では、ノードのベクトル次元が１６なので、出力ベクトルの要素番号ＮＤは０から１５までの１６個である。また、ConvVN1層２３０のチャンネル数は１２なので、チャンネル番号ＮＣは０から１１までの１２個である。

【0049】

図７の縦軸は、各スペクトル位置での特徴値Ｃ_Vを示す。この例では、特徴値Ｃ_Vは、出力ベクトルの各要素の値Ｖ_NDである。なお、特徴値Ｃ_Vとしては、出力ベクトルの各要素の値Ｖ_NDと、そのノードのアクティベーション値ａ_jとを乗算した値Ｖ_ND×ａ_jを使用してもよく、或いは、アクティベーション値ａ_jをそのまま使用してもよい。後者の場合には、特徴スペクトルＳｐに含まれる特徴値Ｃ_Vの数はチャンネル数に等しく、１２個である。

【0050】

１つの入力データに対してConvVN1層２３０の出力から得られる特徴スペクトルＳｐの数は、ConvVN1層２３０の平面位置（ｘ，ｙ）の数に等しいので、６×６＝３６個である。同様に、１つの入力データに対して、ConvVN2層２４０の出力から１６個の特徴スペクトルＳｐが得られ、ClassVN層２５０の出力から１個の特徴スペクトルＳｐが得られる。

【0051】

類似度演算部２６０は、学習済みの機械学習モデル２００に複数のパッチ画像Ｐｃが再度入力されたときに、図７に示す特徴スペクトルＳｐをそれぞれ算出して、既知特徴スペクトル群ＫＳＧに登録する。

【0052】

図８は、既知特徴スペクトル群ＫＳＧの構成を示す説明図である。この例では、既知特徴スペクトル群ＫＳＧは、ConvVN1層２３０の出力から得られた既知特徴スペクトル群ＫＳＧ_ConvVN1と、ConvVN2層２４０の出力から得られた既知特徴スペクトル群ＫＳＧ_ConvVN2と、ClassVN層２５０の出力から得られた既知特徴スペクトル群ＫＳＧ_ConvVN1とを含んでいる。

【0053】

既知特徴スペクトル群ＫＳＧ_ConvVN1の個々のレコードは、レコード番号と、レイヤー名と、ラベルＬｂと、既知特徴スペクトルＫＳｐとを含んでいる。また、個々のレコードは、教師データＴＤの個別のデータ名や、入力データＩＭにおいて特徴スペクトルＳｐに対応する部分の左上の座標、などの他の項目を含んでいてもよい。既知特徴スペクトルＫＳｐは、パッチ画像Ｐｃの入力に応じて得られた図４の特徴スペクトルＳｐと同じものである。図５の例では、複数のパッチ画像Ｐｃを学習済みの機械学習モデル２００に入力することによって、ConvVN1層２３０の出力から、ラベルＬｂ＝０に関連づけられたＮ１_0max個の既知特徴スペクトルＫＳｐと、ラベルＬｂ＝１に関連づけられたＮ１_1max個の既知特徴スペクトルＫＳｐと、が得られて登録されている。Ｎ１_0max，Ｎ１_1maxは、それぞれ２以上の整数である。前述したように、ラベルＬｂ＝０とラベルＬｂ＝１は、互いに異なるクラスに対応する。従って、既知特徴スペクトル群ＫＳＧ_ConvVN1における個々の既知特徴スペクトルＫＳｐは、複数のクラスのうちの１つのクラスに関連付けられて登録されていることが理解できる。他の既知特徴スペクトル群ＫＳＧ_ConvVN2，ＫＳＧ_ConvVN1も同様である。

【0054】

なお、ステップＳ１２０で使用される複数のパッチ画像Ｐｃは、ステップＳ１１０で使用された複数のパッチ画像Ｐｃと同じものである必要は無い。但し、ステップＳ１２０においても、ステップＳ１１０で使用された複数のパッチ画像Ｐｃの一部又は全部を利用すれば、新たなパッチ画像を準備する必要が無いという利点がある。

【0055】

こうして機械学習モデル２００の学習を含む準備工程が終了すると、任意のタイミングで、入力画像Ｐｉに対する物体検出を行う物体検出工程が実行される。

【0056】

図９は、物体検出工程における機械学習モデル２００の構成を示す説明図である。図３に示した準備工程における機械学習モデル２００との違いは、図９では入力データとして入力画像Ｐｉが用いられており、この結果、各層２１０～２５０の解像度が図３の場合と異なるだけであり、他の構成は図３と同じである。各層２１０～２５０における演算も、図３に即して説明したものと同じである。

【0057】

図９の構成において、最上位層であるClassVN層２５０からは、画素毎に既知のラベルＬｂが付された出力画像Ｐｏが出力される。この出力画像Ｐｏは、各平面位置（ｘ，ｙ）にある２つのチャンネルのノードから出力されるラベルＬｂを統合したものである。すなわち、各平面位置（ｘ，ｙ）の２つのチャンネルのノードからは、２つのラベルＬｂ＝０，Ｌｂ＝１のいずれのクラスに該当するかを示す判定値が出力される。出力画像Ｐｏは、各平面位置（ｘ，ｙ）における判定値を統合して、各平面位置（ｘ，ｙ）の画素に１つのラベルＬｂを割り当てた画像である。図９の例では、出力画像Ｐｏの解像度は５７×５７画素である。なお、出力画像Ｐｏは、ClassVN層２５０の出力から、物体検出処理部１１２が生成するものとしてもよい。

【0058】

図１０は、学習済みの機械学習モデル２００を用いた物体検出工程の処理手順を示すフローチャートであり、図１１は、ステップＳ２２０～Ｓ２４０の処理内容を示す説明図である。

【0059】

ステップＳ２１０では、物体検出処理部１１２が、機械学習モデル２００に入力画像Ｐｉを入力して、機械学習モデル２００の最上位層の出力から、複数のクラスのいずれに属するかを示す既知ラベルＬｂが画素毎に付与された出力画像Ｐｏを生成する。

【0060】

ステップＳ２２０では、ステップＳ２１０における入力画像Ｐｉの入力に応じて、ConvVN1層２３０と、ConvVN2層２４０と、ClassVN層２５０の出力から、類似度演算部２６０が類似度画像Ｓ_ConvVN1，Ｓ_ConvVN2，Ｓ_ClassVNをそれぞれ生成する。以下では、ConvVN1層２３０の出力から類似度画像Ｓ_ConvVN1を算出する方法を説明する。なお、類似度演算部２６０は、物体検出処理部１１２の一部を構成するものと考えることも可能である。

【0061】

類似度画像Ｓ_ConvVN1は、ConvVN1層２３０と同じ解像度を有する。図９の例では、ConvVN1層２３０の解像度は６２×６２であり、類似度画像Ｓ_ConvVN1のサイズも６２×６２画素である。

【0062】

類似度画像Ｓ_ConvVN1の各画素位置（ｘ，ｙ）における類似度Ｓ（ｘ，ｙ）は、図８に示した既知特徴スペクトル群ＫＳＧを用いて、次式に従って求めることができる。
S(x,y)=max[G{Sp(x,y),KSp(j)}] （８）
ここで、Ｇ｛ａ，ｂ｝はａとｂの類似度を求める関数、Ｓｐ（ｘ，ｙ）は入力画像Ｐｉに応じて得られるConvVN1層２３０の平面位置（ｘ，ｙ）での特徴スペクトル、ＫＳｐ（ｊ）はConvVN1層２３０に関連付けられたすべての既知特徴スペクトル、ｍａｘ［Ｘ］はＸの最大値を取る論理演算を示す。すなわち、各画素位置（ｘ，ｙ）における類似度Ｓ（ｘ，ｙ）は、入力画像Ｐｉに応じて得られた特徴スペクトルＳｐ（ｘ，ｙ）と、同じConvVN1層２３０で得られていたすべての既知特徴スペクトルＫＳｐ（ｊ）との間の類似度のうちの最大値である。

【0063】

類似度を求める関数Ｇ｛ａ，ｂ｝としては、例えば、コサイン類似度を求める式や、距離に応じた類似度を求める式を使用できる。なお、各位置（ｘ，ｙ）での画素値は、類似度Ｓ（ｘ，ｙ）の他に、上記（８）式において最大値を与えた既知特徴スペクトルＫＳｐ（ｊ）に関連づけられたラベルＬｂも含む形で保存されることが好ましい。但し、ラベルＬｂの情報は、各位置（ｘ，ｙ）の画素値に含まれていなくてもよい。例えば、未知部分が認識できれば良い場合もあり、この場合には、既知領域と未知領域の２つの領域で塗り分けるよう画素値が構成されていてもよい。類似度画像Ｓ_ConvVN1の類似度Ｓ（ｘ，ｙ）は、その位置（ｘ，ｙ）に対応する入力画像Ｐｉの画素位置に、そのラベルＬｂに対応するクラスの特徴が存在する確率を表している。換言すれば、類似度Ｓ（ｘ，ｙ）は、その層の平面位置（ｘ，ｙ）における特徴が、複数のクラスのうちのいずれかのクラスの特徴と類似する程度を示す指標である。

【0064】

ConvVN2層２４０とClassVN層２５０の出力に関する類似度画像Ｓ_ConvVN2，Ｓ_ClassVNも、類似度画像Ｓ_ConvVN1と同様に生成される。なお、これらの３つの類似度画像Ｓ_ConvVN1，Ｓ_ConvVN2，Ｓ_ClassVNをすべて生成する必要はないが、これらのうちの１つ以上を生成することが好ましい。本開示において、類似度画像を生成する層を、「特定層」とも呼ぶ。

【0065】

図１０のステップＳ２３０では、物体検出処理部１１２が、類似度画像Ｓ_ConvVN1，Ｓ_ConvVN2，Ｓ_ClassVNの各画素の類似度を予め定められた閾値と比較し、比較結果に応じて既知ラベルと未知ラベルを付与することによって、判別画像を生成する。図１１では、ステップＳ２３０の処理によって、類似度画像Ｓ_ConvVN1，Ｓ_ConvVN2，Ｓ_ClassVNから、判別画像Ｔ_ConvVN1，Ｔ_ConvVN2，Ｔ_ClassVNがそれぞれ作成されている。類似度画像Ｓ_ConvVN1の各画素は、複数のクラスのうちのいずれかのクラスの特徴と類似する程度を示す類似度を表している。そこで、類似度に対する閾値を予め設定しておき、類似度画像Ｓ_ConvVN1の画素位置（ｘ，ｙ）における類似度が閾値以上であれば、その画素位置（ｘ，ｙ）に、その類似度に関連付けられたクラスに対応する既知ラベルを付与し、一方、類似度が閾値未満であれば、その画素位置（ｘ，ｙ）に未知ラベルを付与することによって、判別画像Ｔ_ConvVN1が生成される。本実施形態では、既知ラベルはＬｂ＝０とＬｂ＝１の２つである。未知ラベルとしては、例えば、Ｌｂ＝－１が付与される。なお、類似度の閾値としては、例えば、０．９０～０．９８の範囲の値を使用することができる。

【0066】

なお、判別画像Ｔ_ConvVN1，Ｔ_ConvVN2，Ｔ_ClassVNを作成する際に、画素位置（ｘ，ｙ）に既知ラベルを付与することを行わずに、未知ラベルを付与するだけでもよい。例えば、未学習の物体位置を特定する目的であれば、既知ラベルは不要である。換言すれば、判別画像Ｔ_ConvVN1，Ｔ_ConvVN2，Ｔ_ClassVNには、少なくとも未知ラベルが付与されていればよい。

【0067】

図１０のステップＳ２４０では、物体検出処理部１１２が、判別画像Ｔ_ConvVN1，Ｔ_ConvVN2，Ｔ_ClassVNを参照して、出力画像Ｐｏに未知ラベルを設定する。この際まず、判別画像Ｔ_ConvVN1，Ｔ_ConvVN2，Ｔ_ClassVNの解像度と、出力画像Ｐｏの解像度とを一致させる解像度変換を実行することが好ましい。図１１では、判別画像Ｔ_ConvVN1，Ｔ_ConvVN2，Ｔ_ClassVNのそれぞれの解像度を、いずれも入力画像Ｐｉと同じ２５６×２５６画素に変換することによって、解像度変換後の判別画像＃Ｔ_ConvVN1，＃Ｔ_ConvVN2，＃Ｔ_ClassVNが生成される様子が描かれている。図１１には、更に、図９に示した出力画像Ｐｏを２５６×２５６画素に変換した出力画像＃Ｐｏが描かれている。解像度変換のアルゴリズムとしては、例えば、バイキュービック法、最近傍法などを使用できる。但し、この解像度変換は省略可能である。

【0068】

物体検出処理部１１２は、ステップＳ２４０において、判別画像＃Ｔ_ConvVN1，＃Ｔ_ConvVN2，＃Ｔ_ClassVNを参照して、出力画像＃Ｐｏに未知ラベルを設定する。例えば、出力画像＃Ｐｏの各画素位置（ｘ，ｙ）について、３つの判別画像＃Ｔ_ConvVN1，＃Ｔ_ConvVN2，＃Ｔ_ClassVNにおけるラベルを参照し、１つでも未知ラベルがあれば、その画素位置（ｘ，ｙ）に未知ラベルを割当て、すべてが既知ラベルであれば出力画像＃Ｐｏのラベルをそのまま採用する。この結果、図１１に示すように、既知ラベルＬｂ＝０，Ｌｂ＝１と、未知ラベルＬｂ＝－１が設定された出力画像ＬＰｏが作成される。

【0069】

他の実施形態では、出力画像＃Ｐｏの各画素位置（ｘ，ｙ）について、３つの判別画像＃Ｔ_ConvVN1，＃Ｔ_ConvVN2，＃Ｔ_ClassVNにおけるラベルを参照し、それらがすべて未知ラベルであれば、その画素位置（ｘ，ｙ）に未知ラベルを割当て、すべてが既知ラベルであれば出力画像＃Ｐｏのラベルをそのまま採用するようにしてもよい。一般には、複数の層の出力から生成された複数の判別画像について、これらの判別画像の対応画素のうちの予め定められた数の対応画素に未知ラベルが付与されている場合に、出力画像Ｐｏの当該画素に未知ラベルを設定するようにしてもよい。

【0070】

なお、図１０及び図１１に即して説明した処理において、３つの層２３０，２４０，２５０の出力から類似度画像や判別画像をそれぞれ生成する必要はなく、これらのうちの少なくとも１つの層から類似度画像や判別画像を生成するようにしてもよい。本開示では、類似度画像や判別画像の生成に使用された層を「特定層」とも呼ぶ。

【0071】

未知領域のみを検出することを目的とする場合には、出力画像Ｐｏに判別画像を統合するためのステップＳ２４０を省略してもよい。また、出力画像Ｐｏを使用することなく、３つの判別画像＃Ｔ_ConvVN1，＃Ｔ_ConvVN2，＃Ｔ_ClassVNを統合して、出力画像Ｌｏとすることも可能である。

【0072】

図４のステップＳ２５０では、物体検出処理部１１２が、画素毎に既知ラベルと未知ラベルが付与された出力画像ＬＰｏを表示する。出力画像ＬＰｏを表示する際には、ラベル毎に異なる色を付した状態で出力画像ＬＰｏを表示することが好ましい。

【0073】

図１２は、物体検出処理の結果として表示された出力画像ＬＰｏを示す説明図である。この例では、背景ＢＧと試験管立てＳＴと試験管ＴＴにそれぞれ異なる色が付されている。なお、出力画像ＬＰｏを表示する際には、入力画像Ｐｉを流用し、未知ラベルの画素位置に未知ラベル特有の色を付した半透明のレイヤーを入力画像Ｐｉの上に重ねることによって、表示用の画像を作成するようにしてもよい。

【0074】

なお、上記実施形態では、入力画像Ｐｉの入力に応じた機械学習モデル２００の最上位層の出力から出力画像Ｐｏを求め、この出力画像Ｐｏを用いて未知ラベルを含む出力画像ＬＰｏを求めていたが、これ以外の方法で、ユーザーに提示する出力画像を求めるようにしてもよい。例えば、判別画像Ｔ_ConvVN1，Ｔ_ConvVN2，Ｔ_ClassVNの少なくとも一つ、又は、解像度変換後の判別画像＃Ｔ_ConvVN1，＃Ｔ_ConvVN2，＃Ｔ_ClassVNの少なくとも一つを、出力画像としてユーザーに提示してもよい。

【0075】

上述したように、本実施形態では、学習済みの機械学習モデル２００に入力画像Ｐｉを入力して、少なくとも１つの特定層の出力から類似度画像を生成し、類似度画像の各画素の類似度を予め定められた閾値と比較することによって、少なくとも未知ラベルが付与された判別画像を生成した。この処理によれば、未知の物体の画像領域に未知ラベルが付与されるので、入力画像Ｐｉ内に存在する未知の物体を検出することができる。特に、試験管ＴＴのような透明の物体を容易に検出できるという利点がある。

【0076】

上述の実施形態では、機械学習モデル２００として、上記（２）式～（５）式の演算によって出力ベクトルを求めるベクトルニューラルネットワークを用いていたが、この代わりに、米国特許第５２１０７９８号公報や国際公開２０１９／０８３５５３号公報に開示されているカプセルネットワークを用いてもよい。

【0077】

また、既知スペクトル群ＫＳＧの生成方法や、ConvVN1層等の中間層の出力データの生成方法は上記実施形態に限定されるものではなく、例えば、Ｋｍｅａｎｓ法を用いてこれらのデータを生成してもよい。また、ＰＣＡやＩＣＡ、Ｆｉｓｈｅｒなどの変換を用いてこれらのデータを生成してもよい。また、既知スペクトル群ＫＳＧと中間層の出力データの変換方法は異なっていてもよい。

【0078】

・他の実施形態：
本開示は、上述した実施形態に限られるものではなく、その趣旨を逸脱しない範囲において種々の形態で実現することができる。例えば、本開示は、以下の形態（aspect）によっても実現可能である。以下に記載した各形態中の技術的特徴に対応する上記実施形態中の技術的特徴は、本開示の課題の一部又は全部を解決するために、あるいは、本開示の効果の一部又は全部を達成するために、適宜、差し替えや、組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することが可能である。

【0079】

（１）本開示の第１の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを用いて、入力画像から物体を検出する物体検出方法が提供される。前記機械学習モデルは、前記入力画像よりも小さい予め定められたサイズのパッチ画像を前記機械学習モデルに入力すると、前記パッチ画像が複数のクラスのうちの１つに属することを示す判定値を前記機械学習モデルが出力するように構成されている。前記物体検出方法は、（ａ）前記機械学習モデルに前記入力画像を入力して、前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から、前記複数のクラスのうちのいずれかのクラスの特徴と類似する程度を示す類似度を前記特定層の画素毎に求めることによって、類似度画像を生成する工程と、（ｂ）前記類似度画像の各画素の前記類似度を予め定められた閾値と比較し、前記類似度が前記閾値未満の場合に当該画素に未知ラベルを付与することによって、少なくとも前記未知ラベルを含む判別画像を生成する工程と、を含む。
この物体検出方法によれば、未知の物体の画像領域に未知ラベルが付与されるので、テンプレートマッチングとは異なる方法で、入力画像内に存在する未知の物体を検出することができる。

【0080】

（２）上記物体検出方法において、前記工程（ｂ）は、前記類似度が前記閾値以上の場合には、当該画素に、前記類似度に関連付けられた前記クラスに対応する既知ラベルを付与するものとしてもよい。
この物体検出方法によれば、既知ラベルと未知ラベルが付与された判別画像から、既知の物体と未知の物体を識別することが可能である。

【0081】

（３）上記物体検出方法において、前記工程（ａ）は、前記入力画像の前記入力に応じた前記機械学習モデルの出力から、前記複数のクラスのいずれに属するかを示す既知ラベルが画素毎に付与された出力画像を生成する工程を含み、前記工程（ｂ）は、前記判別画像を参照して、前記出力画像の一部の画素に前記未知ラベルを設定する工程を含むものとしてもよい。
この物体検出方法によれば、未知の物体の画像領域に未知ラベルが設定された出力画像を得ることができる。

【0082】

（４）上記物体検出方法において、前記工程（ｂ）は、更に、前記判別画像と前記出力画像の解像度を一致させる解像度変換を実行する工程を含むものとしてもよい。
この物体検出方法によれば、判別画像と出力画像の解像度を一致させるので、判別画像を参照して出力画像に未知ラベルを容易に設定できる。

【0083】

（５）上記物体検出方法において、前記特定層は２つ以上存在し、前記工程（ａ）は、前記２つ以上の特定層のそれぞれに関して前記類似度画像を求める工程を含み、前記工程（ｂ）は、前記２つ以上の特定層のそれぞれに関して前記判別画像を求める工程と、前記出力画像の各画素について、前記２つ以上の特定層のそれぞれに関する前記判別画像の対応画素のうちの予め定められた数の対応画素に前記未知ラベルが付与されている場合に、前記出力画像の当該画素に前記未知ラベルを設定する工程と、を含むものとしてもよい。
この物体検出方法によれば、２つの以上の特定層に関して得られた判別画像の対応画素うち、予め定められた数の対応画素に未知ラベルが付与されている場合に出力画像の画素に未知ラベルを設定するので、未知ラベルをより正確に設定できる。

【0084】

（６）上記物体検出方法において、前記特定層は、第１軸と第２軸の２つの軸で規定された平面に配置されたベクトルニューロンが、前記２つの軸とは異なる方向の第３軸に沿って複数のチャンネルとして配置されている構成を有し、前記工程（ａ）は、前記特定層のうちの１つの平面位置におけるベクトルニューロンの出力ベクトルの複数の要素値を、前記第３軸に沿った前記複数のチャンネルにわたって配列した第１種の特徴スペクトルと、前記第１種の特徴スペクトルの各要素値に、前記出力ベクトルのベクトル長さに相当するアクティベーション値を乗じることによって得られる第２種の特徴スペクトルと、前記特定層のうちの１つの平面位置における前記アクティベーション値を、前記第３軸に沿った前記複数のチャンネルにわたって配列した第３種の特徴スペクトルと、のうちのいずれかの特徴スペクトルを前記特定層の画素毎に求める工程と、前記機械学習モデルに前記複数の既知ラベルのいずれかがそれぞれ付与された複数のパッチ画像が入力されたときに前記特定層の出力から得られた既知特徴スペクトル群と、前記入力画像の入力に応じて前記特定層の画素毎に得られた前記特徴スペクトルと、に対して予め定められた演算式を適用することによって前記類似度を求める工程と、を含むものとしてもよい。
この物体検出方法によれば、ベクトルニューロンの出力ベクトルから得られる３種の特徴スペクトルのいずれかを用いて類似度を求めることができる。

【0085】

（７）本開示の第２の形態によれば、入力画像から物体を検出する物体検出装置が提供される。この物体検出装置は、複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを記憶するメモリーと、前記機械学習モデルを用いた物体検出処理を実行するプロセッサーと、を備える。前記機械学習モデルは、前記入力画像よりも小さい予め定められたサイズのパッチ画像を前記機械学習モデルに入力すると、前記パッチ画像が複数のクラスのうちの１つに属することを示す判定値を前記機械学習モデルが出力するように構成されている。前記プロセッサーは、（ａ）前記機械学習モデルに前記入力画像を入力して、前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から、前記複数のクラスのうちのいずれかのクラスの特徴と類似する程度を示す類似度を前記特定層の画素毎に求めることによって、類似度画像を生成する処理と、（ｂ）前記類似度画像の各画素の前記類似度を予め定められた閾値と比較し、前記類似度が前記閾値未満の場合に当該画素に未知ラベルを付与することによって、少なくとも前記未知ラベルを含む判別画像を生成する処理と、を実行する。
この物体検出装置によれば、未知の物体の画像領域に未知ラベルが付与されるので、テンプレートマッチングとは異なる方法で、入力画像内に存在する未知の物体を検出することができる。

【0086】

（８）本開示の第３の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを用いて、入力画像から物体を検出する物体検出処理をプロセッサーに実行させるコンピュータープログラムが提供される。前記機械学習モデルは、前記入力画像よりも小さい予め定められたサイズのパッチ画像を前記機械学習モデルに入力すると、前記パッチ画像が複数のクラスのうちの１つに属することを示す判定値を前記機械学習モデルが出力するように構成されている。前記コンピュータープログラムは、（ａ）前記機械学習モデルに前記入力画像を入力して、前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から、前記複数のクラスのうちのいずれかのクラスの特徴と類似する程度を示す類似度を前記特定層の画素毎に求めることによって、類似度画像を生成する処理と、（ｂ）前記類似度画像の各画素の前記類似度を予め定められた閾値と比較し、前記類似度が前記閾値未満の場合に当該画素に未知ラベルを付与することによって、少なくとも前記未知ラベルを含む判別画像を生成する処理と、を前記プロセッサーに実行させる。
このコンピュータープログラムによれば、未知の物体の画像領域に未知ラベルが付与されるので、テンプレートマッチングとは異なる方法で、入力画像内に存在する未知の物体を検出することができる。

【0087】

本開示は、上記以外の種々の形態で実現することも可能である。例えば、物体検出装置の機能を実現するためのコンピュータープログラム、そのコンピュータープログラムを記録した一時的でない記録媒体（non-transitory storage medium）等の形態で実現することができる。

【符号の説明】

【0088】

１００…情報処理装置、１１０…プロセッサー、１１２…物体検出処理部、１２０…メモリー、１３０…インターフェイス回路、１５０…表示部、２００…機械学習モデル、２１０…畳み込み層、２２０…プライマリーベクトルニューロン層、２３０…第１畳み込みベクトルニューロン層、２４０…第２畳み込みベクトルニューロン層、２５０…分類ベクトルニューロン層、２６０…類似度演算部

【図1】