特開2024-77442 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-77442対象検出プログラム、装置、及び機械学習モデル生成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024077442

(43)【公開日】2024-06-07

(54)【発明の名称】対象検出プログラム、装置、及び機械学習モデル生成方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20240531BHJP

G06T 7/60 20170101ALI20240531BHJP

G06V 10/26 20220101ALI20240531BHJP

G06V 10/22 20220101ALI20240531BHJP

G06V 10/82 20220101ALI20240531BHJP

G06T 7/00 20170101ALI20240531BHJP

【ＦＩ】

G06N20/00

G06T7/60 200

G06V10/26

G06V10/22

G06V10/82

G06T7/00 350C

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022189541

(22)【出願日】2022-11-28

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】山田萌

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA05

5L096EA35

5L096FA69

5L096FA72

5L096HA08

5L096JA05

5L096JA11

5L096JA16

5L096KA04

(57)【要約】

【課題】対象の検出精度劣化を低減する。
【解決手段】第１の対象を含む画像内の領域を特定するモジュール３２２Ｃを含み、画像に第１の対象がラベル付けされた訓練データに基づいて訓練された第１の機械学習モデルのモジュール３２２Ｃを取得し、第２の対象を含む画像内の領域を特定するモジュール３２２Ａと、特定された領域の画像内の位置を判定するデコーダ３２３とを含み、画像内の第２の対象の位置情報がラベル付けされた訓練データに基づいて訓練された対象検出器のデコーダ３２３とモジュール３２２Ｃとを組み合わせて対象検出器３６を生成し、画像を対象検出器３６に入力することによって、対象の検出結果を出力する。
【選択図】図６

【特許請求の範囲】

【請求項1】

第１の対象を含む画像内の領域を特定する第１の機械学習モデル部分を含み画像に前記第１の対象がラベル付けされた訓練データに基づいて訓練された第１の機械学習モデルの前記第１の機械学習モデル部分を取得し、
第２の対象を含む画像内の領域を特定する第２の機械学習モデル部分と、特定された領域の画像内の位置を判定する第３の機械学習モデル部分とを含み画像内の前記第２の対象の位置情報がラベル付けされた訓練データに基づいて訓練された第２の機械学習モデルの前記第３の機械学習モデル部分と前記第１の機械学習モデル部分とを組み合わせて第３の機械学習モデルを生成し、
画像を前記第３の機械学習モデルに入力することによって、対象の検出結果を出力する、
処理をコンピュータに実行させることを特徴とする対象検出プログラム。

【請求項2】

前記画像に前記第１の対象がラベル付けされた訓練データには、前記第１の対象の位置情報がラベル付けされていない、
請求項１に記載の対象検出プログラム。

【請求項3】

前記対象の検出結果を出力する処理は、前記第１の機械学習モデル部分により特定された画像内の領域に基づいて、前記第３の機械学習モデル部分により判定された前記画像内の位置と、前記領域が前記第１の対象であることを示す情報とを出力することを含む、
請求項１又は請求項２に記載の対象検出プログラム。

【請求項4】

前記第１の機械学習モデル部分により、前記第１の対象を含む画像内の領域を特定する処理は、画像を圧縮した特徴行列の各要素が示す特徴と、前記第１の機械学習モデル部分が示す特徴との類似度を前記各要素に反映させることにより、前記特徴行列に情報を付与することを含み、
前記第３の機械学習モデルにより、前記特定された領域の画像内の位置を判定する処理は、前記類似度が前記各要素に反映された前記特徴行列のうち、値が所定の条件を満たす要素に対応する前記画像の座標を算出することを含む、
請求項３に記載の対象検出プログラム。

【請求項5】

前記第１の機械学習モデル部分と、前記第２の機械学習モデル部分とを並列に組み合わせた機械学習モデル部分群と、前記第３の機械学習モデル部分と組み合わせて第４の機械学習モデルを生成し、
前記対象の検出結果として、前記第１の対象及び前記第２の対象についての検出結果を出力する、
請求項１又は請求項２に記載の対象検出プログラム。

【請求項6】

前記第１の機械学習モデル部分と、前記第２の機械学習モデル部分とを直列に組み合わせた機械学習モデル部分群と、前記第３の機械学習モデル部分と組み合わせて第４の機械学習モデルを生成し、
前記対象の検出結果として、前記第１の対象の特徴と、前記第２の対象の特徴とを組み合わせた特徴を有する対象についての検出結果を出力する、
請求項１又は請求項２に記載の対象検出プログラム。

【請求項7】

第１の対象を含む画像内の領域を特定する第１の機械学習モデル部分を含み画像に前記第１の対象がラベル付けされた訓練データに基づいて訓練された第１の機械学習モデルの前記第１の機械学習モデル部分を取得し、
第２の対象を含む画像内の領域を特定する第２の機械学習モデル部分と、特定された領域の画像内の位置を判定する第３の機械学習モデル部分とを含み画像内の前記第２の対象の位置情報がラベル付けされた訓練データに基づいて訓練された第２の機械学習モデルの前記第３の機械学習モデル部分と前記第１の機械学習モデル部分とを組み合わせて第３の機械学習モデルを生成し、
画像を前記第３の機械学習モデルに入力することによって、対象の検出結果を出力する、
処理を実行する制御部を含むことを特徴とする対象検出装置。

【請求項8】

それぞれが特定の対象が含まれる画像内の領域を特定する複数の機械学習モデル部分から一又は複数の機械学習モデル部分を選択し、
前記一又は複数の機械学習モデルと、特定された領域の画像内の位置を判定する機械学習部分とを組み合わせることによって、画像から対象を検出する機械学習モデルを生成する、
処理をコンピュータが実行することを特徴とする機械学習モデル生成方法。

【発明の詳細な説明】

【技術分野】

【0001】

開示の技術は、対象検出プログラム、対象検出装置、及び機械学習モデル生成方法に関する。

【背景技術】

【0002】

入力として与えられた画像中に存在する物体等の対象の位置及びカテゴリを推定するためにニューラルネットワークが広く用いられている。例えば、推論時における高解像度画像内の物体検出を改善するための方法が提案されている。この方法は、１つ又は複数のプロセッサが高解像度画像を受け取り、受け取った画像を、画像の階層的に組織化されたレイヤに分解する。各レイヤは、受け取った画像の少なくとも１つの画像タイルを含み、画像タイルの各々は、ベースライン画像認識アルゴリズムに適する対応する解像度を有する。また、この方法は、１つ又は複数のプロセッサが、各レイヤの画像タイルの各々にベースライン・アルゴリズムを適用した結果の結果集約を実行する。

【0003】

また、例えば、ロボットアクションへの修正を判定及び利用するための装置が提案されている。この装置は、ロボットによって実行されたアクションの人間の修正を判定することに応じて、ロボットの局所的特徴モデルを更新する。局所的特徴モデルは、対応するニューラルネットワークモデルの上で生成された埋め込みに基づいて、生成された埋め込みに最も類似する１つ以上の特徴を判定するために使用される。

【0004】

また、例えば、特定のカテゴリに属するオブジェクトの位置を判定する画像処理システムが提案されている。このシステムは、画像又はビデオセグメント内のオブジェクトを識別するために、オブジェクトを含む画像の１つ又は複数の領域を識別する。また、このシステムは、ディープラーニングベースのオブジェクト検出フレームワーク、及び様々なオブジェクトカテゴリ間に存在する相関をモデル化する類似オブジェクト検索フレームワークを利用する。そして、このシステムは、カテゴリの階層ツリーを使用して検出された各オブジェクトのカテゴリを判定し、様々なオブジェクトカテゴリ間の視覚的な類似性を学習する。階層ツリーは、オブジェクトカテゴリ間の相関を使用しないオブジェクト検出器のエラーを分析することにより推定される。

【0005】

また、例えば、広範囲に及ぶトレーニング、大量のコンピューティング資源、又は大規模なデータ記憶部なしで、配備後の高速学習を行う生涯ディープニューラルネットワーク（Ｌ－ＤＮＮ）技術が提案されている。Ｌ－ＤＮＮ技術では、予め学習した特徴を忘れることなく、新しい特徴を迅速に学習するように、高速学習サブシステム（モジュールＢ）を伴い、表現豊富なＤＮＮに基づくサブシステム（モジュールＡ）を使用する。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０２２－９０６３３号公報

【特許文献2】特開２０２２－１９７２１号公報

【特許文献3】特開２０２１－１２８７９７号公報

【特許文献4】特表２０２０－５２０００７号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、画像から対象を検出する機械学習モデルに対して、新たな対象を検出できるように再訓練を行うと、再訓練前から検出対象であった対象の検出精度が劣化する場合がある。

【0008】

一つの側面として、開示の技術は、対象の検出精度劣化を低減することを目的とする。

【課題を解決するための手段】

【0009】

一つの態様として、開示の技術は、第１の対象を含む画像内の領域を特定する第１の機械学習モデル部分を含む、第１の機械学習モデルの前記第１の機械学習モデル部分を取得する。第１の機械学習モデルは、画像に前記第１の対象がラベル付けされた訓練データに基づいて訓練されたものである。また、開示の技術は、第２の対象を含む画像内の領域を特定する第２の機械学習モデル部分と、特定された領域の画像内の位置を判定する第３の機械学習モデル部分とを含む、第２の機械学習モデルの前記第３の機械学習モデル部分を取得する。第２の機械学習モデルは、画像内の前記第２の対象の位置情報がラベル付けされた訓練データに基づいて訓練されたものである。そして、開示の技術は、前記第３の機械学習モデル部分と前記第１の機械学習モデル部分とを組み合わせて第３の機械学習モデルを生成し、画像を前記第３の機械学習モデルに入力することによって、対象の検出結果を出力する。

【発明の効果】

【0010】

一つの側面として、対象の検出精度劣化を低減することができる、という効果を有する。

【図面の簡単な説明】

【0011】

【図1】一般的な対象検出器への検出対象の追加を説明するための図である。

【図2】一般的な対象検出器への検出対象の追加を説明するための図である。

【図3】本実施形態に係る対象検出装置の機能ブロック図である。

【図4】本実施形態に係る対象検出器の概略構成図である。

【図5】モジュールの訓練を説明するための図である。

【図6】モジュールを変更することにより生成された対象検出器の例を示す図である。

【図7】出力部の詳細な機能ブロック図である。

【図8】対象検出器による処理を説明するための図である。

【図9】モジュールによる処理を説明するための図である。

【図10】デコーダによる処理を説明するための図である。

【図11】モジュールリストの一例を示す図である。

【図12】対象か否かの判定結果の一例を示す図である。

【図13】対象検出器による処理を説明するための図である。

【図14】対象検出装置として機能するコンピュータの概略構成を示すブロック図である。

【図15】機械学習処理の一例を示すフローチャートである。

【図16】検出処理の一例を示すフローチャートである。

【図17】一般的な対象検出器の機能を説明するための図である。

【図18】モジュールの組み合わせによる対象の拡大を説明するための図である。

【図19】モジュールの組み合わせによる対象の拡大を説明するための図である。

【図20】引数が与えられる場合のモジュールの処理を説明するための図である。

【発明を実施するための形態】

【0012】

以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。

【0013】

ディープニューラルネットワーク等で構成された機械学習モデルであり、画像から物体等の対象を検出する対象検出器は、画像と、画像内での対象の位置及びカテゴリの情報とが対応付けられた訓練データを用いて訓練させる必要がある。一般に公開されている訓練データでは、例えば、犬や人はあるがベビーカーはない等、対象のカテゴリが限られており、利用者が検出したい対象が含まれていないことが多い。そこで、公開されている訓練データで訓練された対象検出器に対して、公開されている訓練データには存在しないカテゴリを検出対象として追加したり、誤認識され易い不要なカテゴリを検出対象から削除したりする等、検出対象を変更したいという要望がある。また、検出対象を変更した場合でも、検出対象の変更前から検出対象であった対象の検出精度は維持されることが望ましい。さらに、対象検出器に対する検出対象の追加に必要となる訓練データの作成や再訓練のための作業コストをなるべく小さくしたいという要望もある。

【0014】

ここで、図１左図に示すような、公開されている訓練データを用いて訓練された対象検出器があるとする。図１では、画像内の丸、矩形、三角等は、それぞれカテゴリが異なる対象を概略的に表したものである。本実施形態では、対象「丸」のカテゴリを「ｃｉｒｃｌｅ」、対象「矩形」のカテゴリを「ｒｅｃｔａｎｇｌｅ」、対象「三角」のカテゴリを「ｔｒｉａｎｇｌｅ」として説明する。図１の左図の対象検出器は、検出対象のカテゴリを「ｃｉｒｃｌｅ」及び「ｒｅｃｔａｎｇｌｅ」として訓練された対象検出器である。この対象検出器を訓練するためには、図１左図中のＡに示すように、画像内での対象の位置情報と、その対象のカテゴリとが対応付けられた訓練データを用いる必要がある。なお、本実施形態では、対象を囲むバウンディングボックスの始点座標（例えば、左上角の座標）（ｘ，ｙ）、及びバウンディングボックスの高さ及び幅（Ｂｈ，Ｂｗ）を用いて、その対象の位置情報を［ｘ，ｙ，Ｂｈ，Ｂｗ］と表す。

【0015】

図１左図に示す対象検出器を用いて、カテゴリ「ｔｒｉａｎｇｌｅ」の対象を新たに検出したい場合、図１右図中のＢに示すように、追加対象のカテゴリと位置情報とが対応付けられた画像を訓練データとして用意する必要がある。また、追加対象のカテゴリの訓練データを元の訓練データに追加した訓練データセットを用いて、対象検出器全体を再訓練する必要がある。対象検出器全体を再訓練した場合、再訓練前の検出対象の検出精度が劣化する可能性もある。

【0016】

また、例えば、図２左図に示すような、検出対象のカテゴリを「ｃｉｒｃｌｅ」、「ｒｅｃｔａｎｇｌｅ」、及び「ｔｒｉａｎｇｌｅ」として訓練された対象検出器があるとする。この対象検出器を用いて、「ｃｉｒｃｌｅ」及び「ｔｒｉａｎｇｌｅ」のみを検出したい、すなわち「ｒｅｃｔａｎｇｌｅ」を削除したいとする。この場合、対象検出器から、「ｃｉｒｃｌｅ」を検出するための部分ネットワーク、及び「ｔｒｉａｎｇｌｅ」を検出するための部分ネットワークを抽出することが考えられる。この方法は、元の対象検出器から検出対象を減らすことはできるが、検出対象を増やすことは考えられていない。また、この方法は、抽出した部分ネットワークを統合するための統合ネットワークの追加訓練が必要であり、作業コストがかかる。

【0017】

そこで、本実施形態は、対象検出器に特定の対象のみを抽出するモジュールを追加し、検出したい対象に応じてモジュールを自由に選択可能とすることで、対象検出器全体の再訓練を不要とし、再訓練前の検出対象の検出精度を維持させる。また、本実施形態は、対象のカテゴリ毎のモジュールを、位置情報なしの訓練データで訓練可能とすることで、訓練に要する作業コストを削減する。以下、本実施形態に係る対象検出装置について詳述する。

【0018】

図３に示すように、対象検出装置１０は、機能的には、機械学習部２０と、検出部４０とを含む。機械学習部２０及び検出部４０は、開示の技術の「制御部」の一例である。機械学習部２０は、さらに、第１機械学習部２２と、第２機械学習部２４とを含む。検出部４０は、さらに、取得部４２と、生成部４４と、出力部５０とを含む。また、対象検出装置１０の所定の記憶領域には、対象検出器３２と、モジュールライブラリ３４とが記憶される。

【0019】

まず、機械学習部２０について説明する。

【0020】

第１機械学習部２２は、画像内での対象の位置情報と、その対象のカテゴリとが対応付けられた訓練データ（以下、「位置情報ありの訓練データ」という）を用いて、対象検出器３２を訓練する。図４に、対象検出器３２の構成を概略的に示す。図４に示すように、対象検出器３２は、エンコーダ３２１と、モジュール３２２と、デコーダ３２３とを含む。エンコーダ３２１は、入力された画像を圧縮及び変換した画像特徴行列を生成するニューラルネットワークである。例えば、エンコーダ３２１は、入力された画像を圧縮及び変換して、モジュール３２２が処理可能な形式であって、各要素が特定次元のベクトルである画像特徴行列を生成する。

【0021】

モジュール３２２は、エンコーダ３２１の出力に基づいて、検出対象のカテゴリ毎の、画像内の対象を示す領域を特定するニューラルネットワークである。画像内の対象を示す領域を特定する機能は、例えば、アテンション機構により実現されてもよい。例えば、第１機械学習部２２が取得する位置情報ありの訓練データに含まれる対象のカテゴリが「ｃｉｒｃｌｅ」及び「ｒｅｃｔａｎｇｌｅ」であるとする。この場合、図４に示すように、対象検出器３２には、「ｃｉｒｃｌｅ」の画像内の領域を特定するモジュール３２２Ａと、「ｒｅｃｔａｎｇｌｅ」の画像内の領域を特定するモジュール３２２Ｂとが含まれる。カテゴリ毎のモジュールを区別なく説明する場合には、単に「モジュール３２２」と表記する。

【0022】

デコーダ３２３は、モジュール３２２の出力に基づいて、モジュール３２２で特定された領域の画像内の位置を判定すると共に、特定された領域が検出対象である尤度を判定し、検出結果として出力するニューラルネットワークである。例えば、モジュール３２２Ａの出力に基づいて検出対象の尤度が閾値以上であると判定された場合、画像から「ｃｉｒｃｌｅ」が検出されたことになる。対象検出器３２は、開示の技術の「第２の機械学習モデル」の一例であり、モジュール３２２は、開示の技術の「第２の機械学習モデル部分」の一例であり、デコーダ３２３は、開示の技術の「第３の機械学習モデル部分」の一例である。

【0023】

第１機械学習部２２は、対象検出器３２に、訓練データの画像を入力し、デコーダ３２３から出力される検出結果を取得する。第１機械学習部２２は、取得した検出結果と、訓練データが示す正解との誤差を最小化するように、エンコーダ３２１、モジュール３２２、及びデコーダ３２３の各々のパラメータを更新することにより、対象検出器３２を訓練する。

【0024】

図４の例では、第１機械学習部２２は、上記誤差を算出する際、モジュール３２２Ａで特定された領域についての検出結果（図４中のＣ）である位置１及び位置２と、訓練データ（図４中のＥ）の「ｃｉｒｃｌｅ」に対応付けられた位置情報とを比較する。また、第１機械学習部２２は、モジュール３２２Ｂで特定された領域についての検出結果（図４中のＤ）である位置１と、訓練データ（図４中のＥ）の「ｒｅｃｔａｎｇｌｅ」に対応付けられた位置情報とを比較する。

【0025】

第１機械学習部２２は、訓練済みの対象検出器３２を、対象検出装置１０の所定の記憶領域に記憶する。また、第１機械学習部２２は、訓練済みの対象検出器３２内のモジュール３２２を、モジュールライブラリ３４に記憶する。

【0026】

第２機械学習部２４は、対象のカテゴリの正解のみを持ち、画像内での対象の位置情報を持たない訓練データ（以下、「位置情報なしの訓練データ」という）を用いて、対象検出器３２に追加したい対象のモジュールを訓練する。第２機械学習部２４は、図５に示すように、エンコーダ３２４と、モジュール３２２Ｃと、デコーダ３２５とを含む機械学習モデルを、位置情報なしの訓練データを用いて訓練する。

【0027】

エンコーダ３２４は、第１機械学習部２２で訓練済みのエンコーダである。デコーダ３２５は、モジュール３２２Ｃの出力に基づいて対象の有無を判定するニューラルネットワークである。具体的には、デコーダ３２５は、第１機械学習部２２で訓練済みのエンコーダと訓練済みのモジュールのいずれか１つとを使って、デコーダのパラメータのみを更新するように訓練して作成されたものである。なお、第２機械学習部２４で位置情報ありの訓練データを用いる場合、第１機械学習部２２で訓練済みのデコーダをそのままデコーダ３２５として流用してもよい。図５は、追加したい対象「ｔｒｉａｎｇｌｅ」のモジュール３２２Ｃを含む機械学習モデルの例を示している。この機械学習モデルは、開示の技術の「第１の機械学習モデル」の一例であり、モジュール３２２Ｃは、開示の技術の「第１の機械学習モデル部分」の一例である。

【0028】

第２機械学習部２４は、図５のＦに示すように、画像内に様々なサイズで含まれる追加したい対象（ここでは「ｔｒｉａｎｇｌｅ」）の画像（正例）と、追加したい対象以外の画像（負例）とをエンコーダ３２４に入力する。第２機械学習部２４は、デコーダ３２５の出力が正解と一致するように、モジュール３２２Ｃのパラメータを更新することで、機械学習モデルを訓練する。具体的には、第２機械学習部２４は、正例の画像を入力した場合に、デコーダ３２５が、対象であるとの判定結果を出力し、負例の画像を入力した場合に、デコーダ３２５が、対象ではないとの判定結果を出力するように機械学習モデルを訓練する。また、第２機械学習部２４は、モジュール３２２については、対象の特徴を表すベクトルと、その特徴を有する領域に付加されるマーク（詳細は後述）に対応するベクトルとを保持するように訓練する。第２機械学習部２４は、訓練済みの機械学習モデル内のモジュール３２２を、モジュールライブラリ３４に記憶する。

【0029】

次に、検出部４０について説明する。

【0030】

取得部４２は、対象検出器３２に対して、検出対象として追加又は変更したい対象についての１又は複数のモジュール３２２を、モジュールライブラリ３４から取得し、生成部４４へ受け渡す。

【0031】

生成部４４は、対象検出器３２を取得し、対象検出器３２に含まれるエンコーダ３２１及びデコーダ３２３と、取得部４２から受け渡されたモジュール３２２とを組み合わせて、新たな対象検出器３６を生成する。新たな対象検出器３６は、開示の技術の「第３の機械学習モデル」の一例である。具体的には、生成部４４は、新たな検出対象を追加する場合には、対象検出器３２にモジュール３２２を追加することで対象検出器３６を生成する。また、生成部４４は、検出対象を変更する場合には、対象検出器３２の元のモジュール３２２と、取得部４２から受け渡されたモジュール３２２とを入れ替えることで対象検出器３６を生成する。

【0032】

図６に、図４に示す対象検出器３２のモジュール３２２Ｂをモジュール３２２Ｃに変更することにより生成された対象検出器３６の例を示す。すなわち、対象検出器３６は、「ｃｉｒｃｌｅ」及び「ｒｅｃｔａｎｇｌｅ」を検出するように訓練された対象検出器３２から、「ｃｉｒｃｌｅ」及び「ｔｒｉａｎｇｌｅ」を検出するように変更されたものである。「ｔｒｉａｎｇｌｅ」のモジュール３２２Ｃは、位置なしの訓練データで訓練されたものであり、新たな対象検出器３６は、モジュール３２２の入れ替えだけで、対象検出器３２を再訓練することなく生成することができる。

【0033】

出力部５０は、対象を検出する処理対象の画像（以下、「検出対象画像」という）を対象検出器３６に入力することによって、対象の検出結果を出力する。出力部５０は、より詳細には、図７に示すように、圧縮部５１と、特定部５２と、抽出部５３と、位置推定部５４と、対象判定部５５とを含む。圧縮部５１は、エンコーダ３２１により実現される機能部、特定部５２は、モジュール３２２により実現される機能部、抽出部５３、位置推定部５４、及び対象判定部５５は、デコーダ３２３により実現される機能部である。

【0034】

圧縮部５１は、図８に示すように、画像をエンコーダ３２１に入力することにより、画像特徴行列５６を生成する。なお、図８では、４×３要素の画像特徴行列５６の例を示している。図８では、説明を簡単にするため、画像特徴行列５６と画像とを対応させて表しているが、画像特徴行列５６の各要素（各マス）は、その要素に対応する画像部分の特徴を表す値を保持している。以下の図においても同様である。

【0035】

特定部５２は、エンコーダ３２１で生成された画像特徴行列５６を、モジュール３２２の各々に入力することにより、画像内の対象の領域を特定する。具体的には、図９に示すように、特定部５２は、モジュール３２２が保持する、対象の特徴を表すベクトルａと、画像特徴行列５６の各要素の値ｆとの類似度（例えば、内積）ｒを算出する。そして、特定部５２は、類似度ｒとマークに対応するベクトルｍとを掛け合わせた値を、画像特徴行列５６の要素の値に足し合わせる。特定部５２は、この処理を、画像特徴行列５６の各要素について実行する。

【0036】

全ての要素について特定部５２による処理が完了した状態の画像特徴行列５６が、モジュール３２２から出力される。すなわち、類似度ｒとマークに対応するベクトルｍとを掛け合わせた値が、対象の領域を特定するためのマークに相当する。各要素に対応する画像部分と、対象のモジュール３２２が保持する対象の特徴を表すベクトルａとの類似度に応じて、マークの濃さ（要素に足される値）が変化する。図８では、画像に対して、各モジュール３２２に対応する対象の領域にマークを付加した様子を概念的に示している。

【0037】

抽出部５３は、マークが付加された画像特徴行列５６における対象の領域を抽出する。例えば、抽出部５３は、画像特徴行列５６において、マークとして、所定値以上の値が付加された要素を抽出する。そして、抽出部５３は、抽出した要素に対応する領域、又は、抽出した要素同士が隣接している場合には、隣接する要素同士を連結した要素群に対応する領域を、対象の領域として抽出する。

【0038】

位置推定部５４は、抽出部５３により抽出された、画像特徴行列５６における領域に基づいて、その領域の画像上での位置を推定する。具体的には、位置推定部５４は、図１０に示すように、画像特徴行列５６から抽出された領域（図１０中の斜線で示すマス）に対応する画像５７の位置情報［ｘ，ｙ，Ｂｈ，Ｂｗ］を推定する。

【0039】

対象判定部５５は、抽出部５３により抽出された領域が、対象か否かを判定する。具体的には、対象判定部５５は、図１１に示すような、モジュールリストを保持する。図１１の例では、モジュール３２２を識別する番号と、そのモジュール３２２で特定される対象のカテゴリとを対応付けてリスト化している。対象判定部５５は、図１２に示すように、各モジュール３２２で特定された領域毎に、対象か否かを判定する。図１２の例では、領域を特定したモジュール３２２についてモジュールリストで規定された番号と、領域が対象の場合には「１」、対象ではない場合には「０」とした判定結果とが対応付けられている。なお、判定結果は、１つの画像から最大Ｎ個の対象を検出するように定められている場合、Ｎ個の１又は０を羅列したものとなる。

【0040】

出力部５０は、位置推定部５４で推定された位置情報及び対象判定部５５で判定された判定結果を、画像からの対象の検出結果として出力する。図６では、モジュール３２２Ａで特定された領域についての検出結果をＧ、モジュール３２２Ｂで特定された領域についての検出結果をＨで表している。

【0041】

図１３を参照して、対象検出器３６での処理についてより具体的に説明する。例えば、高さＨ、幅ＷのＲＧＢ画像が検出対象画像である場合、エンコーダ３２１には、サイズ［Ｈ×Ｗ×３（ＲＧＢ）］の画像が入力され、エンコーダ３２１からは、サイズ［ｈ×ｗ×Ｄ］の画像特徴行列５６が出力される。Ｄはベクトルの次元で、例えば、２５６である。モジュール３２２では、画像特徴行列５６の各要素に、対象の領域を示すマークが付加されるため、モジュール３２２から出力されるデータのサイズも［ｈ×ｗ×Ｄ］である。デコーダ３２３は、最大検出数Ｎ（図１３の例では、Ｎ＝４）個分のＤ次元のベクトルを算出する。例えば、デコーダ３２３は、図１０左図に示すように、画像特徴行列５６の１つの要素が対象の領域として特定されており、Ｎ＝４の場合、その要素の値を１つ目のＤ次元のベクトルとて生成し、残り３つのＤ次元のベクトルは、全ての要素を０とする。また、デコーダ３２３は、特定された領域が隣接する要素同士を連結した要素群に対応する領域である場合、その領域に含まれる要素の値を平均するなどして、Ｄ次元のベクトルを生成する。デコーダ３２３は、生成したＤ次元のベクトルの各々に基づいて、位置推定を行って位置情報を出力すると共に、対象か否かの判定を行って判定結果を出力する。

【0042】

対象検出装置１０は、例えば図１４に示すコンピュータ６０で実現されてよい。コンピュータ６０は、ＣＰＵ（Central Processing Unit）６１と、一時記憶領域としてのメモリ６２と、不揮発性の記憶装置６３とを備える。また、コンピュータ６０は、入力装置、表示装置等の入出力装置６４と、記憶媒体６９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ（Read/Write）装置６５とを備える。また、コンピュータ６０は、インターネット等のネットワークに接続される通信Ｉ／Ｆ（Interface）６６を備える。ＣＰＵ６１、メモリ６２、記憶装置６３、入出力装置６４、Ｒ／Ｗ装置６５、及び通信Ｉ／Ｆ６６は、バス６７を介して互いに接続される。

【0043】

記憶装置６３は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等である。記憶媒体としての記憶装置６３には、コンピュータ６０を、対象検出装置１０として機能させるための対象検出プログラム７０が記憶される。対象検出プログラム７０は、第１機械学習プロセス制御命令７２と、第２機械学習プロセス制御命令７４と、取得プロセス制御命令９２と、生成プロセス制御命令９４と、出力プロセス制御命令１００とを有する。また、記憶装置６３は、対象検出器３２（３６）、及びモジュールライブラリ３４に格納されるモジュール３２２の各々を構成する情報が記憶される情報記憶領域８０を有する。

【0044】

ＣＰＵ６１は、対象検出プログラム７０を記憶装置６３から読み出してメモリ６２に展開し、対象検出プログラム７０が有する制御命令を順次実行する。ＣＰＵ６１は、第１機械学習プロセス制御命令７２を実行することで、図３に示す第１機械学習部２２として動作する。また、ＣＰＵ６１は、第２機械学習プロセス制御命令７４を実行することで、図３に示す第２機械学習部２４として動作する。また、ＣＰＵ６１は、取得プロセス制御命令９２を実行することで、図３に示す取得部４２として動作する。また、ＣＰＵ６１は、生成プロセス制御命令９４を実行することで、図３に示す生成部４４として動作する。また、ＣＰＵ６１は、出力プロセス制御命令１００を実行することで、図３に示す出力部５０として動作する。また、ＣＰＵ６１は、情報記憶領域８０から情報を読み出して、対象検出器３２（３６）、及びモジュールライブラリ３４に格納されるモジュール３２２の各々をメモリ６２に展開する。これにより、対象検出プログラム７０を実行したコンピュータ６０が、対象検出装置１０として機能することになる。なお、プログラムを実行するＣＰＵ６１はハードウェアである。

【0045】

なお、対象検出プログラム７０により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）等で実現されてもよい。

【0046】

次に、本実施形態に係る対象検出装置１０の動作について説明する。対象検出装置１０に訓練データが入力され、対象検出器３２及びモジュール３２２の訓練が指示されると、対象検出装置１０において、図１５に示す機械学習処理が実行される。また、対象検出装置１０に検出対象画像が入力され、対象の検出が指示されると、対象検出装置１０において、図１６に示す検出処理が実行される。

【0047】

まず、図１５に示す機械学習処理について説明する。

【0048】

ステップＳ１０で、第１機械学習部２２が、位置情報ありの訓練データを取得する。次に、ステップＳ１２で、第１機械学習部２２が、位置情報ありの訓練データを用いて、対象検出器３２を訓練する。そして、第１機械学習部２２が、訓練済みの対象検出器３２を、対象検出装置１０の所定の記憶領域に記憶し、訓練済みの対象検出器３２内のモジュール３２２を、モジュールライブラリ３４に記憶する。

【0049】

次に、ステップＳ１４で、第２機械学習部２４が、対象検出器３２に追加したい対象についての位置情報なしの訓練データを取得する。次に、ステップＳ１６で、第２機械学習部２４が、位置情報なしの訓練データを用いて、エンコーダ３２４と、モジュール３２２と、デコーダ３２５とを含む機械学習モデルにおいて、モジュール３２２のパラメータを更新することで機械学習モデルを訓練する。そして、第２機械学習部２４は、訓練済みの機械学習モデル内のモジュール３２２を、モジュールライブラリ３４に記憶し、機械学習処理は終了する。

【0050】

なお、対象検出器３２の訓練（ステップＳ１０及びＳ１２）と、モジュール３２２の訓練（ステップＳ１４及びＳ１６）とは、それぞれ別のタイミングで実行してもよいし、並行して実行してもよい。

【0051】

次に、図１６に示す検出処理について説明する。

【0052】

ステップＳ２０で、取得部４２が、対象検出器３２に対して、検出対象として追加又は変更したい対象についてのモジュール３２２を、モジュールライブラリ３４から取得する。次に、ステップＳ２２で、生成部４４が、対象検出器３２を取得し、対象検出器３２に含まれるエンコーダ３２１及びデコーダ３２３と、上記ステップＳ２０で取得されたモジュール３２２とを組み合わせて、新たな対象検出器３６を生成する。

【0053】

次に、ステップＳ２４で、取得部４２が、対象検出装置１０に入力された検出対象画像を取得する。次に、ステップＳ２６で、出力部５０が、検出対象画像を対象検出器３６に入力することによって、対象の検出結果を出力し、検出処理は終了する。

【0054】

以上説明したように、本実施形態に係る対象検出装置は、位置情報なしの訓練データに基づいて訓練されたモジュールのうち、位置情報ありの訓練データに基づいて訓練された既存の機械学習モデルである対象検出器に追加又は変更する対象のモジュールを取得する。また、対象検出装置は、既存の対象検出装置のエンコーダ及びデコーダと、取得したモジュールとを組み合わせて、新たな対象検出器を生成し、検出対象画像を新たな検出対象器に入力することによって、対象の検出結果を出力する。これにより、画像から対象を検出する機械学習モデルにおける検出対象を変更した場合でも、変更前の検出対象の検出精度劣化を低減することができる。また、新たな対象を検出できるように再訓練するための作業コストを低減することができる。

【0055】

より具体的に説明する。一般的には、図１７に示すように、入力された画像からエンコーダで抽出された特徴に基づいて、デコーダで検出対象の位置及びカテゴリを推定する。すなわち、デコーダに検出対象（図１７の例では「ｃｉｒｃｌｅ」及び「ｔｒｉａｎｇｌｅ」）の特徴を示すパラメータを、位置情報ありの訓練データを用いた訓練により埋め込んでおき、デコーダが、画像中から検出対象を抽出し、それらの対象の位置を推定する。一方、本実施形態に係る対象検出装置は、図１７に示すデコーダが担っている役割の一部をモジュールとして切り出し、例えば、図８に示すように、エンコーダ３２１とデコーダ３２３との中間にモジュール３２２として配置する。モジュール３２２は、画像特徴行列５６の特定の対象の領域にマークを付与する。モジュール３２２がマークを付与する対象は、訓練データの与え方で決まる。すなわち、デコーダ３２３への入力は、入力された画像が同じであっても、中間のモジュール３２２により変わる。そして、デコーダ３２３自体は、検出対象が何であるかに関わらず、モジュールで特定された領域、すなわち、マークが付与された領域を処理対象として、その領域の位置を推定する。

【0056】

したがって、本実施形態によれば、検出したい対象に応じて所望のモジュールを選択して、デコーダと組み合わせて対象検出器を生成するだけで、検出対象の追加又は変更が可能であり、対象検出器全体の再訓練は不要である。このように、対象検出器全体の再訓練を行わないこと、及び各モジュールが独立していることから、既存の検出対象器の検出精度に影響を与えない。また、モジュールの訓練には、位置情報なしの訓練データを用いることができるため、位置情報をアノテーションした訓練データを用意する必要がない。

【0057】

さらに、複数のモジュールを組み合わせることで、検出対象をさらに限定することも可能である。具体例を用いて説明する。図１８の左図に示すように、対象検出装置は、エンコーダ３２１と、モジュール３２２と、デコーダ３２３とを含む対象検出器３２を、位置情報ありの訓練データで訓練する。図１８の例では、モジュール３２２は、「ｃａｒ」を対象とするモジュール３２２Ｄ、及び「ｃａｔ」を対象とするモジュール３２２Ｅである。対象検出器３２の訓練が完了すると、このモジュール３２２Ｄ、３２２Ｅは、モジュールライブラリ３４に記憶される。また、対象検出装置は、図１８の右図に示すように、エンコーダ３２４と、モジュール３２２Ｆと、デコーダ３２５とを含む機械学習モデルを、位置情報なしの訓練データで訓練する。図１８の例では、モジュール３２２Ｆは、特定の色の対象の領域を特定するためのモジュール３２２である。特定の色（図１８の例では、「ｒｅｄ」）は、引数により与えられる。

【0058】

例えば、対象検出器３２のように、モジュール３２２Ｄとモジュール３２２Ｅとを並列に組み合わせることで、「ｃａｒ」と「ｃａｔ」とがＯＲ条件で検出対象となる。また、例えば、図１９に示すように、モジュール３２２Ｄとモジュール３２２Ｆとを直列に組み合わせることで、「ｃａｒ」と「ｃｏｌｏｒ」とがＡＮＤ条件で検出対象となる。そして、モジュール３２２Ｆに引数「ｒｅｄ」を与えることで、「ｒｅｄｃａｒ（赤い車）」を検出対象とすることができる。この場合、モジュール３２２Ｄによるマーク、及びモジュール３２２Ｆによるマークを、画像特徴行列５６の各要素に重畳して付加すればよい。

【0059】

なお、モジュール３２２に引数を与える場合、対象検出装置は、図２０に示すように、引数「ｒｅｄ」に対応するＩＤを与えることで、対象「ｒｅｄ」の特徴を表すベクトルａ_ｒｅｄとなるように、モジュール３２２Ｆが保持するベクトルａを訓練しておく。そして、対象検出装置は、画像特徴行列５６の要素にマークを付与する際には、ベクトルａ_ｒｅｄを用いて、図９で説明した場合と同様に、画像特徴行列５６の要素の値に足し合わせる値を算出する。

【0060】

なお、上記実施形態では、モジュールの訓練に用いる訓練データとして、位置情報なしの訓練データを用いる場合について説明したが、これに限定されず、位置情報ありの訓練データを用いてもよい。

【0061】

また、上記実施形態では、対象検出装置に機械学習部と検出部とが含まれる場合について説明したが、これに限定されない。機械学習部の機能部を有する機械学習装置と、検出部の機能部を有する検出装置とをそれぞれ別のコンピュータで実現してもよい。

【0062】

また、上記実施形態では、対象検出プログラムが記憶装置に予め記憶（インストール）されているが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供されてもよい。

【0063】

以上の実施形態に関し、さらに以下の付記を開示する。

【0064】

（付記１）
第１の対象を含む画像内の領域を特定する第１の機械学習モデル部分を含み画像に前記第１の対象がラベル付けされた訓練データに基づいて訓練された第１の機械学習モデルの前記第１の機械学習モデル部分を取得し、
第２の対象を含む画像内の領域を特定する第２の機械学習モデル部分と、特定された領域の画像内の位置を判定する第３の機械学習モデル部分とを含み画像内の前記第２の対象の位置情報がラベル付けされた訓練データに基づいて訓練された第２の機械学習モデルの前記第３の機械学習モデル部分と前記第１の機械学習モデル部分とを組み合わせて第３の機械学習モデルを生成し、
画像を前記第３の機械学習モデルに入力することによって、対象の検出結果を出力する、
処理をコンピュータに実行させることを特徴とする対象検出プログラム。

【0065】

（付記２）
前記画像に前記第１の対象がラベル付けされた訓練データには、前記第１の対象の位置情報がラベル付けされていない、
付記１に記載の対象検出プログラム。

【0066】

（付記３）
前記対象の検出結果を出力する処理は、前記第１の機械学習モデル部分により特定された画像内の領域に基づいて、前記第３の機械学習モデル部分により判定された前記画像内の位置と、前記領域が前記第１の対象であることを示す情報とを出力することを含む、
付記１又は付記２に記載の対象検出プログラム。

【0067】

（付記４）
前記第１の機械学習モデル部分により、前記第１の対象を含む画像内の領域を特定する処理は、画像を圧縮した特徴行列の各要素が示す特徴と、前記第１の機械学習モデル部分が示す特徴との類似度を前記各要素に反映させることにより、前記特徴行列に情報を付与することを含み、
前記第３の機械学習モデルにより、前記特定された領域の画像内の位置を判定する処理は、前記類似度が前記各要素に反映された前記特徴行列のうち、値が所定の条件を満たす要素に対応する前記画像の座標を算出することを含む、
付記３に記載の対象検出プログラム。

【0068】

（付記５）
前記第１の機械学習モデル部分と、前記第２の機械学習モデル部分とを並列に組み合わせた機械学習モデル部分群と、前記第３の機械学習モデル部分と組み合わせて第４の機械学習モデルを生成し、
前記対象の検出結果として、前記第１の対象及び前記第２の対象についての検出結果を出力する、
付記１～付記４のいずれか１項に記載の対象検出プログラム。

【0069】

（付記６）
前記第１の機械学習モデル部分と、前記第２の機械学習モデル部分とを直列に組み合わせた機械学習モデル部分群と、前記第３の機械学習モデル部分と組み合わせて第４の機械学習モデルを生成し、
前記対象の検出結果として、前記第１の対象の特徴と、前記第２の対象の特徴とを組み合わせた特徴を有する対象についての検出結果を出力する、
付記１～付記４のいずれか１項に記載の対象検出プログラム。

【0070】

（付記７）
第１の対象を含む画像内の領域を特定する第１の機械学習モデル部分を含み画像に前記第１の対象がラベル付けされた訓練データに基づいて訓練された第１の機械学習モデルの前記第１の機械学習モデル部分を取得し、
第２の対象を含む画像内の領域を特定する第２の機械学習モデル部分と、特定された領域の画像内の位置を判定する第３の機械学習モデル部分とを含み画像内の前記第２の対象の位置情報がラベル付けされた訓練データに基づいて訓練された第２の機械学習モデルの前記第３の機械学習モデル部分と前記第１の機械学習モデル部分とを組み合わせて第３の機械学習モデルを生成し、
画像を前記第３の機械学習モデルに入力することによって、対象の検出結果を出力する、
処理を実行する制御部を含むことを特徴とする対象検出装置。

【0071】

（付記８）
前記画像に前記第１の対象がラベル付けされた訓練データには、前記第１の対象の位置情報がラベル付けされていない、
付記７に記載の対象検出プログラム。

【0072】

（付記９）
前記対象の検出結果を出力する処理は、前記第１の機械学習モデル部分により特定された画像内の領域に基づいて、前記第３の機械学習モデル部分により判定された前記画像内の位置と、前記領域が前記第１の対象であることを示す情報とを出力することを含む、
付記７又は付記８に記載の対象検出装置。

【0073】

（付記１０）
前記第１の機械学習モデル部分により、前記第１の対象を含む画像内の領域を特定する処理は、画像を圧縮した特徴行列の各要素が示す特徴と、前記第１の機械学習モデル部分が示す特徴との類似度を前記各要素に反映させることにより、前記特徴行列に情報を付与することを含み、
前記第３の機械学習モデルにより、前記特定された領域の画像内の位置を判定する処理は、前記類似度が前記各要素に反映された前記特徴行列のうち、値が所定の条件を満たす要素に対応する前記画像の座標を算出することを含む、
付記９に記載の対象検出装置。

【0074】

（付記１１）
前記制御部は、
前記第１の機械学習モデル部分と、前記第２の機械学習モデル部分とを並列に組み合わせた機械学習モデル部分群と、前記第３の機械学習モデル部分と組み合わせて第４の機械学習モデルを生成し、
前記対象の検出結果として、前記第１の対象及び前記第２の対象についての検出結果を出力する、
付記７～付記１０のいずれか１項に記載の対象検出装置。

【0075】

（付記１２）
前記制御部は、
前記第１の機械学習モデル部分と、前記第２の機械学習モデル部分とを直列に組み合わせた機械学習モデル部分群と、前記第３の機械学習モデル部分と組み合わせて第４の機械学習モデルを生成し、
前記対象の検出結果として、前記第１の対象の特徴と、前記第２の対象の特徴とを組み合わせた特徴を有する対象についての検出結果を出力する、
付記７～付記１０のいずれか１項に記載の対象検出装置。

【0076】

（付記１３）
それぞれが特定の対象が含まれる画像内の領域を特定する複数の機械学習モデル部分から一又は複数の機械学習モデル部分を選択し、
前記一又は複数の機械学習モデルと、特定された領域の画像内の位置を判定する機械学習部分とを組み合わせることによって、画像から対象を検出する機械学習モデルを生成する、
処理をコンピュータが実行することを特徴とする機械学習モデル生成方法。

【符号の説明】

【0077】

１０対象検出装置
２０機械学習部
２２第１機械学習部
２４第２機械学習部
３２、３６対象検出器
３４モジュールライブラリ
４０検出部
４２取得部
４４生成部
５０出力部
５１圧縮部
５２特定部
５３抽出部
５４位置推定部
５５対象判定部
５６画像特徴行列
５７画像
６０情報記憶領域
６０コンピュータ
６１ＣＰＵ
６２メモリ
６３記憶装置
６４入出力装置
６５Ｒ／Ｗ装置
６７バス
６９記憶媒体
７０対象検出プログラム
７２第１機械学習プロセス制御命令
７４第２機械学習プロセス制御命令
９２取得プロセス制御命令
９４生成プロセス制御命令
１００出力プロセス制御命令
３２１エンコーダ
３２２、３２２Ａ、３２２Ｂ、３２２Ｃ、３２２Ｄ、３２２Ｅ、３２２Ｆモジュール
３２３デコーダ
３２４エンコーダ
３２５デコーダ

【図1】